How to do independent conversions in parallel using PySpark?

Question

How to do independent conversions in parallel using PySpark?

I am trying to run 2 functions that perform completely independent conversions on the same RDD in parallel with PySpark. What are some ways to do the same?

def doXTransforms(sampleRDD):
    (X transforms)

def doYTransforms(sampleRDD):
    (Y Transforms)

if __name__ == "__main__":
    sc = SparkContext(appName="parallelTransforms")
    sqlContext = SQLContext(sc)
    hive_context = HiveContext(sc)

    rows_rdd = hive_context.sql("select * from tables.X_table")

    p1 = Process(target=doXTransforms , args=(rows_rdd,))
    p1.start()
    p2 = Process(target=doYTransforms, args=(rows_rdd,))  
    p2.start()
    p1.join()
    p2.join()
    sc.stop()

This does not work, and now I understand that it will not work. But is there an alternative way to make this work? In particular, are there any python-spark specific solutions?

+8

python-2.7 python-multiprocessing apache-spark pyspark apache-spark-sql spark-dataframe

preitam ojha Jun 27 '16 at 7:23

source share

1 answer

zero323 · Accepted Answer · 2016-06-27T08:37:39+0000

Just use threads and make sure the cluster has enough resources to handle both tasks simultaneously.

from threading import Thread
import time

def process(rdd, f):
    def delay(x):
        time.sleep(1)
        return f(x)
    return rdd.map(delay).sum()


rdd = sc.parallelize(range(100), int(sc.defaultParallelism / 2))

t1 = Thread(target=process, args=(rdd, lambda x: x * 2))
t2  = Thread(target=process, args=(rdd, lambda x: x + 1))
t1.start(); t2.start()

, , .

FAIR .

pyspark-asyncactions ( - ), Spark API concurrent.futures:

import asyncactions
import concurrent.futures

f1 = rdd.filter(lambda x: x % 3 == 0).countAsync()
f2 = rdd.filter(lambda x: x % 11 == 0).countAsync()

[x.result() for x in concurrent.futures.as_completed([f1, f2])]

How to do independent conversions in parallel using PySpark?

More articles: