In [1]:
from pyspark import SparkContext

In [2]:
sc = SparkContext.getOrCreate()

In [3]:
sc

In [4]:
lista = [1,2,3,4,5]

In [5]:
rdd = sc.parallelize(lista)
rdd

ParallelCollectionRDD[0] at parallelize at PythonRDD.scala:195

In [6]:
rdd.collect()

[1, 2, 3, 4, 5]

# Filter() filtra los elementos del rdd

In [7]:
rdd_filtrado = rdd.filter(lambda x : x > 1)
rdd_filtrado.collect()

[2, 3, 4, 5]

# Map() aplica una función sobre los elementos del RDD

In [8]:
def suma1(x):
    return x+1

In [9]:
rdd_filtrado_2 = rdd_filtrado.map(lambda x : suma1(x))
rdd_filtrado_2.collect()

[3, 4, 5, 6]

In [10]:
cuadrado_rdd = rdd_filtrado.map(suma1).map(lambda x: (x, x**2))
cuadrado_rdd.collect()

[(3, 9), (4, 16), (5, 25), (6, 36)]

# FlatMap() funciona igual que Map() pero convierte el resultado en una lista simple

In [11]:
cuadrado_rdd_flat = rdd_filtrado.map(suma1).flatMap(lambda x: (x, x**2))
cuadrado_rdd_flat.collect()

[3, 9, 4, 16, 5, 25, 6, 36]

# sample(withReplacement, fraction, seed) toma una muestra del RDD

In [24]:
cuadrado_rdd_flat.sample(False, 1).collect()

[3, 9, 4, 16, 5, 25, 6, 36]

In [25]:
cuadrado_rdd_flat.sample(True, 3).collect()

[3, 3, 4, 4, 16, 16, 16, 5, 5, 5, 5, 5, 5, 25, 25, 25, 25, 25, 6, 6, 36, 36]

In [26]:
cuadrado_rdd_flat.sample(True, 3).count()

33

# Distinct() devuelve un nuevo rdd quitando los duplicados

In [30]:
lista_2 = [1,1,2,2,3,3,4,4]
rdd = sc.parallelize(lista_2)
rdd.distinct().collect()

[1, 2, 3, 4]

# groupBy() devuelve los datos agrupados en formato de clave y valor

In [32]:
rdd_agrupado = rdd.groupBy(lambda x: x > 1)
rdd_agrupado.collect()

[(False, <pyspark.resultiterable.ResultIterable at 0x7f61797367b8>),
 (True, <pyspark.resultiterable.ResultIterable at 0x7f6179736710>)]

In [34]:
[ (x, sorted(y) ) for (x, y) in rdd_agrupado.collect()]

[(False, [1, 1]), (True, [2, 2, 3, 3, 4, 4])]

# Transformaciones sobre dos RDD

# rdda.union(rddb)

In [37]:
rdda = sc.parallelize([1,2,3])
rddb = sc.parallelize([4,5,6])

In [40]:
rddU = rdda.union(rddb)
rddU.collect()

[1, 2, 3, 4, 5, 6]

# rdda.intersection(rddb)

In [41]:
rdda = sc.parallelize([1,2,3,4])
rddb = sc.parallelize([4,5,6,7])

In [42]:
rddI = rdda.intersection(rddb)
rddI.collect()

[4]

# rdda.subtract(rddb) devuelve los datos de a menos los de b

In [44]:
rddS = rdda.subtract(rddb)
rddS.collect()

[2, 1, 3]

In [46]:
rddS2 = rddb.subtract(rdda)
rddS2.collect()

[6, 5, 7]

# rdda.cartesian(rddb) crea un producto cartesiano con los elementos

In [47]:
rddC = rdda.cartesian(rddb)
rddC.collect()

[(1, 4),
 (1, 5),
 (1, 6),
 (1, 7),
 (2, 4),
 (2, 5),
 (2, 6),
 (2, 7),
 (3, 4),
 (3, 5),
 (3, 6),
 (3, 7),
 (4, 4),
 (4, 5),
 (4, 6),
 (4, 7)]