In [None]:
# Instalamos pyspark para usar spark en python
!pip install pyspark

Collecting pyspark
  Downloading pyspark-3.5.1.tar.gz (317.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.0/317.0 MB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.5.1-py2.py3-none-any.whl size=317488491 sha256=160a68de8679470510f90a01fa9f881e8f70d37c321fe34f2dd670fbb0382cc3
  Stored in directory: /root/.cache/pip/wheels/80/1d/60/2c256ed38dddce2fdd93be545214a63e02fbd8d74fb0b7f3a6
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.5.1


In [None]:
# Importa la clase SparkContext del paquete pyspark
from pyspark import SparkContext

In [None]:
# Crea una nueva instancia de SparkContext
sc = SparkContext()

In [None]:
# Creamos un archivo de texto de ejemplo
%%writefile ejemplo.txt
primera linea
segunda linea
tercera linea
cuarta linea

Writing ejemplo.txt


In [None]:
# Abrimos el archivo de text con el conjeto "sc"
textFile = sc.textFile('ejemplo.txt')

In [None]:
# Mostramos información del archivo del ejemplo
textFile

ejemplo.txt MapPartitionsRDD[1] at textFile at NativeMethodAccessorImpl.java:0

# **Acciones**

In [None]:
# Usamos la acción 'collect' para mostrar el contenido del archivo de ejemplo
textFile.collect()

['primera linea', 'segunda linea', 'tercera linea', 'cuarta linea']

In [None]:
# Obtenemos el número de eventos de la coleción usando la acción 'count'
textFile.count()

4

In [None]:
# Obtenemos el número de eventos de la coleción usando la acción 'count'
textFile.first()

'primera linea'

# **Transformación**

In [None]:
 # Filtra las líneas del RDD textFile que contienen la palabra 'segunda'
 # y almacena el resultado en un nuevo RDD llamado 'segunda'
segunda = textFile.filter(lambda linea: 'segunda' in linea)

In [None]:
# Mostramos el resultado
segunda

PythonRDD[5] at RDD at PythonRDD.scala:53

In [None]:
segunda.collect()

['segunda linea']

In [None]:
lista = [1,2,3,4,5]

In [None]:
rdd = sc.parallelize(lista)

In [None]:
rdd.collect()

[1, 2, 3, 4, 5]

# **filter() filtra los elementos de un RDD**

In [None]:
filtrado_rdd = rdd.filter(lambda x: x > 1)

In [None]:
filtrado_rdd.collect()

[2, 3, 4, 5]

# **map() aplica una función a los elementos de un RDD**

In [None]:
def sumal(x):
  return(x+1)

In [None]:
filtrado_sumado_rdd = filtrado_rdd.map(sumal)

In [None]:
filtrado_sumado_rdd.collect()

[3, 4, 5, 6]

In [None]:
cuadrado_rdd = (filtrado_rdd
                .map(sumal)
                .map(lambda x: (x,x**2)))

In [None]:
cuadrado_rdd.collect()

[(3, 9), (4, 16), (5, 25), (6, 36)]

# **flatMap es igual que map() pero te conviene el resultado de una lista simple**

In [None]:
cuadrado_rdd = (filtrado_rdd
                .map(sumal)
                .flatMap(lambda x: (x,x**2)))

In [None]:
cuadrado_rdd.collect()

[3, 9, 4, 16, 5, 25, 6, 36]

*****

# **Creando un Pair RDD a partir de una lista de tuplas**

In [None]:
lista_tuplas = [('a',1),('b',2),('c',3)]

In [None]:
lista_tuplas

[('a', 1), ('b', 2), ('c', 3)]

In [None]:
pair_rdd = sc.parallelize(lista_tuplas)

In [None]:
pair_rdd.collect()

[('a', 1), ('b', 2), ('c', 3)]

# **Utilizando zip()**

In [None]:
pair_rdd2 = sc.parallelize(zip((['a','b','c']), range(1,4,1)))

In [None]:
pair_rdd2.collect()

[('a', 1), ('b', 2), ('c', 3)]

# **Ejemplo utilizando un archivo**

In [None]:
rdd_celestina = sc.textFile("LaCelestina.txt")

In [None]:
pair_rdd_celestina = rdd_celestina.map(lambda x: (x.split(" ")[0],x))

# **keyby()**

In [None]:
rdd = sc.parallelize(range(5))

In [None]:
rdd.collect()

[0, 1, 2, 3, 4]

In [None]:
pair_rdd = rdd.keyBy(lambda x: x+1)

In [None]:
pair_rdd.collect()

[(1, 0), (2, 1), (3, 2), (4, 3), (5, 4)]

# **zipWithIndex()**

In [None]:
rdd = sc.parallelize(['a','b'])

In [None]:
n_filtrado_rdd = rdd.filter(lambda x: x in [10, 20, 30, 40, 50])