In [18]:
#@title Instalar Spark
# Instalar SDK java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark 3.4.3
!wget -q https://archive.apache.org/dist/spark/spark-3.4.3/spark-3.4.3-bin-hadoop3.tgz

# Descomprimir el archivo descargado de Spark
!tar xf spark-3.4.3-bin-hadoop3.tgz

# Establecer las variables de entorno
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.4.3-bin-hadoop3"

# Instalar la librería findspark
!pip install -q findspark

# Instalar pyspark
!pip install -q pyspark


In [3]:
# Diferentes formas de crear un RDD

import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

In [4]:
# Punto de entrada para crear los RDD
sc = spark.sparkContext

In [5]:
# Crear un RDD vacío
rdd_vacio = sc.emptyRDD

In [7]:
# Crear un RDD con parallelize
rdd_vacio3 = sc.parallelize([], 3)
rdd_vacio3.getNumPartitions()

3

In [10]:
rdd = sc.parallelize([1,2,3,4,5])
rdd.collect()

[1, 2, 3, 4, 5]

In [9]:
rdd.getNumPartitions()

2

In [11]:
# Crear un RDD desde un archivo de texto
rdd_texto = sc.textFile('./rdd_source.txt')
rdd_texto.collect()

['Así podemos crear', 'un RDD desde un', 'archivo de texto!!!']

In [12]:
# Leer todo el archivo como un texto completo
rdd_texto_completo = sc.wholeTextFiles('./rdd_source.txt')
rdd_texto_completo.collect()

[('file:/content/rdd_source.txt',
  'Así podemos crear\nun RDD desde un\narchivo de texto!!!')]

In [13]:
# Crear RDD a partir de otro existente
rdd_suma = rdd.map(lambda x: x +1)
rdd_suma.collect()

[2, 3, 4, 5, 6]

In [15]:
# Crear RDD a partir de una dataframe
df = spark.createDataFrame([(1, 'jose'), (2, 'juan')], ['id', 'nombre'])
df.show()

+---+------+
| id|nombre|
+---+------+
|  1|  jose|
|  2|  juan|
+---+------+



In [16]:
rdd_df = df.rdd
rdd_df.collect()

[Row(id=1, nombre='jose'), Row(id=2, nombre='juan')]

In [17]:
rdd_df.getNumPartitions()

2