## 0.&nbsp;Instalación Spark

In [None]:
# Instalar SDK Java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark 3.2.3
!wget -q https://archive.apache.org/dist/spark/spark-3.2.3/spark-3.2.3-bin-hadoop3.2.tgz

# Descomprimir el archivo descargado de Spark
!tar xf spark-3.2.3-bin-hadoop3.2.tgz

# Establecer las variables de entorno
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.3-bin-hadoop3.2"

# Instalar la librería findspark
!pip install -q findspark

# Instalar pyspark
!pip install -q pyspark==3.2.3

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m281.5/281.5 MB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m199.7/199.7 kB[0m [31m13.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for pyspark (setup.py) ... [?25l[?25hdone


## 1.&nbsp;Spark Session

In [None]:
# Find Spark
import findspark
findspark.init()

# Spark Session
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").appName('Curso Pyspark').getOrCreate()
spark

## 2.&nbsp;RDD

In [None]:
# Spark Context
sc = spark.sparkContext

In [None]:
# Crear un RDD vacío
empty_rdd_1 = sc.emptyRDD

In [None]:
# Crear un RDD vacío con parallelize
empty_rdd_2 = sc.parallelize([], 3)
empty_rdd_2.getNumPartitions()

3

In [None]:
# Crear un RDD no vacío con parallelize
rdd_1 = sc.parallelize([1, 2, 3, 4, 5])
rdd_1.collect()

[1, 2, 3, 4, 5]

In [None]:
# Crear un RDD desde un archivo de texto como una lista de lineas de texto
text_file_rdd_1 = sc.textFile('./rdd_source.txt')
text_file_rdd_1.collect()

['Así podemos crear', 'un RDD desde un', 'archivo de texto!!!']

In [None]:
# Crear un RDD desde un archivo texto como un simple registro
text_file_rdd_2 = sc.wholeTextFiles('./rdd_source.txt')
text_file_rdd_2.collect()

[('file:/content/rdd_source.txt',
  'Así podemos crear\nun RDD desde un\narchivo de texto!!!')]

In [None]:
# Crear un RDD desde otro RDD
sum_rdd = rdd_1.map(lambda x: x + 1)
sum_rdd.collect()

[2, 3, 4, 5, 6]

In [None]:
# Crear un RDD desde un Dataframe
df = spark.createDataFrame([(1, 'jose'), (2, 'juan')], ['id', 'nombre'])
df_rdd = df.rdd
df_rdd.collect()

[Row(id=1, nombre='jose'), Row(id=2, nombre='juan')]