# Descargando e instalando Spark en Colab

In [1]:
# Instalas SDK de java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

In [2]:
# Descargar Spark 3.2.2
!wget -q https://archive.apache.org/dist/spark/spark-3.2.3/spark-3.2.3-bin-hadoop3.2.tgz


In [3]:
# Descomprimir el archivo descargado de Spark
!tar xf spark-3.2.3-bin-hadoop3.2.tgz

In [4]:
# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.3-bin-hadoop3.2"

In [5]:
# Instalar la librería findspark 
!pip install -q findspark

In [6]:
# Instalar pyspark
!pip install -q pyspark

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m281.4/281.4 MB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m199.7/199.7 KB[0m [31m18.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for pyspark (setup.py) ... [?25l[?25hdone


In [7]:
# Verificar la instalación
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").getOrCreate()

# Probando la sesión de Spark
df = spark.createDataFrame([{"Hola": "Mundo"} for x in range(10)])

df.show(10, False)

+-----+
|Hola |
+-----+
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
+-----+



# SparkSession

In [7]:
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").appName('Curso Pyspark').getOrCreate()
spark

# RDD

In [8]:
sc = spark.sparkContext

In [9]:
# Crear un RDD vacío
rdd_vacio = sc.emptyRDD

In [11]:
# Crear un RDD vacío pero con tres particiones con parallelize
rdd_vacio3 = sc.parallelize([], 3)
rdd_vacio3.getNumPartitions()

3

In [14]:
# Crear un RDD con datos con parallelize
rdd = sc.parallelize([1,2,3,4,5])

In [16]:
# Para ver el contenido del RDD
rdd.collect()

[1, 2, 3, 4, 5]

In [20]:
# Crear un RDD desde un archivo de texto (cargar archivo rdd_source.txt en el Colab)
# Cada línea de texto representa un registro
rdd_texto = sc.textFile('./rdd_source.txt')
rdd_texto.collect()

['Así podemos crear', 'un RDD desde un', 'archivo de texto!!!']

In [21]:
# Todo el archivo de texto representa un registro
# La primera columna es el nombre del archivo y la segunda el contenido
rdd_texto_completo = sc.wholeTextFiles('./rdd_source.txt')
rdd_texto_completo.collect()

[('file:/content/rdd_source.txt',
  'Así podemos crear\nun RDD desde un\narchivo de texto!!!')]

In [22]:
# Crear un rdd a partir de otro existente (Le suma 1 a cada registro)
rdd_suma = rdd.map(lambda x: x + 1)
rdd_suma.collect()

[2, 3, 4, 5, 6]

# DataFrame

In [24]:
# Crear dataframe
df = spark.createDataFrame([(1, 'jose'), (2, 'juan')],['id', 'nombre'])
df.show()

+---+------+
| id|nombre|
+---+------+
|  1|  jose|
|  2|  juan|
+---+------+



In [25]:
# Construir RDD a partir de df
rdd_df = df.rdd
rdd_df.collect()

[Row(id=1, nombre='jose'), Row(id=2, nombre='juan')]