<a href="https://colab.research.google.com/github/raulcastillabravo/pyspark/blob/main/colab/template_pyspark_basic_commands.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Libraries

Always execute this cell at the beginning

In [None]:
!sudo apt update
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
#Check this site for the latest download link https://www.apache.org/dyn/closer.lua/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz
!wget -q https://dlcdn.apache.org/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz
!tar xf spark-3.2.1-bin-hadoop3.2.tgz
!pip install -q findspark
!pip install pyspark
!pip install py4j

import os
import sys
# os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
# os.environ["SPARK_HOME"] = "/content/spark-3.2.1-bin-hadoop3.2"


import findspark
findspark.init()
findspark.find()

import pyspark

from pyspark.sql import DataFrame, SparkSession
from typing import List
import pyspark.sql.types as T
import pyspark.sql.functions as F

spark= SparkSession \
       .builder \
       .appName("Our First Spark Example") \
       .getOrCreate()

spark

[33m0% [Working][0m            Hit:1 http://archive.ubuntu.com/ubuntu jammy InRelease
[33m0% [Waiting for headers] [Connecting to security.ubuntu.com (185.125.190.83)] [[0m                                                                               Get:2 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]
                                                                               Get:3 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]
                                                                               Get:4 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,626 B]
                                                                               Get:5 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease [1,581 B]
[33m0% [Waiting for headers] [3 InRelease 14.2 kB/129 kB 11%] [Waiting for headers][0m                                                                         

# Create a DataFrame

In [None]:
data = [
    (1001, "Ana Perez", 20, "Engineering", 8.5),
    (1002, "Luis Gomez", 22, "Engineering", 9.0),
    (1003, "Maria Lopez", 21, "Engineering", 7.8),
    (1004, "Javier Sanchez", 23, "Architecture", 6.5),
    (1005, "Carmen Rodriguez", 20, "Architecture", 8.2)
]


+----+----------------+---+------------+-----+
|  id|            name|age|      degree|grade|
+----+----------------+---+------------+-----+
|1001|       Ana Perez| 20| Engineering|  8.5|
|1002|      Luis Gomez| 22| Engineering|  9.0|
|1003|     Maria Lopez| 21| Engineering|  7.8|
|1004|  Javier Sanchez| 23|Architecture|  6.5|
|1005|Carmen Rodriguez| 20|Architecture|  8.2|
+----+----------------+---+------------+-----+



# Select columns

**select** operación de transformación, así que es perezosa (**lazy**) y no se ejecuta hasta que no es estrictamente necesario.

DataFrame[name: string, degree: string]

Para visualizar la información, debemos indicar una **acción** como **show** para que se ejecute la operación de seleccionar columnas.

+----------------+------------+
|            name|      degree|
+----------------+------------+
|       Ana Perez| Engineering|
|      Luis Gomez| Engineering|
|     Maria Lopez| Engineering|
|  Javier Sanchez|Architecture|
|Carmen Rodriguez|Architecture|
+----------------+------------+



**F.col** es otra forma de hacer referencia a las columnas de una tabla. No es la forma más concisa de hacer un **select**, pero para otras operaciones sí es necesario utilizarlo.

+----------------+------------+
|            name|      degree|
+----------------+------------+
|       Ana Perez| Engineering|
|      Luis Gomez| Engineering|
|     Maria Lopez| Engineering|
|  Javier Sanchez|Architecture|
|Carmen Rodriguez|Architecture|
+----------------+------------+



La forma más concisa de seleccionar columnas es con los corchetes, pero dentro del estilo de programación de PySpark, a veces es más legible usar **select**. Queda a criterio del desarrollador cuál usar en cada momento.

+----------------+------------+
|            name|      degree|
+----------------+------------+
|       Ana Perez| Engineering|
|      Luis Gomez| Engineering|
|     Maria Lopez| Engineering|
|  Javier Sanchez|Architecture|
|Carmen Rodriguez|Architecture|
+----------------+------------+



# Filter rows

**filter** también es una **transformación**.

DataFrame[id: int, name: string, age: int, degree: string, grade: float]

+----+-----------+---+-----------+-----+
|  id|       name|age|     degree|grade|
+----+-----------+---+-----------+-----+
|1001|  Ana Perez| 20|Engineering|  8.5|
|1002| Luis Gomez| 22|Engineering|  9.0|
|1003|Maria Lopez| 21|Engineering|  7.8|
+----+-----------+---+-----------+-----+



Se pueden concatenar varias condiciones indicándolas entre **paréntesis**.

+----+----------+---+-----------+-----+
|  id|      name|age|     degree|grade|
+----+----------+---+-----------+-----+
|1001| Ana Perez| 20|Engineering|  8.5|
|1002|Luis Gomez| 22|Engineering|  9.0|
+----+----------+---+-----------+-----+



**Recuerda**: para que una operación aplique sobre el DataFrame que estamos usando, debemos asignar el resultado después de la operación.
```
df = df.filter(F.col('degree') == 'Engineering')
```

Además, ten encuenta lo que devuelve cada operación que aplicas. **filter** devuelve un DataFrame filtrado, pero **show** no devuelve nada, así que si asignas el resultado de **show** a tu variable, la variable valdrá **None**.
```
df = df.filter(F.col('degree') == 'Engineering').show()  # Ahora df = None
```

+----+----------------+---+------------+-----+
|  id|            name|age|      degree|grade|
+----+----------------+---+------------+-----+
|1001|       Ana Perez| 20| Engineering|  8.5|
|1002|      Luis Gomez| 22| Engineering|  9.0|
|1003|     Maria Lopez| 21| Engineering|  7.8|
|1004|  Javier Sanchez| 23|Architecture|  6.5|
|1005|Carmen Rodriguez| 20|Architecture|  8.2|
+----+----------------+---+------------+-----+



# Create and drop columns

+----+----------------+---+------------+-----+------------------+
|  id|            name|age|      degree|grade|             stars|
+----+----------------+---+------------+-----+------------------+
|1001|       Ana Perez| 20| Engineering|  8.5|              4.25|
|1002|      Luis Gomez| 22| Engineering|  9.0|               4.5|
|1003|     Maria Lopez| 21| Engineering|  7.8|3.9000000953674316|
|1004|  Javier Sanchez| 23|Architecture|  6.5|              3.25|
|1005|Carmen Rodriguez| 20|Architecture|  8.2| 4.099999904632568|
+----+----------------+---+------------+-----+------------------+



Se pueden concatenar operaciones y hacer referencia a columnas creadas en operaciones previas.

+----+----------------+---+------------+-----+-----+
|  id|            name|age|      degree|grade|stars|
+----+----------------+---+------------+-----+-----+
|1001|       Ana Perez| 20| Engineering|  8.5|  4.3|
|1002|      Luis Gomez| 22| Engineering|  9.0|  4.5|
|1003|     Maria Lopez| 21| Engineering|  7.8|  3.9|
|1004|  Javier Sanchez| 23|Architecture|  6.5|  3.3|
|1005|Carmen Rodriguez| 20|Architecture|  8.2|  4.1|
+----+----------------+---+------------+-----+-----+



Se pueden anidar funciones unas dentro de otras

+----+----------------+---+------------+-----+-----+
|  id|            name|age|      degree|grade|stars|
+----+----------------+---+------------+-----+-----+
|1001|       Ana Perez| 20| Engineering|  8.5|  4.3|
|1002|      Luis Gomez| 22| Engineering|  9.0|  4.5|
|1003|     Maria Lopez| 21| Engineering|  7.8|  3.9|
|1004|  Javier Sanchez| 23|Architecture|  6.5|  3.3|
|1005|Carmen Rodriguez| 20|Architecture|  8.2|  4.1|
+----+----------------+---+------------+-----+-----+



+----+---+------------+-----+-----+----------+---------+
|  id|age|      degree|grade|stars|first_name|last_name|
+----+---+------------+-----+-----+----------+---------+
|1001| 20| Engineering|  8.5|  4.3|       Ana|    Perez|
|1002| 22| Engineering|  9.0|  4.5|      Luis|    Gomez|
|1003| 21| Engineering|  7.8|  3.9|     Maria|    Lopez|
|1004| 23|Architecture|  6.5|  3.3|    Javier|  Sanchez|
|1005| 20|Architecture|  8.2|  4.1|    Carmen|Rodriguez|
+----+---+------------+-----+-----+----------+---------+



# Group by

**groupBy** también es una transformación que se ejecuta de forma **lazy**

DataFrame[degree: string, avg(stars AS average_stars): double]

+------------+---------------------------+
|      degree|avg(stars AS average_stars)|
+------------+---------------------------+
| Engineering|          4.233333333333333|
|Architecture|         3.6999999999999997|
+------------+---------------------------+



Se pueden aplicar varios cálculos de agregación

+------------+------------------+---------+---------+
|      degree|     average_stars|max_stars|min_stars|
+------------+------------------+---------+---------+
| Engineering| 4.233333333333333|      4.5|      3.9|
|Architecture|3.6999999999999997|      4.1|      3.3|
+------------+------------------+---------+---------+



# Join

+----+-------+
|  id|   city|
+----+-------+
|1001| Huelva|
|1002|Sevilla|
|1003| Huelva|
|1004|Sevilla|
|1005| Huelva|
+----+-------+



+----+---+------------+-----+-----+----------+---------+-------+
|  id|age|      degree|grade|stars|first_name|last_name|   city|
+----+---+------------+-----+-----+----------+---------+-------+
|1001| 20| Engineering|  8.5|  4.3|       Ana|    Perez| Huelva|
|1002| 22| Engineering|  9.0|  4.5|      Luis|    Gomez|Sevilla|
|1003| 21| Engineering|  7.8|  3.9|     Maria|    Lopez| Huelva|
|1004| 23|Architecture|  6.5|  3.3|    Javier|  Sanchez|Sevilla|
|1005| 20|Architecture|  8.2|  4.1|    Carmen|Rodriguez| Huelva|
+----+---+------------+-----+-----+----------+---------+-------+



# Write

El resultado de esta escritura será una carpeta llamada **students.csv** que contendrá partes de un csv

En Spark se indican las rutas para leer o escribir se indican a nivel de **carpeta**, no de fichero

Automáticamente, Spark escribe la cantidad de ficheros que considere óptima. El equilibrio entre cantidad de **ficheros** y **tamaño de fichero**, es algo crucial en problemas de Big Data para conseguir un **rendimiento**.

El particionado es otro aspecto crítico en problemas de Big Data. Permite filtrar de forma más eficiente un DataFrame, permitiendo cargar únicamente la partición de interés. Si bien, también se debe **balancear el número de particiones y la profundidad de las particiones** para tener un buen rendimiento.

Para ello, se debe saber de antemano **cómo se va a consumir la información** y en base a ello, seleccionar las columnas con las que particionar.

El formato de fichero habitual para trabajar con Spark es **parquet**. Es un formato **binario** optimizado para Spark que permite comprimir la información hasta más de un 90% y leer partes del fichero sin tener que cargarlo al completo.

Se puede particionar por más de una columna indicándola en el **partitionBy**

# Read

Observa que al haber leído a nivel de partición, la tabla no tiene la columna **city**. Esto se debe a que la **columna de partición no se guarda en el fichero** porque se puede deducir de la partición. Así, se ahorra espacio en disco.

+----+---+------------+-----+-----+----------+---------+
|  id|age|      degree|grade|stars|first_name|last_name|
+----+---+------------+-----+-----+----------+---------+
|1001| 20| Engineering|  8.5|  4.3|       Ana|    Perez|
|1003| 21| Engineering|  7.8|  3.9|     Maria|    Lopez|
|1005| 20|Architecture|  8.2|  4.1|    Carmen|Rodriguez|
+----+---+------------+-----+-----+----------+---------+



Al indicar la ruta raíz (**students**), Spark lee todos las particiones y ficheros y los concatena automáticamente en una sola tabla. De esta forma el desarrollador se despreocupa de concatenar manualmente cada fichero y cada partición.

+----+---+------------+-----+-----+----------+---------+-------+
|  id|age|      degree|grade|stars|first_name|last_name|   city|
+----+---+------------+-----+-----+----------+---------+-------+
|1001| 20| Engineering|  8.5|  4.3|       Ana|    Perez| Huelva|
|1003| 21| Engineering|  7.8|  3.9|     Maria|    Lopez| Huelva|
|1005| 20|Architecture|  8.2|  4.1|    Carmen|Rodriguez| Huelva|
|1002| 22| Engineering|  9.0|  4.5|      Luis|    Gomez|Sevilla|
|1004| 23|Architecture|  6.5|  3.3|    Javier|  Sanchez|Sevilla|
+----+---+------------+-----+-----+----------+---------+-------+

