# **Spark SQL Avanzado**

## Introducción

### `Ventajas y desventajas de trabajar con Spark en Google Colab`

Ventajas:
- Fácil acceso
- Ejecutar Spark en prácticamente cualquier dispositivo, los recursos están en la nube.
- Como los recursos están la nube, no hay que preocuparse por los recursos de hardware
- Trabajo en equipo, más sencillo el trabajo colaborativo. Varias personas pueden trabajar sobre un mismo notebook.


Desventajas:
- No se guardan las configuraciones de Spark luego de un tiempo
> No obstante el notebook permanece intacto. Se puede volver a ejecutar las líneas de código para tener la configuración nuevamente.
- Escalabilidad, como el servicio es gratuito, los recursos son limitados.
> Para llevarlo a ambientes productivos, necesitamos una infraestructura capaz de brindarnos estas especificaciones.

## Instalaciones Necesarias para trabajar con Spark en Colab

### `Descarga e instalación de Apache Spark en Colab`
Se explica celda por celda las instalaciones necesarias. Para fines prácticos, utilizar la celda de abajo que instala todo junto.

In [None]:
# Instalar SDK Java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

In [None]:
# Descargar Spark 3.2.4
!wget -q https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz

In [None]:
# Descomprimir el archivo descargado de Spark
!tar xf spark-3.2.4-bin-hadoop3.2.tgz

In [None]:
# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.4-bin-hadoop3.2"

In [None]:
# Instalar la librería findspark
!pip install -q findspark

In [None]:
# Instalar pyspark
!pip install -q pyspark

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m316.9/316.9 MB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone


In [None]:
### verificar la instalación ###
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

In [None]:
# Probando la sesión de Spark
df = spark.createDataFrame([{"Hola": "Mundo"} for x in range(10)])
# df.show(10, False)
df.show()

+-----+
| Hola|
+-----+
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
+-----+



### `Descarga e instalación de Apache Spark en una sola celda (Utilizar esta opción)`
Para fines prácticos, toda la instalación está en una celda, así luego de ejecutarse ya se puede trabajar con Spark.

In [None]:
# Instalar SDK Java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark 3.2.4
!wget -q https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz

# Descomprimir el archivo descargado de Spark
!tar xf spark-3.2.4-bin-hadoop3.2.tgz

# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.4-bin-hadoop3.2"

# Instalar la librería findspark
!pip install -q findspark

# Instalar pyspark
!pip install -q pyspark

### verificar la instalación ###
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

# Probando la sesión de Spark
df = spark.createDataFrame([{"Hola": "Mundo"} for x in range(10)])
# df.show(10, False)
df.show()

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.3/317.3 MB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
+-----+
| Hola|
+-----+
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
+-----+



## `Importante: Carga de archivos en Google Colab`

Dos formas de cargar los archivos para resolver los ejercicios:

1. **Montando el drive para acceder a los contenidos** de la unidad.

  Utilizar esta opción si los datos para los ejercicios se cargan en una carpeta del drive y se quiere acceder a ella.

2. **Utilizando el cuadro de archivos**, donde se carga el archivo que se quiere trabajar. Se guarda temporalmente.
> Esta es la forma que voy a estar utizando

In [None]:
# Levantar una sesión de Spark
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('Cap2').master('local(*)').getOrCreate()
spark

### 1. Utilizando el montado al drive y yendo hacia la carpeta donde se encuentra el archivo.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
rdd_texto = sc.wholeTextFiles('/content/drive/MyDrive/Spark/data-ej-PySpark-RDD/el_valor_del_big_data.txt')
rdd_texto.collect()

### 2. Utilizando el cuadro de archivos, donde se carga el archivo que se quiere trabajar. Se guarda temporalmente.

Esta es la que voy a estar utizando a lo largo de todos los notebooks.


In [None]:
rdd_texto = sc.wholeTextFiles('./el_valor_del_big_data.txt')
rdd_texto.collect()

## Spark UI en Colab

In [None]:
# Instalar SDK java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark
!wget -q https://archive.apache.org/dist/spark/spark-3.3.4/spark-3.3.4-bin-hadoop3.tgz

# Descomprimir la version de Spark
!tar xf spark-3.3.4-bin-hadoop3.tgz

# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.3.4-bin-hadoop3"

# Descargar findspark
!pip install -q findspark

# Crear la sesión de Spark
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = (
    SparkSession.builder
    .config('spark.ui.port', '4050')
    .getOrCreate()
)

from google.colab import output
output.serve_kernel_port_as_window(4050, path='/jobs/index.html')
from pyspark.sql.functions import col

spark.range(10000).toDF("id").filter(col('id') / 2 == 0).write.mode('overwrite').parquet('/output')

<IPython.core.display.Javascript object>

## Spark SQL Avanzado

### Agregaciones

In [None]:
# Explorando los datos

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

df = spark.read.parquet('vuelos.parquet')

df.printSchema()

df.show(20, truncate=False)


root
 |-- YEAR: integer (nullable = true)
 |-- MONTH: integer (nullable = true)
 |-- DAY: integer (nullable = true)
 |-- DAY_OF_WEEK: integer (nullable = true)
 |-- AIRLINE: string (nullable = true)
 |-- FLIGHT_NUMBER: integer (nullable = true)
 |-- TAIL_NUMBER: string (nullable = true)
 |-- ORIGIN_AIRPORT: string (nullable = true)
 |-- DESTINATION_AIRPORT: string (nullable = true)
 |-- SCHEDULED_DEPARTURE: integer (nullable = true)
 |-- DEPARTURE_TIME: integer (nullable = true)
 |-- DEPARTURE_DELAY: integer (nullable = true)
 |-- TAXI_OUT: integer (nullable = true)
 |-- WHEELS_OFF: integer (nullable = true)
 |-- SCHEDULED_TIME: integer (nullable = true)
 |-- ELAPSED_TIME: integer (nullable = true)
 |-- AIR_TIME: integer (nullable = true)
 |-- DISTANCE: integer (nullable = true)
 |-- WHEELS_ON: integer (nullable = true)
 |-- TAXI_IN: integer (nullable = true)
 |-- SCHEDULED_ARRIVAL: integer (nullable = true)
 |-- ARRIVAL_TIME: integer (nullable = true)
 |-- ARRIVAL_DELAY: integer (null

### Funciones

In [None]:
# Funciones count, countDistinct y approx_count_distinct
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

df = spark.read.parquet('dataframe.parquet')

df.printSchema()

df.show()


root
 |-- nombre: string (nullable = true)
 |-- color: string (nullable = true)
 |-- cantidad: long (nullable = true)

+------+-----+--------+
|nombre|color|cantidad|
+------+-----+--------+
|  Jose| azul|    1900|
|  null| null|    1700|
|  null| rojo|    1300|
|  Juan| rojo|    1500|
+------+-----+--------+



#### Función count

In [None]:
# count
from pyspark.sql.functions import count

df.select(
    count('nombre').alias('conteo_nombre'),
    count('color').alias('conteo_color')
).show()

df.select(
    count('nombre').alias('conteo_nombre'),
    count('color').alias('conteo_color'),
    count('*').alias('conteo_general')
).show()

+-------------+------------+
|conteo_nombre|conteo_color|
+-------------+------------+
|            2|           3|
+-------------+------------+

+-------------+------------+--------------+
|conteo_nombre|conteo_color|conteo_general|
+-------------+------------+--------------+
|            2|           3|             4|
+-------------+------------+--------------+



#### Función countDistinct

In [None]:
# countDistinct
from pyspark.sql.functions import countDistinct

df.select(
    countDistinct('color').alias('colores_dif')
).show()

+-----------+
|colores_dif|
+-----------+
|          2|
+-----------+



#### Función approx_count_distinct

In [None]:
# approx_count_distinct
from pyspark.sql.functions import approx_count_distinct

dataframe = spark.read.parquet('vuelos.parquet')

dataframe.printSchema()

dataframe.select(
    countDistinct('AIRLINE'),
    approx_count_distinct('AIRLINE')
).show()

root
 |-- YEAR: integer (nullable = true)
 |-- MONTH: integer (nullable = true)
 |-- DAY: integer (nullable = true)
 |-- DAY_OF_WEEK: integer (nullable = true)
 |-- AIRLINE: string (nullable = true)
 |-- FLIGHT_NUMBER: integer (nullable = true)
 |-- TAIL_NUMBER: string (nullable = true)
 |-- ORIGIN_AIRPORT: string (nullable = true)
 |-- DESTINATION_AIRPORT: string (nullable = true)
 |-- SCHEDULED_DEPARTURE: integer (nullable = true)
 |-- DEPARTURE_TIME: integer (nullable = true)
 |-- DEPARTURE_DELAY: integer (nullable = true)
 |-- TAXI_OUT: integer (nullable = true)
 |-- WHEELS_OFF: integer (nullable = true)
 |-- SCHEDULED_TIME: integer (nullable = true)
 |-- ELAPSED_TIME: integer (nullable = true)
 |-- AIR_TIME: integer (nullable = true)
 |-- DISTANCE: integer (nullable = true)
 |-- WHEELS_ON: integer (nullable = true)
 |-- TAXI_IN: integer (nullable = true)
 |-- SCHEDULED_ARRIVAL: integer (nullable = true)
 |-- ARRIVAL_TIME: integer (nullable = true)
 |-- ARRIVAL_DELAY: integer (null

#### Funciones min y max

In [None]:
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

vuelos = spark.read.parquet('vuelos.parquet')

vuelos.printSchema()

root
 |-- YEAR: integer (nullable = true)
 |-- MONTH: integer (nullable = true)
 |-- DAY: integer (nullable = true)
 |-- DAY_OF_WEEK: integer (nullable = true)
 |-- AIRLINE: string (nullable = true)
 |-- FLIGHT_NUMBER: integer (nullable = true)
 |-- TAIL_NUMBER: string (nullable = true)
 |-- ORIGIN_AIRPORT: string (nullable = true)
 |-- DESTINATION_AIRPORT: string (nullable = true)
 |-- SCHEDULED_DEPARTURE: integer (nullable = true)
 |-- DEPARTURE_TIME: integer (nullable = true)
 |-- DEPARTURE_DELAY: integer (nullable = true)
 |-- TAXI_OUT: integer (nullable = true)
 |-- WHEELS_OFF: integer (nullable = true)
 |-- SCHEDULED_TIME: integer (nullable = true)
 |-- ELAPSED_TIME: integer (nullable = true)
 |-- AIR_TIME: integer (nullable = true)
 |-- DISTANCE: integer (nullable = true)
 |-- WHEELS_ON: integer (nullable = true)
 |-- TAXI_IN: integer (nullable = true)
 |-- SCHEDULED_ARRIVAL: integer (nullable = true)
 |-- ARRIVAL_TIME: integer (nullable = true)
 |-- ARRIVAL_DELAY: integer (null

In [None]:
# Funciones min y max
from pyspark.sql.functions import min, max, col

vuelos.select(
    min('AIR_TIME').alias('menor_timepo'),
    max('AIR_TIME').alias('mayor_tiempo')
).show()

vuelos.select(
    min('AIRLINE_DELAY'),
    max('AIRLINE_DELAY')
).show()

+------------+------------+
|menor_timepo|mayor_tiempo|
+------------+------------+
|           7|         690|
+------------+------------+

+------------------+------------------+
|min(AIRLINE_DELAY)|max(AIRLINE_DELAY)|
+------------------+------------------+
|                 0|              1971|
+------------------+------------------+



#### Funciones sum, sumDistinct y avg

In [None]:
# Funciones sum, sumDistinct y avg
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import sum, sumDistinct,sum_distinct , avg, count

spark = SparkSession.builder.getOrCreate()

vuelos = spark.read.parquet('vuelos.parquet')
vuelos.printSchema()

root
 |-- YEAR: integer (nullable = true)
 |-- MONTH: integer (nullable = true)
 |-- DAY: integer (nullable = true)
 |-- DAY_OF_WEEK: integer (nullable = true)
 |-- AIRLINE: string (nullable = true)
 |-- FLIGHT_NUMBER: integer (nullable = true)
 |-- TAIL_NUMBER: string (nullable = true)
 |-- ORIGIN_AIRPORT: string (nullable = true)
 |-- DESTINATION_AIRPORT: string (nullable = true)
 |-- SCHEDULED_DEPARTURE: integer (nullable = true)
 |-- DEPARTURE_TIME: integer (nullable = true)
 |-- DEPARTURE_DELAY: integer (nullable = true)
 |-- TAXI_OUT: integer (nullable = true)
 |-- WHEELS_OFF: integer (nullable = true)
 |-- SCHEDULED_TIME: integer (nullable = true)
 |-- ELAPSED_TIME: integer (nullable = true)
 |-- AIR_TIME: integer (nullable = true)
 |-- DISTANCE: integer (nullable = true)
 |-- WHEELS_ON: integer (nullable = true)
 |-- TAXI_IN: integer (nullable = true)
 |-- SCHEDULED_ARRIVAL: integer (nullable = true)
 |-- ARRIVAL_TIME: integer (nullable = true)
 |-- ARRIVAL_DELAY: integer (null

In [None]:
# sum
vuelos.select(
    sum('DISTANCE').alias('sum_dis')
).show()

+----------+
|   sum_dis|
+----------+
|4785357409|
+----------+



In [None]:
# sumDistinct, warning de deprecated
vuelos.select(
    sumDistinct('DISTANCE').alias('sum_dis_dif')
).show()
# opción sugerida sum_distinct
vuelos.select(
    sum_distinct('DISTANCE').alias('sum_dis_dif')
).show()



+-----------+
|sum_dis_dif|
+-----------+
|    1442300|
+-----------+

+-----------+
|sum_dis_dif|
+-----------+
|    1442300|
+-----------+



In [None]:
# avg
vuelos.select(
    avg('AIR_TIME').alias('promedio_aire'),
    (sum('AIR_TIME') / count('AIR_TIME')).alias('prom_manual')
).show()

+------------------+------------------+
|     promedio_aire|       prom_manual|
+------------------+------------------+
|113.51162809012519|113.51162809012519|
+------------------+------------------+



### Agregación con agrupación

In [None]:
# Agregación con agrupación
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import desc

spark = SparkSession.builder.getOrCreate()

vuelos = spark.read.parquet('vuelos.parquet')

vuelos.printSchema()

root
 |-- YEAR: integer (nullable = true)
 |-- MONTH: integer (nullable = true)
 |-- DAY: integer (nullable = true)
 |-- DAY_OF_WEEK: integer (nullable = true)
 |-- AIRLINE: string (nullable = true)
 |-- FLIGHT_NUMBER: integer (nullable = true)
 |-- TAIL_NUMBER: string (nullable = true)
 |-- ORIGIN_AIRPORT: string (nullable = true)
 |-- DESTINATION_AIRPORT: string (nullable = true)
 |-- SCHEDULED_DEPARTURE: integer (nullable = true)
 |-- DEPARTURE_TIME: integer (nullable = true)
 |-- DEPARTURE_DELAY: integer (nullable = true)
 |-- TAXI_OUT: integer (nullable = true)
 |-- WHEELS_OFF: integer (nullable = true)
 |-- SCHEDULED_TIME: integer (nullable = true)
 |-- ELAPSED_TIME: integer (nullable = true)
 |-- AIR_TIME: integer (nullable = true)
 |-- DISTANCE: integer (nullable = true)
 |-- WHEELS_ON: integer (nullable = true)
 |-- TAXI_IN: integer (nullable = true)
 |-- SCHEDULED_ARRIVAL: integer (nullable = true)
 |-- ARRIVAL_TIME: integer (nullable = true)
 |-- ARRIVAL_DELAY: integer (null

In [None]:
(vuelos.groupBy('ORIGIN_AIRPORT')
    .count()
    .orderBy(desc('count'))
).show()

+--------------+------+
|ORIGIN_AIRPORT| count|
+--------------+------+
|           ATL|346836|
|           ORD|285884|
|           DFW|239551|
|           DEN|196055|
|           LAX|194673|
|           SFO|148008|
|           PHX|146815|
|           IAH|146622|
|           LAS|133181|
|           MSP|112117|
|           MCO|110982|
|           SEA|110899|
|           DTW|108500|
|           BOS|107847|
|           EWR|101772|
|           CLT|100324|
|           LGA| 99605|
|           SLC| 97210|
|           JFK| 93811|
|           BWI| 86079|
+--------------+------+
only showing top 20 rows



In [None]:
(vuelos.groupBy('ORIGIN_AIRPORT', 'DESTINATION_AIRPORT')
    .count()
    .orderBy(desc('count'))
).show()

+--------------+-------------------+-----+
|ORIGIN_AIRPORT|DESTINATION_AIRPORT|count|
+--------------+-------------------+-----+
|           SFO|                LAX|13744|
|           LAX|                SFO|13457|
|           JFK|                LAX|12016|
|           LAX|                JFK|12015|
|           LAS|                LAX| 9715|
|           LGA|                ORD| 9639|
|           LAX|                LAS| 9594|
|           ORD|                LGA| 9575|
|           SFO|                JFK| 8440|
|           JFK|                SFO| 8437|
|           OGG|                HNL| 8313|
|           HNL|                OGG| 8282|
|           LAX|                ORD| 8256|
|           ATL|                LGA| 8234|
|           LGA|                ATL| 8215|
|           ATL|                MCO| 8202|
|           MCO|                ATL| 8202|
|           SFO|                LAS| 7995|
|           ORD|                LAX| 7941|
|           LAS|                SFO| 7870|
+----------

### Varias agregaciones por grupo

In [None]:
# Varias agregaciones por grupo
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import count, min, max, desc, avg

spark = SparkSession.builder.getOrCreate()

vuelos = spark.read.parquet('vuelos.parquet')
vuelos.show(5)

+----+-----+---+-----------+-------+-------------+-----------+--------------+-------------------+-------------------+--------------+---------------+--------+----------+--------------+------------+--------+--------+---------+-------+-----------------+------------+-------------+--------+---------+-------------------+----------------+--------------+-------------+-------------------+-------------+
|YEAR|MONTH|DAY|DAY_OF_WEEK|AIRLINE|FLIGHT_NUMBER|TAIL_NUMBER|ORIGIN_AIRPORT|DESTINATION_AIRPORT|SCHEDULED_DEPARTURE|DEPARTURE_TIME|DEPARTURE_DELAY|TAXI_OUT|WHEELS_OFF|SCHEDULED_TIME|ELAPSED_TIME|AIR_TIME|DISTANCE|WHEELS_ON|TAXI_IN|SCHEDULED_ARRIVAL|ARRIVAL_TIME|ARRIVAL_DELAY|DIVERTED|CANCELLED|CANCELLATION_REASON|AIR_SYSTEM_DELAY|SECURITY_DELAY|AIRLINE_DELAY|LATE_AIRCRAFT_DELAY|WEATHER_DELAY|
+----+-----+---+-----------+-------+-------------+-----------+--------------+-------------------+-------------------+--------------+---------------+--------+----------+--------------+------------+--------+-

In [None]:
vuelos.groupBy('ORIGIN_AIRPORT').agg(
    count('AIR_TIME').alias('tiempo_aire'),
    min('AIR_TIME').alias('min'),
    max('AIR_TIME').alias('max')
).orderBy(desc('tiempo_aire')).show()

+--------------+-----------+---+---+
|ORIGIN_AIRPORT|tiempo_aire|min|max|
+--------------+-----------+---+---+
|           ATL|     343506| 15|614|
|           ORD|     276554| 13|571|
|           DFW|     232647| 11|534|
|           DEN|     193402| 12|493|
|           LAX|     192003| 14|409|
|           PHX|     145552| 19|444|
|           SFO|     145491|  8|389|
|           IAH|     144019| 15|524|
|           LAS|     131937| 25|429|
|           MSP|     111055| 14|537|
|           SEA|     110178| 17|412|
|           MCO|     109532| 25|395|
|           DTW|     106992| 15|341|
|           BOS|     104804| 16|432|
|           CLT|      99052| 17|379|
|           EWR|      98341| 21|683|
|           SLC|      96505| 18|419|
|           LGA|      94834| 19|311|
|           JFK|      91663| 29|690|
|           BWI|      84329| 19|398|
+--------------+-----------+---+---+
only showing top 20 rows



In [None]:
vuelos.groupBy('MONTH').agg(
    count('ARRIVAL_DELAY').alias('conteo_de_retrasos'),
    avg('DISTANCE').alias('prom_dist')
).orderBy(desc('conteo_de_retrasos')).show()

+-----+------------------+-----------------+
|MONTH|conteo_de_retrasos|        prom_dist|
+-----+------------------+-----------------+
|    7|            514384|841.4772794487611|
|    8|            503956|834.8244276603413|
|    6|            492847|835.6302716626612|
|    3|            492138|816.0553268611494|
|    5|            489641|823.3230588760807|
|   10|            482878|816.4436127652134|
|    4|            479251|817.0060476016745|
|   12|            469717|837.8018926194103|
|   11|            462367|820.2482434846529|
|    9|            462153|815.8487523282274|
|    1|            457013|803.2612794913696|
|    2|            407663| 800.785449834689|
+-----+------------------+-----------------+



### Agregación con pivote

In [None]:
# Agregación con pivote

import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import min, max, avg, col

spark = SparkSession.builder.getOrCreate()

estudiantes = spark.read.parquet('estudiantes.parquet')
estudiantes.show()

+------+----+----+----------+
|nombre|sexo|peso|graduacion|
+------+----+----+----------+
|  Jose|   M|  80|      2000|
| Hilda|   F|  50|      2000|
|  Juan|   M|  75|      2000|
| Pedro|   M|  76|      2001|
|Katia+|   F|  65|      2001|
+------+----+----+----------+



In [None]:
estudiantes.groupBy('graduacion').pivot('sexo').agg(avg('peso')).show()

+----------+----+----+
|graduacion|   F|   M|
+----------+----+----+
|      2001|65.0|76.0|
|      2000|50.0|77.5|
+----------+----+----+



In [None]:
estudiantes.groupBy('graduacion').pivot('sexo').agg(avg('peso'), min('peso'), max('peso')).show()

+----------+-----------+-----------+-----------+-----------+-----------+-----------+
|graduacion|F_avg(peso)|F_min(peso)|F_max(peso)|M_avg(peso)|M_min(peso)|M_max(peso)|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
|      2001|       65.0|         65|         65|       76.0|         76|         76|
|      2000|       50.0|         50|         50|       77.5|         75|         80|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+



In [None]:
estudiantes.groupBy('graduacion').pivot('sexo', ['M']).agg(avg('peso'), min('peso'), max('peso')).show()

+----------+-----------+-----------+-----------+
|graduacion|M_avg(peso)|M_min(peso)|M_max(peso)|
+----------+-----------+-----------+-----------+
|      2001|       76.0|         76|         76|
|      2000|       77.5|         75|         80|
+----------+-----------+-----------+-----------+



In [None]:
estudiantes.groupBy('graduacion').pivot('sexo', ['F']).agg(avg('peso'), min('peso'), max('peso')).show()

+----------+-----------+-----------+-----------+
|graduacion|F_avg(peso)|F_min(peso)|F_max(peso)|
+----------+-----------+-----------+-----------+
|      2001|       65.0|         65|         65|
|      2000|       50.0|         50|         50|
+----------+-----------+-----------+-----------+



### Joins en Spark


#### Tipos de Joins en Spark

- inner join:\
Devuelve filas de ambos conjuntos de datos cuando la expresión de join se evalúa como verdadera.
- left outer join:\
Devuelve filas del conjunto de datos de la izquierda incluso cuando la expresión de join se evalúa como falsa.
- right outer join:\
Devuelve filas del conjunto de datos de la derecha incluso cuando la expresión de join se evalúa como falsa.
- outer join:\
Devuelve filas de ambos conjuntos de datos incluso cuando la expresión de join se evalúa como falsa.
- left anti join:\
Devuelve filas solo del conjuntos de datos de la izquierda cuando la expresión de join se evalúa como falsa.
- left semi join:\
Devuelve filas solo del conjuntos de datos de la izquierda cuando la expresión de join se evalúa como verdadera.
- cross:\
Devuelve filas combinando cada fila del conjunto de datos de la izquierda con cada fila del conjunto de datos de la derecha

#### Inner Join

In [None]:
# Inner Join
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('empleados.parquet')
departamentos = spark.read.parquet('departamentos.parquet')

print("Empleados")
empleados.show()
print("Departamentos")
departamentos.show()

Empleados
+------+--------+
|nombre|num_dpto|
+------+--------+
|  Luis|      33|
| Katia|      33|
|  Raul|      34|
| Pedro|       0|
| Laura|      34|
|Sandro|      31|
+------+--------+

Departamentos
+---+-----------+
| id|nombre_dpto|
+---+-----------+
| 31|     letras|
| 33|    derecho|
| 34| matemática|
| 35|informática|
+---+-----------+



In [None]:
join_df = empleados.join(departamentos, col('num_dpto') == col('id'))
join_df.show()

+------+--------+---+-----------+
|nombre|num_dpto| id|nombre_dpto|
+------+--------+---+-----------+
|  Luis|      33| 33|    derecho|
| Katia|      33| 33|    derecho|
|  Raul|      34| 34| matemática|
| Laura|      34| 34| matemática|
|Sandro|      31| 31|     letras|
+------+--------+---+-----------+



In [None]:
join_df = empleados.join(departamentos, col('num_dpto') == col('id'), 'inner')
join_df.show()

+------+--------+---+-----------+
|nombre|num_dpto| id|nombre_dpto|
+------+--------+---+-----------+
|  Luis|      33| 33|    derecho|
| Katia|      33| 33|    derecho|
|  Raul|      34| 34| matemática|
| Laura|      34| 34| matemática|
|Sandro|      31| 31|     letras|
+------+--------+---+-----------+



In [None]:
join_df = empleados.join(departamentos).where(col('num_dpto') == col('id'))
join_df.show()

+------+--------+---+-----------+
|nombre|num_dpto| id|nombre_dpto|
+------+--------+---+-----------+
|  Luis|      33| 33|    derecho|
| Katia|      33| 33|    derecho|
|  Raul|      34| 34| matemática|
| Laura|      34| 34| matemática|
|Sandro|      31| 31|     letras|
+------+--------+---+-----------+



#### Left Outer Join

In [None]:
# Left Outer Join
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('empleados.parquet')
departamentos = spark.read.parquet('departamentos.parquet')

print("Empleados")
empleados.show()
print("Departamentos")
departamentos.show()

Empleados
+------+--------+
|nombre|num_dpto|
+------+--------+
|  Luis|      33|
| Katia|      33|
|  Raul|      34|
| Pedro|       0|
| Laura|      34|
|Sandro|      31|
+------+--------+

Departamentos
+---+-----------+
| id|nombre_dpto|
+---+-----------+
| 31|     letras|
| 33|    derecho|
| 34| matemática|
| 35|informática|
+---+-----------+



In [None]:
empleados.join(departamentos, col('num_dpto') == col('id'), 'leftouter').show()

+------+--------+----+-----------+
|nombre|num_dpto|  id|nombre_dpto|
+------+--------+----+-----------+
|  Luis|      33|  33|    derecho|
| Katia|      33|  33|    derecho|
|  Raul|      34|  34| matemática|
| Pedro|       0|null|       null|
| Laura|      34|  34| matemática|
|Sandro|      31|  31|     letras|
+------+--------+----+-----------+



In [None]:
empleados.join(departamentos, col('num_dpto') == col('id'), 'left_outer').show()

+------+--------+----+-----------+
|nombre|num_dpto|  id|nombre_dpto|
+------+--------+----+-----------+
|  Luis|      33|  33|    derecho|
| Katia|      33|  33|    derecho|
|  Raul|      34|  34| matemática|
| Pedro|       0|null|       null|
| Laura|      34|  34| matemática|
|Sandro|      31|  31|     letras|
+------+--------+----+-----------+



In [None]:
empleados.join(departamentos, col('num_dpto') == col('id'), 'left').show()

+------+--------+----+-----------+
|nombre|num_dpto|  id|nombre_dpto|
+------+--------+----+-----------+
|  Luis|      33|  33|    derecho|
| Katia|      33|  33|    derecho|
|  Raul|      34|  34| matemática|
| Pedro|       0|null|       null|
| Laura|      34|  34| matemática|
|Sandro|      31|  31|     letras|
+------+--------+----+-----------+



#### Right Outer Join

In [None]:
# Right Outer Join
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('empleados.parquet')
departamentos = spark.read.parquet('departamentos.parquet')

print("Empleados")
empleados.show()
print("Departamentos")
departamentos.show()

Empleados
+------+--------+
|nombre|num_dpto|
+------+--------+
|  Luis|      33|
| Katia|      33|
|  Raul|      34|
| Pedro|       0|
| Laura|      34|
|Sandro|      31|
+------+--------+

Departamentos
+---+-----------+
| id|nombre_dpto|
+---+-----------+
| 31|     letras|
| 33|    derecho|
| 34| matemática|
| 35|informática|
+---+-----------+



In [None]:
empleados.join(departamentos, col('num_dpto') == col('id'), 'rightouter').show()

+------+--------+---+-----------+
|nombre|num_dpto| id|nombre_dpto|
+------+--------+---+-----------+
|Sandro|      31| 31|     letras|
| Katia|      33| 33|    derecho|
|  Luis|      33| 33|    derecho|
| Laura|      34| 34| matemática|
|  Raul|      34| 34| matemática|
|  null|    null| 35|informática|
+------+--------+---+-----------+



In [None]:
empleados.join(departamentos, col('num_dpto') == col('id'), 'right_outer').show()

+------+--------+---+-----------+
|nombre|num_dpto| id|nombre_dpto|
+------+--------+---+-----------+
|Sandro|      31| 31|     letras|
| Katia|      33| 33|    derecho|
|  Luis|      33| 33|    derecho|
| Laura|      34| 34| matemática|
|  Raul|      34| 34| matemática|
|  null|    null| 35|informática|
+------+--------+---+-----------+



In [None]:
empleados.join(departamentos, col('num_dpto') == col('id'), 'right').show()

+------+--------+---+-----------+
|nombre|num_dpto| id|nombre_dpto|
+------+--------+---+-----------+
|Sandro|      31| 31|     letras|
| Katia|      33| 33|    derecho|
|  Luis|      33| 33|    derecho|
| Laura|      34| 34| matemática|
|  Raul|      34| 34| matemática|
|  null|    null| 35|informática|
+------+--------+---+-----------+



#### Full Outer Join

Es el equivalente a un left outer y right outer combinados.

In [None]:
# Full Outer Join
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('empleados.parquet')
departamentos = spark.read.parquet('departamentos.parquet')

print("Empleados")
empleados.show()
print("Departamentos")
departamentos.show()

Empleados
+------+--------+
|nombre|num_dpto|
+------+--------+
|  Luis|      33|
| Katia|      33|
|  Raul|      34|
| Pedro|       0|
| Laura|      34|
|Sandro|      31|
+------+--------+

Departamentos
+---+-----------+
| id|nombre_dpto|
+---+-----------+
| 31|     letras|
| 33|    derecho|
| 34| matemática|
| 35|informática|
+---+-----------+



In [None]:
empleados.join(departamentos, col('num_dpto') == col('id'), 'outer').show()

+------+--------+----+-----------+
|nombre|num_dpto|  id|nombre_dpto|
+------+--------+----+-----------+
| Pedro|       0|null|       null|
|Sandro|      31|  31|     letras|
|  Luis|      33|  33|    derecho|
| Katia|      33|  33|    derecho|
|  Raul|      34|  34| matemática|
| Laura|      34|  34| matemática|
|  null|    null|  35|informática|
+------+--------+----+-----------+



#### Left Anti Join

Permite averiguar que filas del conjunto de datos de la izquierda no tiene filas coincidentes en el conjunto de datos de la derecha.\
El conjunto de datos resultantes contendrá sólo las columnas del conjunto de datos de la izquierda.

In [None]:
# Left Anti Join
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('empleados.parquet')
departamentos = spark.read.parquet('departamentos.parquet')

print("Empleados")
empleados.show()
print("Departamentos")
departamentos.show()

Empleados
+------+--------+
|nombre|num_dpto|
+------+--------+
|  Luis|      33|
| Katia|      33|
|  Raul|      34|
| Pedro|       0|
| Laura|      34|
|Sandro|      31|
+------+--------+

Departamentos
+---+-----------+
| id|nombre_dpto|
+---+-----------+
| 31|     letras|
| 33|    derecho|
| 34| matemática|
| 35|informática|
+---+-----------+



In [None]:
empleados.join(departamentos, col('num_dpto') == col('id'), 'left_anti').show()

+------+--------+
|nombre|num_dpto|
+------+--------+
| Pedro|       0|
+------+--------+



In [None]:
departamentos.join(empleados, col('num_dpto') == col('id'), 'left_anti').show()

+---+-----------+
| id|nombre_dpto|
+---+-----------+
| 35|informática|
+---+-----------+



#### Left Semi Join

Es similar al inner join, excepto que el conjunto de datos resultante, no incluy las columnas del conjunto de datos de la derecha.
Es el comportamiento opuesto al left anti join.

In [None]:
# Left Semi Join
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('empleados.parquet')
departamentos = spark.read.parquet('departamentos.parquet')

print("Empleados")
empleados.show()
print("Departamentos")
departamentos.show()

Empleados
+------+--------+
|nombre|num_dpto|
+------+--------+
|  Luis|      33|
| Katia|      33|
|  Raul|      34|
| Pedro|       0|
| Laura|      34|
|Sandro|      31|
+------+--------+

Departamentos
+---+-----------+
| id|nombre_dpto|
+---+-----------+
| 31|     letras|
| 33|    derecho|
| 34| matemática|
| 35|informática|
+---+-----------+



In [None]:
empleados.join(departamentos, col('num_dpto') == col('id'), 'left_semi').show()

+------+--------+
|nombre|num_dpto|
+------+--------+
|  Luis|      33|
| Katia|      33|
|  Raul|      34|
| Laura|      34|
|Sandro|      31|
+------+--------+



#### Cross Join

Comportamiento peligroso:\
Une cada fila de datos del conjunto de la izquierda con cada fila del conjunto de datos de la derecha.\
Tiene una función dedicada.

In [None]:
# Cross Join
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('empleados.parquet')
departamentos = spark.read.parquet('departamentos.parquet')

print("Empleados")
empleados.show()
print("Departamentos")
departamentos.show()

Empleados
+------+--------+
|nombre|num_dpto|
+------+--------+
|  Luis|      33|
| Katia|      33|
|  Raul|      34|
| Pedro|       0|
| Laura|      34|
|Sandro|      31|
+------+--------+

Departamentos
+---+-----------+
| id|nombre_dpto|
+---+-----------+
| 31|     letras|
| 33|    derecho|
| 34| matemática|
| 35|informática|
+---+-----------+



In [None]:
df = empleados.crossJoin(departamentos)
df.show()
df.count()

+------+--------+---+-----------+
|nombre|num_dpto| id|nombre_dpto|
+------+--------+---+-----------+
|  Luis|      33| 31|     letras|
|  Luis|      33| 33|    derecho|
|  Luis|      33| 34| matemática|
|  Luis|      33| 35|informática|
| Katia|      33| 31|     letras|
| Katia|      33| 33|    derecho|
| Katia|      33| 34| matemática|
| Katia|      33| 35|informática|
|  Raul|      34| 31|     letras|
|  Raul|      34| 33|    derecho|
|  Raul|      34| 34| matemática|
|  Raul|      34| 35|informática|
| Pedro|       0| 31|     letras|
| Pedro|       0| 33|    derecho|
| Pedro|       0| 34| matemática|
| Pedro|       0| 35|informática|
| Laura|      34| 31|     letras|
| Laura|      34| 33|    derecho|
| Laura|      34| 34| matemática|
| Laura|      34| 35|informática|
+------+--------+---+-----------+
only showing top 20 rows



24

### Manejo de nombres de columnas duplicados

In [None]:
# Manejo de nombres de columnas duplicados
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('empleados.parquet')
departamentos = spark.read.parquet('departamentos.parquet')

print("Empleados")
empleados.show()
print("Departamentos")
departamentos.show()

Empleados
+------+--------+
|nombre|num_dpto|
+------+--------+
|  Luis|      33|
| Katia|      33|
|  Raul|      34|
| Pedro|       0|
| Laura|      34|
|Sandro|      31|
+------+--------+

Departamentos
+---+-----------+
| id|nombre_dpto|
+---+-----------+
| 31|     letras|
| 33|    derecho|
| 34| matemática|
| 35|informática|
+---+-----------+



In [None]:
depa = departamentos.withColumn('num_dpto', col('id'))
depa.printSchema()

empleados.printSchema()

root
 |-- id: long (nullable = true)
 |-- nombre_dpto: string (nullable = true)
 |-- num_dpto: long (nullable = true)

root
 |-- nombre: string (nullable = true)
 |-- num_dpto: long (nullable = true)



In [None]:
# Devuelve un error
empleados.join(depa, col('num_dpto') == col('num_dpto'))

AnalysisException: Reference 'num_dpto' is ambiguous, could be: num_dpto, num_dpto.

In [None]:
# Forma correcta
df_con_duplicados = empleados.join(depa, empleados['num_dpto'] == depa['num_dpto'])
df_con_duplicados.printSchema()

root
 |-- nombre: string (nullable = true)
 |-- num_dpto: long (nullable = true)
 |-- id: long (nullable = true)
 |-- nombre_dpto: string (nullable = true)
 |-- num_dpto: long (nullable = true)



In [None]:
df_con_duplicados.select(empleados['num_dpto']).show()

+--------+
|num_dpto|
+--------+
|      33|
|      33|
|      34|
|      34|
|      31|
+--------+



In [None]:
df2 = empleados.join(depa, 'num_dpto')
df2.printSchema()

root
 |-- num_dpto: long (nullable = true)
 |-- nombre: string (nullable = true)
 |-- id: long (nullable = true)
 |-- nombre_dpto: string (nullable = true)



In [None]:
empleados.join(depa, ['num_dpto']).printSchema()

root
 |-- num_dpto: long (nullable = true)
 |-- nombre: string (nullable = true)
 |-- id: long (nullable = true)
 |-- nombre_dpto: string (nullable = true)



### Shuffle, hash join y broadcast hash join

Los join son una de las operaciones más costosas de Spark, por eso se implementan estrategias que se basan en el tamaño del conjunto de los datos.

Estrategias que usa Spark para unir dos conjuntos de datos:

- Shuffle Hash Join:
Ambos conjuntos de datos es grande
- Broadcast Hash Join:
Los dos o uno de los conjuntos de datos es pequeño, lo suficiente como para que entre en la memoria de los ejecutores.

In [None]:
# Shuffle Hash Join y Broadcast Hash Join
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, broadcast

spark = SparkSession.builder.getOrCreate()

empleados = spark.read.parquet('empleados.parquet')
departamentos = spark.read.parquet('departamentos.parquet')

print("Empleados")
empleados.show()
print("Departamentos")
departamentos.show()

Empleados
+------+--------+
|nombre|num_dpto|
+------+--------+
|  Luis|      33|
| Katia|      33|
|  Raul|      34|
| Pedro|       0|
| Laura|      34|
|Sandro|      31|
+------+--------+

Departamentos
+---+-----------+
| id|nombre_dpto|
+---+-----------+
| 31|     letras|
| 33|    derecho|
| 34| matemática|
| 35|informática|
+---+-----------+



In [None]:
empleados.join(broadcast(departamentos), col('num_dpto') == col('id')).show()

+------+--------+---+-----------+
|nombre|num_dpto| id|nombre_dpto|
+------+--------+---+-----------+
|  Luis|      33| 33|    derecho|
| Katia|      33| 33|    derecho|
|  Raul|      34| 34| matemática|
| Laura|      34| 34| matemática|
|Sandro|      31| 31|     letras|
+------+--------+---+-----------+



In [None]:
empleados.join(broadcast(departamentos), col('num_dpto') == col('id')).explain()

== Physical Plan ==
AdaptiveSparkPlan isFinalPlan=false
+- BroadcastHashJoin [num_dpto#5893L], [id#5896L], Inner, BuildRight, false
   :- Filter isnotnull(num_dpto#5893L)
   :  +- FileScan parquet [nombre#5892,num_dpto#5893L] Batched: true, DataFilters: [isnotnull(num_dpto#5893L)], Format: Parquet, Location: InMemoryFileIndex(1 paths)[file:/content/empleados.parquet], PartitionFilters: [], PushedFilters: [IsNotNull(num_dpto)], ReadSchema: struct<nombre:string,num_dpto:bigint>
   +- BroadcastExchange HashedRelationBroadcastMode(List(input[0, bigint, false]),false), [plan_id=3516]
      +- Filter isnotnull(id#5896L)
         +- FileScan parquet [id#5896L,nombre_dpto#5897] Batched: true, DataFilters: [isnotnull(id#5896L)], Format: Parquet, Location: InMemoryFileIndex(1 paths)[file:/content/departamentos.parquet], PartitionFilters: [], PushedFilters: [IsNotNull(id)], ReadSchema: struct<id:bigint,nombre_dpto:string>




### Ejercicios

Los datos para hacer estos ejercicios forman parte de la base de datos Football Data from Transfermarkt de Kaggle.\
El conjunto de datos se compone de varios archivos CSV con información sobre competiciones, juegos, clubes, jugadores y apariciones.

1. Determinar los tres países con mayor número de jugadores(jugadores nacidos en ese país). El resultado debe estar ordenado de forma descendente.

2. Obtener la lista de jugadores con tarjeta roja. La salida debe contener dos columnas, el nombre de pila del jugador y la cantidad de tarjetas rojas que tiene.

3. ¿Cuántos juegos se jugaron en la Premier League? La salida debe contener dos columnas, el nombre de la liga y la cantidad de juegos que se jugaron en ella.

4. Obtener las tres ligas con mayor número de asistencia de público teniendo en cuenta todos los juegos que se jugaron en ellas. El resultado debe estar ordenado de forma descendente y tener dos columnas, el nombre de la liga y la asistencia total.

#### Levantando una sesión de Spark

In [None]:
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

#### Lectura de los archivos necesarios

In [None]:
players = spark.read.option('header', 'true').option('inferSchema', 'true').csv('players.csv')
apps = spark.read.option('header', 'true').option('inferSchema', 'true').csv('appearances.csv')
competition = spark.read.option('header', 'true').option('inferSchema', 'true').csv('competitions.csv')
games = spark.read.option('header', 'true').option('inferSchema', 'true').csv('games.csv')

In [None]:
players.show(5)
players.printSchema()

+---------+---------------+-------------------+-------------------+----------------+----------------------+-------------+----------+--------------+-----+------------+-------------------+---------------------------+--------------------+
|player_id|current_club_id|               name|        pretty_name|country_of_birth|country_of_citizenship|date_of_birth|  position|  sub_position| foot|height_in_cm|market_value_in_gbp|highest_market_value_in_gbp|                 url|
+---------+---------------+-------------------+-------------------+----------------+----------------------+-------------+----------+--------------+-----+------------+-------------------+---------------------------+--------------------+
|    38790|          28095|     dmitri-golubov|     Dmitri Golubov|           UdSSR|                Russia|   1985-06-24|    Attack|Centre-Forward| Both|         178|               null|                   675000.0|https://www.trans...|
|   106539|          28095| aleksandr-vasiljev| Aleksand

In [None]:
apps.show(5)
apps.printSchema()

+---------+-------+-------------+--------------+--------------+-----+-------+--------------+------------+---------+
|player_id|game_id|appearance_id|competition_id|player_club_id|goals|assists|minutes_played|yellow_cards|red_cards|
+---------+-------+-------------+--------------+--------------+-----+-------+--------------+------------+---------+
|    52453|2483937|2483937_52453|           RU1|         28095|    0|      0|            90|           0|        0|
|    67064|2479929|2479929_67064|           RU1|         28095|    0|      0|            90|           0|        0|
|    67064|2483937|2483937_67064|           RU1|         28095|    0|      0|            90|           0|        0|
|    67064|2484582|2484582_67064|           RU1|         28095|    0|      0|            55|           0|        0|
|    67064|2485965|2485965_67064|           RU1|         28095|    0|      0|            90|           0|        0|
+---------+-------+-------------+--------------+--------------+-----+---

In [None]:
competition.show(5)
competition.printSchema()

+--------------+---------------+------------------+----------+------------+--------------------+-------------+--------------------+
|competition_id|           name|              type|country_id|country_name|domestic_league_code|confederation|                 url|
+--------------+---------------+------------------+----------+------------+--------------------+-------------+--------------------+
|            L1|     bundesliga|        first_tier|        40|     Germany|                  L1|       europa|https://www.trans...|
|           DFB|      dfb-pokal|      domestic_cup|        40|     Germany|                  L1|       europa|https://www.trans...|
|           DFL|   dfl-supercup|domestic_super_cup|        40|     Germany|                  L1|       europa|https://www.trans...|
|           NL1|     eredivisie|        first_tier|       122| Netherlands|                 NL1|       europa|https://www.trans...|
|           NLP|toto-knvb-beker|      domestic_cup|       122| Netherlands| 

In [None]:
games.show(5)
games.printSchema()

+-------+----------------+------+-------------+----------+------------+------------+---------------+---------------+------------------+------------------+--------------------+----------+-----------------+--------------------+
|game_id|competition_code|season|        round|      date|home_club_id|away_club_id|home_club_goals|away_club_goals|home_club_position|away_club_position|             stadium|attendance|          referee|                 url|
+-------+----------------+------+-------------+----------+------------+------------+---------------+---------------+------------------+------------------+--------------------+----------+-----------------+--------------------+
|2457642|            NLSC|  2014|        Final|2014-08-03|        1269|         610|              1|              0|              null|              null| Johan Cruijff ArenA|     42000|   Danny Makkelie|https://www.trans...|
|2639088|            BESC|  2013|        Final|2014-07-20|          58|         498|            

In [None]:
# 1. Determinar los tres países con mayor número de jugadores(jugadores nacidos en ese país).
# El resultado debe estar ordenado de forma descendente.
from pyspark.sql.functions import col, desc

players.groupBy('country_of_birth').count().orderBy(desc('count')).show()

+-----------------+-----+
| country_of_birth|count|
+-----------------+-----+
|           France| 1694|
|             null| 1602|
|            Spain| 1388|
|            Italy| 1312|
|          England| 1273|
|          Germany| 1154|
|      Netherlands| 1137|
|           Brazil| 1087|
|           Turkey| 1085|
|         Portugal|  803|
|           Greece|  725|
|            UdSSR|  721|
|          Ukraine|  671|
|           Russia|  634|
|         Scotland|  594|
|          Belgium|  580|
|          Denmark|  444|
|        Argentina|  432|
|Jugoslawien (SFR)|  354|
|           Sweden|  186|
+-----------------+-----+
only showing top 20 rows



In [None]:
players.groupBy('country_of_birth').count().orderBy(desc('count')).filter(col('country_of_birth').isNotNull()).limit(3).show()

+----------------+-----+
|country_of_birth|count|
+----------------+-----+
|          France| 1694|
|           Spain| 1388|
|           Italy| 1312|
+----------------+-----+



In [None]:
# 2. Obtener la lista de jugadores con tarjeta roja.
# La salida debe contener dos columnas, el nombre de pila del jugador y la cantidad de tarjetas rojas que tiene.
# Nota importante
# Existen jugadores con el mismo pretty_name pero con diferentes player_id. Por lo tanto hay que agrupar por la
# columna player_id que es la que identifica unívocamente a cada jugador.

from pyspark.sql.functions import sum, desc, col

(apps.groupBy('player_id')
  .agg(sum(col('red_cards')).alias('total_rojas'))
  .orderBy(col('total_rojas').desc())
  .join(players, ['player_id'], 'left')
  .select(
      col('pretty_name'),
      col('total_rojas')
  )
).show()

+--------------------+-----------+
|         pretty_name|total_rojas|
+--------------------+-----------+
|          Thomas Lam|          5|
|     Mario Balotelli|          5|
|        Granit Xhaka|          5|
|    Domenico Berardi|          5|
|              Hilton|          5|
|     Damien Da Silva|          4|
|   Kalidou Koulibaly|          4|
|   Olarenwaju Kayode|          4|
|        Jordan Amavi|          4|
|       Ramon Leeuwin|          4|
|         Jaume Costa|          4|
|     Yannick Cahuzac|          4|
|       Heung Min Son|          4|
|     Rodrigo De Paul|          4|
|Timothee Kolodzie...|          4|
|         Ivan Ordets|          4|
|       Fallou Diagne|          4|
|          Ante Rebic|          4|
|          Jordi Amat|          4|
|          David Luiz|          4|
+--------------------+-----------+
only showing top 20 rows



In [None]:
# 3. ¿Cuántos juegos se jugaron en la Premier League?
# La salida debe contener dos columnas, el nombre de la liga y la cantidad de juegos que se jugaron en ella.

competition.show(5, truncate=False)
games.show(5, truncate=False)

+--------------+---------------+------------------+----------+------------+--------------------+-------------+-------------------------------------------------------------------------+
|competition_id|name           |type              |country_id|country_name|domestic_league_code|confederation|url                                                                      |
+--------------+---------------+------------------+----------+------------+--------------------+-------------+-------------------------------------------------------------------------+
|L1            |bundesliga     |first_tier        |40        |Germany     |L1                  |europa       |https://www.transfermarkt.co.uk/bundesliga/startseite/wettbewerb/L1      |
|DFB           |dfb-pokal      |domestic_cup      |40        |Germany     |L1                  |europa       |https://www.transfermarkt.co.uk/dfb-pokal/startseite/wettbewerb/DFB      |
|DFL           |dfl-supercup   |domestic_super_cup|40        |Germany     |

In [None]:
data1 = games.join(competition, col('competition_id') == col('competition_code'), 'left')
data1.show(5, truncate=False)

+-------+----------------+------+-------------+----------+------------+------------+---------------+---------------+------------------+------------------+-----------------------------+----------+-----------------+-----------------------------------------------------------------------+--------------+-----------------------------+------------------+----------+------------+--------------------+-------------+----------------------------------------------------------------------------------------+
|game_id|competition_code|season|round        |date      |home_club_id|away_club_id|home_club_goals|away_club_goals|home_club_position|away_club_position|stadium                      |attendance|referee          |url                                                                    |competition_id|name                         |type              |country_id|country_name|domestic_league_code|confederation|url                                                                                     |
+---

In [None]:
data1.groupBy('name').count().filter(col('name') == 'premier-league').show()

+--------------+-----+
|          name|count|
+--------------+-----+
|premier-league| 2809|
+--------------+-----+



In [None]:
# 4. Obtener las tres ligas con mayor número de asistencia de público teniendo en cuenta todos los juegos que se jugaron en ellas.
# El resultado debe estar ordenado de forma descendente y tener dos columnas, el nombre de la liga y la asistencia total.

from pyspark.sql.functions import sum

data1.groupBy('name').agg(sum('attendance').alias('asistencia')).orderBy(desc('asistencia')).show()

+--------------------+----------+
|                name|asistencia|
+--------------------+----------+
|      premier-league|  86964852|
|          bundesliga|  78102473|
|              laliga|  62943533|
|             serie-a|  53475147|
|             ligue-1|  51593963|
|uefa-champions-le...|  35154225|
|          eredivisie|  34572418|
|       europa-league|  28710888|
|        premier-liga|  25823581|
|  liga-portugal-bwin|  20072843|
|  jupiler-pro-league|  17817099|
|           super-lig|  17455236|
|scottish-premiership|  17379753|
|europa-league-qua...|  12810167|
|uefa-champions-le...|   9479701|
|             efl-cup|   9162166|
|           dfb-pokal|   8404075|
|         superligaen|   7945555|
|        copa-del-rey|   7052640|
|      super-league-1|   6417136|
+--------------------+----------+
only showing top 20 rows



-----------
## Fin Notebook
-----------