<a href="https://colab.research.google.com/github/MiguelAngeloTr/BIGDATA/blob/main/C1/Practica_1_PySpark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. Primeros pasos

En este notebook haremos una revisión de los conceptos básicos de Spark con Python.

## 1.1 Introduccion

### _¿Qué es Apache Spark?_

Apache spark es un _framework_ de programación para el procesamiento de datos distribuidos (computacion en cluster) _open source_. Spark fue originalmente desarrolado por la Universidad de California Berkeley quien posteriomente donó el codigo del proyecto a la _Apache Software Foundation_, quien desde entonces se encarga de su mantenimiento.

Spark proporciona APIs para ser empleado en conjunto con lenguajes de programación como Java, Python, Scala y R. Además, cuenta con herramientas para la realización de tareas de alto nivel como Spark SQL (para el procesamiento de datos estructurados basado en SQL), MLlib (para la implementación de modelos de aprendizaje máquina), GraphX (para el procesamiento de grafos), etc.

### _¿Qué es PySpark?_

PySpark es una herramienta que nos deja usar Spark encima de Python. Permitiendonos combinar el proceso de datos distribuidos de Spark con la simplicidad de Python para el análisis de conjuntos masivos de datos (_big data_).

###¿Cómo usar PySpark en Google Colab?

Instalar PySpark y usarlo dentro de un Jupyter notebooks requiere de un poco más que solo correr `pip install pyspark` en la terminal. Para tratar de darle la vuelta al problema de la instalación de nuestro entorno de programación usaremos Colab, que nos proprociona un entorno _más controlado_ en el cual podemos instalar las bibliotecas necesarias de una forma más facil.

Sin embargo, si el lector requiere hacer una instalación de PySpark de forma local, los siguientes links pueden ser de ayuda:

* [macOS](https://medium.com/@yajieli/installing-spark-pyspark-on-mac-and-fix-of-some-common-errors-355a9050f735)
* [Windows](https://changhsinlee.com/install-pyspark-windows-jupyter/)
* [Linux](https://py.plainenglish.io/apache-spark-using-jupyter-in-linux-installation-and-setup-b2cacc6c7701)


En Colab podemos configurar nuestro ambiente de desarrollo simplemente ejecutando el contenido de la siguiente celda

Para empezar a hacer uso de PySpark es necesario crear una `SparkSession`, dicho objeto es el que nos permitira crear RDDs o DataFrames, que son los objetos con los que más estaremos trabajando

### 1.1.1 Instalación

In [None]:
!pip install pyspark
!pip install -U -q PyDrive
!apt install openjdk-8-jdk-headless -qq
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"

Collecting pyspark
  Downloading pyspark-3.5.1.tar.gz (317.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.0/317.0 MB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.5.1-py2.py3-none-any.whl size=317488490 sha256=a7fbcc47478a4f3b79f02d41611503d8cc87dc3b7b2a6363d103953f1d42acee
  Stored in directory: /root/.cache/pip/wheels/80/1d/60/2c256ed38dddce2fdd93be545214a63e02fbd8d74fb0b7f3a6
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.5.1
The following additional packages will be installed:
  libxtst6 openjdk-8-jre-headless
Suggested packages:
  openjdk-8-demo openjdk-8-source libnss-mdns fonts-dejavu-extra fonts-nanum fonts-ipafont-gothic
  fonts-ipafont-mincho fonts-wqy-microhei fonts-wqy-zenhei fonts-indic

Para empezar a hacer uso de PySpark es necesario crear una SparkSession, dicho objeto es el que nos permitira crear RDDs o DataFrames, que son los objetos con los que más estaremos trabajando

In [None]:
import pyspark
# Carga funciones extra
from pyspark.sql.functions import *
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('primeros_pasos').getOrCreate()

In [None]:
s = spark.sparkContext.parallelize(["hola", "hi", "ciao"])
s.take(5)

['hola', 'hi', 'ciao']

## 1.2 RDDs

La forma más elemental de trabajar con datos en PySpark es haciendo uso de un RDD (_Resilient Distributed Dataset_), el cual nos da la capacidad de manejar los datos y realizar cálculos con ellos de forma distribuida en varios nodos de un cluster.

Para realizar los ejemplos de este notebook haremos uso de una base de datos que cuenta con datos de los jugadores del juego FIFA20, dichos datos fueron tomados este [concurso de kaggle](https://www.kaggle.com/stefanoleone992/fifa-20-complete-player-dataset?select=players_20.csv) donde podrán encontrar una descripción detalalda de cada campo de la base datos.

Podemos crear un RDD a partir de un archivo CSV de la siguiente manera

In [None]:
datos_crudos = spark.sparkContext.textFile('/content/drive/MyDrive/UAO/Pregrado/Big Data/Semana 2/players_20.csv')

Una de las desventajas de los RDDs es que solo proveen a los datos de la estructura minima para poder trabajar con ellos. Imprimamos los primeros dos elementos del RDD para ver en que condicion se encuentran nuestros datos

In [None]:
for renglon in datos_crudos.take(3):
  print(renglon)

sofifa_id,player_url,short_name,long_name,age,dob,height_cm,weight_kg,nationality,club,overall,potential,value_eur,wage_eur,player_positions,preferred_foot,international_reputation,weak_foot,skill_moves,work_rate,body_type,real_face,release_clause_eur,player_tags,team_position,team_jersey_number,loaned_from,joined,contract_valid_until,nation_position,nation_jersey_number,pace,shooting,passing,dribbling,defending,physic,gk_diving,gk_handling,gk_kicking,gk_reflexes,gk_speed,gk_positioning,player_traits,attacking_crossing,attacking_finishing,attacking_heading_accuracy,attacking_short_passing,attacking_volleys,skill_dribbling,skill_curve,skill_fk_accuracy,skill_long_passing,skill_ball_control,movement_acceleration,movement_sprint_speed,movement_agility,movement_reactions,movement_balance,power_shot_power,power_jumping,power_stamina,power_strength,power_long_shots,mentality_aggression,mentality_interceptions,mentality_positioning,mentality_vision,mentality_penalties,mentality_composure,defe

Como podemos ver, los elementos del RDD son solo los renglones del archivo CSV sin formato. Siendo el primer elemento los nombres de los campos de la base de datos, el mantener a los nombres de los campos como valores dentro del RDD puede derivar en problemas más adelante, así que por el momento los removeremos para quedarnos solamente con los valores.

### 1.2.1 Procesamiento básico de RDDs

In [None]:
# Guarda el primer elemento
columnas = datos_crudos.take(1)[0]
# Guarda en todos los elementos de datos_crudos menos el primero correspondiente a las columnas
datos_crudos = datos_crudos.filter(lambda renglon : renglon != columnas)

Ahora podemos darle un poco más de estructura a nuestros datos. Primero separemos los campos de cada renglon, sabiendo que estan separados por comas, y quedandonos con solo un subconjunto de dichos campos, digamos... su nombre, edad, estatura, peso, nacionalidad, equipo y su ranking. Para esto definamos la siguiente función

In [None]:
def separar_campos(renglon):
    renglon_separado = renglon.split(',')
    # Extrae los campos que queremos
    nombre = str(renglon_separado[2])
    edad = int(renglon_separado[4])
    estatura = int(renglon_separado[6])
    peso = int(renglon_separado[7])
    nacionalidad = str(renglon_separado[8])
    equipo = str(renglon_separado[9])
    rank = int(renglon_separado[10])

    return (nombre, edad, estatura, peso, nacionalidad, equipo, rank)

Aplicamos dicha función a cada renglon

In [None]:
rdd_fifa = datos_crudos.map(separar_campos)

# Imprimimos una muestra de los datos
for renglon in rdd_fifa.take(5):
  print(renglon)

('L. Messi', 32, 170, 72, 'Argentina', 'FC Barcelona', 94)
('Cristiano Ronaldo', 34, 187, 83, 'Portugal', 'Juventus', 93)
('Neymar Jr', 27, 175, 68, 'Brazil', 'Paris Saint-Germain', 92)
('J. Oblak', 26, 188, 87, 'Slovenia', 'Atlético Madrid', 91)
('E. Hazard', 28, 175, 74, 'Belgium', 'Real Madrid', 91)


Hasta ahora, hemos realizado diferentes operaciones sobre nuestro RDD para poder darle un formato más tratable a los datos que contiene. Sin embargo, no hemos detallado nada sobre la naturaleza de dichas operaciones. Enfoquemonos ahora en hacer más explícitos estos detalles.

Existen dos operaciones básicas que pueden ser aplicadas a los RDD:

* Acciones: Son operaciones que accionan la realización de cálculos y regresan valores explícitos del RDD.

* Transformaciones: Son operaciones que devuelven otro RDD. Este tipo de operaciones no se ejecutan como tal sino hasta que es llamada una acción. Por esta razón se dice que las transformaciones son de evaluacion perezosa (_lazy evaluation_).

En el caso de la celda anterior, `map()` es una transformación que aplica la función dada a los elementos del RDD y `take()` es la acción que nos devuelve los $n$ primeros elementos.

Veamos más ejemplos. Podríamos querer saber cuantos jugadores existen por país en la base de datos. Para lograr esto primero necesitamos convertir nuestros datos en pares `(key, value)`, donde la `key`será el pais y el `value` nos indicará que ese registro pertenece a un jugador de dicho país

In [None]:
# Nos quedamos solo con la entrada corresponiente al país
rdd_nacionalidades = rdd_fifa.map(lambda renglon: (renglon[4], 1))
rdd_nacionalidades.take(3)

[('Argentina', 1), ('Portugal', 1), ('Brazil', 1)]

Usando los países como llaves y la transfromación llamada reduceByKey, sumaremos todos los valores para cada país.

In [None]:
rdd_nacionalidades = rdd_nacionalidades.reduceByKey(lambda val_1 , val_2: val_1 + val_2)

Hasta el momento hemos usado las transformaciones `map()` y `reduceByKey()`, para obtener resultados necesitamos efectuar una acción, en este caso usaremos la acción `collect()`, que nos devuelve todo el contenido del RDD. Esta acción debe usarse con cuidado, en casos donde el RDD contenga una gran cantidad de registros, cargar todo el contenido del RDD puede dejar al sistema sin memoria.

In [None]:
resultados = rdd_nacionalidades.collect()

for renglon in resultados[:10]:
  print(renglon)

('Argentina', 886)
('Portugal', 344)
('Brazil', 824)
('Slovenia', 61)
('Belgium', 268)
('Netherlands', 416)
('France', 984)
('Uruguay', 164)
('Poland', 324)
('Denmark', 345)


Aunque los resultados obtenidos son buenos, sería interesante poder ordenar a los paises por la cantidad de jugadores. En la siguiente celda imprimimos los 10 países con más jugadores registrados en el juego de FIFA20

In [None]:
# Pedimos que ordene por total de jugadores
rdd_nacionalidades = rdd_nacionalidades.sortBy(lambda renglon: renglon[1], ascending = False)

print ("{:<12} {:<15}".format('PAIS', 'TOTAL JUGADORES'))

for renglon in rdd_nacionalidades.take(10):
  pais = renglon[0]
  total_jugadores = renglon[1]

  print ("{:<12} {:<15}".format(pais, total_jugadores))

PAIS         TOTAL JUGADORES
England      1667           
Germany      1216           
Spain        1035           
France       984            
Argentina    886            
Brazil       824            
Italy        732            
Colombia     591            
Japan        453            
Netherlands  416            


Además de las transformaciones y acciones empleadas aquí existen muchas más, sin embargo, los ejemplos expuestos aqui pueden ayudar a familiarizarse con su uso **(Consejo, revisar la documentación)**.

Como el lector habrá notado, aunque los RDDs nos proveen de la capacidad de manipular y hacer calculos con datos distribuidos, éstos carecen de las funcionalidades y la estructura que tienen herramientas de un poco más alto nivel, como los DataFrame de Pandas, para el manejo de datos.

En PySpark existe un tipo de objetos, igual llamados DataFrames, los cuales nos ayudan a dotar a nuestros datos con más funcionalidades y estructura, en comparación a los RDDs, al mismo tiempo que seguir trabajando de forma distribuida con ellos. Por esta razon, procederemos a dar una introducción a los DataFrames de PySpark que son los entes con los cuales más trabajaremos a lo largo del curso.

## 1.3 DataFrames

A diferencia de los RDDs, los DataFrames nos permiten estructurar a una collección de datos distribuidos en forma de tabla (con columnas y filas).

Podemos crear un DataFrame a partir de un archivo CSV de la siguiente manera

In [None]:
df_fifa = spark.read.csv('/content/drive/MyDrive/UAO/Pregrado/Big Data/Semana 2/players_20.csv', header = True, inferSchema = True)

Seleccionemos solo un subconjunto. Para esto usaremos la función `select()`, la cual devuelve un DataFrame con solo las columnas seleccionadas.

Es importante destacar que, dada la estructrua que el DataFrame da a los datos, podemos hacer referencia a las columnas por su nombre en el archivo CSV.

In [None]:
df_fifa.select(['long_name','age','weight_kg']).show(3)

+--------------------+---+---------+
|           long_name|age|weight_kg|
+--------------------+---+---------+
|Lionel Andrés Mes...| 32|       72|
|Cristiano Ronaldo...| 34|       83|
|Neymar da Silva S...| 27|       68|
+--------------------+---+---------+
only showing top 3 rows



### 1.3.1 Visualizar datos

Algo que es de vital importancia a la hora de manejar datos es poder visualizar, al menos, una pequeña muestra de éstos. Aquí algunas opciones.

In [None]:
df_fifa.show(10)

+---------+--------------------+-----------------+--------------------+---+----------+---------+---------+-----------+-------------------+-------+---------+---------+--------+----------------+--------------+------------------------+---------+-----------+-------------+-------------------+---------+------------------+--------------------+-------------+------------------+-----------+----------+--------------------+---------------+--------------------+----+--------+-------+---------+---------+------+---------+-----------+----------+-----------+--------+--------------+--------------------+------------------+-------------------+--------------------------+-----------------------+-----------------+---------------+-----------+-----------------+------------------+------------------+---------------------+---------------------+----------------+------------------+----------------+----------------+-------------+-------------+--------------+----------------+--------------------+----------------------

Si el contenido del DataFrame es lo suficientemente pequeño podemos transformar su contenido a un DataFrame de Pandas.

In [None]:
df_pequeño = df_fifa.limit(10)
df_pandas = df_pequeño.toPandas()
df_pandas.tail(5)

Unnamed: 0,sofifa_id,player_url,short_name,long_name,age,dob,height_cm,weight_kg,nationality,club,...,lwb,ldm,cdm,rdm,rwb,lb,lcb,cb,rcb,rb
5,192985,https://sofifa.com/player/192985/kevin-de-bruy...,K. De Bruyne,Kevin De Bruyne,28,1991-06-28,181,70,Belgium,Manchester City,...,77+3,77+3,77+3,77+3,77+3,73+3,66+3,66+3,66+3,73+3
6,192448,https://sofifa.com/player/192448/marc-andre-te...,M. ter Stegen,Marc-André ter Stegen,27,1992-04-30,187,85,Germany,FC Barcelona,...,,,,,,,,,,
7,203376,https://sofifa.com/player/203376/virgil-van-di...,V. van Dijk,Virgil van Dijk,27,1991-07-08,193,92,Netherlands,Liverpool,...,79+3,83+3,83+3,83+3,79+3,81+3,87+3,87+3,87+3,81+3
8,177003,https://sofifa.com/player/177003/luka-modric/2...,L. Modrić,Luka Modrić,33,1985-09-09,172,66,Croatia,Real Madrid,...,81+3,81+3,81+3,81+3,81+3,79+3,72+3,72+3,72+3,79+3
9,209331,https://sofifa.com/player/209331/mohamed-salah...,M. Salah,Mohamed Salah Ghaly,27,1992-06-15,175,71,Egypt,Liverpool,...,70+3,67+3,67+3,67+3,70+3,66+3,57+3,57+3,57+3,66+3


Con Spark podemos concatenar las operaciones de la celda pasada de la siguiente forma.

In [None]:
df_fifa.limit(10).toPandas().tail(5)

Unnamed: 0,sofifa_id,player_url,short_name,long_name,age,dob,height_cm,weight_kg,nationality,club,...,lwb,ldm,cdm,rdm,rwb,lb,lcb,cb,rcb,rb
5,192985,https://sofifa.com/player/192985/kevin-de-bruy...,K. De Bruyne,Kevin De Bruyne,28,1991-06-28,181,70,Belgium,Manchester City,...,77+3,77+3,77+3,77+3,77+3,73+3,66+3,66+3,66+3,73+3
6,192448,https://sofifa.com/player/192448/marc-andre-te...,M. ter Stegen,Marc-André ter Stegen,27,1992-04-30,187,85,Germany,FC Barcelona,...,,,,,,,,,,
7,203376,https://sofifa.com/player/203376/virgil-van-di...,V. van Dijk,Virgil van Dijk,27,1991-07-08,193,92,Netherlands,Liverpool,...,79+3,83+3,83+3,83+3,79+3,81+3,87+3,87+3,87+3,81+3
8,177003,https://sofifa.com/player/177003/luka-modric/2...,L. Modrić,Luka Modrić,33,1985-09-09,172,66,Croatia,Real Madrid,...,81+3,81+3,81+3,81+3,81+3,79+3,72+3,72+3,72+3,79+3
9,209331,https://sofifa.com/player/209331/mohamed-salah...,M. Salah,Mohamed Salah Ghaly,27,1992-06-15,175,71,Egypt,Liverpool,...,70+3,67+3,67+3,67+3,70+3,66+3,57+3,57+3,57+3,66+3


Aunque para ayudar a la legibilidad del codigo es comun separar las lineas largas asi.

In [None]:
df_fifa.limit(10) \
  .toPandas() \
  .head(5)

Unnamed: 0,sofifa_id,player_url,short_name,long_name,age,dob,height_cm,weight_kg,nationality,club,...,lwb,ldm,cdm,rdm,rwb,lb,lcb,cb,rcb,rb
0,158023,https://sofifa.com/player/158023/lionel-messi/...,L. Messi,Lionel Andrés Messi Cuccittini,32,1987-06-24,170,72,Argentina,FC Barcelona,...,68+2,66+2,66+2,66+2,68+2,63+2,52+2,52+2,52+2,63+2
1,20801,https://sofifa.com/player/20801/c-ronaldo-dos-...,Cristiano Ronaldo,Cristiano Ronaldo dos Santos Aveiro,34,1985-02-05,187,83,Portugal,Juventus,...,65+3,61+3,61+3,61+3,65+3,61+3,53+3,53+3,53+3,61+3
2,190871,https://sofifa.com/player/190871/neymar-da-sil...,Neymar Jr,Neymar da Silva Santos Junior,27,1992-02-05,175,68,Brazil,Paris Saint-Germain,...,66+3,61+3,61+3,61+3,66+3,61+3,46+3,46+3,46+3,61+3
3,200389,https://sofifa.com/player/200389/jan-oblak/20/...,J. Oblak,Jan Oblak,26,1993-01-07,188,87,Slovenia,Atlético Madrid,...,,,,,,,,,,
4,183277,https://sofifa.com/player/183277/eden-hazard/2...,E. Hazard,Eden Hazard,28,1991-01-07,175,74,Belgium,Real Madrid,...,66+3,63+3,63+3,63+3,66+3,61+3,49+3,49+3,49+3,61+3


Podemos ver el resumen de toda la base de datos a través del comando `summary()`, es importante que debe ser acompañado por `show()` para ser visible.

In [None]:
df_fifa.summary().show()

+-------+------------------+--------------------+-----------+--------------------+------------------+------------------+-----------------+-----------+--------------------+-----------------+-----------------+-----------------+-----------------+----------------+--------------+------------------------+------------------+------------------+-------------+---------+---------+--------------------+-----------+-------------+------------------+--------------------+--------------------+---------------+--------------------+-----------------+------------------+------------------+------------------+-----------------+-----------------+-----------------+------------------+------------------+-----------------+-----------------+-----------------+--------------------+------------------+-------------------+--------------------------+-----------------------+------------------+-----------------+------------------+------------------+------------------+------------------+---------------------+----------------

Para poder revisar la organización de nuestro DataFrame y el `data tpye` de cada campo podemos usar lo siguiente

In [None]:
df_fifa.printSchema()

root
 |-- sofifa_id: integer (nullable = true)
 |-- player_url: string (nullable = true)
 |-- short_name: string (nullable = true)
 |-- long_name: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- dob: date (nullable = true)
 |-- height_cm: integer (nullable = true)
 |-- weight_kg: integer (nullable = true)
 |-- nationality: string (nullable = true)
 |-- club: string (nullable = true)
 |-- overall: integer (nullable = true)
 |-- potential: integer (nullable = true)
 |-- value_eur: integer (nullable = true)
 |-- wage_eur: integer (nullable = true)
 |-- player_positions: string (nullable = true)
 |-- preferred_foot: string (nullable = true)
 |-- international_reputation: integer (nullable = true)
 |-- weak_foot: integer (nullable = true)
 |-- skill_moves: integer (nullable = true)
 |-- work_rate: string (nullable = true)
 |-- body_type: string (nullable = true)
 |-- real_face: string (nullable = true)
 |-- release_clause_eur: integer (nullable = true)
 |-- player_tags: st

### 1.3.2 Funciones

#### **Renombar columnas**

Podemos cambiar el nombre de alguna columna

In [None]:
df_fifa.withColumnRenamed('value_eur','valor_euros').show(5)

+---------+--------------------+-----------------+--------------------+---+----------+---------+---------+-----------+-------------------+-------+---------+-----------+--------+----------------+--------------+------------------------+---------+-----------+-------------+----------+---------+------------------+--------------------+-------------+------------------+-----------+----------+--------------------+---------------+--------------------+----+--------+-------+---------+---------+------+---------+-----------+----------+-----------+--------+--------------+--------------------+------------------+-------------------+--------------------------+-----------------------+-----------------+---------------+-----------+-----------------+------------------+------------------+---------------------+---------------------+----------------+------------------+----------------+----------------+-------------+-------------+--------------+----------------+--------------------+-----------------------+-----

In [None]:
df_fifa.show(5)

+---------+--------------------+-----------------+--------------------+---+----------+---------+---------+-----------+-------------------+-------+---------+---------+--------+----------------+--------------+------------------------+---------+-----------+-------------+----------+---------+------------------+--------------------+-------------+------------------+-----------+----------+--------------------+---------------+--------------------+----+--------+-------+---------+---------+------+---------+-----------+----------+-----------+--------+--------------+--------------------+------------------+-------------------+--------------------------+-----------------------+-----------------+---------------+-----------+-----------------+------------------+------------------+---------------------+---------------------+----------------+------------------+----------------+----------------+-------------+-------------+--------------+----------------+--------------------+-----------------------+-------

Notemos que la llamada a la función no afectara al DataFrame `df_fifa`, para conservar los cambios efectuados debemos guardar la salida de la función en otro DataFrame

In [None]:
df_ejemplo = df_fifa.withColumnRenamed('value_eur','valor_euros')
df_ejemplo.show(5)

+---------+--------------------+-----------------+--------------------+---+----------+---------+---------+-----------+-------------------+-------+---------+-----------+--------+----------------+--------------+------------------------+---------+-----------+-------------+----------+---------+------------------+--------------------+-------------+------------------+-----------+----------+--------------------+---------------+--------------------+----+--------+-------+---------+---------+------+---------+-----------+----------+-----------+--------+--------------+--------------------+------------------+-------------------+--------------------------+-----------------------+-----------------+---------------+-----------+-----------------+------------------+------------------+---------------------+---------------------+----------------+------------------+----------------+----------------+-------------+-------------+--------------+----------------+--------------------+-----------------------+-----

#### **Descartar columnas**

Tambien podemos descartar columnas


In [None]:
df_fifa.drop('weight_kg').show(5)

+---------+--------------------+-----------------+--------------------+---+----------+---------+-----------+-------------------+-------+---------+---------+--------+----------------+--------------+------------------------+---------+-----------+-------------+----------+---------+------------------+--------------------+-------------+------------------+-----------+----------+--------------------+---------------+--------------------+----+--------+-------+---------+---------+------+---------+-----------+----------+-----------+--------+--------------+--------------------+------------------+-------------------+--------------------------+-----------------------+-----------------+---------------+-----------+-----------------+------------------+------------------+---------------------+---------------------+----------------+------------------+----------------+----------------+-------------+-------------+--------------+----------------+--------------------+-----------------------+-----------------

#### **Ordenar**

Podemos ordenar a los jugadores por su valor en euros

In [None]:
df_fifa.orderBy('value_eur', ascending = False).show(5)

+---------+--------------------+------------+--------------------+---+----------+---------+---------+-----------+-------------------+-------+---------+---------+--------+----------------+--------------+------------------------+---------+-----------+-----------+---------+---------+------------------+--------------------+-------------+------------------+-----------+----------+--------------------+---------------+--------------------+----+--------+-------+---------+---------+------+---------+-----------+----------+-----------+--------+--------------+--------------------+------------------+-------------------+--------------------------+-----------------------+-----------------+---------------+-----------+-----------------+------------------+------------------+---------------------+---------------------+----------------+------------------+----------------+----------------+-------------+-------------+--------------+----------------+--------------------+-----------------------+---------------

#### **Filtrado con `where()`**

con la funcion `where()` podemos hacer un filtrado de nuestros datos. Por ejemplo, podemos querer tener solo la informacion de los jugadores mayores a 30 años.

In [None]:
df_fifa.where(df_ejemplo.age > 30).show(5)

+---------+--------------------+-----------------+--------------------+---+----------+---------+---------+-----------+---------------+-------+---------+---------+--------+----------------+--------------+------------------------+---------+-----------+-----------+----------+---------+------------------+--------------------+-------------+------------------+-----------+----------+--------------------+---------------+--------------------+----+--------+-------+---------+---------+------+---------+-----------+----------+-----------+--------+--------------+--------------------+------------------+-------------------+--------------------------+-----------------------+-----------------+---------------+-----------+-----------------+------------------+------------------+---------------------+---------------------+----------------+------------------+----------------+----------------+-------------+-------------+--------------+----------------+--------------------+-----------------------+-------------

tal vez quisieramos solo ver la informacion de los jugadores del Liverpool que tuviera mas de 30 años de edad.

In [None]:
df_fifa.where((df_ejemplo.age > 30) & (df_ejemplo.club == 'Liverpool')).show(10)

+---------+--------------------+-----------+--------------------+---+----------+---------+---------+-----------+---------+-------+---------+---------+--------+----------------+--------------+------------------------+---------+-----------+-------------+---------+---------+------------------+-----------------+-------------+------------------+-----------+----------+--------------------+---------------+--------------------+----+--------+-------+---------+---------+------+---------+-----------+----------+-----------+--------+--------------+--------------------+------------------+-------------------+--------------------------+-----------------------+-----------------+---------------+-----------+-----------------+------------------+------------------+---------------------+---------------------+----------------+------------------+----------------+----------------+-------------+-------------+--------------+----------------+--------------------+-----------------------+---------------------+-----

Si quisieramos usar más de una función de agregación tendriamos que hacer lo siguiente.

In [None]:
df_fifa.groupBy('club') \
  .agg(sum('value_eur').alias('valor_total'), \
       mean('age').alias('edad_promedio'))\
  .orderBy('valor_total', ascending = False) \
  .show(5)

+---------------+-----------+------------------+
|           club|valor_total|     edad_promedio|
+---------------+-----------+------------------+
|    Real Madrid|  897850000| 24.90909090909091|
|   FC Barcelona|  869300000|24.060606060606062|
|Manchester City|  845745000|24.333333333333332|
|       Juventus|  735475000|              27.0|
|      Liverpool|  693265000|24.484848484848484|
+---------------+-----------+------------------+
only showing top 5 rows



#### **Crear nuevas columnas**

Podemos crear columnas a partir de los valores de otras, por ejemplo, podríamos querer obtener el valor de los jugadores en pesos colombianos (1 EUR = 4390 COP).

In [None]:
#df_fifa.withColumn('valor_pesos', df_fifa.value_eur * 4390).show(5)
df_fifa.withColumn('valor_pesos', df_fifa.value_eur.cast('float')*43900).show(5)

+---------+--------------------+-----------------+--------------------+---+----------+---------+---------+-----------+-------------------+-------+---------+---------+--------+----------------+--------------+------------------------+---------+-----------+-------------+----------+---------+------------------+--------------------+-------------+------------------+-----------+----------+--------------------+---------------+--------------------+----+--------+-------+---------+---------+------+---------+-----------+----------+-----------+--------+--------------+--------------------+------------------+-------------------+--------------------------+-----------------------+-----------------+---------------+-----------+-----------------+------------------+------------------+---------------------+---------------------+----------------+------------------+----------------+----------------+-------------+-------------+--------------+----------------+--------------------+-----------------------+-------

## 1.3. Introducción a consultas SQL

El lector que esté familiarizado con SQL habrá notado que existe cierta similaridad entre las funciones de los DataFrames de PySpark con algunas sentencias de SQL. Este paralelismo llega a tal grado que podemos reemplazar la concatenación de varias funciones con una simple consulta SQL. Por ejemplo, si quisieramos consultar de nuevo cuales son los 5 equipos más caros, solo que esta vez haciendo una consulta SQL, haríamos los siguiente.

In [None]:
# Le dice a spark que guarde este DataFrame como una tabla SQL
df_fifa.createOrReplaceTempView('FIFA20')

consulta = '''
  SELECT club, SUM(value_eur) AS valor_total
  FROM FIFA20
  GROUP BY club
  ORDER BY valor_total DESC
  '''

spark.sql(consulta).show(5)

+---------------+-----------+
|           club|valor_total|
+---------------+-----------+
|    Real Madrid|  897850000|
|   FC Barcelona|  869300000|
|Manchester City|  845745000|
|       Juventus|  735475000|
|      Liverpool|  693265000|
+---------------+-----------+
only showing top 5 rows

