# EJERCICIOS

In [2]:
import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql.functions import lit, current_date, year, monotonically_increasing_id,  avg, min, coalesce
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DoubleType, DateType

spark = SparkSession.builder.master("local[*]").appName("pyspark_rdd").getOrCreate()
#spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

## EJERCICIO 0
En un documento word haz una lista de las diferentes operaciones con una breve descripción de lo que hace y un ejemplo de como se utiliza

# Operaciones comunes con DataFrames en Spark

## 1. **Creación de un DataFrame**
   - **Descripción**: Crear un DataFrame a partir de una lista, un RDD, o una fuente de datos externa como un archivo CSV, JSON, etc.
   - **Ejemplo**:
     ```python
     from pyspark.sql import SparkSession

     spark = SparkSession.builder.appName("example").getOrCreate()
     data = [("Alice", 34), ("Bob", 45), ("Cathy", 29)]
     columns = ["Name", "Age"]
     df = spark.createDataFrame(data, columns)
     df.show()
     ```

## 2. **Selección de columnas**
   - **Descripción**: Seleccionar una o más columnas de un DataFrame.
   - **Ejemplo**:
     ```python
     df.select("Name").show()
     ```

## 3. **Filtrado de filas**
   - **Descripción**: Filtrar filas basadas en una condición.
   - **Ejemplo**:
     ```python
     df.filter(df["Age"] > 30).show()
     ```

## 4. **Agregación**
   - **Descripción**: Realizar operaciones de agregación como `count`, `sum`, `avg`, `min`, `max`, etc.
   - **Ejemplo**:
     ```python
     from pyspark.sql import functions as F

     df.agg(F.max("Age")).show()
     ```

## 5. **Ordenación**
   - **Descripción**: Ordenar el DataFrame por una o más columnas.
   - **Ejemplo**:
     ```python
     df.orderBy("Age", ascending=False).show()
     ```

## 6. **Agrupación**
   - **Descripción**: Agrupar datos basados en una o más columnas y luego aplicar una función de agregación.
   - **Ejemplo**:
     ```python
     df.groupBy("Name").agg(F.sum("Age")).show()
     ```

## 7. **Unión de DataFrames**
   - **Descripción**: Unir dos DataFrames verticalmente (añadir filas).
   - **Ejemplo**:
     ```python
     df2 = spark.createDataFrame([("David", 50)], columns)
     df.union(df2).show()
     ```

## 8. **Join de DataFrames**
   - **Descripción**: Unir dos DataFrames horizontalmente basado en una clave común.
   - **Ejemplo**:
     ```python
     df3 = spark.createDataFrame([("Alice", "Engineer"), ("Bob", "Doctor")], ["Name", "Profession"])
     df.join(df3, on="Name", how="inner").show()
     ```

## 9. **Renombrar columnas**
   - **Descripción**: Cambiar el nombre de una o más columnas.
   - **Ejemplo**:
     ```python
     df.withColumnRenamed("Age", "Years").show()
     ```

## 10. **Añadir una nueva columna**
  - **Descripción**: Añadir una nueva columna basada en una expresión o transformación.
    - **Ejemplo**:
      ```python
      df = df.withColumn("AgePlus10", df["Age"] + 10)
      df.show()
      ```

## 11. **Eliminar columnas**
  - **Descripción**: Eliminar una o más columnas del DataFrame.
    - **Ejemplo**:
      ```python
      df = df.drop("AgePlus10")
      df.show()
      ```

## 12. **Distinct**
  - **Descripción**: Obtener filas únicas basadas en todas las columnas o un subconjunto de columnas.
    - **Ejemplo**:
      ```python
      df.select("Name").distinct().show()
      ```

## 13. **Persistencia (Caching)**
  - **Descripción**: Almacenar en caché un DataFrame para mejorar el rendimiento en operaciones repetitivas.
    - **Ejemplo**:
      ```python
      df.cache()
      df.count()  # Para materializar el caché
      ```

## 14. **Escritura en disco**
  - **Descripción**: Guardar un DataFrame en un archivo (CSV, JSON, Parquet, etc.).
    - **Ejemplo**:
      ```python
      df.write.csv("output.csv", header=True)
      ```

## 15. **Lectura desde disco**
  - **Descripción**: Leer un DataFrame desde un archivo (CSV, JSON, Parquet, etc.).
    - **Ejemplo**:
      ```python
      df = spark.read.csv("output.csv", header=True, inferSchema=True)
      df.show()
      ```

## 16. **Explode**
  - **Descripción**: Convertir una columna de tipo array o map en múltiples filas.
    - **Ejemplo**:
      ```python
      from pyspark.sql.functions import explode

      data = [("Alice", [1, 2, 3]), ("Bob", [4, 5])]
      columns = ["Name", "Numbers"]
      df = spark.createDataFrame(data, columns)
      df.withColumn("Number", explode("Numbers")).show()
      ```

## 17. **UDF (User Defined Functions)**
  - **Descripción**: Definir y utilizar una función personalizada en Spark.
    - **Ejemplo**:
      ```python
      from pyspark.sql.functions import udf
      from pyspark.sql.types import IntegerType

      def square(x):
          return x * x

      square_udf = udf(square, IntegerType())
      df.withColumn("AgeSquared", square_udf(df["Age"])).show()
      ```

## 18. **Window Functions**
  - **Descripción**: Realizar operaciones sobre una ventana de filas (por ejemplo, ranking, sumas acumulativas).
    - **Ejemplo**:
      ```python
      from pyspark.sql.window import Window
      from pyspark.sql.functions import row_number

      windowSpec = Window.orderBy("Age")
      df.withColumn("row_number", row_number().over(windowSpec)).show()
      ```

## 19. **Pivot**
  - **Descripción**: Convertir valores de una columna en múltiples columnas (pivote).
    - **Ejemplo**:
      ```python
      data = [("Alice", "Math", 80), ("Alice", "Science", 90), ("Bob", "Math", 85)]
      columns = ["Name", "Subject", "Score"]
      df = spark.createDataFrame(data, columns)
      df.groupBy("Name").pivot("Subject").avg("Score").show()
      ```

## 20. **Describe**
  - **Descripción**: Obtener estadísticas descriptivas de las columnas numéricas.
    - **Ejemplo**:
      ```python
      df.describe().show()
      ```

## 21. **Drop Duplicates**
  - **Descripción**: Eliminar filas duplicadas basadas en todas las columnas o un subconjunto de columnas.
    - **Ejemplo**:
      ```python
      df.dropDuplicates(["Name"]).show()
      ```

## 22. **Alias**
  - **Descripción**: Asignar un alias a una columna o tabla.
    - **Ejemplo**:
      ```python
      df.select(df["Name"].alias("Nombre")).show()
      ```

## 23. **Collect**
  - **Descripción**: Recopilar todas las filas del DataFrame como una lista en el driver.
    - **Ejemplo**:
      ```python
      rows = df.collect()
      for row in rows:
          print(row)
      ```

## 24. **Take**
  - **Descripción**: Obtener un número específico de filas del DataFrame.
    - **Ejemplo**:
      ```python
      rows = df.take(2)
      for row in rows:
          print(row)
      ```

## 25. **Schema**
  - **Descripción**: Obtener el esquema del DataFrame.
    - **Ejemplo**:
      ```python
      df.printSchema()
      ```

## 26. **WithColumn**
  - **Descripción**: Añadir o reemplazar una columna en el DataFrame.
    - **Ejemplo**:
      ```python
      df = df.withColumn("AgePlus10", df["Age"] + 10)
      df.show()
      ```

## 27. **Cast**
  - **Descripción**: Cambiar el tipo de datos de una columna.
    - **Ejemplo**:
      ```python
      from pyspark.sql.functions import col

      df = df.withColumn("Age", col("Age").cast("String"))
      df.printSchema()
      ```

## 28. **Sample**
   - **Descripción**: Obtener una muestra aleatoria de filas del DataFrame.
    - **Ejemplo**:
      ```python
      df.sample(0.5).show()
      ```

## 29. **Repartition**
   - **Descripción**: Cambiar el número de particiones del DataFrame.
    - **Ejemplo**:
      ```python
      df = df.repartition(4)
      print(df.rdd.getNumPartitions())
      ```

## 30. **Coalesce**
  - **Descripción**: Reducir el número de particiones del DataFrame.
    - **Ejemplo**:
      ```python
      df = df.coalesce(2)
      print(df.rdd.getNumPartitions())
      ```


## EJERCICIO 1
Realiza las siguientes operaciones:
* Importa el csv de "data/WorldCupPlayers.csv" (que deduzca el esquema)
* Visualiza los datos
* ¿Que tipo de datos contiene cada variable?
* ¿Cuantos registros hay?
* Obtén los principales estadísticos de Position
* Selecciona y muestra los "Team initials" diferentes que hay ¿Cuántos hay?
* ¿Cuantos partidos con el ID de 1096 ha habido?
* Muestra los datos donde la posicion haya sido C y el evento sea G40
* Utiliza Spark SQL para mostras los registros donde el MatchID sea mayor o igual a 20

In [3]:
# Importar las bibliotecas necesarias
from pyspark.sql import SparkSession

# 1. Crear una sesión de Spark
spark = SparkSession.builder.appName("WorldCupPlayersAnalysis").getOrCreate()  # Obtener o crear la sesión de Spark

# 2. Importar el archivo CSV y deducir el esquema
# Se lee el archivo CSV con encabezado y se infiere el esquema automáticamente
df = spark.read.csv("./WorldCupPlayers.csv", header=True, inferSchema=True)

# 3. Visualizar los datos
# Mostrar las primeras 5 filas del DataFrame para inspeccionar los datos
print("Visualización de los datos:")
df.show(5)

# 4. Verificar el tipo de datos de cada variable
# Mostrar el esquema del DataFrame para conocer los tipos de datos de cada columna
print("\nEsquema del DataFrame:")
df.printSchema()

# 5. Contar el número de registros
# Contar cuántos registros hay en el DataFrame
num_records = df.count()
print(f"\nNúmero de registros: {num_records}")

# 6. Obtener los principales estadísticos de la columna "Position"
# Usar la función describe() para obtener estadísticos como count, mean, stddev, min y max
print("\nEstadísticos de la columna 'Position':")
df.describe("Position").show()

# 7. Seleccionar y mostrar los "Team initials" diferentes y contar cuántos hay
# Seleccionar los valores únicos de la columna "Team Initials"
team_initials = df.select("Team Initials").distinct()
print("\nValores únicos de 'Team Initials':")
team_initials.show()

# Contar cuántos valores únicos hay en "Team Initials"
num_team_initials = team_initials.count()
print(f"\nNúmero de 'Team Initials' diferentes: {num_team_initials}")

# 8. Contar cuántos partidos con el ID de 1096 ha habido
# Filtrar el DataFrame para contar los registros donde MatchID sea 1096
num_matches_1096 = df.filter(df.MatchID == 1096).count()
print(f"\nNúmero de partidos con el ID 1096: {num_matches_1096}")

# 9. Mostrar los datos donde la posición haya sido "C" y el evento sea "G40"
# Filtrar el DataFrame para obtener registros donde Position sea "C" y Event sea "G40"
filtered_data = df.filter((df.Position == "C") & (df.Event == "G40"))
print("\nDatos filtrados donde Position es 'C' y Event es 'G40':")
filtered_data.show()

# 10. Utilizar Spark SQL para mostrar los registros donde el MatchID sea mayor o igual a 20
# Registrar el DataFrame como una vista temporal para poder usar Spark SQL
df.createOrReplaceTempView("world_cup_players")

# Ejecutar una consulta SQL para filtrar registros donde MatchID sea mayor o igual a 20
result = spark.sql("SELECT * FROM world_cup_players WHERE MatchID >= 20")
print("\nRegistros con MatchID mayor o igual a 20:")
result.show()

# 11. Cerrar la sesión de Spark
# Es importante cerrar la sesión de Spark al finalizar
spark.stop()

25/02/10 20:32:48 WARN SparkSession: Using an existing Spark session; only runtime SQL configurations will take effect.


Visualización de los datos:
+-------+-------+-------------+-------------------+-------+------------+----------------+--------+-----+
|RoundID|MatchID|Team Initials|         Coach Name|Line-up|Shirt Number|     Player Name|Position|Event|
+-------+-------+-------------+-------------------+-------+------------+----------------+--------+-----+
|    201|   1096|          FRA|CAUDRON Raoul (FRA)|      S|           0|     Alex THEPOT|      GK| NULL|
|    201|   1096|          MEX|   LUQUE Juan (MEX)|      S|           0| Oscar BONFIGLIO|      GK| NULL|
|    201|   1096|          FRA|CAUDRON Raoul (FRA)|      S|           0|Marcel LANGILLER|    NULL| G40'|
|    201|   1096|          MEX|   LUQUE Juan (MEX)|      S|           0|    Juan CARRENO|    NULL| G70'|
|    201|   1096|          FRA|CAUDRON Raoul (FRA)|      S|           0| Ernest LIBERATI|    NULL| NULL|
+-------+-------+-------------+-------------------+-------+------------+----------------+--------+-----+
only showing top 5 rows


E

## EJERCICIO 2

A partir del archivo nombres.json, crea un DataFrame y realiza las siguientes operaciones:

1. Crea una nueva columna (columna Mayor30) que indique si la persona es mayor de 30 años.
2. Crea una nueva columna (columna FaltanJubilacion) que calcule cuantos años le faltan para jubilarse (supongamos que se jubila a los 67 años)
3. Crea una nueva columna (columna Apellidos) que contenga XYZ (puedes utilizar la función lit)
4. Elimina las columna Mayor30 y Apellidos.
5. Crea una nueva columna (columna AnyoNac) con el año de nacimiento de cada persona (puedes utilizar la función current_date).
6. Añade un id incremental para cada fila (campo Id) y haz que al hacer un show se vea en primer lugar (puedes utilizar la función monotonically_increasing_id) seguidos del Nombre, Edad, AnyoNac, FaltaJubilacion y Ciudad

Al realizar los seis pasos, el resultado del DataFrame será similar a :
``````
+---+-------+----+-------+----------------+--------+
| Id|Nombre |Edad|AnyoNac|FaltanJubilacion|  Ciudad|
+---+-------+----+-------+----------------+--------+
|  0|  Aitor|  45|   1977|              22|   Elche|
|  1| Marina|  14|   2008|              53|Alicante|
|  2|  Laura|  19|   2003|              48|   Elche|
|  3|  Sonia|  45|   1977|              22|    Aspe|
|  4|  Pedro|null|   null|            null|   Elche|
+---+-------+----+-------+----------------+--------+
``````

## EJERCICIO 3

A partir del archivo VentasNulos.csv:

1. Elimina las filas que tengan al menos 4 nulos.

2. Con las filas restantes, sustituye:

    * Los nombres nulos por Empleado
    * Las ventas nulas por la media de las ventas de los compañeros (redondeado a entero).
    ``````
        media = df.groupBy().avg('Ventas')
    ``````
    * Los euros nulos por el valor del compañero que menos € ha ganado. (tras agrupar, puedes usar la función min)
    * La ciudad nula por C.V. y el identificador nulo por XYZ

## EJERCICIO 4

 A partir del archivo movies.tsv, crea una esquema de forma declarativa con los campos:

* interprete de tipo string
* pelicula de tipo string
* anyo de tipo int

Cada fila del fichero implica que el actor/actriz ha trabajado en dicha película en el año indicado.
1. Una vez creado el esquema, carga los datos en un DataFrame.

A continuación, mediante el DataFrame API:

2. Muestra las películas en las que ha trabajado Murphy, Eddie (I).
3. Muestra los intérpretes que aparecen tanto en Superman como en Superman II.

## EJERCICIO 5
Realiza las siguientes operaciones:
* Carga el dataset de “data/stocks_price_final.csv”, con el esquema correcto de datos (tienes que crear tu el schema").
* Renombra la variable market.cap a market
* Elimina la variable market
* Muestra las filas donde el valor de "open" es nulo.
* Elimina las filas donde el valor de "open" es nulo.
* Para comprobar el punto anterior vuelve a mostrar las filas donde el valor de "open" es nulo.
