# EJERCICIOS

In [58]:
import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql.functions import lit, current_date, year, monotonically_increasing_id,  avg, min, coalesce, col
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DoubleType, DateType

spark = SparkSession.builder.master("local[*]").appName("pyspark_rdd").getOrCreate()
#spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

## EJERCICIO 0
En un documento word haz una lista de las diferentes operaciones con una breve descripción de lo que hace y un ejemplo de como se utiliza

# Operaciones comunes con DataFrames en Spark

## 1. **Creación de un DataFrame**
   - **Descripción**: Crear un DataFrame a partir de una lista, un RDD, o una fuente de datos externa como un archivo CSV, JSON, etc.
   - **Ejemplo**:
     ```python
     from pyspark.sql import SparkSession

     spark = SparkSession.builder.appName("example").getOrCreate()
     data = [("Alice", 34), ("Bob", 45), ("Cathy", 29)]
     columns = ["Name", "Age"]
     df = spark.createDataFrame(data, columns)
     df.show()
     ```

## 2. **Selección de columnas**
   - **Descripción**: Seleccionar una o más columnas de un DataFrame.
   - **Ejemplo**:
     ```python
     df.select("Name").show()
     ```

## 3. **Filtrado de filas**
   - **Descripción**: Filtrar filas basadas en una condición.
   - **Ejemplo**:
     ```python
     df.filter(df["Age"] > 30).show()
     ```

## 4. **Agregación**
   - **Descripción**: Realizar operaciones de agregación como `count`, `sum`, `avg`, `min`, `max`, etc.
   - **Ejemplo**:
     ```python
     from pyspark.sql import functions as F

     df.agg(F.max("Age")).show()
     ```

## 5. **Ordenación**
   - **Descripción**: Ordenar el DataFrame por una o más columnas.
   - **Ejemplo**:
     ```python
     df.orderBy("Age", ascending=False).show()
     ```

## 6. **Agrupación**
   - **Descripción**: Agrupar datos basados en una o más columnas y luego aplicar una función de agregación.
   - **Ejemplo**:
     ```python
     df.groupBy("Name").agg(F.sum("Age")).show()
     ```

## 7. **Unión de DataFrames**
   - **Descripción**: Unir dos DataFrames verticalmente (añadir filas).
   - **Ejemplo**:
     ```python
     df2 = spark.createDataFrame([("David", 50)], columns)
     df.union(df2).show()
     ```

## 8. **Join de DataFrames**
   - **Descripción**: Unir dos DataFrames horizontalmente basado en una clave común.
   - **Ejemplo**:
     ```python
     df3 = spark.createDataFrame([("Alice", "Engineer"), ("Bob", "Doctor")], ["Name", "Profession"])
     df.join(df3, on="Name", how="inner").show()
     ```

## 9. **Renombrar columnas**
   - **Descripción**: Cambiar el nombre de una o más columnas.
   - **Ejemplo**:
     ```python
     df.withColumnRenamed("Age", "Years").show()
     ```

## 10. **Añadir una nueva columna**
  - **Descripción**: Añadir una nueva columna basada en una expresión o transformación.
    - **Ejemplo**:
      ```python
      df = df.withColumn("AgePlus10", df["Age"] + 10)
      df.show()
      ```

## 11. **Eliminar columnas**
  - **Descripción**: Eliminar una o más columnas del DataFrame.
    - **Ejemplo**:
      ```python
      df = df.drop("AgePlus10")
      df.show()
      ```

## 12. **Distinct**
  - **Descripción**: Obtener filas únicas basadas en todas las columnas o un subconjunto de columnas.
    - **Ejemplo**:
      ```python
      df.select("Name").distinct().show()
      ```

## 13. **Persistencia (Caching)**
  - **Descripción**: Almacenar en caché un DataFrame para mejorar el rendimiento en operaciones repetitivas.
    - **Ejemplo**:
      ```python
      df.cache()
      df.count()  # Para materializar el caché
      ```

## 14. **Escritura en disco**
  - **Descripción**: Guardar un DataFrame en un archivo (CSV, JSON, Parquet, etc.).
    - **Ejemplo**:
      ```python
      df.write.csv("output.csv", header=True)
      ```

## 15. **Lectura desde disco**
  - **Descripción**: Leer un DataFrame desde un archivo (CSV, JSON, Parquet, etc.).
    - **Ejemplo**:
      ```python
      df = spark.read.csv("output.csv", header=True, inferSchema=True)
      df.show()
      ```

## 16. **Explode**
  - **Descripción**: Convertir una columna de tipo array o map en múltiples filas.
    - **Ejemplo**:
      ```python
      from pyspark.sql.functions import explode

      data = [("Alice", [1, 2, 3]), ("Bob", [4, 5])]
      columns = ["Name", "Numbers"]
      df = spark.createDataFrame(data, columns)
      df.withColumn("Number", explode("Numbers")).show()
      ```

## 17. **UDF (User Defined Functions)**
  - **Descripción**: Definir y utilizar una función personalizada en Spark.
    - **Ejemplo**:
      ```python
      from pyspark.sql.functions import udf
      from pyspark.sql.types import IntegerType

      def square(x):
          return x * x

      square_udf = udf(square, IntegerType())
      df.withColumn("AgeSquared", square_udf(df["Age"])).show()
      ```

## 18. **Window Functions**
  - **Descripción**: Realizar operaciones sobre una ventana de filas (por ejemplo, ranking, sumas acumulativas).
    - **Ejemplo**:
      ```python
      from pyspark.sql.window import Window
      from pyspark.sql.functions import row_number

      windowSpec = Window.orderBy("Age")
      df.withColumn("row_number", row_number().over(windowSpec)).show()
      ```

## 19. **Pivot**
  - **Descripción**: Convertir valores de una columna en múltiples columnas (pivote).
    - **Ejemplo**:
      ```python
      data = [("Alice", "Math", 80), ("Alice", "Science", 90), ("Bob", "Math", 85)]
      columns = ["Name", "Subject", "Score"]
      df = spark.createDataFrame(data, columns)
      df.groupBy("Name").pivot("Subject").avg("Score").show()
      ```

## 20. **Describe**
  - **Descripción**: Obtener estadísticas descriptivas de las columnas numéricas.
    - **Ejemplo**:
      ```python
      df.describe().show()
      ```

## 21. **Drop Duplicates**
  - **Descripción**: Eliminar filas duplicadas basadas en todas las columnas o un subconjunto de columnas.
    - **Ejemplo**:
      ```python
      df.dropDuplicates(["Name"]).show()
      ```

## 22. **Alias**
  - **Descripción**: Asignar un alias a una columna o tabla.
    - **Ejemplo**:
      ```python
      df.select(df["Name"].alias("Nombre")).show()
      ```

## 23. **Collect**
  - **Descripción**: Recopilar todas las filas del DataFrame como una lista en el driver.
    - **Ejemplo**:
      ```python
      rows = df.collect()
      for row in rows:
          print(row)
      ```

## 24. **Take**
  - **Descripción**: Obtener un número específico de filas del DataFrame.
    - **Ejemplo**:
      ```python
      rows = df.take(2)
      for row in rows:
          print(row)
      ```

## 25. **Schema**
  - **Descripción**: Obtener el esquema del DataFrame.
    - **Ejemplo**:
      ```python
      df.printSchema()
      ```

## 26. **WithColumn**
  - **Descripción**: Añadir o reemplazar una columna en el DataFrame.
    - **Ejemplo**:
      ```python
      df = df.withColumn("AgePlus10", df["Age"] + 10)
      df.show()
      ```

## 27. **Cast**
  - **Descripción**: Cambiar el tipo de datos de una columna.
    - **Ejemplo**:
      ```python
      from pyspark.sql.functions import col

      df = df.withColumn("Age", col("Age").cast("String"))
      df.printSchema()
      ```

## 28. **Sample**
   - **Descripción**: Obtener una muestra aleatoria de filas del DataFrame.
    - **Ejemplo**:
      ```python
      df.sample(0.5).show()
      ```

## 29. **Repartition**
   - **Descripción**: Cambiar el número de particiones del DataFrame.
    - **Ejemplo**:
      ```python
      df = df.repartition(4)
      print(df.rdd.getNumPartitions())
      ```

## 30. **Coalesce**
  - **Descripción**: Reducir el número de particiones del DataFrame.
    - **Ejemplo**:
      ```python
      df = df.coalesce(2)
      print(df.rdd.getNumPartitions())
      ```


## EJERCICIO 1
Realiza las siguientes operaciones:
* Importa el csv de "data/WorldCupPlayers.csv" (que deduzca el esquema)
* Visualiza los datos
* ¿Que tipo de datos contiene cada variable?
* ¿Cuantos registros hay?
* Obtén los principales estadísticos de Position
* Selecciona y muestra los "Team initials" diferentes que hay ¿Cuántos hay?
* ¿Cuantos partidos con el ID de 1096 ha habido?
* Muestra los datos donde la posicion haya sido C y el evento sea G40
* Utiliza Spark SQL para mostras los registros donde el MatchID sea mayor o igual a 20

In [59]:
# Se lee el archivo CSV con encabezado y se infiere el esquema automáticamente
df = spark.read.csv("./WorldCupPlayers.csv", header=True, inferSchema=True)

In [60]:
# Mostrar las primeras 5 filas del DataFrame para inspeccionar los datos
print("Visualización de los datos:")
df.show(5)

Visualización de los datos:
+-------+-------+-------------+-------------------+-------+------------+----------------+--------+-----+
|RoundID|MatchID|Team Initials|         Coach Name|Line-up|Shirt Number|     Player Name|Position|Event|
+-------+-------+-------------+-------------------+-------+------------+----------------+--------+-----+
|    201|   1096|          FRA|CAUDRON Raoul (FRA)|      S|           0|     Alex THEPOT|      GK| NULL|
|    201|   1096|          MEX|   LUQUE Juan (MEX)|      S|           0| Oscar BONFIGLIO|      GK| NULL|
|    201|   1096|          FRA|CAUDRON Raoul (FRA)|      S|           0|Marcel LANGILLER|    NULL| G40'|
|    201|   1096|          MEX|   LUQUE Juan (MEX)|      S|           0|    Juan CARRENO|    NULL| G70'|
|    201|   1096|          FRA|CAUDRON Raoul (FRA)|      S|           0| Ernest LIBERATI|    NULL| NULL|
+-------+-------+-------------+-------------------+-------+------------+----------------+--------+-----+
only showing top 5 rows



In [61]:
# Mostrar el esquema del DataFrame para conocer los tipos de datos de cada columna
print("\nEsquema del DataFrame:")
df.printSchema()


Esquema del DataFrame:
root
 |-- RoundID: integer (nullable = true)
 |-- MatchID: integer (nullable = true)
 |-- Team Initials: string (nullable = true)
 |-- Coach Name: string (nullable = true)
 |-- Line-up: string (nullable = true)
 |-- Shirt Number: integer (nullable = true)
 |-- Player Name: string (nullable = true)
 |-- Position: string (nullable = true)
 |-- Event: string (nullable = true)



In [62]:
# Contar cuántos registros hay en el DataFrame
num_records = df.count()
print(f"\nNúmero de registros: {num_records}")


Número de registros: 37784


In [63]:
# Usar la función describe() para obtener estadísticas como count, mean, stddev, min y max de position
print("\nEstadísticos de la columna 'Position':")
df.describe("Position").show()


Estadísticos de la columna 'Position':
+-------+--------+
|summary|Position|
+-------+--------+
|  count|    4143|
|   mean|    NULL|
| stddev|    NULL|
|    min|       C|
|    max|     GKC|
+-------+--------+



In [64]:
# Seleccionar los valores únicos de la columna "Team Initials"
team_initials = df.select("Team Initials").distinct()
team_initials.show()
# Contar cuántos valores únicos hay en "Team Initials"
num_team_initials = team_initials.count()
print(f"\nNúmero de 'Team Initials' diferentes: {num_team_initials}")

+-------------+
|Team Initials|
+-------------+
|          POL|
|          JAM|
|          BRA|
|          CUB|
|          FRA|
|          ALG|
|          BOL|
|          RSA|
|          ITA|
|          UKR|
|          CMR|
|          SCG|
|          GHA|
|          SEN|
|          TOG|
|          TRI|
|          TCH|
|          AUS|
|          MEX|
|          PAR|
+-------------+
only showing top 20 rows


Número de 'Team Initials' diferentes: 82


In [65]:
# Filtrar el DataFrame para contar los registros donde MatchID sea 1096
num_matches_1096 = df.filter(df.MatchID == 1096).count()
print(f"\nNúmero de partidos con el ID 1096: {num_matches_1096}")



Número de partidos con el ID 1096: 33


In [66]:
# Filtrar el DataFrame para obtener registros donde Position sea "C" y Event sea "G40"
filtered_data = df.filter((df.Position == "C") & (df.Event == "G40'"))
filtered_data.show()

+-------+-------+-------------+--------------------+-------+------------+----------------+--------+-----+
|RoundID|MatchID|Team Initials|          Coach Name|Line-up|Shirt Number|     Player Name|Position|Event|
+-------+-------+-------------+--------------------+-------+------------+----------------+--------+-----+
|    201|   1089|          PAR|DURAND LAGUNA Jos...|      S|           0|Luis VARGAS PENA|       C| G40'|
|    429|   1175|          HUN|  DIETZ Karoly (HUN)|      S|           0|   Gyorgy SAROSI|       C| G40'|
+-------+-------+-------------+--------------------+-------+------------+----------------+--------+-----+



In [67]:
# Registrar el DataFrame como una vista temporal para poder usar Spark SQL
df.createOrReplaceTempView("world_cup_players")

# Ejecutar una consulta SQL para filtrar registros donde MatchID sea mayor o igual a 20
result = spark.sql("SELECT * FROM world_cup_players WHERE MatchID >= 20")
result.show()

+-------+-------+-------------+-------------------+-------+------------+-----------------+--------+---------+
|RoundID|MatchID|Team Initials|         Coach Name|Line-up|Shirt Number|      Player Name|Position|    Event|
+-------+-------+-------------+-------------------+-------+------------+-----------------+--------+---------+
|    201|   1096|          FRA|CAUDRON Raoul (FRA)|      S|           0|      Alex THEPOT|      GK|     NULL|
|    201|   1096|          MEX|   LUQUE Juan (MEX)|      S|           0|  Oscar BONFIGLIO|      GK|     NULL|
|    201|   1096|          FRA|CAUDRON Raoul (FRA)|      S|           0| Marcel LANGILLER|    NULL|     G40'|
|    201|   1096|          MEX|   LUQUE Juan (MEX)|      S|           0|     Juan CARRENO|    NULL|     G70'|
|    201|   1096|          FRA|CAUDRON Raoul (FRA)|      S|           0|  Ernest LIBERATI|    NULL|     NULL|
|    201|   1096|          MEX|   LUQUE Juan (MEX)|      S|           0|     Rafael GARZA|       C|     NULL|
|    201| 

## EJERCICIO 2

A partir del archivo nombres.json, crea un DataFrame y realiza las siguientes operaciones:

1. Crea una nueva columna (columna Mayor30) que indique si la persona es mayor de 30 años.
2. Crea una nueva columna (columna FaltanJubilacion) que calcule cuantos años le faltan para jubilarse (supongamos que se jubila a los 67 años)
3. Crea una nueva columna (columna Apellidos) que contenga XYZ (puedes utilizar la función lit)
4. Elimina las columna Mayor30 y Apellidos.
5. Crea una nueva columna (columna AnyoNac) con el año de nacimiento de cada persona (puedes utilizar la función current_date).
6. Añade un id incremental para cada fila (campo Id) y haz que al hacer un show se vea en primer lugar (puedes utilizar la función monotonically_increasing_id) seguidos del Nombre, Edad, AnyoNac, FaltaJubilacion y Ciudad

Al realizar los seis pasos, el resultado del DataFrame será similar a :
``````
+---+-------+----+-------+----------------+--------+
| Id|Nombre |Edad|AnyoNac|FaltanJubilacion|  Ciudad|
+---+-------+----+-------+----------------+--------+
|  0|  Aitor|  45|   1977|              22|   Elche|
|  1| Marina|  14|   2008|              53|Alicante|
|  2|  Laura|  19|   2003|              48|   Elche|
|  3|  Sonia|  45|   1977|              22|    Aspe|
|  4|  Pedro|null|   null|            null|   Elche|
+---+-------+----+-------+----------------+--------+
``````

In [None]:
df2 = spark.read.json("./nombres.json")
df2= df2.withColumn("Id", monotonically_increasing_id())
df2=df2.withColumn("Mayor30", df2["edad"]>30)
df2=df2.withColumn("FaltanJubilacion", 67-df2["edad"])
df2=df2.withColumn("Apellidos", lit("XYZ")) 
df2.show()

+--------+----+------+---+-------+----------------+---------+
|  Ciudad|Edad|Nombre| Id|Mayor30|FaltanJubilacion|Apellidos|
+--------+----+------+---+-------+----------------+---------+
|   Elche|  45| Aitor|  0|   true|              22|      XYZ|
|Alicante|  14|Marina|  1|  false|              53|      XYZ|
|   Elche|  19| Laura|  2|  false|              48|      XYZ|
|    Aspe|  45| Sonia|  3|   true|              22|      XYZ|
|   Elche|NULL| Pedro|  4|   NULL|            NULL|      XYZ|
+--------+----+------+---+-------+----------------+---------+



In [77]:
df2=df2.drop("Apellidos", "Mayor30")
df2.show()

+--------+----+------+---+----------------+
|  Ciudad|Edad|Nombre| Id|FaltanJubilacion|
+--------+----+------+---+----------------+
|   Elche|  45| Aitor|  0|              22|
|Alicante|  14|Marina|  1|              53|
|   Elche|  19| Laura|  2|              48|
|    Aspe|  45| Sonia|  3|              22|
|   Elche|NULL| Pedro|  4|            NULL|
+--------+----+------+---+----------------+



In [84]:
df2=df2.withColumn("AnyoNac", year(current_date()) - col("edad"))
df2.show()

+---+------+----+-------+----------------+--------+
| Id|Nombre|Edad|AnyoNac|FaltanJubilacion|  Ciudad|
+---+------+----+-------+----------------+--------+
|  0| Aitor|  45|   1980|              22|   Elche|
|  1|Marina|  14|   2011|              53|Alicante|
|  2| Laura|  19|   2006|              48|   Elche|
|  3| Sonia|  45|   1980|              22|    Aspe|
|  4| Pedro|NULL|   NULL|            NULL|   Elche|
+---+------+----+-------+----------------+--------+



In [86]:
df2 = df2.select("Id", "Nombre", "Edad", "AnyoNac", "FaltanJubilacion", "Ciudad")

df2.show()

+---+------+----+-------+----------------+--------+
| Id|Nombre|Edad|AnyoNac|FaltanJubilacion|  Ciudad|
+---+------+----+-------+----------------+--------+
|  0| Aitor|  45|   1980|              22|   Elche|
|  1|Marina|  14|   2011|              53|Alicante|
|  2| Laura|  19|   2006|              48|   Elche|
|  3| Sonia|  45|   1980|              22|    Aspe|
|  4| Pedro|NULL|   NULL|            NULL|   Elche|
+---+------+----+-------+----------------+--------+



## EJERCICIO 3

A partir del archivo VentasNulos.csv:

1. Elimina las filas que tengan al menos 4 nulos.

2. Con las filas restantes, sustituye:

    * Los nombres nulos por Empleado
    * Las ventas nulas por la media de las ventas de los compañeros (redondeado a entero).
    ``````
        media = df.groupBy().avg('Ventas')
    ``````
    * Los euros nulos por el valor del compañero que menos € ha ganado. (tras agrupar, puedes usar la función min)
    * La ciudad nula por C.V. y el identificador nulo por XYZ

In [107]:
df3 = spark.read.csv("./VentasNulos.csv", header=True, inferSchema=True)
df3.show()

+------+------+-----+-----------+-------------+
|Nombre|Ventas|Euros|     Ciudad|Identificador|
+------+------+-----+-----------+-------------+
|  Pepe|     4|  200|      Elche|          X21|
|Andreu|     8| NULL|       NULL|         NULL|
|  Juan|  NULL| NULL|       NULL|          C54|
| Pedro|     1|   30|   Valencia|          R23|
| María|  NULL|  300| Torrellano|         NULL|
|Marina|     3|  350|       Aspe|          V55|
|  NULL|    10|  500|Crevillente|          AMV|
|   Ana|    10| 2300|   Alicante|          B89|
|  NULL|  NULL| NULL|       NULL|         NULL|
| Jorge|     8| NULL|       NULL|          T19|
+------+------+-----+-----------+-------------+



In [108]:
df3= df3.dropna(thresh=1)
df3.show()  

+------+------+-----+-----------+-------------+
|Nombre|Ventas|Euros|     Ciudad|Identificador|
+------+------+-----+-----------+-------------+
|  Pepe|     4|  200|      Elche|          X21|
|Andreu|     8| NULL|       NULL|         NULL|
|  Juan|  NULL| NULL|       NULL|          C54|
| Pedro|     1|   30|   Valencia|          R23|
| María|  NULL|  300| Torrellano|         NULL|
|Marina|     3|  350|       Aspe|          V55|
|  NULL|    10|  500|Crevillente|          AMV|
|   Ana|    10| 2300|   Alicante|          B89|
| Jorge|     8| NULL|       NULL|          T19|
+------+------+-----+-----------+-------------+



In [109]:
df3=df3.fillna("Empleado", subset=["Nombre"])
df3.show()

+--------+------+-----+-----------+-------------+
|  Nombre|Ventas|Euros|     Ciudad|Identificador|
+--------+------+-----+-----------+-------------+
|    Pepe|     4|  200|      Elche|          X21|
|  Andreu|     8| NULL|       NULL|         NULL|
|    Juan|  NULL| NULL|       NULL|          C54|
|   Pedro|     1|   30|   Valencia|          R23|
|   María|  NULL|  300| Torrellano|         NULL|
|  Marina|     3|  350|       Aspe|          V55|
|Empleado|    10|  500|Crevillente|          AMV|
|     Ana|    10| 2300|   Alicante|          B89|
|   Jorge|     8| NULL|       NULL|          T19|
+--------+------+-----+-----------+-------------+



In [110]:
media = df3.groupBy().avg('Ventas')
df3 = df3.fillna(media.collect()[0][0], subset=['Ventas'])
df3.show()

+--------+------+-----+-----------+-------------+
|  Nombre|Ventas|Euros|     Ciudad|Identificador|
+--------+------+-----+-----------+-------------+
|    Pepe|     4|  200|      Elche|          X21|
|  Andreu|     8| NULL|       NULL|         NULL|
|    Juan|     6| NULL|       NULL|          C54|
|   Pedro|     1|   30|   Valencia|          R23|
|   María|     6|  300| Torrellano|         NULL|
|  Marina|     3|  350|       Aspe|          V55|
|Empleado|    10|  500|Crevillente|          AMV|
|     Ana|    10| 2300|   Alicante|          B89|
|   Jorge|     8| NULL|       NULL|          T19|
+--------+------+-----+-----------+-------------+



In [111]:
minEuros = df3.groupBy().min('Euros')
df3 = df3.fillna(minEuros.collect()[0][0], subset=['Euros'])
df3.show()

+--------+------+-----+-----------+-------------+
|  Nombre|Ventas|Euros|     Ciudad|Identificador|
+--------+------+-----+-----------+-------------+
|    Pepe|     4|  200|      Elche|          X21|
|  Andreu|     8|   30|       NULL|         NULL|
|    Juan|     6|   30|       NULL|          C54|
|   Pedro|     1|   30|   Valencia|          R23|
|   María|     6|  300| Torrellano|         NULL|
|  Marina|     3|  350|       Aspe|          V55|
|Empleado|    10|  500|Crevillente|          AMV|
|     Ana|    10| 2300|   Alicante|          B89|
|   Jorge|     8|   30|       NULL|          T19|
+--------+------+-----+-----------+-------------+



In [112]:
df3 = df3.fillna("C.V.", subset=["Ciudad"])
df3=df3.fillna("XYZ", subset=["Identificador"])
df3.show()  

+--------+------+-----+-----------+-------------+
|  Nombre|Ventas|Euros|     Ciudad|Identificador|
+--------+------+-----+-----------+-------------+
|    Pepe|     4|  200|      Elche|          X21|
|  Andreu|     8|   30|       C.V.|          XYZ|
|    Juan|     6|   30|       C.V.|          C54|
|   Pedro|     1|   30|   Valencia|          R23|
|   María|     6|  300| Torrellano|          XYZ|
|  Marina|     3|  350|       Aspe|          V55|
|Empleado|    10|  500|Crevillente|          AMV|
|     Ana|    10| 2300|   Alicante|          B89|
|   Jorge|     8|   30|       C.V.|          T19|
+--------+------+-----+-----------+-------------+



## EJERCICIO 4

 A partir del archivo movies.tsv, crea una esquema de forma declarativa con los campos:

* interprete de tipo string
* pelicula de tipo string
* anyo de tipo int

Cada fila del fichero implica que el actor/actriz ha trabajado en dicha película en el año indicado.
1. Una vez creado el esquema, carga los datos en un DataFrame.

A continuación, mediante el DataFrame API:

2. Muestra las películas en las que ha trabajado Murphy, Eddie (I).
3. Muestra los intérpretes que aparecen tanto en Superman como en Superman II.

In [117]:
schema = StructType([
    StructField("interprete", StringType(), True),
    StructField("pelicula", StringType(), True),
    StructField("anyo", IntegerType(), True)
])

df4 = spark.read.csv("./movies.tsv", sep="\t", header=True, schema=schema)
df4.show()

+-----------------+--------------------+----+
|       interprete|            pelicula|anyo|
+-----------------+--------------------+----+
|McClure, Marc (I)|        Coach Carter|2005|
|McClure, Marc (I)|         Superman II|1980|
|McClure, Marc (I)|           Apollo 13|1995|
|McClure, Marc (I)|            Superman|1978|
|McClure, Marc (I)|  Back to the Future|1985|
|McClure, Marc (I)|Back to the Futur...|1990|
|Cooper, Chris (I)|  Me, Myself & Irene|2000|
|Cooper, Chris (I)|         October Sky|1999|
|Cooper, Chris (I)|              Capote|2005|
|Cooper, Chris (I)|The Bourne Supremacy|2004|
|Cooper, Chris (I)|         The Patriot|2000|
|Cooper, Chris (I)|            The Town|2010|
|Cooper, Chris (I)|          Seabiscuit|2003|
|Cooper, Chris (I)|      A Time to Kill|1996|
|Cooper, Chris (I)|Where the Wild Th...|2009|
|Cooper, Chris (I)|         The Muppets|2011|
|Cooper, Chris (I)|     American Beauty|1999|
|Cooper, Chris (I)|             Syriana|2005|
|Cooper, Chris (I)| The Horse Whis

25/02/12 19:18:17 WARN CSVHeaderChecker: CSV header does not conform to the schema.
 Header: McClure, Marc (I), Freaky Friday, 2003
 Schema: interprete, pelicula, anyo
Expected: interprete but found: McClure, Marc (I)
CSV file: file:///home/iabd/Escritorio/IABD/Big-Data/BD%20Aplicado/UD%203/movies.tsv


In [118]:
murphy = df4.filter(df4.interprete == "Murphy, Eddie (I)")
murphy.show()

+-----------------+--------------------+----+
|       interprete|            pelicula|anyo|
+-----------------+--------------------+----+
|Murphy, Eddie (I)|            Showtime|2002|
|Murphy, Eddie (I)|              Norbit|2007|
|Murphy, Eddie (I)|Hot Tub Time Machine|2010|
|Murphy, Eddie (I)|Nutty Professor I...|2000|
|Murphy, Eddie (I)|Beverly Hills Cop II|1987|
|Murphy, Eddie (I)|      Trading Places|1983|
|Murphy, Eddie (I)|      Daddy Day Care|2003|
|Murphy, Eddie (I)|      Dr. Dolittle 2|2001|
|Murphy, Eddie (I)| Shrek Forever After|2010|
|Murphy, Eddie (I)|   Beverly Hills Cop|1984|
|Murphy, Eddie (I)|               Shrek|2001|
|Murphy, Eddie (I)| The Haunted Mansion|2003|
|Murphy, Eddie (I)|   Coming to America|1988|
|Murphy, Eddie (I)|             Shrek 2|2004|
|Murphy, Eddie (I)|     Doctor Dolittle|1998|
|Murphy, Eddie (I)| The Nutty Professor|1996|
|Murphy, Eddie (I)|               Mulan|1998|
|Murphy, Eddie (I)|         Tower Heist|2011|
|Murphy, Eddie (I)|          Dream

25/02/12 19:19:39 WARN CSVHeaderChecker: CSV header does not conform to the schema.
 Header: McClure, Marc (I), Freaky Friday, 2003
 Schema: interprete, pelicula, anyo
Expected: interprete but found: McClure, Marc (I)
CSV file: file:///home/iabd/Escritorio/IABD/Big-Data/BD%20Aplicado/UD%203/movies.tsv


In [122]:
superman= df4.filter((df4.pelicula == "Superman") | (df4.pelicula == "Superman II"))
superman.show()

+--------------------+-----------+----+
|          interprete|   pelicula|anyo|
+--------------------+-----------+----+
|   McClure, Marc (I)|Superman II|1980|
|   McClure, Marc (I)|   Superman|1978|
|    Lipinski, Eugene|Superman II|1980|
|       Calder, David|   Superman|1978|
|      Brando, Marlon|   Superman|1978|
|        Tuerpe, Paul|   Superman|1978|
|   Marzello, Vincent|   Superman|1978|
|Griffiths, Richar...|Superman II|1980|
|    Perrine, Valerie|   Superman|1978|
|    Perrine, Valerie|Superman II|1980|
|     Chancer, Norman|Superman II|1980|
|       Hackman, Gene|Superman II|1980|
|       Hackman, Gene|   Superman|1978|
|      Stamp, Terence|   Superman|1978|
|      Stamp, Terence|Superman II|1980|
|    Hollis, John (I)|   Superman|1978|
|    Hollis, John (I)|Superman II|1980|
|        Lyons, Derek|Superman II|1980|
|        Kahan, Steve|   Superman|1978|
|    Jurgensen, Randy|   Superman|1978|
+--------------------+-----------+----+
only showing top 20 rows



25/02/12 19:23:45 WARN CSVHeaderChecker: CSV header does not conform to the schema.
 Header: McClure, Marc (I), Freaky Friday, 2003
 Schema: interprete, pelicula, anyo
Expected: interprete but found: McClure, Marc (I)
CSV file: file:///home/iabd/Escritorio/IABD/Big-Data/BD%20Aplicado/UD%203/movies.tsv


## EJERCICIO 5
Realiza las siguientes operaciones:
* Carga el dataset de “data/stocks_price_final.csv”, con el esquema correcto de datos (tienes que crear tu el schema").
* Renombra la variable market.cap a market
* Elimina la variable market
* Muestra las filas donde el valor de "open" es nulo.
* Elimina las filas donde el valor de "open" es nulo.
* Para comprobar el punto anterior vuelve a mostrar las filas donde el valor de "open" es nulo.


In [150]:
schema = StructType([
    StructField("id", IntegerType(), True),            
    StructField("symbol", StringType(), True),          
    StructField("date", StringType(), True),            
    StructField("open", DoubleType(), True),            
    StructField("high", DoubleType(), True),             
    StructField("low", DoubleType(), True),              
    StructField("close", DoubleType(), True),            
    StructField("volume", IntegerType(), True),         
    StructField("adjusted", DoubleType(), True),         
    StructField("market.cap", StringType(), True),      
    StructField("sector", StringType(), True),          
    StructField("industry", StringType(), True),        
    StructField("exchange", StringType(), True)         
])


df5 = spark.read.csv("./stocks_price_final.csv", header=True, schema=schema)
df5.show()

+---+------+----------+---------+---------+---------+---------+-------+---------+----------+-------------+--------------------+--------+
| id|symbol|      date|     open|     high|      low|    close| volume| adjusted|market.cap|       sector|            industry|exchange|
+---+------+----------+---------+---------+---------+---------+-------+---------+----------+-------------+--------------------+--------+
|  1|   TXG|2019-09-12|     54.0|     58.0|     51.0|    52.75|7326300|    52.75|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  2|   TXG|2019-09-13|    52.75|   54.355|49.150002|    52.27|1025200|    52.27|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  3|   TXG|2019-09-16|52.450001|     56.0|52.009998|55.200001| 269900|55.200001|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  4|   TXG|2019-09-17|56.209999|60.900002|   55.423|56.779999| 602800|56.779999|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  5|   TXG|2019-09-18|56.849998|    62.2

25/02/12 19:38:08 WARN CSVHeaderChecker: CSV header does not conform to the schema.
 Header: , symbol, date, open, high, low, close, volume, adjusted, market.cap, sector, industry, exchange
 Schema: id, symbol, date, open, high, low, close, volume, adjusted, market.cap, sector, industry, exchange
Expected: id but found: 
CSV file: file:///home/iabd/Escritorio/IABD/Big-Data/BD%20Aplicado/UD%203/stocks_price_final.csv


In [151]:
df5=df5.withColumnRenamed("market.cap", "market")
df5.show()

+---+------+----------+---------+---------+---------+---------+-------+---------+------+-------------+--------------------+--------+
| id|symbol|      date|     open|     high|      low|    close| volume| adjusted|market|       sector|            industry|exchange|
+---+------+----------+---------+---------+---------+---------+-------+---------+------+-------------+--------------------+--------+
|  1|   TXG|2019-09-12|     54.0|     58.0|     51.0|    52.75|7326300|    52.75|$9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  2|   TXG|2019-09-13|    52.75|   54.355|49.150002|    52.27|1025200|    52.27|$9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  3|   TXG|2019-09-16|52.450001|     56.0|52.009998|55.200001| 269900|55.200001|$9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  4|   TXG|2019-09-17|56.209999|60.900002|   55.423|56.779999| 602800|56.779999|$9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  5|   TXG|2019-09-18|56.849998|    62.27|55.650002|     62.0|158960

25/02/12 19:38:08 WARN CSVHeaderChecker: CSV header does not conform to the schema.
 Header: , symbol, date, open, high, low, close, volume, adjusted, market.cap, sector, industry, exchange
 Schema: id, symbol, date, open, high, low, close, volume, adjusted, market.cap, sector, industry, exchange
Expected: id but found: 
CSV file: file:///home/iabd/Escritorio/IABD/Big-Data/BD%20Aplicado/UD%203/stocks_price_final.csv


In [152]:
df5=df5.drop("market")
df5.show()  

+---+------+----------+---------+---------+---------+---------+-------+---------+-------------+--------------------+--------+
| id|symbol|      date|     open|     high|      low|    close| volume| adjusted|       sector|            industry|exchange|
+---+------+----------+---------+---------+---------+---------+-------+---------+-------------+--------------------+--------+
|  1|   TXG|2019-09-12|     54.0|     58.0|     51.0|    52.75|7326300|    52.75|Capital Goods|Biotechnology: La...|  NASDAQ|
|  2|   TXG|2019-09-13|    52.75|   54.355|49.150002|    52.27|1025200|    52.27|Capital Goods|Biotechnology: La...|  NASDAQ|
|  3|   TXG|2019-09-16|52.450001|     56.0|52.009998|55.200001| 269900|55.200001|Capital Goods|Biotechnology: La...|  NASDAQ|
|  4|   TXG|2019-09-17|56.209999|60.900002|   55.423|56.779999| 602800|56.779999|Capital Goods|Biotechnology: La...|  NASDAQ|
|  5|   TXG|2019-09-18|56.849998|    62.27|55.650002|     62.0|1589600|     62.0|Capital Goods|Biotechnology: La...|  

25/02/12 19:38:08 WARN CSVHeaderChecker: CSV header does not conform to the schema.
 Header: , symbol, date, open, high, low, close, volume, adjusted, sector, industry, exchange
 Schema: id, symbol, date, open, high, low, close, volume, adjusted, sector, industry, exchange
Expected: id but found: 
CSV file: file:///home/iabd/Escritorio/IABD/Big-Data/BD%20Aplicado/UD%203/stocks_price_final.csv


In [153]:
df5.filter(df5.open.isNull()).show()

+----+------+----------+----+----+----+-----+------+--------+-------------+--------------------+--------+
|  id|symbol|      date|open|high| low|close|volume|adjusted|       sector|            industry|exchange|
+----+------+----------+----+----+----+-----+------+--------+-------------+--------------------+--------+
|4378|  KRKR|2020-05-11|NULL|NULL|NULL| NULL|  NULL|    NULL|Miscellaneous|   Business Services|  NASDAQ|
|5747|  NMTR|2020-01-23|NULL|NULL|NULL| NULL|  NULL|    NULL|  Health Care|Major Pharmaceuti...|  NASDAQ|
|5748|  NMTR|2020-01-24|NULL|NULL|NULL| NULL|  NULL|    NULL|  Health Care|Major Pharmaceuti...|  NASDAQ|
|5749|  NMTR|2020-01-27|NULL|NULL|NULL| NULL|  NULL|    NULL|  Health Care|Major Pharmaceuti...|  NASDAQ|
|5750|  NMTR|2020-01-28|NULL|NULL|NULL| NULL|  NULL|    NULL|  Health Care|Major Pharmaceuti...|  NASDAQ|
|5751|  NMTR|2020-01-29|NULL|NULL|NULL| NULL|  NULL|    NULL|  Health Care|Major Pharmaceuti...|  NASDAQ|
|5752|  NMTR|2020-01-30|NULL|NULL|NULL| NULL| 

25/02/12 19:38:08 WARN CSVHeaderChecker: CSV header does not conform to the schema.
 Header: , symbol, date, open, high, low, close, volume, adjusted, sector, industry, exchange
 Schema: id, symbol, date, open, high, low, close, volume, adjusted, sector, industry, exchange
Expected: id but found: 
CSV file: file:///home/iabd/Escritorio/IABD/Big-Data/BD%20Aplicado/UD%203/stocks_price_final.csv


In [154]:
df5=df5.dropna(subset=["open"])
df5.filter(df5.open.isNull()).show()

25/02/12 19:38:08 WARN CSVHeaderChecker: CSV header does not conform to the schema.
 Header: , symbol, date, open, high, low, close, volume, adjusted, sector, industry, exchange
 Schema: id, symbol, date, open, high, low, close, volume, adjusted, sector, industry, exchange
Expected: id but found: 
CSV file: file:///home/iabd/Escritorio/IABD/Big-Data/BD%20Aplicado/UD%203/stocks_price_final.csv


+---+------+----+----+----+---+-----+------+--------+------+--------+--------+
| id|symbol|date|open|high|low|close|volume|adjusted|sector|industry|exchange|
+---+------+----+----+----+---+-----+------+--------+------+--------+--------+
+---+------+----+----+----+---+-----+------+--------+------+--------+--------+

