## **Transformar datos para obtener un ranking organizado de los pilotos**

*   Trabajamos con el resultado obtenido en el notebook **race_results**

In [None]:
# Llamamos al notebook que contiene las variables de configuraci칩n
%run "../utils/configuration"

### Paso 1 - Leer **race_results** de la capa **presentation**

In [None]:
from pyspark.sql.window import Window
from pyspark.sql.functions import desc, rank, asc
from pyspark.sql.functions import sum, when, count, col

In [None]:
# El par치metro "presentation_folder_path" se encuentra en el notebook "configuration"
race_results_df = spark.read.parquet(f"{presentation_folder_path}/race_results")

### Paso 2 - Aplicar una agrupaci칩n y agregaci칩n a **race_results**

In [None]:
# Cuando posicion es igual a 1 (es decir, el piloto ha ganado la carrera), entonces, es igual a 1 (True = 1 y False = 0)
driver_standings_df = race_results_df \
.groupBy("race_year", "driver_name", "driver_nationality", "team") \
.agg(sum("points").alias("total_points"),
     count(when(col("position") == 1, True)).alias("wins")).sort(col('wins').desc()) 

### Paso 3 - Al resultado previo aplicar una ventana y calcular el ranking

In [None]:
driver_rank_spec = Window.partitionBy("race_year").orderBy(desc("total_points"), desc("wins"))
final_df = driver_standings_df.withColumn("rank", rank().over(driver_rank_spec))

### Paso 4 - Escribir datos en el datalake como **parquet** y crear la tabla **driver_standings** en la base de datos **f1_presentation**

In [None]:
# Escribimos el archivo con formato PARQUET en la base de datos "f1_presentation" y en la tabla "driver_standings"
final_df.write.mode("overwrite").format("parquet").saveAsTable("f1_presentation.driver_standings")