# **Práctica 2.2: Preprocesado**

<hr>

## **1. Objetivo**
En esta práctica descargaremos un conjunto de datos y lo analizaremos y limpiaremos para utilizar en futuras prácticas. 


### **Librería Pandas**
Se considera la librería más popular de análisis de datos en Python.  
Maneja todas sus operaciones mediante un objeto *"Dataframe"*.

Permite, entre otras operaciones:

* Cargar y almacenar datos en diferentes formatos (csv, tsv, xlsx, txt...).
* Manipular filas, columnas y celdas.
* Filtrar o agrupar contenido.
* Realizar la intersección, concatenación o combinación de varios Dataframes

Para instalarla:


In [None]:
! pip install pandas

<div class="alert alert-block alert-warning">
    <strong>NOTA:</strong> La exclamación antes del código indica a Jupyter que este no es Python y ha de ejecutarse en la terminal. Esto nos permite instalar librerías directamente desde el notebook.
</div>

<hr>

## **2. Análisis exploratorio de datos (EDA)**

Este análisis tiene como objetivos principales:
* Conocer los datos a los que nos vamos a enfrentar.
* Limpiar el conjunto de datos:
  * Eliminar filas o columnas vacías.
  * Eliminar valores incongruentes.

Nuestro conjunto de datos contiene información sobre una carrera de la temporada 2023 de Formula 1.  
A continuación descargaremos los datos y los analizaremos con la librería Pandas.

In [None]:
import pandas as pd

url_data = "https://raw.githubusercontent.com/AIC-Uniovi/Sistemas-Inteligentes/refs/heads/main/datasets/f1_23_monaco.csv"
data = pd.read_csv(url_data)

**Descripción de las columnas del dataset**

| Columna               | Descripción |
|-----------------------|------------|
| `Time`               | Tiempo total transcurrido en la sesión. |
| `Driver`             | Código de tres letras del piloto. |
| `DriverNumber`       | Número del piloto en la carrera. |
| `LapTime`            | Tiempo total de la vuelta. |
| `LapNumber`          | Número de la vuelta en la sesión. |
| `Stint`              | Número de stint actual (período entre paradas en boxes). |
| `PitOutTime`         | Tiempo en el que el piloto salió de boxes. |
| `PitInTime`          | Tiempo en el que el piloto entró en boxes. |
| `Sector1Time`        | Tiempo registrado en el primer sector de la vuelta. |
| `Sector2Time`        | Tiempo registrado en el segundo sector de la vuelta. |
| `Sector3Time`        | Tiempo registrado en el tercer sector de la vuelta. |
| `SpeedI1`           | Velocidad medida en el primer punto de detección. |
| `SpeedI2`           | Velocidad medida en el segundo punto de detección. |
| `SpeedFL`           | Velocidad en la línea de meta. |
| `SpeedST`           | Velocidad máxima en el sector. |
| `IsPersonalBest`    | Indica si la vuelta es la mejor personal del piloto (`True`/`False`). |
| `Compound`          | Tipo de compuesto de neumáticos utilizado. |
| `TyreLife`         | Número de vueltas que lleva el neumático en uso. |
| `FreshTyre`         | Indica si el neumático era nuevo al inicio de la vuelta (`True`/`False`). |
| `Team`              | Nombre del equipo del piloto. |
| `LapStartTime`      | Tiempo de inicio de la vuelta en la sesión. |
| `LapStartDate`      | Fecha y hora exacta del inicio de la vuelta. |
| `TrackStatus`       | Estado de la pista en la vuelta (ej. bandera amarilla, verde, etc.). |
| `Position`          | Posición del piloto al finalizar la vuelta. |
| `Deleted`           | Indica si la vuelta fue eliminada (`True`/`False`). |
| `DeletedReason`     | Razón por la que la vuelta fue eliminada (si aplica). |
| `IsAccurate`        | Indica si los datos de la vuelta son precisos (`True`/`False`). |

### **Operaciones básicas**

In [None]:
# Nombre de columnas
data.columns

In [None]:
# Tipos de las columnas
data.dtypes

In [None]:
# Número de columnas
len(data.columns)

In [None]:
# Número de filas
len(data)

In [None]:
# Obtener estadisticas básicas de todo el conjunto
data.describe()

In [None]:
# Buscar columnas con valores inexistentes
data.isnull().any()

In [None]:
# Mostrar las 5 primeras filas
data.head(5)

In [None]:
# Mostrar las 5 últimas filas
data.tail(5)

In [None]:
# Acceder a una columna
data["Driver"]

In [None]:
# Obtener múltiples estadisticas de una columna
data["Stint"].describe()

In [None]:
# Operaciones sobre columnas numéricas
data["LapNumber"]+1

In [None]:
# Ver los valores únicos (sin repeticiones) de una columna
data["Team"].unique()

In [None]:
len(data["Team"].unique())

In [None]:
# Acceder a varias columnas
data[["Driver","Team"]]

In [None]:
# Obtener una lista de valores para una columna y acceder a un elemento
data["Team"].values[180]

In [None]:
# Acceder a la fila 1280 , columna 1 (empezando en cero)
data.iloc[1280, 1]

In [None]:
# Ordenar por la fila "Time"
data.sort_values(["LapTime"])

<div class="alert alert-block alert-warning">
    <strong>NOTA:</strong> Las operaciones anteriores no son 'inplace', es decir, no modifican el DataFrame, solo lo consultan.
</div>

In [None]:
# Obtener el número de vueltas máximo, medio y mínimo que se utilizó un juego de neumáticos
mean_life = data["TyreLife"].mean()
min_life  = data["TyreLife"].min()
max_life  = data["TyreLife"].max()

print(min_life, mean_life ,max_life)

In [None]:
# Cambiar el tipo de una serie de columnas a int
data[["DriverNumber", "LapNumber", "Stint", "TyreLife", "TrackStatus", "Position"]] = data[["DriverNumber", "LapNumber", "Stint", "TyreLife", "TrackStatus", "Position"]].astype(int)

In [None]:
# Añadir una nueva columna
data["Nueva_columna_uno"] = 1 # Todas las filas tendrán el mismo valor
data["Nueva_columna_dos"] = list(range(len(data))) # Nueva columna a partir de una lista de valores (tantos como filas)
data["Nueva_columna_tres"] = data["Stint"] + 1 # Nueva columna a partir de otra

In [None]:
# Eliminar columnas
data = data.drop(columns=["Nueva_columna_uno", "Nueva_columna_dos", "Nueva_columna_tres"])
# Esto es equivalente a:
# data.drop(columns=["Nueva_columna_uno", "Nueva_columna_dos", "Nueva_columna_tres"], inplace=True)

<div class="alert alert-block alert-info">
    <b>Ejercicio:</b> Obtén el número de pilotos existentes.
</div>

In [None]:
# Tu código aquí

<div class="alert alert-block alert-info">
    <b>Ejercicio:</b> Cambia el tipo de las columnas: "Time", "LapTime", "PitOutTime", "PitInTime", "Sector1Time", "Sector2Time", "Sector3Time" y "LapStartTime" a <a href="https://pandas.pydata.org/docs/reference/api/pandas.to_timedelta.html"><i>timedelta</i></a>.
</div>

In [None]:
time_columns = ["Time", "LapTime", "PitOutTime", "PitInTime", "Sector1Time", "Sector2Time", "Sector3Time", "LapStartTime"]
# Tu código aquí

<div class="alert alert-block alert-info">
    <b>Ejercicio:</b> Cambia el tipo de la columna: "LapStartDate" a <a href="https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html"><i>datetime</i></a>.
</div>

In [None]:
# Tu código aquí

<div class="alert alert-block alert-info">
    <b>Ejercicio:</b> ¿Qué piloto ha sido el mejor en el primer sector? ¿Y en el segundo?
</div>

In [None]:
# Tu código aquí

### **Filtrado de datos**

In [None]:
# Obtener el valor de una celda en concreto
data.loc[572, 'Team']

In [None]:
# Obtener las vueltas de los pilotos cuyo equipo es "Ferrari"
data_ferrari = data.loc[data["Team"]=="Ferrari"]
data_ferrari

In [None]:
# Obtener todas las vueltas 1,2 de los pilotos 
data.loc[data["LapNumber"]<=2]

In [None]:
# Obtener las vueltas 10 de los pilotos de "Ferrari"
data_ferrari_10 = data.loc[(data["LapNumber"]==10) & (data["Team"]=="Ferrari")]
data_ferrari_10

In [None]:
# Obtener las vueltas de los pilotos "SAI" o "LEC"
data.loc[(data["Driver"]=="SAI") | (data["Driver"]=="LEC")]

In [None]:
# Otra opción para lo anterior
data.loc[data["Driver"].isin(["SAI","LEC"])]

In [None]:
# Obtener vueltas de equipos que contengan "Bull"
data.loc[data["Team"].str.contains("Bull")]

<div class="alert alert-block alert-info">
    <b>Ejercicio:</b> Soluciona los NaT en los tiempos de las columnas "Sector1Time" y "LapTime".
</div>

In [None]:
# Tu código aquí

<div class="alert alert-block alert-info">
    <b>Ejercicio:</b> Obtén el tiempo medio por vuelta de los pilotos de "AlphaTauri" entre las vueltas 1 y 20 (inclusive).
</div>

In [None]:
# Tu código aquí

<div class="alert alert-block alert-info">
    <b>Ejercicio:</b> ¿Cuál fué la velocidad máxima en la línea de meta de Alonso? ¿Y de Verstappen? ¿En qué vueltas?.
</div>

In [None]:
# Tu código aquí

### **Agrupación de datos**

In [None]:
# Número de pilotos por equipo
data.groupby("Team")["Driver"].nunique().reset_index()

In [None]:
# Lista de pilotos por equipo
data.groupby("Team")["Driver"].unique().reset_index()

In [None]:
# Otra opción
data.groupby("Team")["Driver"].apply(lambda x: list(set(x))).reset_index()

In [None]:
# Número de vueltas por piloto ordenado de mayor a menor.
data.groupby("Driver")["LapNumber"].max().sort_values(ascending=False).reset_index()

In [None]:
# Otra opción
data.groupby("Driver")["LapNumber"].size().sort_values(ascending=False).reset_index()

In [None]:
# Velocidad media en la linea de meta por cada equipo
data.groupby('Team')['SpeedFL'].mean().sort_values(ascending=False).reset_index()

In [None]:
# Otra opción que permite personalizar el nombre de la nueva columna así como crear varias de una vez
data.groupby('Team').agg(AvgFlSpeed=("SpeedFL", "mean")).sort_values("AvgFlSpeed", ascending=False).reset_index()

In [None]:
# La Pivot Table o tabla dinámica también permite agrupar datos de forma más compleja.
# En este ejemplo se muestra para cada piloto de cada equipo, el número de vueltas que dió con cada compuesto así como los totales por filas y columnas (margins)
data.pivot_table(index=["Team", "Driver"], columns=["Compound"], values="LapNumber", aggfunc="count", fill_value=0, margins=True, margins_name="Total")


<div class="alert alert-block alert-info">
    <b>Ejercicio:</b> Obtén, para cada piloto, el número de vueltas anuladas. Ordena de mayor a menor.
</div>

In [None]:
# Tu código aquí

<div class="alert alert-block alert-info">
    <b>Ejercicio:</b> Obtén, para cada piloto, el número de Pit Stops realizados.
</div>

In [None]:
# Tu código aquí

<div class="alert alert-block alert-info">
    <b>Ejercicio:</b> Crea una tabla donde se muestre en las filas los equipos y pilotos y en las columnas las 10 primeras vueltas. Se ha de mostrar el tiempo por vuelta de cada piloto en segundos (tiempo.dt.total_seconds()).
</div>

In [None]:
# Tu código aquí

### **Limpieza final y almacenamiento del DataFrame**
Para poder utilizar este conjunto en futuras prácticas, vamos a eliminar ciertas filas y columnas que no van a aportar información relevante para los problemas que resolveremos.

<div class="alert alert-block alert-info">
    <b>Ejercicio:</b> Elimina todas aquellas filas que no tengan "TrackStatus" igual a 1 y aquellas que se correspondan con una parada en boxes. Estas últimas tendrán un valor en "PitOutTime" o en "PitInTime". Ordena de menor a mayor "Time" y haz un "reset_index(drop=true)" para que se vuelvan a crear los índices de las filas.
</div>

In [None]:
# Tu código aquí

<div class="alert alert-block alert-info">
    <b>Ejercicio:</b> Elimina finalmente las columnas "Deleted", "DeletedReason", "IsAccurate", "TrackStatus", "PitOutTime" y"PitInTime".
</div>

In [None]:
# Tu código aquí

Una vez realizada esta fase de análisis y limpieza del conjunto, almacenaremos el DataFrame de Pandas en un fichero de tipo `Pickle`.
Es posible almacenarlo como `CSV` o `XLSX`, pero estos formatos no guardan los tipos de las columnas. Esto provocaría que al cargarlo en el futuro tendríamos que volver a hacer un casting (`.astype()`) de cada columna. 

In [None]:
data.to_pickle("f1_23_monaco.pkl")