# Ciencia De Datos Aplicada (ITBA): Segundo Entregable

## Recopilaci√≥n y Preparaci√≥n de Datos

**Equipo:** Uriel Arias - 63504, Cristian Tepedino - 62830

**Nombre del proyecto**: Sistema de predicci√≥n de resultados de
carreras de F√≥rmula 1

### üßæ 1. Importaci√≥n y carga de librer√≠as

In [3]:
!pip install fastf1

Collecting fastf1
  Downloading fastf1-3.6.1-py3-none-any.whl.metadata (4.6 kB)
Collecting rapidfuzz (from fastf1)
  Downloading rapidfuzz-3.14.1-cp310-cp310-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (12 kB)
Collecting requests-cache>=1.0.0 (from fastf1)
  Downloading requests_cache-1.2.1-py3-none-any.whl.metadata (9.9 kB)
Collecting timple>=0.1.6 (from fastf1)
  Downloading timple-0.1.8-py3-none-any.whl.metadata (2.0 kB)
Collecting websockets<14,>=10.3 (from fastf1)
  Downloading websockets-13.1-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.8 kB)
Collecting cattrs>=22.2 (from requests-cache>=1.0.0->fastf1)
  Downloading cattrs-25.2.0-py3-none-any.whl.metadata (8.4 kB)
Collecting url-normalize>=1.4 (from requests-cache>=1.0.0->fastf1)
  Downloading url_normalize-2.2.1-py3-none-any.whl.metadata (5.6 kB)
Downloading fastf1-3.6.1-py3-none-any.whl (148 kB)
Downloading requests_cache-1.2.1-py3-none

In [21]:
import os

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

import fastf1


cache_dir = './cache'
os.makedirs(cache_dir, exist_ok=True)

fastf1.Cache.enable_cache(cache_dir)

sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (10, 6)

import warnings
warnings.filterwarnings("ignore")

### üßæ 2. Carga de datos

In [None]:
#Cargar sesi√≥n de ejemplo
session = fastf1.get_session(2021, 'Italian Grand Prix', 'Q')
session.load()

#Obtener laps y filtrar vueltas r√°pidas v√°lidas
laps = session.laps
laps = laps.pick_quicklaps()

#Obtener telemetr√≠a por piloto
telemetry_features = []

for driver in session.drivers:
    driver_laps = laps.pick_driver(driver)
    driver_info = session.get_driver(driver)
    driver_name = f"{driver_info['FirstName']} {driver_info['LastName']}"

    for _, lap in driver_laps.iterlaps():
        lap_telemetry = lap.get_telemetry()
        telemetry_features.append({
            'Driver': driver,
            'DriverName': driver_name,
            'LapNumber': lap.LapNumber,
            'LapTime': lap.LapTime.total_seconds(),
            'Speed_mean': lap_telemetry['Speed'].mean(),
            'Throttle_mean': lap_telemetry['Throttle'].mean(),
            'Brake_mean': lap_telemetry['Brake'].mean(),
            'RPM_mean': lap_telemetry['RPM'].mean(),
            'DRS_max': lap_telemetry['DRS'].max()
        })

df_telemetry = pd.DataFrame(telemetry_features)

#Agregar datos de clima
weather = session.weather_data
weather_summary = weather.mean().to_dict()

# Agregamos clima a cada fila del DataFrame
for key, value in weather_summary.items():
    df_telemetry[key] = value

#Revisar el DataFrame final
df_telemetry.head()

core           INFO 	Loading data for Italian Grand Prix - Qualifying [v3.6.1]
req            INFO 	Using cached data for session_info
req            INFO 	Using cached data for driver_info
req            INFO 	Using cached data for session_status_data
req            INFO 	Using cached data for track_status_data
req            INFO 	Using cached data for _extended_timing_data
req            INFO 	Using cached data for timing_app_data
core           INFO 	Processing timing data...
req            INFO 	Using cached data for car_data
req            INFO 	Using cached data for position_data
req            INFO 	Using cached data for weather_data
req            INFO 	Using cached data for race_control_messages
core           INFO 	Finished loading data for 20 drivers: ['77', '44', '33', '4', '3', '10', '55', '16', '11', '99', '5', '18', '14', '31', '63', '6', '22', '47', '88', '9']


### üóíÔ∏è 3. Descripci√≥n del dataset
Este dataset contiene informaci√≥n por vuelta de cada piloto durante una sesi√≥n de F√≥rmula 1, incluyendo tiempos de vuelta, telemetr√≠a y condiciones de clima.

**Variables principales:**

- Driver:	C√≥digo del piloto
- DriverName: Nombre del piloto
- LapNumber:	N√∫mero de v√∫elta
- LapTime:	Tiempo total de la vuelta (en segundos)
- Speed_mean:	Velocidad promedio durante la vuelta (km/h)
- Throttle_mean: Porcentaje promedio de acelerador durante la vuelta
- Brake_mean:	Porcentaje promedio de freno durante la vuelta
- RPM_mean:	Revoluciones promedio del motor durante la vuelta
- DRS_max:	Valor m√°ximo del DRS en la vuelta (0 = cerrado, 1 = abierto)

**Variables de clima promedio durante la sesi√≥n:**

- Temperature:	Temperatura del aire (¬∞C)
- TrackTemperature:	Temperatura de la pista (¬∞C)
- Humidity:	Humedad relativa (%)
- Pressure:	Presi√≥n atmosf√©rica (hPa)
- WindSpeed:	Velocidad del viento (km/h)
- WindDirection:	Direcci√≥n del viento (grados)

**Variable objetivo potencial:**

- LapTime: regresi√≥n para predecir el tiempo de vuelta de un piloto.
- Position: clasificaci√≥n del ganador/top3/top10 por vuelta o por sesi√≥n

**Notas:**

- Cada fila corresponde a una vuelta de un piloto.
- La telemetr√≠a se ha agregado usando estad√≠sticas por vuelta (media o m√°ximo) para reducir el n√∫mero de filas y simplificar el modelado.
- Las variables de clima son promedios de toda la sesi√≥n, y pueden servir como features adicionales para mejorar la predicci√≥n del desempe√±o.

### üîç 4. An√°lisis exploratorio de datos (EDA)

### üßº 5. Diagn√≥stico de calidad de datos


### üß™ 6. Transformaciones realizadas

### ‚úçÔ∏è 7. Reflexi√≥n final
