In [None]:
import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings('ignore')
pd.set_option('display.max_rows', None)    # Muestra todas las filas (para muchas columnas)
pd.set_option('display.max_columns', None) # Muestra todas las columnas
pd.set_option('display.width', None)       # Ajusta el ancho
pd.set_option('display.max_colwidth', None)# Muestra todo el contenido de cada celda

In [None]:
circuits = pd.read_csv('csv_originales/1/circuits.csv')
drivers = pd.read_csv('csv_originales/1/drivers.csv')
constructors = pd.read_csv('csv_originales/1/constructors.csv')
constructors_results = pd.read_csv('csv_originales/1/constructor_results.csv')
results = pd.read_csv('csv_originales/1/results.csv')
races = pd.read_csv('csv_originales/1/races.csv')
status = pd.read_csv('csv_originales/1/status.csv')
sprint_results = pd.read_csv('csv_originales/1/sprint_results.csv')
seasons = pd.read_csv('csv_originales/1/seasons.csv')
qualifying = pd.read_csv('csv_originales/1/qualifying.csv')
pit_stops = pd.read_csv('csv_originales/1/pit_stops.csv')
lap_times = pd.read_csv('csv_originales/1/lap_times.csv')
drivers_standings = pd.read_csv('csv_originales/1/driver_standings.csv')
constructors_standings = pd.read_csv('csv_originales/1/constructor_standings.csv')


Corrigo la columna 'number', ya que tiene formato de object y contiene varios datos nulos.

In [None]:
drivers["number"] = drivers["number"].replace(r"\N", np.nan) # Reemplaza "\N" con NaN
drivers["number"] = pd.to_numeric(drivers["number"], errors='coerce') # Convierte a numérico, forzando errores a NaN
drivers["number"] = drivers["number"].fillna(0) # Rellena NaN con 0
drivers["number"] = drivers["number"].astype("int64") # Convierte a int64, eliminando NaN

In [None]:
drivers

In [None]:
drivers.info()

In [None]:
drivers.isnull().sum()  # Verifica si hay valores nulos

Rellenar la columna de 'code' con los codigos faltantes a partir de las primeras 3 letras del apellido de cada piloto.

In [None]:
drivers['code'] = drivers.apply(
    lambda row: ''.join(row['surname'].replace(' ', '')[:3]).upper() if row['code'] == '\\N' else row['code'],
    axis=1
)
# Reemplaza el código de los pilotos que es "\N" por las primeras 3 letras del apellido en mayúsculas


In [None]:
numeros_pilotos = {
    "heidfeld": 9,
    "kovalainen": 7,
    "nakajima": 17,
    "bourdais": 11,
    "glock": 24,
    "sato": 18,
    "piquet_jr": 8,
    "coulthard": 9,
    "trulli": 21,
    "webber": 2,
    "davidson": 19,
    "fisichella": ,
    "barrichello": ,
    "ralf_schumacher"": ,
    "liuzzi": ,
    "wurz": ,
    "speed": ,
    "albers": ,
    "markus_winkelhock": ,
    "yamamoto": ,
    "michael_schumacher": ,
    "montoya": ,
    "klien": ,
    "monteiro": ,
    "ide": ,
    "villeneuve": ,
    "montagny": ,
    "rosa": ,
    "doornbos": ,
    "karthikeyan": ,
    "friesacher": ,
    "zonta": ,
    "pizzonia": ,
    "matta": ,
    "panis": ,
    "pantano": ,
    "bruni": ,
    "baumgartner": ,
    "gene": ,
    "frentzen": ,
    "verstappen": ,
    "wilson": ,
    "firman": ,
    "kiesa": ,
    "burti": ,
    "alesi": ,
    "irvine": ,
    "hakkinen": ,
    "marques": ,
    "bernoldi": ,
    "mazzacane": ,
    "enge": ,
    "yoong": ,
    "salo": ,
    "diniz": ,
    "herbert": ,
    "mcnish": ,
    "buemi": ,
    "takagi": ,
    "badoer": ,
    "zanardi": ,
    "damon_hill": ,
    "sarrazin": ,
    "rosset": ,
    "tuero": ,
    "nakano": ,
    "magnussen": ,
    "berger": ,
    "larini": ,
    "katayama": ,
    "sospiri": ,
    "morbidelli": ,
    "fontana": ,
    "lamy": ,
    "brundle": ,
    "montermini": ,
    "lavaggi": ,
    "blundell": ,
    "suzuki": ,
    "inoue": ,
    "moreno": ,
    "wendlinger": ,
    "gachot": ,
    "schiattarella": ,
    "martini": ,
    "mansell": ,
    "boullion": ,
    "papis": ,
    "deletraz": ,
    "tarquini": ,
    "comas": ,
    "brabham": ,
    "senna": ,
    "bernard": ,
    "fittipaldi": ,
    "alboreto": ,
    "beretta": ,
    "ratzenberger": ,
    "belmondo": ,
    "lehto": ,
    "cesaris": ,
    "gounon": ,
    "alliot": ,
    "adams": ,
    "dalmas": ,
    "noda": ,
    "lagorce": ,
    "prost": ,
    "warwick": ,
    "patrese": ,
    "barbazza": ,
    "andretti": ,
    "capelli": ,
    "boutsen": ,
    "apicella": ,
    "naspetti": ,
    "toshio_suzuki": ,
    "gugelmin": ,
    "poele": ,
    "grouillard": ,
    "chiesa": ,
    "modena": ,
    "amati": ,
    "caffi": ,
    "bertaggia": ,
    "mccarthy": ,
    "lammers": ,
    "piquet": ,
    "satoru_nakajima": ,
    "pirro": ,
    "johansson": ,
    "bailey": ,
    "chaves": ,
    "bartels": ,
    "hattori": ,
    "nannini": ,
    "schneider": ,
    "barilla": ,
    "foitek": ,
    "langes": ,
    "gary_brabham": ,
    "donnelly": ,
    "giacomelli": ,
    "alguersuari": ,
    }


In [None]:
drivers.rename(columns={"code": "Code"}, inplace=True) # Renombrar la columna "code" a "Code"

Cambio el nombre de la columna 'dob' por 'Nacimiento' y le doy formato de fecha

In [None]:
drivers

In [None]:
drivers.rename(columns={"dob": "born"}, inplace=True) # Renombrar la columna "dob" a "Nacimiento"
drivers['born'] = pd.to_datetime(drivers['born'], errors='coerce').dt.date # Convertir la columna "Nacimiento" a tipo fecha y eliminar errores


In [None]:
drivers['driverRef'] = drivers['driverRef'].str.lower()  # Convertir a minúsculas

Elimino columnas que no voy a utilizar o no son importantes

In [None]:
drivers.drop(columns=['driverId', 'number'], inplace=True) # Eliminar las columnas "driverId" y "number"

_________

In [None]:
# Subir archivo modificado de drivers
drivers.to_csv('csv_limpios/drivers_c.csv', index=False)
drivers_c = pd.read_csv('csv_limpios/drivers_c.csv')

In [None]:
drivers_c

_____________

### drivers_updated.csv

In [None]:
drivers_updated = pd.read_csv('csv_originales/3/drivers_updated.csv')
fastest_laps_updated = pd.read_csv('csv_originales/3/fastest_laps_updated.csv')
teams_updated = pd.read_csv('csv_originales/3/teams_updated.csv')
winners = pd.read_csv('csv_originales/3/winners.csv')

In [None]:
drivers_updated

Buscador por columnas

In [None]:
#drivers_updated[['Driver', 'Car']].sort_values(by='Driver').reset_index(drop=True) # Muestra los pilotos y sus coches ordenados alfabéticamente
drivers_updated[drivers_updated['Driver'].str.contains('Alonso')].sort_values(by='year').reset_index(drop=True) # Muestra los años en que Alonso corrió y con qué coche

### Renombrar la columna "Pos" a "Final_Pos"

In [None]:
drivers_updated.rename(columns={"Pos": "Final_Pos"}, inplace=True) # Renombrar la columna "Pos" a "Driver_ID"


**\**Creo columna 'Driver_ID' y la posiciono primera

In [None]:
drivers_updated['Driver_ID'] = range(1, len(drivers_updated) + 1) # Asigna un ID único a cada piloto
cols = ['Driver_ID'] + [col for col in drivers_updated.columns if col != 'Driver_ID'] # Reordena las columnas para que 'Driver_ID' sea la primera
drivers_updated = drivers_updated[cols] # Reordena las columnas para que 'Driver_ID' sea la primera
drivers_updated['Driver_ID'] = drivers_updated['Driver_ID'].astype('int64') # Asegura que 'Driver_ID' sea de tipo int64

### Posiciono ultima la columna 'Final_Pos'

In [None]:
cols = [col for col in drivers_updated.columns if col != 'Final_Pos'] + ['Final_Pos'] # Reordena las columnas para que 'Final_Pos' sea la última
drivers_updated = drivers_updated[cols] # Reordena las columnas para que 'Final_Pos' sea la última

------

Buscador

In [None]:
#resultado = drivers_updated[drivers_updated['Driver'].str.contains('piastri', case=False, na=False)] # Filtra por nombre
resultado = drivers[drivers['surname'].str.contains('Piastri', case=False, na=False)] # Filtra por nombre "Franco"


In [None]:
resultado

___________________

In [None]:
drivers_updated

In [None]:
drivers_c

Mostrar codigos que no coinciden de las columnas 'Code'

In [None]:
drivers_updated['driverRef'] = drivers_updated['Driver'].apply(lambda x: x.split()[-1].lower()) # Crea una nueva columna 'driversRef' con el apellido en minúsculas

In [None]:
# Mostrar códigos que no están en drivers
missing_codes = drivers_updated[drivers_updated['driverRef'].isin(drivers_c['driverRef'])]
print("Driver que no coinciden:")
print(missing_codes['driverRef'].unique())


_______________

### Hago un merge de la columna 'dob' de la tabla 'drivers' hacia la tabla 'drivers_updated'

In [None]:
drivers_updated['apellido'] = drivers_updated['Driver'].str.split().str[-1] # Extrae el apellido del nombre completo

In [None]:
drivers_updated['apellido'] = drivers_updated['apellido'].str.lower() # Convierte el apellido a minúsculas

In [None]:
drivers_updated = drivers_updated.merge(
    drivers[['surname', 'Nacimiento']],
    left_on='apellido',
    right_on='surname',
    how='left'
)


# Eliminamos la columna 'driverRef' duplicada si ya no la necesitás
drivers_updated.drop(columns=['apellido', 'surname'], inplace=True)



In [None]:
drivers_updated.drop(columns=['apellido'], inplace=True) # Eliminamos la columna 'Driver' si ya no la necesitás

In [None]:
drivers_updated

In [None]:
drivers_updated.drop(columns=['nationality', 'Nacimiento_y', 'surname'], inplace=True) # Eliminamos la columna 'Driver' si ya no la necesitás

In [None]:
drivers

### Codigo para agregar el Nacimiento a cada piloto desde drivers a driver_updated

In [None]:
import unidecode

# Normalizar apellidos en drivers
drivers['surname'] = drivers['surname'].str.strip().str.upper()
drivers['surname'] = drivers['surname'].apply(unidecode.unidecode)

# Extraer y normalizar apellido en drivers_updated
drivers_updated['apellido'] = drivers_updated['Driver'].str.split().str[-1].str.strip().str.upper()
drivers_updated['apellido'] = drivers_updated['apellido'].apply(unidecode.unidecode)

# Verificar que todos los apellidos estén en drivers
faltantes = drivers_updated[~drivers_updated['apellido'].isin(drivers['surname'])]
if not faltantes.empty:
    print("Apellidos sin match:")
    print(faltantes['apellido'].unique())

# Merge
drivers_updated = drivers_updated.merge(
    drivers[['surname', 'Nacimiento']],
    left_on='apellido',
    right_on='surname',
    how='left'
)

# Opcional: borrar la columna auxiliar
#drivers_updated.drop(columns=['apellido, 'surname'], inplace=True)


Codigo para verificar si hay pilotos en drivers que no estan en drivers_updated

In [None]:
faltantes = drivers[~drivers['surname'].isin(drivers_updated['apellido'])] # Verifica si hay apellidos en drivers que no están en drivers_updated
if not faltantes.empty:
    print("Apellidos en drivers que no están en drivers_updated:")
    print(faltantes['surname'].unique())

faltantes

### Codigo para agregar a la tabla de 'drivers_updated' los pilotos que faltaban desde 'drivers'

In [None]:
# 1. Identificar pilotos faltantes
faltantes = drivers[~drivers['surname'].isin(drivers_updated['apellido'])]

# 2. Crear DataFrame en el formato correcto
faltantes_formateados = pd.DataFrame({
    'Driver': (faltantes['forename'] + ' ' + faltantes['surname']).str.title(),
    'Code': faltantes['Code'],
    'Nacimiento': faltantes['Nacimiento'],
    'nationality': faltantes['nationality'].map({
        'Argentine': 'ARG',
        'Argentinian': 'ARG',
        'Australian': 'AUS',
        'British': 'GBR',
        'American': 'USA',
        'Danish': 'DEN',
        'Italian': 'ITA',
        'Japanese': 'JPN',
        'French': 'FRA',
        'German': 'GER',
        'Brazilian': 'BRA',
        'Spanish': 'ESP',
        'Belgian': 'BEL',
        'Canadian': 'CAN',
        'Dutch': 'NED',
        'Indian': 'IND',
        'Mexican': 'MEX',
        'New Zealander': 'NZL',
        'Norwegian': 'NOR',
        'Portuguese': 'POR',
        'Russian': 'RUS',
        'South African': 'RSA',
        'Swedish': 'SWE',
        'Swiss': 'SUI',
        'Thai': 'THA',
        'Chinese': 'CHN',
        'Colombian': 'COL',
        'Czech': 'CZE',
        'Hungarian': 'HUN',
        'Polish': 'POL',
        'Slovak': 'SVK',
        'Turkish': 'TUR',
        'Ukrainian': 'UKR',
        'Venezuelan': 'VEN',
    }),
    'Car': None,
    'PTS': None,
    'year': None,
    'Final_Pos': None
})

# 3. Agregar el apellido como columna auxiliar
faltantes_formateados['apellido'] = faltantes['surname'].str.strip().str.upper()

# 4. Unir al DataFrame original
drivers_updated = pd.concat([drivers_updated, faltantes_formateados], ignore_index=True)
