In [None]:
import numpy as np
import pandas as pd
import re

In [None]:
# Cargar el archivo bios.csv
try:
    df_bios = pd.read_csv('bios.csv')
    print("DataFrame bios.csv cargado con éxito.")
except FileNotFoundError:
    print("Error: El archivo bios.csv no se encontró.")
    exit()

In [None]:
# Eliminar viñetas (•) de la columna 'Used name'
print("\nLimpiando la columna 'Used name'...")
df_bios['Used name'] = df_bios['Used name'].str.replace('•', '', regex=False)

In [None]:
# Separar altura y peso de la columna 'Measurements'
print("Separando altura y peso de la columna 'Measurements'...")
df_bios[['Height_cm', 'Weight_kg']] = df_bios['Measurements'].str.extract(
    r'(\d+)\s*cm.*(\d+)\s*kg').astype(float)

In [None]:
# Extraer fechas de las columnas 'Born' y 'Died'
print("Extrayendo fechas de nacimiento y fallecimiento...")
df_bios['Date of Birth'] = df_bios['Born'].str.extract(r'^(.*?) in')
df_bios['Date of Death'] = df_bios['Died'].str.extract(r'^(.*?) in')

In [None]:
# Extraer ciudad, región y país de la columna 'Born'
print("Extrayendo ciudad, región y país de nacimiento...")
df_bios[['City of Birth', 'Region of Birth', 'Country of Birth']] = df_bios['Born'].str.extract(
    r'in\s+([a-zA-Z\s\(\)]+),\s+([a-zA-Z\s\(\)]+)\s+\(([^)]+

In [None]:
# Eliminar columnas que ya no son necesarias
print("Eliminando columnas adicionales...")
columns_to_drop = [
    'Measurements', 'Born', 'Died', 'Nick/petnames', 'Title(s)',
    'Other names', 'Original name', 'Name order', 'Nationality'
]
df_bios.drop(columns=columns_to_drop, errors='ignore', inplace=True)

In [None]:
# Renombrar columnas para mayor claridad
df_bios = df_bios.rename(columns={
    'Used name': 'Athlete Name',
    'Full name': 'Full Name',
    'NOC': 'Country Code'
})

In [None]:
# Mostrar la información y las primeras filas del DataFrame limpio
print("\nInformación del DataFrame bios.csv después de la limpieza:")
df_bios.info()
print("\nPrimeras 5 filas del DataFrame limpio:")
print(df_bios.head())

In [None]:
# Guardar el DataFrame limpio en un nuevo archivo CSV
df_bios.to_csv('bios_cleaned.csv', index=False)
print("\nDataFrame limpio de bios guardado en 'bios_cleaned.csv'")

In [None]:
# Cargar el archivo results.csv
try:
    df_results = pd.read_csv('results.csv')
    print("\nDataFrame results.csv cargado con éxito.")
except FileNotFoundError:
    print("Error: El archivo results.csv no se encontró.")
    exit()

In [None]:
# Mostrar información inicial del DataFrame
print("\nInformación inicial de results.csv:")
df_results.info()

In [None]:
# Separar el año y el tipo de la columna 'Games'
print("\nSeparando año y tipo de la columna 'Games'...")
# Usamos .str.split() para dividir la columna 'Games' por el primer espacio
split_games = df_results['Games'].str.split(' ', n=1, expand=True)

# Asignamos las nuevas columnas
df_results['Games_Year'] = pd.to_numeric(split_games[0], errors='coerce')
df_results['Games_Season'] = split_games[1].str.replace(' Olympics', '', regex=False)

In [None]:
# Separar la columna de empates (tied) de la columna 'Pos'
print("Separando estado de empate de la columna 'Pos'...")
df_results['is_tied'] = df_results['Pos'].str.contains('=', na=False)
df_results['Pos'] = df_results['Pos'].str.replace('=', '', regex=False)

In [None]:
# Convertir en NaN los valores no numéricos en la columna 'Pos'
print("Convirtiendo valores no numéricos en 'Pos' a NaN...")
df_results['Pos'] = pd.to_numeric(df_results['Pos'], errors='coerce')

In [None]:
# Eliminar la columna sin nombre (Unnamed: 7)
print("Eliminando la columna sin nombre 'Unnamed: 7'...")
df_results.drop(columns=['Unnamed: 7'], inplace=True, errors='ignore')

In [None]:
# Reordenar las columnas para una mejor visualización
print("Reordenando las columnas...")
column_order = [
    'Games_Year', 'Games_Season', 'Event', 'Team', 'Pos', 'is_tied',
    'Medal', 'As', 'athlete_id', 'NOC', 'Discipline', 'Nationality'
]
df_results = df_results.reindex(columns=column_order)

In [None]:
# Mostrar la información y las primeras filas del DataFrame limpio
print("\nInformación del DataFrame results.csv después de la limpieza:")
df_results.info()
print("\nPrimeras 5 filas del DataFrame limpio:")
print(df_results.head())

In [None]:
# Guardar el DataFrame limpio en un nuevo archivo CSV
df_results.to_csv('results_cleaned.csv', index=False)
print("\nDataFrame limpio de results guardado en 'results_cleaned.csv'")