Mapear fichero CSV

In [None]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

ruta = 'src/athlete_events.csv'

df = pd.read_csv(ruta)
print("Todas las columnas con 5 ejemplos:\n", df.head())

#################################################################
 ########################   LIMPIEZA   #########################
#################################################################

# Llevar Columnes inecesaries
print("\nEliminamos las columnas innecesarias:")
print("Las columnas ['ID'] y ['Name'] no nos aportan nada.")
print("La información de la columna ['Games'] la podemos sacar de ['Year'] y ['Season'].")
print("La información de la columna ['Event'] la reducimos a la de la columna ['Sport'] para tener menos categorías.")
df.drop(columns=["ID", "Name", "Games", "Event"], inplace=True)

# Llevar el NaN (null)
# El dataset originalment te aproximadament 270000 files, i les columnes de edad, altura i pes
# presenten valors nuls(24%) En este projecte que es académic, hem optat per
# eliminar les files amb nuls per simplicitat
print("\nEliminamos valores NULOS:")
print("Número de filas sin eliminar nulos:", len(df))
df = df.dropna(subset=['Height'])
print("Número de filas tras eliminar nulos en 'Height':", len(df))
df = df.dropna(subset=['Weight'])
print("Número de filas tras eliminar nulos en 'Weigth':", len(df))
df = df.dropna(subset=['Age'])
print("Número de filas tras eliminar nulos en 'Age':", len(df))



# Vore les categories que hi han en alguna que altra columna (per a binaritzar les categories)
# Columnes -> Sex ; Medal ; Season ; Sport
print("\nValores únicos en las siguientes columnas:")
print("Columna ['Sex'] => ", df['Sex'].unique())
print("Columna ['Medal'] => ", df['Medal'].unique())
print("Columna ['Season'] => ", df['Season'].unique())
print("Columna ['Sport'] => ", df['Sport'].unique()) # 56 Categories (Cuidao!!! Preguntar a Jose Ramon)

# Codificacio de variables categoriques(Sex, Season, Medal, Sport)
df = pd.get_dummies(df, columns=['Sex', 'Medal', 'Season'], drop_first=True)

# Binarizacion(age, weight, height)
# Transformem les columnes catagoriques a 0 i 1 per a que el model
# comprenga les dades
df['Age_bin'] = (df['Age'] > df['Age'].median())
df['Weight_bin'] = (df['Weight'] > df['Weight'].median())
df['Height_bin'] = (df['Height'] > df['Height'].median())

print("\nEjemplo de binarización en la columna ['Age'] a partir de si están por encima de la media:")
print(df[['Age', 'Age_bin']].head())

# Borrar columnas temporales
df.drop(columns=["Age_bin", "Weight_bin", "Height_bin"], inplace=True)

# Escalado
# Transforma una columna amb valors numerics a una escala controlada
# MinMaxScaler() -> escala entre 0 i 1, per a que el model comprenga millor
scaler = MinMaxScaler()
df[['Age', 'Weight', 'Height']] = scaler.fit_transform(df[['Age', 'Weight', 'Height']])

print("\nEjemplo de escalado en la columnas ['Age'], ['Weight'] y ['Height'] de 0 a 1:")
print(df[['Age', 'Weight', 'Height']].head())

################################################################
 ##########################   EDA   ###########################
################################################################
# Objetivos:
# Analitzar las característiques principals del dataset "athlete_events"
# després de la neteja i transformació de les dades. L'EDA ens permet entendre:
#  - La distribució de les variables numèriques
#  - La relació entre variables (correlacions)
#  - La distribució de categories com Sex, Season o Medal
#  - Si hi ha patrons interessants per al modelage posterior

# Informació general del dataset
print("\n=== Información general ===")
print(df.info())

# Vore les primeres lineias
print("\n=== Primeras filas del dataset ===")
print(df.head())

# Comprobació final de valors nlos
print("\n=== Valores nulos por columna ===")
print(df.isnull().sum())

print("\n=== Resumen estadístico de las variables numéricas ===")
print(df[['Age', 'Height', 'Weight']].describe())

print(df.columns)

Todas las columnas con 5 ejemplos:
    ID                      Name Sex   Age  Height  Weight            Team  \
0   1                 A Dijiang   M  24.0   180.0    80.0           China   
1   2                  A Lamusi   M  23.0   170.0    60.0           China   
2   3       Gunnar Nielsen Aaby   M  24.0     NaN     NaN         Denmark   
3   4      Edgar Lindenau Aabye   M  34.0     NaN     NaN  Denmark/Sweden   
4   5  Christine Jacoba Aaftink   F  21.0   185.0    82.0     Netherlands   

   NOC        Games  Year  Season       City          Sport  \
0  CHN  1992 Summer  1992  Summer  Barcelona     Basketball   
1  CHN  2012 Summer  2012  Summer     London           Judo   
2  DEN  1920 Summer  1920  Summer  Antwerpen       Football   
3  DEN  1900 Summer  1900  Summer      Paris     Tug-Of-War   
4  NED  1988 Winter  1988  Winter    Calgary  Speed Skating   

                              Event Medal  
0       Basketball Men's Basketball   NaN  
1      Judo Men's Extra-Lightweigh