# Fase 2: Limpieza y TransformaciÃ³n

#### 1. Importamos las librerÃ­as necesarias y agregamos la ruta de nuestro archivo .py

In [7]:
import sys
import pandas as pd

# Agregamos la ruta
sys.path.append('../')

# Importamos la funciÃ³n procesar_dataframe de limpieza.py
from src.limpieza import procesar_dataframe

# Importamos el diccionario de variables.py
from src.variables import cambiar_tipo_columnas

#### 2. Cargamos el dataframe transformado, hacemos llamada a la funciÃ³n y comprobamos los cambios

In [8]:
# Cargamos el DataFrame
df_csv = pd.read_csv('../data/transform_data/transform_Data.csv', low_memory=False)

# Verificamos los nombres de las columnas en el DataFrame
print("Columnas del DataFrame antes de procesar:")
print(df_csv.columns)

# Verificamos que el diccionario cambiar_tipo_columnas estÃ¡ bien definido
print("Diccionario cambiar_tipo_columnas:")
print(cambiar_tipo_columnas)

# Rellenamos valores nulos para evitar errores en la conversiÃ³n
df_csv.fillna(value=0, inplace=True)

# Llamamos a la funciÃ³n procesar_dataframe con los diccionarios importados
df = procesar_dataframe(df_csv, cambiar_tipo_columnas=cambiar_tipo_columnas)

# Verificamos el resultado mostrando los tipos de datos despuÃ©s de la transformaciÃ³n
print("Tipos de datos despuÃ©s de procesar:")
print(df.dtypes)

Columnas del DataFrame antes de procesar:
Index(['club_id', 'club_code', 'name', 'domestic_competition_id',
       'total_market_value', 'squad_size', 'average_age', 'foreigners_number',
       'foreigners_percentage', 'national_team_players', 'stadium_name',
       'stadium_seats', 'net_transfer_record', 'coach_name', 'last_season',
       'filename', 'url', 'game_id', 'own_goals', 'own_position',
       'own_manager_name', 'opponent_id', 'opponent_goals',
       'opponent_position', 'opponent_manager_name', 'hosting', 'is_win'],
      dtype='object')
Diccionario cambiar_tipo_columnas:
{'net_transfer_record': 'float64', 'coach_name': 'object', 'own_position': 'int', 'opponent_position': 'int', 'opponent_id': 'int', 'opponent_goals': 'int', 'hosting': 'category'}
Tipos de datos despuÃ©s de procesar:
club_id                       int64
club_code                    object
name                         object
domestic_competition_id      object
total_market_value          float64
squad_siz

#### 3. Analizamos si existen o no valores duplicados, para poder reducir el tamaÃ±o del archivo y mejorar la velocidad del fichero

In [9]:
# Comprobamos si existen valores duplicados
if df.duplicated().values.any():
    print("Existen valores duplicados por eliminar")
else:
    print("No existen valores duplicados")

# Comprobamos y verificamos que no existen valores duplicados
df.duplicated().sum()

No existen valores duplicados


np.int64(0)

#### 4. Analizamos si existen o no valores nulos

In [10]:
# Calculamos cuantos valores nulos existen
print("Los valores nulos existentes por columna son:")
df.isnull().sum()

Los valores nulos existentes por columna son:


club_id                         0
club_code                       0
name                            0
domestic_competition_id         0
total_market_value              0
squad_size                      0
average_age                     0
foreigners_number               0
foreigners_percentage           0
national_team_players           0
stadium_name                    0
stadium_seats                   0
net_transfer_record        120099
coach_name                      0
last_season                     0
filename                        0
url                             0
game_id                         0
own_goals                       0
own_position                    0
own_manager_name                0
opponent_id                     0
opponent_goals                  0
opponent_position               0
opponent_manager_name           0
hosting                         0
is_win                          0
dtype: int64

In [11]:
# Calculamos el % de nulos en cada columna, para saber la cantidad de nulos que hemos obtenido
df.isnull().mean() * 100

club_id                      0.0
club_code                    0.0
name                         0.0
domestic_competition_id      0.0
total_market_value           0.0
squad_size                   0.0
average_age                  0.0
foreigners_number            0.0
foreigners_percentage        0.0
national_team_players        0.0
stadium_name                 0.0
stadium_seats                0.0
net_transfer_record        100.0
coach_name                   0.0
last_season                  0.0
filename                     0.0
url                          0.0
game_id                      0.0
own_goals                    0.0
own_position                 0.0
own_manager_name             0.0
opponent_id                  0.0
opponent_goals               0.0
opponent_position            0.0
opponent_manager_name        0.0
hosting                      0.0
is_win                       0.0
dtype: float64

#### 5. Conclusiones del cÃ¡lculo de % de valores nulos

**Calculamos el % de valores nulos en cada columna, y obtenemos las siguientes conclusiones:**

1. Si una columna contiene el 100% de valores nulos, lo mÃ¡s eficiente es eliminar dicha columna (total_market_value, coach_name)<br>

2. Si menos del 5% de los valores de la columna son nulos, podemos sustituirlos por la mediana en columnas numÃ©ricas y la moda en columnas categÃ³ricas.<br>

3. Sustituir por la moda es adecuado para las columnas categÃ³ricas, ya que la moda es el valor mÃ¡s frecuente.<br>

4. Sustituir por la mediana es Ãºtil cuando la distribuciÃ³n de los datos es asimÃ©trica (sesgada), ya que la mediana no se ve afectada por los valores extremos.<br>

In [12]:
# SegÃºn el anÃ¡lisis eliminamos la columna net_transfer_record, puesto que tiene el 100% de valores nulos. Eliminamos ademÃ¡s columnas que no serÃ¡n de utilidad
df = df.drop(['net_transfer_record', 'total_market_value', 'coach_name', 'club_code'], axis=1)

In [13]:
# Sustituimos los nulos en las columnas numÃ©ricas, por la mediana de cada columna
numerical_columns = df.select_dtypes(include=['float64', 'int64']).columns
df[numerical_columns] = df[numerical_columns].fillna(df[numerical_columns].median())

In [14]:
# Sustituimos los nulos en las columnas categÃ³ricas, por la moda de cada columna
categorical_columns = df.select_dtypes(include=['object']).columns
df[categorical_columns] = df[categorical_columns].fillna(df[categorical_columns].mode().iloc[0])

In [15]:
# Verificamos que ya no hay valores nulos
df.isnull().sum()

club_id                    0
name                       0
domestic_competition_id    0
squad_size                 0
average_age                0
foreigners_number          0
foreigners_percentage      0
national_team_players      0
stadium_name               0
stadium_seats              0
last_season                0
filename                   0
url                        0
game_id                    0
own_goals                  0
own_position               0
own_manager_name           0
opponent_id                0
opponent_goals             0
opponent_position          0
opponent_manager_name      0
hosting                    0
is_win                     0
dtype: int64

In [16]:
# Verificamos que se aplicaron los cambios
df.head()

Unnamed: 0,club_id,name,domestic_competition_id,squad_size,average_age,foreigners_number,foreigners_percentage,national_team_players,stadium_name,stadium_seats,...,game_id,own_goals,own_position,own_manager_name,opponent_id,opponent_goals,opponent_position,opponent_manager_name,hosting,is_win
0,105,SV Darmstadt 98,L1,27,25.6,13,48.1,1,Merck-Stadion am BÃ¶llenfalltor,17810,...,2581153,2.0,10,Dirk Schuster,42,2,9,Michael Frontzeck,Home,0
1,105,SV Darmstadt 98,L1,27,25.6,13,48.1,1,Merck-Stadion am BÃ¶llenfalltor,17810,...,2581674,2.0,10,Dirk Schuster,39,3,8,Martin Schmidt,Home,0
2,105,SV Darmstadt 98,L1,27,25.6,13,48.1,1,Merck-Stadion am BÃ¶llenfalltor,17810,...,2704228,1.0,12,Norbert Meier,24,0,9,Niko Kovac,Home,1
3,105,SV Darmstadt 98,L1,27,25.6,13,48.1,1,Merck-Stadion am BÃ¶llenfalltor,17810,...,4096140,0.0,18,Torsten Lieberknecht,15,2,1,Xabi Alonso,Home,0
4,105,SV Darmstadt 98,L1,27,25.6,13,48.1,1,Merck-Stadion am BÃ¶llenfalltor,17810,...,2361070,1.0,0,Dirk Schuster,33,3,0,Jens Keller,Home,0


#### 6. Analizamos las columnas categÃ³ricas

In [17]:
# Verificamos posibles erratas o valores mal escritos, con head mostramos los 20 valores de mayor frecuencia
for col in df.select_dtypes(include=['object']).columns:
    print(f"\nðŸ”¹ Columna: {col}")
    print(df_csv[col].value_counts(dropna=False).head(20))


ðŸ”¹ Columna: name
name
Real Madrid Club de FÃºtbol                    709
Futbol Club Barcelona                         706
Sevilla FÃºtbol Club S.A.D.                    687
Club AtlÃ©tico de Madrid S.A.D.                674
Manchester City Football Club                 670
Chelsea Football Club                         663
Manchester United Football Club               658
Juventus Football Club                        655
Liverpool Football Club                       643
Arsenal Football Club                         641
The Celtic Football Club                      636
FC Bayern MÃ¼nchen                             636
Tottenham Hotspur Football Club               630
SocietÃ  Sportiva Calcio Napoli                624
Associazione Sportiva Roma                    622
SocietÃ  Sportiva Lazio S.p.A.                 619
Borussia Dortmund                             612
Athletic Club Bilbao                          610
AFC Ajax Amsterdam                            609
Football Club Inter

In [18]:
# Eliminamos espacios en blanco, espacios dobles o caracteres
for col in df.select_dtypes(include=['object']).columns:
    df[col] = df[col].str.strip()
    df[col] = df[col].replace(r'\s+', ' ', regex=True)

#### 7. Analizamos las columnas numÃ©ricas

In [19]:
# Revisamos las estadÃ­sticas generales
df.select_dtypes(include=["number"]).describe()

Unnamed: 0,club_id,squad_size,average_age,foreigners_number,foreigners_percentage,national_team_players,stadium_seats,last_season,game_id,own_goals,own_position,opponent_id,opponent_goals,opponent_position,is_win
count,120099.0,120099.0,120099.0,120099.0,120099.0,120099.0,120099.0,120099.0,120099.0,120099.0,120099.0,120099.0,120099.0,120099.0,120099.0
mean,3203.647224,26.04274,24.670431,13.238961,48.326645,6.955936,30278.971215,2022.806759,3107617.0,1.448214,7.802396,3574.429396,1.378496,7.802396,0.396265
std,8386.55857,6.477525,5.423141,6.052661,21.297589,5.528892,19318.39826,2.508307,634238.7,1.346801,5.97231,9112.032868,1.298949,5.97231,0.489123
min,3.0,0.0,0.0,0.0,0.0,0.0,0.0,2012.0,2211607.0,0.0,0.0,1.0,0.0,0.0,0.0
25%,294.0,25.0,24.6,10.0,36.0,2.0,14708.0,2023.0,2578184.0,0.0,2.0,306.0,0.0,2.0,0.0
50%,865.0,27.0,25.8,14.0,50.0,6.0,27084.0,2024.0,3055072.0,1.0,7.0,903.0,1.0,7.0,0.0
75%,2451.0,29.0,26.7,17.0,65.4,11.0,42115.0,2024.0,3598382.0,2.0,13.0,2672.0,2.0,13.0,1.0
max,110302.0,41.0,29.8,29.0,100.0,22.0,81365.0,2024.0,4500281.0,16.0,21.0,121966.0,17.0,21.0,1.0


In [20]:
# Detectamos valores fuera de rango, por ejemplo si obtenemos una edad negativa
for col in df.select_dtypes(include=['number']).columns:
    print(f"\nðŸ”¹ Columna: {col}")
    print(f"Valores Ãºnicos: {df[col].nunique()}")
    print(f"MÃ¡ximo: {df[col].max()}, MÃ­nimo: {df[col].min()}")


ðŸ”¹ Columna: club_id
Valores Ãºnicos: 439
MÃ¡ximo: 110302, MÃ­nimo: 3

ðŸ”¹ Columna: squad_size
Valores Ãºnicos: 32
MÃ¡ximo: 41, MÃ­nimo: 0

ðŸ”¹ Columna: average_age
Valores Ãºnicos: 74
MÃ¡ximo: 29.8, MÃ­nimo: 0.0

ðŸ”¹ Columna: foreigners_number
Valores Ãºnicos: 28
MÃ¡ximo: 29, MÃ­nimo: 0

ðŸ”¹ Columna: foreigners_percentage
Valores Ãºnicos: 171
MÃ¡ximo: 100.0, MÃ­nimo: 0.0

ðŸ”¹ Columna: national_team_players
Valores Ãºnicos: 22
MÃ¡ximo: 22, MÃ­nimo: 0

ðŸ”¹ Columna: stadium_seats
Valores Ãºnicos: 401
MÃ¡ximo: 81365, MÃ­nimo: 0

ðŸ”¹ Columna: last_season
Valores Ãºnicos: 13
MÃ¡ximo: 2024, MÃ­nimo: 2012

ðŸ”¹ Columna: game_id
Valores Ãºnicos: 63372
MÃ¡ximo: 4500281, MÃ­nimo: 2211607

ðŸ”¹ Columna: own_goals
Valores Ãºnicos: 17
MÃ¡ximo: 16.0, MÃ­nimo: 0.0

ðŸ”¹ Columna: own_position
Valores Ãºnicos: 22
MÃ¡ximo: 21, MÃ­nimo: 0

ðŸ”¹ Columna: opponent_id
Valores Ãºnicos: 1739
MÃ¡ximo: 121966, MÃ­nimo: 1

ðŸ”¹ Columna: opponent_goals
Valores Ãºnicos: 17
MÃ¡ximo: 17, MÃ­nimo: 0

ðŸ”¹ Co

#### 8. CÃ¡lculo del MÃ©todo de Rango IntercuartÃ­lico (IQR)

In [21]:
# Detectamos valores bajos o altos que podrÃ­an causar conflicto
import numpy as np

for col in df.select_dtypes(include=['number']).columns:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    outliers = df[(df[col] < (Q1 - 1.5 * IQR)) | (df[col] > (Q3 + 1.5 * IQR))]
    print(f"\nðŸ”¹ Columna: {col} - Outliers encontrados: {outliers.shape[0]}")


ðŸ”¹ Columna: club_id - Outliers encontrados: 14629

ðŸ”¹ Columna: squad_size - Outliers encontrados: 8043

ðŸ”¹ Columna: average_age - Outliers encontrados: 6280

ðŸ”¹ Columna: foreigners_number - Outliers encontrados: 671

ðŸ”¹ Columna: foreigners_percentage - Outliers encontrados: 0

ðŸ”¹ Columna: national_team_players - Outliers encontrados: 0

ðŸ”¹ Columna: stadium_seats - Outliers encontrados: 0

ðŸ”¹ Columna: last_season - Outliers encontrados: 20445

ðŸ”¹ Columna: game_id - Outliers encontrados: 0

ðŸ”¹ Columna: own_goals - Outliers encontrados: 1335

ðŸ”¹ Columna: own_position - Outliers encontrados: 0

ðŸ”¹ Columna: opponent_id - Outliers encontrados: 14831

ðŸ”¹ Columna: opponent_goals - Outliers encontrados: 1068

ðŸ”¹ Columna: opponent_position - Outliers encontrados: 0

ðŸ”¹ Columna: is_win - Outliers encontrados: 0


#### 9. Guardamos el CSV con la limpieza final realizada

In [22]:
df.to_csv('../data/transform_data/data_clean.csv', index=False)