## Limpieza de Datos Dataset FIFA21

- Analisis Básico del Dataset 
- Limpieza y Transformacion


In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('fifa21_raw_data.csv')

In [None]:
df.head()
## Muestra las primeras 5 filas del dataset 
## La columna 'photoUrl' muestra el link a una url que muestra las fotos
## de cada jugador 

In [None]:
df.info()
## este comando muestra un pequeño vistazo acerca del numero de variables
## su tipo y el conteo de datos que son NO nulos 

## Esta informacion nos puede ayudar a visualizar posibles inconsistencias en
## los datos 

## Limpieza y Transformacion 

### Datos Duplicados 


In [None]:
df.duplicated().sum()

## Muestra el numero de filas repetidas en el dataset, para posteriormente
## decidir si eliminarlas 

In [None]:
df.drop_duplicates(inplace= True)

## Se decide eliminar aquellas filas repetidas

In [None]:
df.duplicated().sum()

## Se muestra como ahora no hay filas repetidas 

### Datos Faltantes

In [None]:
df.isna().sum().sort_values(ascending=False)

## Se buscan las columnas que cuentan con datos faltantes o nulos y se
## hace el conteo de los mismos 

## En la columna 'Loan Date End' se muestra la fecha en la que expiran los 
## prestamos de jugadores cedidos. Aquellos jugadores que no estan a prestamo 
## al no tener fecha de expiracion dejan un dato nulo. Ahora se busca transformarlos

In [None]:
df["Loan Date End"].fillna("Sin prestamo", inplace=True)
## Se cambia la informacion para aquellos jugadores que no estan a prestamo
## y se verifica el cambio 

df["Loan Date End"]

### Conversion de Columnas

In [36]:
df.columns = df.columns.str.lower()

# Se renonmbran las columnas para facilitar la lectura
column_renaming_map_2 = {
 "foto_url": "photo_url",
    "nombre_completo": "long_name",
    "jugador_url": "player_url",
    "↓ova": "ova",
    "fin_prestamo": "loan_date_end",
    "clausula_recision": "release_clause",
    "cabeceo": "heading_accuracy",
    "pase_corto": "short_passing",
    "precision_falta": "fk_accuracy",
    "pase_largo": "long_passing",
    "control_balon": "ball_control",
    "velocidad_sprint": "sprint_speed",
    "potencia_tiro": "shot_power",
    "tiros_largos": "long_shots",
    "entradas": "standing_tackle",
    "barridas": "sliding_tackle",
    "atajadas": "gk_diving",
    "manejo_gk": "gk_handling",
    "saque_gk": "gk_kicking",
    "posicion_gk": "gk_positioning",
    "reflejos_gk": "gk_reflexes",
    "stats_totales": "total_stats",
    "stats_base": "base_stats"   

}

df = df.rename(columns=column_renaming_map_2)

# Se muestran las columnas con los cambios realizados 
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 18978 entries, 0 to 18978
Data columns (total 77 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   id                  18978 non-null  int64 
 1   name                18978 non-null  object
 2   long_name           18978 non-null  object
 3   age                 18978 non-null  int64 
 4   nationality         18978 non-null  object
 5   team & contract     18978 non-null  object
 6   positions           18978 non-null  object
 7   height              18978 non-null  object
 8   weight              18978 non-null  object
 9   foot                18978 non-null  object
 10  joined              18978 non-null  object
 11  value               18978 non-null  object
 12  wage                18978 non-null  object
 13  release_clause      18978 non-null  object
 14  ova                 18978 non-null  int64 
 15  photo_url           18978 non-null  object
 16  player_url          18978 n

In [37]:
# Se define el orden de las columnas
nuevo_orden = ['id', 'name', 'long_name', 'age', 'nationality', 'team & contract', 'positions', 'height', 'weight', 'foot', 'joined', 'value', 'wage', 'release_clause', 'ova']

# Se eligen las columnas restantes en el orden de las mismas
columnas_restantes = [col for col in df.columns if col not in nuevo_orden]

# Se reordenan las columnas 
df = df[nuevo_orden + columnas_restantes]

# Se muestra la informacion tras el reordenamiento
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 18978 entries, 0 to 18978
Data columns (total 77 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   id                  18978 non-null  int64 
 1   name                18978 non-null  object
 2   long_name           18978 non-null  object
 3   age                 18978 non-null  int64 
 4   nationality         18978 non-null  object
 5   team & contract     18978 non-null  object
 6   positions           18978 non-null  object
 7   height              18978 non-null  object
 8   weight              18978 non-null  object
 9   foot                18978 non-null  object
 10  joined              18978 non-null  object
 11  value               18978 non-null  object
 12  wage                18978 non-null  object
 13  release_clause      18978 non-null  object
 14  ova                 18978 non-null  int64 
 15  photo_url           18978 non-null  object
 16  player_url          18978 n

### Actualizacion Edades

In [39]:
df["age"]

0        33
1        35
2        27
3        29
4        28
         ..
18974    21
18975    17
18976    21
18977    17
18978    19
Name: age, Length: 18978, dtype: int64

In [40]:
# Se añaden 3 años correspondientes al pasar del tiempo de 2020 que salio el juego a 2024 cuando empezo la temporada
df["age"] = df["age"] + 3

# Se revisa la edad actualizada
df["age"]

0        36
1        38
2        30
3        32
4        31
         ..
18974    24
18975    20
18976    24
18977    20
18978    22
Name: age, Length: 18978, dtype: int64

### Conversion de Alturas

In [41]:
df["height"]

0         5'7"
1         6'2"
2         6'2"
3        5'11"
4         5'9"
         ...  
18974    5'10"
18975     5'7"
18976    5'10"
18977     5'9"
18978     5'9"
Name: height, Length: 18978, dtype: object

In [43]:
# Se define una funcion para convertir la altura de pies a centimetros
"""
Convierte un dato str en pies y pulgadas a centimetros.
Args:
    height_str: el str de la altura en formato "feet'inches".
Returns:
    Altura en centimetros.
"""
def convert_height_to_cm(height_str):
    feet, inches = height_str.split("'")
    feet = int(feet)
    inches = int(inches.replace('"', ''))
    total_feet = feet + (inches * 0.08)
    return total_feet * 30.48

# aplica la funcion y convierte los datos de pulgadas a centimetros en int 
df["height_cm"] = df["height"].apply(convert_height_to_cm).astype(int)

# se muestra la altura actualizada
df["height_cm"]

0        169
1        187
2        187
3        179
4        174
        ... 
18974    176
18975    169
18976    176
18977    174
18978    174
Name: height_cm, Length: 18978, dtype: int64

## Cambios 

- Se identificaron las filas duplicadas y se eliminaron para no tener datos repetidos

- Se identificaron los datos faltantes o nulos y se les cambio la descripcion para adaptarlos al contexto 

- Se convirtieron, renombraron y reordenaron algunas columnas para facilitar la lectura del dataset 

- Se realizaron actualizaciones a las edades de los jugadores para adatarlas al momento del tiempo en el que se realiza el trabajo (2024).

- Se realizaron conversiones en la unidad de medida para las alturas de los jugadores adaptandolas a centimetros para facilitar el entendimiento de aquellos lectores familiarizados con esta unidad de medida.