## Ejercicio manejo de datos y Limpieza

 - Importa los datos de FIFA.csv, Contienen información de jugadores de futbol
 - Realiza una limpieza de datos:
   - ¿De qué formato son nuestras variables? ¿cuántas líneas y columnas tiene el dataset?
   - Cambia las medidas de las variables Weight y Height a Kg y cm
   - Elimina el "+1", "+2"... de las variables CDM, RDM... y todas las columnas que están al final, sin tener que ir una por una. Apóyate en métodos como split, replace...
   - Arregla también las variables W/F, SM, IR
   - Para posteriormente hacer un buen análisis de datos por posición del jugador sería recomendable agrupar o normalizar las posiciones (BP, Best Position) en Portero, Defensa, Mediocampista y delantero. Quizás lo mejor sería crear una función posiciones_jugadores y dependiendo de la BP de cada uno que la nueva variable tome uno de esos 4 valores.
   - También vamos a querer calcular algunas métricas sobre el valor de los jugadores, Transforma las variables Value y Wage de manera que sea un entero y podamos calcular la suma y la media por equipo, posición, nacionalidad...
 - Tratamiento de valores nulos:
   - Localiza las variables que tienen valores nulos y cuenta cuántos tiene cada una de ellas
   - Decide qué hacer con ellos, si eliminarlos, imputarles un valor fijo, imputarles un valor en función de alguna condición...
 - Valores extremos
   - Localiza si las variables numéricas toman valores demasiado elevados o bajos, usa la función describe y pinta gráficos
   - Si existe alguno que sea absurdo (por ejemplo una altura en negativo) corrígelo. Si no, trátalo de la manera que más nos convenga para un futuro análisis exploratorio, por ejemplo limítalo a un valor más bajo.
 - Análisis descriptivo
   - Una vez tenemos nuestros datos limpios de irregularidades, de valores nulos y erróneos podemos emepezar a analizar su contenido
   - Compara las variables numéricas en función de variables categóricas, como su posición. Respóndete a preguntas tales como qué jugadores son más caros, más altos... Para ello representa una tabla con la suma, la media y la cuenta para cada posición. También dibuja un gráfico que consideres el más conveniente para analizar la misma información visualmente. 
   - OVA representa una valoración general del jugador, analiza si tiene alguna relación con otras columnas referentes a la calidad como Attacking, Defending... A mayor OVA mayor Value?

In [134]:
import pandas as pd

In [135]:
df_fifa = pd.read_csv('../Data/fifa.csv')

In [136]:
df_fifa.describe
#With the describe method we obtain information about the number of rows and columns.

<bound method NDFrame.describe of        Unnamed: 0      ID           Name  Age  Nationality  \
0            1954  184383      A. Pasche   26  Switzerland   
1            2225  188044  Alan Carvalho   30     China PR   
2            1959  184431    S. Giovinco   33        Italy   
3            9815  233796       J. Evans   22        Wales   
4           10074  234799     Y. Demoncy   23       France   
...           ...     ...            ...  ...          ...   
13695       11284  239074          S. Aw   21      Senegal   
13696       11964  241223        S. Mogi   21        Japan   
13697        5390  210930     Carles Gil   27        Spain   
13698         860  162993       J. Perch   34      England   
13699       15795  254882  A. Oeynhausen   18      Germany   

                             Club   BP   Position  \
0               FC Lausanne-Sport   CM     CM CDM   
1         Beijing Sinobo Guoan FC   ST   ST LW LM   
2                        Al Hilal  CAM     CAM CF   
3        

In [137]:
df_fifa.info(102)
#With the method we can obtain information about the type of variables 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13700 entries, 0 to 13699
Data columns (total 102 columns):
 #    Column            Dtype  
---   ------            -----  
 0    Unnamed: 0        int64  
 1    ID                int64  
 2    Name              object 
 3    Age               int64  
 4    Nationality       object 
 5    Club              object 
 6    BP                object 
 7    Position          object 
 8    Team & Contract   object 
 9    Height            object 
 10   Weight            object 
 11   foot              object 
 12   Growth            int64  
 13   Joined            object 
 14   Loan Date End     object 
 15   Value             object 
 16   Wage              object 
 17   Release Clause    object 
 18   Contract          object 
 19   Attacking         int64  
 20   Crossing          int64  
 21   Finishing         int64  
 22   Heading Accuracy  int64  
 23   Short Passing     int64  
 24   Volleys           float64
 25   Skill             in

In [138]:
df_fifa[['Height']]

Unnamed: 0,Height
0,"5'9"""
1,"6'0"""
2,"5'4"""
3,"5'10"""
4,"5'11"""
...,...
13695,"5'8"""
13696,"6'5"""
13697,"5'7"""
13698,"5'11"""


In [139]:
df_fifa[['Weight']]

Unnamed: 0,Weight
0,161lbs
1,159lbs
2,134lbs
3,152lbs
4,150lbs
...,...
13695,143lbs
13696,176lbs
13697,146lbs
13698,176lbs


In [140]:
df_fifa[['Height','Weight']]

Unnamed: 0,Height,Weight
0,"5'9""",161lbs
1,"6'0""",159lbs
2,"5'4""",134lbs
3,"5'10""",152lbs
4,"5'11""",150lbs
...,...,...
13695,"5'8""",143lbs
13696,"6'5""",176lbs
13697,"5'7""",146lbs
13698,"5'11""",176lbs


In [141]:
import re

def height_to_cm(height):
    match = re.match(r"(\d+)'(\d+)", height) 
    if match:
        foots = int(match.group(1))
        inches = int(match.group(2))
        cms = foots * 30.48 + inches * 2.54 
        return(cms)
    return None

df_fifa['Height'] = df_fifa['Height'].apply(height_to_cm)

df_fifa[['Height','Weight']]


    




Unnamed: 0,Height,Weight
0,175.26,161lbs
1,182.88,159lbs
2,162.56,134lbs
3,177.80,152lbs
4,180.34,150lbs
...,...,...
13695,172.72,143lbs
13696,195.58,176lbs
13697,170.18,146lbs
13698,180.34,176lbs


In [142]:
import re

def weight_to_kg(weight):
    match = re.match(r"(\d+)lbs", weight)  # Extraer el número
    if match:
        lbs = int(match.group(1))
        return round(lbs * 0.453592, 2)  # Conversión
    return None

# Aplicar la función
df_fifa['Weight'] = df_fifa['Weight'].apply(weight_to_kg)

df_fifa[['Height','Weight']]

Unnamed: 0,Height,Weight
0,175.26,73.03
1,182.88,72.12
2,162.56,60.78
3,177.80,68.95
4,180.34,68.04
...,...,...
13695,172.72,64.86
13696,195.58,79.83
13697,170.18,66.22
13698,180.34,79.83


In [143]:
df_fifa.head()

Unnamed: 0.1,Unnamed: 0,ID,Name,Age,Nationality,Club,BP,Position,Team & Contract,Height,...,CDM,RDM,RWB,LB,LCB,CB,RCB,RB,GK,OVA
0,1954,184383,A. Pasche,26,Switzerland,FC Lausanne-Sport,CM,CM CDM,FC Lausanne-Sport 2015 ~ 2020,175.26,...,59+1,59+1,59+1,58+1,54+1,54+1,54+1,58+1,15+1,64
1,2225,188044,Alan Carvalho,30,China PR,Beijing Sinobo Guoan FC,ST,ST LW LM,"Beijing Sinobo Guoan FC Dec 31, 2020 On Loan",182.88,...,53+2,53+2,57+2,53+2,48+2,48+2,48+2,53+2,18+2,77
2,1959,184431,S. Giovinco,33,Italy,Al Hilal,CAM,CAM CF,Al Hilal 2019 ~ 2022,162.56,...,56+2,56+2,59+2,53+2,41+2,41+2,41+2,53+2,12+2,80
3,9815,233796,J. Evans,22,Wales,Swansea City,CDM,CDM CM,Swansea City 2016 ~ 2021,177.8,...,58+2,58+2,56+2,57+2,58+2,58+2,58+2,57+2,14+2,59
4,10074,234799,Y. Demoncy,23,France,US Orléans Loiret Football,CDM,CDM CM,US Orléans Loiret Football 2018 ~ 2021,180.34,...,64+2,64+2,64+2,63+2,61+2,61+2,61+2,63+2,15+2,65


In [146]:
df_fifa[df_fifa.columns[101]].replace(r'\+\d+', '', inplace=True)

# Ver las primeras filas para confirmar el cambio
df_fifa.head()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_fifa[df_fifa.columns[101]].replace(r'\+\d+', '', inplace=True)


Unnamed: 0.1,Unnamed: 0,ID,Name,Age,Nationality,Club,BP,Position,Team & Contract,Height,...,CDM,RDM,RWB,LB,LCB,CB,RCB,RB,GK,OVA
0,1954,184383,A. Pasche,26,Switzerland,FC Lausanne-Sport,CM,CM CDM,FC Lausanne-Sport 2015 ~ 2020,175.26,...,59+1,59+1,59+1,58+1,54+1,54+1,54+1,58+1,15+1,64
1,2225,188044,Alan Carvalho,30,China PR,Beijing Sinobo Guoan FC,ST,ST LW LM,"Beijing Sinobo Guoan FC Dec 31, 2020 On Loan",182.88,...,53+2,53+2,57+2,53+2,48+2,48+2,48+2,53+2,18+2,77
2,1959,184431,S. Giovinco,33,Italy,Al Hilal,CAM,CAM CF,Al Hilal 2019 ~ 2022,162.56,...,56+2,56+2,59+2,53+2,41+2,41+2,41+2,53+2,12+2,80
3,9815,233796,J. Evans,22,Wales,Swansea City,CDM,CDM CM,Swansea City 2016 ~ 2021,177.8,...,58+2,58+2,56+2,57+2,58+2,58+2,58+2,57+2,14+2,59
4,10074,234799,Y. Demoncy,23,France,US Orléans Loiret Football,CDM,CDM CM,US Orléans Loiret Football 2018 ~ 2021,180.34,...,64+2,64+2,64+2,63+2,61+2,61+2,61+2,63+2,15+2,65
