## Ejercicio manejo de datos y Limpieza

 - Importa los datos de FIFA.csv, Contienen información de jugadores de futbol
 - Realiza una limpieza de datos:
   - ¿De qué formato son nuestras variables? ¿cuántas líneas y columnas tiene el dataset?
   - Cambia las medidas de las variables Weight y Height a Kg y cm
   - Elimina el "+1", "+2"... de las variables CDM, RDM... y todas las columnas que están al final, sin tener que ir una por una. Apóyate en métodos como split, replace...
   - Arregla también las variables W/F, SM, IR
   - Para posteriormente hacer un buen análisis de datos por posición del jugador sería recomendable agrupar o normalizar las posiciones (BP, Best Position) en Portero, Defensa, Mediocampista y delantero. Quizás lo mejor sería crear una función posiciones_jugadores y dependiendo de la BP de cada uno que la nueva variable tome uno de esos 4 valores.
   - También vamos a querer calcular algunas métricas sobre el valor de los jugadores, Transforma las variables Value y Wage de manera que sea un entero y podamos calcular la suma y la media por equipo, posición, nacionalidad...
 - Tratamiento de valores nulos:
   - Localiza las variables que tienen valores nulos y cuenta cuántos tiene cada una de ellas
   - Decide qué hacer con ellos, si eliminarlos, imputarles un valor fijo, imputarles un valor en función de alguna condición...
 - Valores extremos
   - Localiza si las variables numéricas toman valores demasiado elevados o bajos, usa la función describe y pinta gráficos
   - Si existe alguno que sea absurdo (por ejemplo una altura en negativo) corrígelo. Si no, trátalo de la manera que más nos convenga para un futuro análisis exploratorio, por ejemplo limítalo a un valor más bajo.
 - Análisis descriptivo
   - Una vez tenemos nuestros datos limpios de irregularidades, de valores nulos y erróneos podemos emepezar a analizar su contenido
   - Compara las variables numéricas en función de variables categóricas, como su posición. Respóndete a preguntas tales como qué jugadores son más caros, más altos... Para ello representa una tabla con la suma, la media y la cuenta para cada posición. También dibuja un gráfico que consideres el más conveniente para analizar la misma información visualmente. 
   - OVA representa una valoración general del jugador, analiza si tiene alguna relación con otras columnas referentes a la calidad como Attacking, Defending... A mayor OVA mayor Value?

In [117]:
import pandas as pd

In [118]:
df_fifa = pd.read_csv('../Data/fifa.csv')
df_fifa.head()
df_fifa.tail()

Unnamed: 0.1,Unnamed: 0,ID,Name,Age,Nationality,Club,BP,Position,Team & Contract,Height,...,CDM,RDM,RWB,LB,LCB,CB,RCB,RB,GK,OVA
13695,11284,239074,S. Aw,21,Senegal,Gil Vicente FC,LB,LB,Gil Vicente FC 2020 ~ 2023,"5'8""",...,52+2,52+2,58+2,58+2,54+2,54+2,54+2,58+2,15+2,60
13696,11964,241223,S. Mogi,21,Japan,Cerezo Osaka,GK,GK,Cerezo Osaka 2017 ~ 2021,"6'5""",...,23+2,23+2,20+2,20+2,22+2,22+2,22+2,20+2,58+2,59
13697,5390,210930,Carles Gil,27,Spain,New England Revolution,RM,RM CAM CM,New England Revolution 2019 ~ 2024,"5'7""",...,60+2,60+2,62+2,57+2,47+2,47+2,47+2,57+2,18+2,76
13698,860,162993,J. Perch,34,England,Mansfield Town,CDM,CDM RB CM,Mansfield Town 2020 ~ 2021,"5'11""",...,62+1,62+1,60+2,60+2,63+0,63+0,63+0,60+2,14+2,63
13699,15795,254882,A. Oeynhausen,18,Germany,SC Paderborn 07,CAM,CM,SC Paderborn 07 2020 ~ 2022,"5'10""",...,55+2,55+2,55+2,54+2,51+2,51+2,51+2,54+2,16+2,60


In [119]:

df_fifa.shape
print(df_fifa.dtypes)

Unnamed: 0      int64
ID              int64
Name           object
Age             int64
Nationality    object
                ...  
CB             object
RCB            object
RB             object
GK             object
OVA             int64
Length: 102, dtype: object


In [120]:
df_fifa.Height

0         5'9"
1         6'0"
2         5'4"
3        5'10"
4        5'11"
         ...  
13695     5'8"
13696     6'5"
13697     5'7"
13698    5'11"
13699    5'10"
Name: Height, Length: 13700, dtype: object

In [121]:
#df_fifa['Height'].isna().sum()


def inch_to_cm(x):
    height=x.split("'")
    feet= float(height[0])
    inches=float(height[1].replace("\"",""))
    return ((12*feet) + inches) * 2.54
df_fifa['Height_cm']=df_fifa['Height'].apply(inch_to_cm)
df_fifa.Height_cm


0        175.26
1        182.88
2        162.56
3        177.80
4        180.34
          ...  
13695    172.72
13696    195.58
13697    170.18
13698    180.34
13699    177.80
Name: Height_cm, Length: 13700, dtype: float64

In [122]:
df_fifa.Weight

0        161lbs
1        159lbs
2        134lbs
3        152lbs
4        150lbs
          ...  
13695    143lbs
13696    176lbs
13697    146lbs
13698    176lbs
13699    150lbs
Name: Weight, Length: 13700, dtype: object

In [123]:
def lbs_to_kg(weight_str):
    pounds=float(weight_str.replace('lbs', ''))
    kg= pounds * 0.45359237
    return round(kg, 2)
df_fifa['Weight_kg']=df_fifa['Weight'].apply(lbs_to_kg)
df_fifa.Weight_kg

0        73.03
1        72.12
2        60.78
3        68.95
4        68.04
         ...  
13695    64.86
13696    79.83
13697    66.22
13698    79.83
13699    68.04
Name: Weight_kg, Length: 13700, dtype: float64

In [124]:
df_fifa.get('LB')

0        58+1
1        53+2
2        53+2
3        57+2
4        63+2
         ... 
13695    58+2
13696    20+2
13697    57+2
13698    60+2
13699    54+2
Name: LB, Length: 13700, dtype: object

In [125]:
def remove_plus_n(str):
    
    return int(str.split('+')[0])
#df_fifa["LB_clean"]=df_fifa['LB'].apply(remove_plus_n)
#df_fifa.LB_clean

In [126]:
# Función para obtener las columnas que contienen "+" 
 
def columnas_con_mas(df_fifa): 
    columns_with_plus=[col for col in df_fifa.columns if df_fifa[col].astype(str).str.contains(r'\+').any()]
    return columns_with_plus



In [127]:
columns_with_plus=columnas_con_mas(df_fifa)
df_fifa_clean = df_fifa.copy()
[df_fifa_clean.update({col: df_fifa[col].apply(remove_plus_n)}) for col in columns_with_plus]
df_fifa_clean.head()

Unnamed: 0.1,Unnamed: 0,ID,Name,Age,Nationality,Club,BP,Position,Team & Contract,Height,...,RWB,LB,LCB,CB,RCB,RB,GK,OVA,Height_cm,Weight_kg
0,1954,184383,A. Pasche,26,Switzerland,FC Lausanne-Sport,CM,CM CDM,FC Lausanne-Sport 2015 ~ 2020,"5'9""",...,59,58,54,54,54,58,15,64,175.26,73.03
1,2225,188044,Alan Carvalho,30,China PR,Beijing Sinobo Guoan FC,ST,ST LW LM,"Beijing Sinobo Guoan FC Dec 31, 2020 On Loan","6'0""",...,57,53,48,48,48,53,18,77,182.88,72.12
2,1959,184431,S. Giovinco,33,Italy,Al Hilal,CAM,CAM CF,Al Hilal 2019 ~ 2022,"5'4""",...,59,53,41,41,41,53,12,80,162.56,60.78
3,9815,233796,J. Evans,22,Wales,Swansea City,CDM,CDM CM,Swansea City 2016 ~ 2021,"5'10""",...,56,57,58,58,58,57,14,59,177.8,68.95
4,10074,234799,Y. Demoncy,23,France,US Orléans Loiret Football,CDM,CDM CM,US Orléans Loiret Football 2018 ~ 2021,"5'11""",...,64,63,61,61,61,63,15,65,180.34,68.04


In [128]:

def remove_star(star):
  
    #return int(str(star).strip().split('★')[0].strip())
    #return int(str(star).replace('★', '').strip())
    # regex r'\D' - remove everything that's not digit
    return star.replace('★','')


df_fifa["SM_clean"]=df_fifa['SM'].apply(remove_star)

print(df_fifa.SM_clean)


0        2
1        4
2        4
3        2
4        3
        ..
13695    2
13696    1
13697    4
13698    2
13699    2
Name: SM_clean, Length: 13700, dtype: object


In [129]:
#df_fifa['W/F']
def remove_space_star(spacestar):
  
    #return int(str(star).strip().split('★')[0].strip())
    #return int(str(star).replace('★', '').strip())
    # regex r'\D' - remove everything that's not digit
    return spacestar.replace(' ★','')


df_fifa["WF_clean"]=df_fifa['W/F'].apply(remove_space_star)
df_fifa["IR_clean"]=df_fifa['IR'].apply(remove_space_star)

print(df_fifa.IR_clean)

0        1
1        2
2        2
3        1
4        1
        ..
13695    1
13696    1
13697    2
13698    1
13699    1
Name: IR_clean, Length: 13700, dtype: object


In [None]:


def categorize_position(bp):
    if bp in ['RB','CB', 'LB']:
        return 'Defensa'
    elif bp in ['CM', 'CAM', 'CDM','LM', 'RM','LWB', 'RWB']:
        return 'Mediocampista'
    elif bp in ['ST', 'RW', 'LW']:
        return 'Delantero'
    elif bp=='GK':
        return 'Portero'
    else:
        return F"category error"

df_fifa["BP_categorized"]=df_fifa['BP'].apply(categorize_position)
print(df_fifa.BP_categorized)

#df_fifa['BP_categorized'].value_counts().get("category_error",0)


0        Mediocampista
1            Delantero
2        Mediocampista
3        Mediocampista
4        Mediocampista
             ...      
13695          Defensa
13696          Portero
13697    Mediocampista
13698    Mediocampista
13699    Mediocampista
Name: BP_categorized, Length: 13700, dtype: object


0

In [None]:
def remove_euro_k(val):
  
    return int(float(val.replace('K','').replace('€','').replace('M','')))
      

df_fifa["Value_clean"]=df_fifa['Value'].apply(remove_euro_k)
df_fifa["Wage_clean"]=df_fifa['Wage'].apply(remove_euro_k)
print(df_fifa.Wage_clean)

0          4
1         23
2         49
3          4
4          2
        ... 
13695      1
13696    700
13697      9
13698      4
13699      1
Name: Wage_clean, Length: 13700, dtype: int64


In [163]:
#df_fifa.columns[df_fifa.isna().any()].tolist()
nan_count=df_fifa.isna().sum()
columns_with_nan= nan_count[nan_count>0]
print(columns_with_nan)

Club                 21
Position            343
Joined               44
Loan Date End     12961
Volleys              44
Curve                44
Agility              44
Balance              44
Jumping              44
Interceptions         7
Positioning           7
Vision               44
Composure           329
Sliding Tackle       44
A/W                  67
D/W                  67
dtype: int64


In [190]:
#droping  the column with more than 90% of nan

df_fifa=df_fifa.drop('Loan Date End',axis=1)


In [184]:
#there's a few columns that score players' skills that are float64. I wanto replace NaNs in them with median

#find float columns

float_columns = df_fifa.select_dtypes(include=['float64']).columns
print(float_columns)
# replace Nan with median
for col in float_columns:
    df_fifa[col] = df_fifa[col].fillna(df_fifa[col].median())

Index(['Volleys', 'Curve', 'Agility', 'Balance', 'Jumping', 'Interceptions',
       'Positioning', 'Vision', 'Composure', 'Sliding Tackle', 'Height_cm',
       'Weight_kg'],
      dtype='object')


In [None]:
# for categorical variables I'm replacing Nan with category of "Unknown"
df_fifa[['Position', 'Joined', 'Club']]=df_fifa[['Position', 'Joined', 'Club']].fillna("Unknown")


In [198]:
# ['A/W', 'D/W'] are categories of magnituded, there's few NaNs. I will just fill them with mode
df_fifa[['A/W', 'D/W']]=df_fifa[['A/W', 'D/W']].fillna(df_fifa[['A/W', 'D/W']].mode())

In [131]:
df_fifa.columns[3:]

Index(['Age', 'Nationality', 'Club', 'BP', 'Position', 'Team & Contract',
       'Height', 'Weight', 'foot', 'Growth',
       ...
       'RCB', 'RB', 'GK', 'OVA', 'Height_cm', 'Weight_kg', 'SM_clean',
       'WF_clean', 'IR_clean', 'BP_categorized'],
      dtype='object', length=105)

In [132]:
df_fifa[['W/F', 'SM', 'A/W', 'D/W', 'IR','Value', 'Wage']]

Unnamed: 0,W/F,SM,A/W,D/W,IR,Value,Wage
0,4 ★,2★,High,Medium,1 ★,€525K,€4K
1,3 ★,4★,High,Low,2 ★,€8.5M,€23K
2,4 ★,4★,High,Medium,2 ★,€9M,€49K
3,2 ★,2★,Medium,Medium,1 ★,€275K,€4K
4,2 ★,3★,Low,Medium,1 ★,€725K,€2K
...,...,...,...,...,...,...,...
13695,3 ★,2★,High,Medium,1 ★,€325K,€1K
13696,2 ★,1★,Medium,Medium,1 ★,€190K,€700
13697,4 ★,4★,High,Medium,2 ★,€8M,€9K
13698,3 ★,2★,Medium,Medium,1 ★,€140K,€4K
