# **Proyecto de limpieza y transformacion de datos FIFA 21**

# Descripción de los datos
Dataset acerca de las estadisticas de los jugadores de fifa 21, ideal para practicar limpieza y transformacion de datos
## Origen de los datos
Obtenido de kaggle, subido por Rachit Toshniwal. [FIFA 21 messy, raw dataset for cleaning/ exploring](https://www.kaggle.com/datasets/yagunnersya/fifa-21-messy-raw-dataset-for-cleaning-exploring?select=fifa21_raw_data.csv%E2%80%8B)




# **Preguntas orientadoras**

### **Limpieza y Transformación de Datos**
1. **Verificar si las columnas de altura y peso tienen los tipos de datos apropiados.**
   - Asegurarse de que las columnas "Height" y "Weight" estén en un formato numérico para su análisis.
   
2. **Eliminar los caracteres de salto de línea de la columna "Hits".**
   - Limpiar la columna "Hits" de caracteres innecesarios como saltos de línea.

3. **Identificar si hay valores duplicados en el dataset.**
   - Verificar y eliminar posibles duplicados que afecten el análisis.

4. **Comprobar si el dataset contiene datos faltantes en otras columnas aparte de "Loan Date End".**
   - Identificar si existen más datos faltantes y evaluarlos.

5. **Normalizar las entradas en la columna "Nationality".**
   - Homogeneizar los nombres de nacionalidades para que sean consistentes.

6. **Separar la columna "Joined" en columnas de año, mes y día.**
   - Extraer la fecha de incorporación en componentes individuales (año, mes, día).

7. **Separar la columna "Team & Contract" en columnas separadas para equipo y contrato.**
   - Dividir la información de equipo y contrato en dos columnas separadas para mayor claridad.

8. **Limpiar y transformar las columnas "Value", "Wage" y "Release Clause" en columnas de enteros.**
   - Convertir estas columnas en valores numéricos para análisis de salarios y cláusulas.



# **Respuestas**
## **Limpieza y Transformación de Datos**

In [121]:
#Importamos las librerias necesarias
import pandas as pd
# Cargamos el dataset
df = pd.read_csv("data\\fifa21\\fifa21_raw_data.csv",low_memory=False)
# Configuramos pandas para mostrar todas las columnas y filas en la salida
pd.set_option('display.max_columns', None)

df.head()


Unnamed: 0,photoUrl,LongName,playerUrl,Nationality,Positions,Name,Age,↓OVA,POT,Team & Contract,ID,Height,Weight,foot,BOV,BP,Growth,Joined,Loan Date End,Value,Wage,Release Clause,Attacking,Crossing,Finishing,Heading Accuracy,Short Passing,Volleys,Skill,Dribbling,Curve,FK Accuracy,Long Passing,Ball Control,Movement,Acceleration,Sprint Speed,Agility,Reactions,Balance,Power,Shot Power,Jumping,Stamina,Strength,Long Shots,Mentality,Aggression,Interceptions,Positioning,Vision,Penalties,Composure,Defending,Marking,Standing Tackle,Sliding Tackle,Goalkeeping,GK Diving,GK Handling,GK Kicking,GK Positioning,GK Reflexes,Total Stats,Base Stats,W/F,SM,A/W,D/W,IR,PAC,SHO,PAS,DRI,DEF,PHY,Hits
0,https://cdn.sofifa.com/players/158/023/21_60.png,Lionel Messi,http://sofifa.com/player/158023/lionel-messi/2...,Argentina,RW ST CF,L. Messi,33,93,93,\r\n\r\n\r\n\r\nFC Barcelona\r\n2004 ~ 2021\r\...,158023,"5'7""",159lbs,Left,93,RW,0,"Jul 1, 2004",,€67.5M,€560K,€138.4M,429,85,95,70,91,88,470,96,93,94,91,96,451,91,80,91,94,95,389,86,68,72,69,94,347,44,40,93,95,75,96,91,32,35,24,54,6,11,15,14,8,2231,466,4 ★,4★,Medium,Low,5 ★,85,92,91,95,38,65,\r\n372
1,https://cdn.sofifa.com/players/020/801/21_60.png,C. Ronaldo dos Santos Aveiro,http://sofifa.com/player/20801/c-ronaldo-dos-s...,Portugal,ST LW,Cristiano Ronaldo,35,92,92,\r\n\r\n\r\n\r\nJuventus\r\n2018 ~ 2022\r\n\r\n,20801,"6'2""",183lbs,Right,92,ST,0,"Jul 10, 2018",,€46M,€220K,€75.9M,437,84,95,90,82,86,414,88,81,76,77,92,431,87,91,87,95,71,444,94,95,84,78,93,353,63,29,95,82,84,95,84,28,32,24,58,7,11,15,14,11,2221,464,4 ★,5★,High,Low,5 ★,89,93,81,89,35,77,\r\n344
2,https://cdn.sofifa.com/players/200/389/21_60.png,Jan Oblak,http://sofifa.com/player/200389/jan-oblak/210005/,Slovenia,GK,J. Oblak,27,91,93,\r\n\r\n\r\n\r\nAtlético Madrid\r\n2014 ~ 2023...,200389,"6'2""",192lbs,Right,91,GK,2,"Jul 16, 2014",,€75M,€125K,€159.4M,95,13,11,15,43,13,109,12,13,14,40,30,307,43,60,67,88,49,268,59,78,41,78,12,140,34,19,11,65,11,68,57,27,12,18,437,87,92,78,90,90,1413,489,3 ★,1★,Medium,Medium,3 ★,87,92,78,90,52,90,\r\n86
3,https://cdn.sofifa.com/players/192/985/21_60.png,Kevin De Bruyne,http://sofifa.com/player/192985/kevin-de-bruyn...,Belgium,CAM CM,K. De Bruyne,29,91,91,\r\n\r\n\r\n\r\nManchester City\r\n2015 ~ 2023...,192985,"5'11""",154lbs,Right,91,CAM,0,"Aug 30, 2015",,€87M,€370K,€161M,407,94,82,55,94,82,441,88,85,83,93,92,398,77,76,78,91,76,408,91,63,89,74,91,408,76,66,88,94,84,91,186,68,65,53,56,15,13,5,10,13,2304,485,5 ★,4★,High,High,4 ★,76,86,93,88,64,78,\r\n163
4,https://cdn.sofifa.com/players/190/871/21_60.png,Neymar da Silva Santos Jr.,http://sofifa.com/player/190871/neymar-da-silv...,Brazil,LW CAM,Neymar Jr,28,91,91,\r\n\r\n\r\n\r\nParis Saint-Germain\r\n2017 ~ ...,190871,"5'9""",150lbs,Right,91,LW,0,"Aug 3, 2017",,€90M,€270K,€166.5M,408,85,87,62,87,87,448,95,88,89,81,95,453,94,89,96,91,83,357,80,62,81,50,84,356,51,36,87,90,92,93,94,35,30,29,59,9,9,15,15,11,2175,451,5 ★,5★,High,Medium,5 ★,91,85,86,94,36,59,\r\n273


### **1. Tarea: Verificar si las columnas `Height` y `Weight` tienen los tipos de datos apropiados**

Se debe verificar que las columnas `Height` y `Weight` tengan tipos de datos numéricos (`int` o `float`) para permitir análisis estadísticos y numéricos. Actualmente, ambas están en formato `object`, lo cual impide realizar estos análisis.

#### **Proceso:**
1. Se inspeccionan los tipos de datos y una muestra de las columnas `Height` y `Weight`.
2. Se elimina el texto "lbs" de la columna `Weight`
3. Se transforma la columna `Height` a centímetros, partiendo de pies.
4. Se verifica el tipo de datos de ambas columnas después de la transformación.


___

In [122]:
# Verificar el tipo de datos en las columnas "Height" y "Weight"
df[["Height", "Weight"]].info()

# Imprimir una muestra de las columnas "Height" y "Weight" para inspección visual
print(df[["Height", "Weight"]][:5])

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18979 entries, 0 to 18978
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Height  18979 non-null  object
 1   Weight  18979 non-null  object
dtypes: object(2)
memory usage: 296.7+ KB
  Height  Weight
0   5'7"  159lbs
1   6'2"  183lbs
2   6'2"  192lbs
3  5'11"  154lbs
4   5'9"  150lbs


In [123]:
# Crear una copia del DataFrame original para trabajar sin alterar los datos originales
df_copy = df.copy()

# Eliminar "lbs" de la columna "Weight" y convertirla a tipo entero
# Usar apply con una función lambda para tomar solo los primeros tres caracteres (peso numérico)
df_copy["Weight"] = df_copy["Weight"].apply(lambda x: x[:3])
# Convertir la columna "Weight" a tipo int
df_copy["Weight"] = df_copy["Weight"].astype(int)

# Convertir la columna "Height" a centímetros
# Primero, reemplazar las comillas simples y dobles para facilitar la conversión
df_copy["Height"] = df_copy["Height"].apply(lambda x: x.replace("'", ".").replace('"', " "))
# Convertir la columna "Height" a tipo float
df_copy["Height"] = df_copy["Height"].astype(float)
# Convertir pies a centímetros multiplicando por 30.48
df_copy["Height"] = df_copy["Height"].apply(lambda x: round(x * 30.48))

# Verificar el tipo de datos en las columnas "Height" y "Weight"
print(df_copy[["Height", "Weight"]].info())

# Imprimir el contenido de las columnas "Height" y "Weight" para inspeccionarlas visualmente
print(df_copy[["Height", "Weight"]][:5])




<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18979 entries, 0 to 18978
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Height  18979 non-null  int64
 1   Weight  18979 non-null  int32
dtypes: int32(1), int64(1)
memory usage: 222.5 KB
None
   Height  Weight
0     174     159
1     189     183
2     189     192
3     156     154
4     180     150


Es importante comprobar que los datos convertidos para las columnas `Height` y `Weight` son coherentes y que existen registros de jugadores con las alturas y pesos máximos y mínimos.

#### **Proceso:**
1. Se listan los valores únicos de las columnas `Height` y `Weight` para verificar posibles errores.
2. Se obtienen los valores máximos y mínimos de las alturas y pesos, comprobando que haya jugadores asociados con dichos valores.
3. Se imprimen los nombres de los futbolistas con las alturas y pesos máximos y mínimo

**Alturas:**

In [124]:
# Verificar coherencia de datos convertidos
print("Alturas únicas:", df_copy["Height"].unique())
print("Pesos únicos:", df_copy["Weight"].unique())

# Verificar que los jugadores con las alturas máximas y mínimas existan
max_height = df_copy["Height"].unique().max()
min_height = df_copy["Height"].unique().min()
print("Altura máxima:", max_height, "cm")
print("Altura mínima:", min_height, "cm")
print("Futbolistas con la altura máxima y mínima:")
print("Altura Máxima:\n", df_copy.loc[df_copy["Height"] == max_height, ["LongName","Height"]])
print("Altura Mínima:\n", df_copy.loc[df_copy["Height"] == min_height, ["LongName","Height"]][:10])



Alturas únicas: [174 189 156 180 183 155 192 195 186 201 177 171 198 168 165 204 158 162
 207 210]
Pesos únicos: [159 183 192 154 150 176 161 201 157 152 203 187 185 212 179 181 165 190
 196 163 168 141 172 198 146 132 207 174 148 143 130 134 194 205 214 170
 137 139 209 220 128 216 227 218 123 225 223 126 121 229 236 243 117 110
 119 115]
Altura máxima: 210 cm
Altura mínima: 155 cm
Futbolistas con la altura máxima y mínima:
Altura Máxima:
          LongName  Height
10305  Tomáš Holý     210
Altura Mínima:
                           LongName  Height
6                    Kylian Mbappé     155
20                    Paulo Dybala     155
31                Andrew Robertson     155
33   Bruno Miguel Borges Fernandes     155
48                     Jamie Vardy     155
77                    Riyad Mahrez     155
96                  Miralem Pjanić     155
107                 Kingsley Coman     155
121                    Lucas Digne     155
124   Luis Miguel Afonso Fernandes     155


**Pesos:**

In [125]:
# Verificar que los jugadores con los pesos máximos y mínimos existan
max_weight = df_copy["Weight"].unique().max()
min_weight = df_copy["Weight"].unique().min()
print("Peso máximo:", max_weight, "lbs")
print("Peso mínimo:", min_weight, "lbs")
print("Futbolistas con el peso máximo y mínimo:")
print("Peso Máximo:\n", df_copy.loc[df_copy["Weight"] == max_weight, ["LongName"]])
print("Peso Mínimo:\n", df_copy.loc[df_copy["Weight"] == min_weight, ["LongName"]])

Peso máximo: 243 lbs
Peso mínimo: 110 lbs
Futbolistas con el peso máximo y mínimo:
Peso Máximo:
                 LongName
10336  Adebayo Akinfenwa
Peso Mínimo:
                 LongName
11168  Bandar Al Mutairi


Luego de verificar, todos los futbolistas concuerdan con su peso y existen registros para los valores máximos y mínimos de altura y peso.


### **2 Tarea :**  Eliminar los caracteres de salto de línea de la columna "Hits"

In [126]:
# Mostrar los primeros 5 valores de la columna "Hits" antes de la limpieza
print("Before \n", df_copy["Hits"][:5])

# Asegurarse de que todos los valores en la columna "Hits" sean de tipo string
df_copy["Hits"] = df_copy["Hits"].astype(str)

# Eliminar los caracteres de salto de línea "\n" de los valores en la columna "Hits"
df_copy["Hits"] = df_copy["Hits"].apply(lambda x: x.replace("\n", ""))

# Eliminar los caracteres de retorno de carro "\r" de los valores en la columna "Hits"
df_copy["Hits"] = df_copy["Hits"].apply(lambda x: x.replace("\r", ""))

# Mostrar los primeros 5 valores de la columna "Hits" después de la limpieza
print("After \n", df_copy["Hits"][:5])


Before 
 0    \r\n372
1    \r\n344
2     \r\n86
3    \r\n163
4    \r\n273
Name: Hits, dtype: object
After 
 0    372
1    344
2     86
3    163
4    273
Name: Hits, dtype: object


### **3. Tarea: Eliminar los caracteres de salto de línea en la columna `Hits`**

La columna `Hits` puede contener caracteres de salto de línea (`\n`) y retorno de carro (`\r`) que no son necesarios para el análisis. Es necesario limpiarlos para garantizar la consistencia de los datos.

#### **Proceso:**
1. Se inspeccionan los primeros 5 valores de la columna `Hits` antes de la limpieza para ver los caracteres no deseados.
2. Se asegura que todos los valores de la columna sean de tipo `string` para aplicar correctamente las transformaciones.
3. Se eliminan los caracteres de salto de línea (`\n`) y retorno de carro (`\r`).
4. Se revisan los primeros 5 valores después de la limpieza para verificar que los caracteres no deseados han sido eliminados.

___

In [127]:
 #Mostrar los primeros 5 valores de la columna "Hits" antes de la limpieza
print("Before \n", df_copy["Hits"][:5])

# Asegurarse de que todos los valores en la columna "Hits" sean de tipo string
df_copy["Hits"] = df_copy["Hits"].astype(str)

# Eliminar los caracteres de salto de línea "\n" de los valores en la columna "Hits"
df_copy["Hits"] = df_copy["Hits"].apply(lambda x: x.replace("\n", ""))

# Eliminar los caracteres de retorno de carro "\r" de los valores en la columna "Hits"
df_copy["Hits"] = df_copy["Hits"].apply(lambda x: x.replace("\r", ""))

# Mostrar los primeros 5 valores de la columna "Hits" después de la limpieza
print("After \n", df_copy["Hits"][:5])

Before 
 0    372
1    344
2     86
3    163
4    273
Name: Hits, dtype: object
After 
 0    372
1    344
2     86
3    163
4    273
Name: Hits, dtype: object


### **4. Tarea: Identificar si hay valores duplicados en el dataset**

Es importante verificar si existen filas duplicadas en el dataset, ya que pueden afectar los análisis y resultados. Se realizará un chequeo para detectar duplicados y eliminar las filas que se repiten.

#### **Proceso:**
1. Se verifica si hay filas duplicadas en el dataset usando el método `duplicated()`.
2. Se cuenta el número de filas duplicadas antes de eliminarlas.
3. Se eliminan las filas duplicadas con `drop_duplicates()`.
4. Se vuelve a verificar la presencia de duplicados para asegurarse de que hayan sido eliminados correctamente.

___

In [128]:
# Verificar si hay filas duplicadas
duplicados = df_copy.duplicated()
#print(duplicados)  # Descomentar si se desea ver las filas duplicadas

# Contar cuántas filas duplicadas hay antes de eliminarlas
num_duplicados = duplicados.sum()
print(f"Antes \n Número de filas duplicadas: {num_duplicados}")

# Eliminar las filas duplicadas
df_copy = df_copy.drop_duplicates()

# Verificar nuevamente si hay filas duplicadas después de eliminarlas
duplicados = df_copy.duplicated()
num_duplicados = duplicados.sum()
print(f"Después \n Número de filas duplicadas: {num_duplicados}")

Antes 
 Número de filas duplicadas: 1
Después 
 Número de filas duplicadas: 0


### **5. Tarea: Comprobar si el dataset contiene datos faltantes y completarlos**

Es fundamental asegurarse de que el dataset no contenga valores faltantes (NaN), ya que estos pueden interferir con los análisis posteriores. En esta tarea se identifican los valores faltantes y se completan con un valor específico (en este caso, 0).

#### **Proceso:**
1. Se revisa la cantidad de valores faltantes (NaN) en todas las columnas.
2. Se rellenan los valores faltantes con 0 utilizando el método `fillna()`.
3. Se verifica nuevamente la cantidad de valores faltantes después de haber sido completados.

___



In [129]:
# Mostrar la suma de valores NaN para todas las columnas (de la columna 10 a la 20)
print("Número de valores faltantes antes de completar: \n", df_copy.isna().sum()[15:20])

# Completar los valores faltantes con 0
df_copy = df_copy.fillna(0)

# Mostrar la suma de valores NaN para todas las columnas después de completar
print("Número de valores faltantes después de completar: \n", df_copy.isna().sum()[15:20])

Número de valores faltantes antes de completar: 
 BP                   0
Growth               0
Joined               0
Loan Date End    17965
Value                0
dtype: int64
Número de valores faltantes después de completar: 
 BP               0
Growth           0
Joined           0
Loan Date End    0
Value            0
dtype: int64


### **6 Tarea :** Normalizar las entradas en la columna `Nationality`.

**Ejemplo:** ¿Hay múltiples maneras de escribir un mismo país (USA vs United States)?


In [130]:
df_copy["Nationality"].unique()
#No es necesario normalizar

array(['Argentina', 'Portugal', 'Slovenia', 'Belgium', 'Brazil', 'Poland',
       'France', 'Egypt', 'Senegal', 'Netherlands', 'Germany', 'Spain',
       'England', 'Scotland', 'Korea Republic', 'Costa Rica', 'Italy',
       'Gabon', 'Croatia', 'Uruguay', 'Switzerland', 'Slovakia', 'Serbia',
       'Morocco', 'Algeria', 'Denmark', 'Hungary', 'Bosnia Herzegovina',
       'Norway', 'Nigeria', 'Cameroon', 'Ghana', 'Mexico', 'Austria',
       'Colombia', 'Albania', 'Chile', 'Ivory Coast', 'Greece', 'Finland',
       'Wales', 'Sweden', 'Czech Republic', 'Togo', 'Russia', 'Canada',
       'United States', 'Guinea', 'Venezuela', 'Montenegro', 'Israel',
       'Republic of Ireland', 'Ukraine', 'Ecuador', 'Turkey', 'Jamaica',
       'Australia', 'DR Congo', 'Armenia', 'China PR', 'Northern Ireland',
       'North Macedonia', 'Kosovo', 'Mali', 'Peru',
       'Central African Republic', 'Iceland', 'Burkina Faso', 'Paraguay',
       'Japan', 'Romania', 'New Zealand', 'Angola', 'Tunisia', 'Iran',
 

### **7. Tarea: Separar la columna `Joined` en columnas de año, mes y día**

La columna `Joined` contiene información sobre las fechas de ingreso de los jugadores. Es útil dividir esta información en tres columnas separadas (`Joined_year`, `Joined_month` y `Joined_day`) para facilitar el análisis temporal, como identificar tendencias anuales de transferencias o realizar análisis estacionales.
___
Crear una nueva columna `Joined_year` extrayendo el ultimo elemento de la columna `Joined`

In [131]:
# Imprimir valores únicos de la columna "Joined" para entender su estructura
# Esto ayuda a confirmar el formato de la columna "Joined"
print(df_copy["Joined"].unique())

# Crear una nueva columna "Joined_year" extrayendo el tercer elemento (año) de la columna "Joined"
df_copy["Joined_year"] = df_copy["Joined"].apply(lambda x: x.split()[2])
# Verificar el resultado
print("Joined Year \n",df_copy["Joined_year"][:5])




['Jul 1, 2004' 'Jul 10, 2018' 'Jul 16, 2014' ... 'Sep 22, 2018'
 'Mar 6, 2018' 'Feb 28, 2015']
Joined Year 
 0    2004
1    2018
2    2014
3    2015
4    2017
Name: Joined_year, dtype: object


Crear una nueva columna `Joined_month` extrayendo el primer elemento (mes) de la columna `Joined`

In [132]:
df_copy["Joined_month"] = df_copy["Joined"].apply(lambda x: x.split()[0])
# Verificar el resultado
print("Joined Month \n",df_copy["Joined_month"][:10])

Joined Month 
 0    Jul
1    Jul
2    Jul
3    Aug
4    Aug
5    Jul
6    Jul
7    Jul
8    Jul
9    Jul
Name: Joined_month, dtype: object


Crear una nueva columna `Joined_day` extrayendo el segundo elemento (día) de la columna `Joined` y eliminando la coma

In [133]:
df_copy["Joined_day"] = df_copy["Joined"].apply(lambda x: x.split()[1].replace(",", ""))
# Verificar el resultado
print("Joined Day \n",df_copy["Joined_day"][:10])


Joined Day 
 0     1
1    10
2    16
3    30
4     3
5     1
6     1
7    19
8     1
9     1
Name: Joined_day, dtype: object


### **8 Tarea :** Separar la columna `Team & Contract` en columnas separadas para equipo y contrato.
___


Limpiar la columna `Team & Contract`

In [134]:
# Verificar los valores únicos de la columna "Team & Contract" para entender su estructura
# Es útil para identificar cualquier anomalía o formato inesperado.
print("Before Team and Contract \n",df_copy["Team & Contract"][:5])

# Eliminar saltos de línea ("\n") de la columna "Team & Contract"
# los nombres de equipos o contratos pueden tener saltos de línea no deseados.
df_copy["Team & Contract"] = df_copy["Team & Contract"].apply(lambda x: x.replace("\n", ""))
df_copy["Team & Contract"] = df_copy["Team & Contract"].apply(lambda x: x.replace("\r", ""))

# Verificar la columna después de eliminar los saltos de línea
print("After Team and Contract \n",df_copy["Team & Contract"][:5])




Before Team and Contract 
 0    \r\n\r\n\r\n\r\nFC Barcelona\r\n2004 ~ 2021\r\...
1      \r\n\r\n\r\n\r\nJuventus\r\n2018 ~ 2022\r\n\r\n
2    \r\n\r\n\r\n\r\nAtlético Madrid\r\n2014 ~ 2023...
3    \r\n\r\n\r\n\r\nManchester City\r\n2015 ~ 2023...
4    \r\n\r\n\r\n\r\nParis Saint-Germain\r\n2017 ~ ...
Name: Team & Contract, dtype: object
After Team and Contract 
 0           FC Barcelona2004 ~ 2021
1               Juventus2018 ~ 2022
2        Atlético Madrid2014 ~ 2023
3        Manchester City2015 ~ 2023
4    Paris Saint-Germain2017 ~ 2022
Name: Team & Contract, dtype: object


Crea la columna `Team` a partir de la columna `Team & Contract`

In [135]:
# Crear una nueva columna "Team" extrayendo el equipo de la columna "Team & Contract"
# El nombre del equipo es el texto antes del primer dígito '2' (que representa el año del contrato).
df_copy["Team"] = df_copy["Team & Contract"].apply(lambda x: x.split("2", 1)[0])
# Verificar el resultado
print("Team \n",df_copy["Team"][:5])

Team 
 0           FC Barcelona
1               Juventus
2        Atlético Madrid
3        Manchester City
4    Paris Saint-Germain
Name: Team, dtype: object


Crea la columna `Contract` a partir de la columna `Team & Contract`

In [136]:

# Crear una nueva columna "Contract" extrayendo la información del contrato de la columna "Team & Contract"
# El contrato es el texto a partir del primer dígito '2' en adelante.
df_copy["Contract"] = df_copy["Team & Contract"].apply(lambda x: x.partition("2")[1] + x.partition("2")[2])
# Verificar el resultado
print("Contract \n",df_copy["Contract"][:5])


Contract 
 0    2004 ~ 2021
1    2018 ~ 2022
2    2014 ~ 2023
3    2015 ~ 2023
4    2017 ~ 2022
Name: Contract, dtype: object


### **9 Tarea :** Limpiar y transformar las columnas `Value`, `Wage` y `Release Clause` en columnas de enteros.
Verificar si los valores de las columnas `Value`, `Wage`y `Release Clause` están dentro del rango esperado acorde a las habilidades de los jugadores.
___


Es necesario definir una función que convierte los valores monetarios de 'M' (millones) y 'K' (miles) en enteros.

In [137]:


def convertir_enteros(row):
    # Encontrar la posición del carácter "M" (para millones)
    fr = row.find("M")
    # Encontrar la posición del carácter "K" (para miles)
    fr1 = row.find("K")
    # Si el valor contiene "M", convertirlo a millones
    if fr > 0:
        row = row[1:]  # Eliminar el símbolo de moneda
        pr = row.split("M")  # Separar la parte numérica
        pr1 = float(pr[0]) * 1000000  # Convertir a millones
        return int(pr1)  # Retornar como entero
    
    # Si el valor contiene "K", convertirlo a miles
    if fr1 > 0:
        row = row[1:]  # Eliminar el símbolo de moneda
        pr = row.split("K")  # Separar la parte numérica
        pr1 = float(pr[0]) * 1000  # Convertir a miles
        return int(pr1)  # Retornar como entero
    
    # En caso de que no contenga "M" ni "K", simplemente eliminar el símbolo de moneda
    else:
        row = row[1:]
        return int(row) # Retornar el valor original sin cambios
    

Transformar la columna `Value` con la funcion creada

In [138]:

# Verificar los valores únicos de "Value" antes de la conversión
print("Antes \n Value \n",df_copy["Value"].unique()[:10])

# Limpiar la columna "Value" también con la función "inte"
df_copy["Value"] = df_copy["Value"].apply(lambda x: convertir_enteros(x))

# Verificar los valores únicos de "Value" después de la conversión
print(" Despues \n Value \n",df_copy["Value"].unique()[:10])


Antes 
 Value 
 ['€67.5M' '€46M' '€75M' '€87M' '€90M' '€80M' '€105.5M' '€62.5M' '€78M'
 '€75.5M']
 Despues 
 Value 
 [ 67500000  46000000  75000000  87000000  90000000  80000000 105500000
  62500000  78000000  75500000]


Transformar la columna `Wage` con la funcion creada

In [139]:

# Verificar los valores únicos de "Wage" antes de la conversión
print("Antes \n Wage \n",df_copy["Wage"].unique()[:10])
# Limpiar la columna "Wage" de la misma manera
df_copy["Wage"] = df_copy["Wage"].apply(lambda x: convertir_enteros(x))

# Verificar los valores únicos de "Wage" después de la conversión
print("Despues \n Wage \n",df_copy["Wage"].unique()[:10])

Antes 
 Wage 
 ['€560K' '€220K' '€125K' '€370K' '€270K' '€240K' '€160K' '€250K' '€210K'
 '€260K']
Despues 
 Wage 
 [560000 220000 125000 370000 270000 240000 160000 250000 210000 260000]


Transformar la columna `Release Clause` con la funcion creada

In [140]:
# Limpiar la columna "Release Clause" utilizando la función "inte"

print("Antes \n Release Clause \n",df_copy["Release Clause"].unique()[:10])
# Se aplica la función para convertir todos los valores de la columna a enteros
df_copy["Release Clause"] = df_copy["Release Clause"].apply(lambda x: convertir_enteros(x))
# Verificar los valores únicos de "Release Clause"  después de la conversión
print("Despues \n Release Clause \n",df_copy["Release Clause"].unique()[:10])


Antes 
 Release Clause 
 ['€138.4M' '€75.9M' '€159.4M' '€161M' '€166.5M' '€132M' '€203.1M'
 '€120.3M' '€144.3M' '€145.3M']
Despues 
 Release Clause 
 [138400000  75900000 159400000 161000000 166500000 132000000 203100000
 120300000 144300000 145300000]
