In [20]:
import pandas as pd

def limpiar_transfermarkt(transfermarkt_path):
    # Cargar el archivo de Transfermarkt
    df_transfermarkt = pd.read_excel(transfermarkt_path)

    # Paso 1: Eliminar el texto entre paréntesis en la columna 'Fecha Nac' y crear la nueva columna 'Nacimiento'
    df_transfermarkt['Nacimiento'] = df_transfermarkt['Fecha Nac'].str.replace(r'\(.*\)', '', regex=True).str.strip()

    # Paso 2: Crear la columna 'Año' extrayendo solo el año de la columna 'Nacimiento'
    df_transfermarkt['Año'] = df_transfermarkt['Nacimiento'].str.split('/').str[-1]

    # Paso 3: Eliminar la columna original 'Fecha Nac'
    df_transfermarkt = df_transfermarkt.drop(columns=['Fecha Nac'])

    # Paso 4: Convertir 'Edad' a tipo entero
    df_transfermarkt['Edad'] = df_transfermarkt['Edad'].astype(int)

    # Paso 5: Verificar que la columna 'Nacimiento' está en formato datetime (y se muestra en formato dd/mm/yyyy)
    df_transfermarkt['Nacimiento'] = pd.to_datetime(df_transfermarkt['Nacimiento'], errors='coerce').dt.strftime('%d/%m/%Y')

    # Paso 6: Convertir 'Año' a tipo numérico
    df_transfermarkt['Año'] = pd.to_numeric(df_transfermarkt['Año'], errors='coerce')

    # Paso 7: Sustituir los valores NaN por cero
    df_transfermarkt = df_transfermarkt.fillna(0)

    # Paso 8: Eliminar filas duplicadas
    df_transfermarkt = df_transfermarkt.drop_duplicates()

    # Paso 9: Eliminar espacios en los nombres de las columnas
    df_transfermarkt.columns = df_transfermarkt.columns.str.strip()

    # Paso 10: Reindexar el DataFrame
    df_transfermarkt = df_transfermarkt.reset_index(drop=True)

    # Paso 11: Verificación final del DataFrame
    print("\nPrimeras filas después de toda la limpieza:")
    print(df_transfermarkt.head())

    print("\nColumnas y tipos de datos:")
    print(df_transfermarkt.dtypes)

    # Retornar el DataFrame limpio
    return df_transfermarkt

In [21]:
df_transfermarkt = limpiar_transfermarkt("/Users/macmontxinho/Desktop/Master Python/TFM/Transfermark.xlsx")


Primeras filas después de toda la limpieza:
            Jugador              Pos  Valor Mercado       Equipo Competicion  \
0  Thibaut Courtois          Portero           25.0  Real Madrid      laliga   
1      Andriy Lunin          Portero           20.0  Real Madrid      laliga   
2      Éder Militão  Defensa central           40.0  Real Madrid      laliga   
3   Antonio Rüdiger  Defensa central           24.0  Real Madrid      laliga   
4       David Alaba  Defensa central           10.0  Real Madrid      laliga   

   Edad  Nacimiento     Año  
0    32  05/11/1992  1992.0  
1    25  02/11/1999  1999.0  
2    27           0  1998.0  
3    31  03/03/1993  1993.0  
4    32           0  1992.0  

Columnas y tipos de datos:
Jugador           object
Pos               object
Valor Mercado    float64
Equipo            object
Competicion       object
Edad               int64
Nacimiento        object
Año              float64
dtype: object


In [14]:
# Ver las primeras filas del DataFrame limpio
print("Primeras filas después de la limpieza:")
print(df_transfermarkt.head())  # Esto imprime las primeras filas del DataFrame

# Mostrar el listado de columnas y su tipo de datos
print("\nColumnas y tipos de datos:")
print(df_transfermarkt.dtypes)  # Esto imprime las columnas con su tipo de datos

Primeras filas después de la limpieza:
            Jugador              Pos  Valor Mercado       Equipo Competicion  \
0  Thibaut Courtois          Portero           25.0  Real Madrid      laliga   
1      Andriy Lunin          Portero           20.0  Real Madrid      laliga   
2      Éder Militão  Defensa central           40.0  Real Madrid      laliga   
3   Antonio Rüdiger  Defensa central           24.0  Real Madrid      laliga   
4       David Alaba  Defensa central           10.0  Real Madrid      laliga   

   Edad           Nacimiento     Año  
0    32  1992-05-11 00:00:00  1992.0  
1    25  1999-02-11 00:00:00  1999.0  
2    27  1998-01-18 00:00:00  1998.0  
3    31  1993-03-03 00:00:00  1993.0  
4    32  1992-06-24 00:00:00  1992.0  

Columnas y tipos de datos:
Jugador           object
Pos               object
Valor Mercado    float64
Equipo            object
Competicion       object
Edad               int64
Nacimiento        object
Año              float64
dtype: object
