
 # Análisis de Datos de Jugadores de FIFA 19
# ---
 ### **Prueba Técnica para Crack the Code - Data Analyst - Sebastián Peña Pérez**
#
# **Objetivo:** Iniciar el proceso de análisis de datos, comenzando con la carga, configuración del entorno y una exploración inicial para entender la estructura y calidad de los datos.


 ## Etapa 1: Configuración del Entorno


In [12]:
# Importar las librerías necesarias
import pandas as pd
import numpy as np

 ## Etapa 2: Carga y Exploración Inicial de los Datos

In [13]:
# --- Carga de Datos ---


datos_df = pd.read_csv(r"C:\Users\sebas\OneDrive - Universidad Autonoma de Occidente\HDV 2025\Prueba técnica Crack the Code - Data Analyst\kl.csv", encoding='windows-1252' )
#datos_df = pd.read_csv()
print("Dataset 'datos_df.csv' cargado exitosamente.")
print(f"El dataset tiene {datos_df.shape[0]} filas y {datos_df.shape[1]} columnas.")



Dataset 'datos_df.csv' cargado exitosamente.
El dataset tiene 18207 filas y 89 columnas.


In [14]:
datos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18207 entries, 0 to 18206
Data columns (total 89 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Unnamed: 0                18207 non-null  int64  
 1   ID                        18207 non-null  int64  
 2   Name                      18207 non-null  object 
 3   Age                       18207 non-null  int64  
 4   Photo                     18207 non-null  object 
 5   Nationality               18207 non-null  object 
 6   Flag                      18207 non-null  object 
 7   Overall                   18207 non-null  int64  
 8   Potential                 18207 non-null  int64  
 9   Club                      17966 non-null  object 
 10  Club Logo                 18207 non-null  object 
 11  Value                     18207 non-null  object 
 12  Wage                      18207 non-null  object 
 13  Special                   18207 non-null  int64  
 14  Prefer

In [15]:
# ### 2.1 Renombrar Columnas
#

if not datos_df.empty:
    # Creamos un diccionario para mapear los nombres originales a los nuevos nombres en español.
    mapa_columnas = {
        'Unnamed: 0': 'Indice',
        'ID': 'ID_Jugador',
        'Name': 'Nombre',
        'Age': 'Edad',
        'Photo': 'URL_Foto',
        'Nationality': 'Nacionalidad',
        'Flag': 'URL_Bandera',
        'Overall': 'Valoracion_General',
        'Potential': 'Potencial',
        'Club': 'Club',
        'Club Logo': 'URL_Logo_Club',
        'Value': 'Valor_Mercado',
        'Wage': 'Salario',
        'Special': 'Especial',
        'Preferred Foot': 'Pie_Preferido',
        'International Reputation': 'Reputacion_Internacional',
        'Weak Foot': 'Pie_Debil',
        'Skill Moves': 'Movimientos_Habiles',
        'Work Rate': 'Ritmo_Trabajo',
        'Body Type': 'Tipo_Cuerpo',
        'Real Face': 'Cara_Real',
        'Position': 'Posicion',
        'Jersey Number': 'Numero_Camiseta',
        'Joined': 'Fecha_Union_Club',
        'Loaned From': 'Cedido_Por',
        'Contract Valid Until': 'Contrato_Hasta',
        'Height': 'Altura',
        'Weight': 'Peso',
        'Release Clause': 'Clausula_Rescision'
    }

    # Renombramos las columnas usando el diccionario
    datos_df.rename(columns=mapa_columnas, inplace=True)

    # También renombraremos las columnas de habilidades para mantener consistencia
    habilidades_cols = {
        'LS': 'Pos_LS', 'ST': 'Pos_ST', 'RS': 'Pos_RS', 'LW': 'Pos_LW', 'LF': 'Pos_LF',
        'CF': 'Pos_CF', 'RF': 'Pos_RF', 'RW': 'Pos_RW', 'LAM': 'Pos_LAM', 'CAM': 'Pos_CAM',
        'RAM': 'Pos_RAM', 'LM': 'Pos_LM', 'LCM': 'Pos_LCM', 'CM': 'Pos_CM', 'RCM': 'Pos_RCM',
        'RM': 'Pos_RM', 'LWB': 'Pos_LWB', 'LDM': 'Pos_LDM', 'CDM': 'Pos_CDM', 'RDM': 'Pos_RDM',
        'RWB': 'Pos_RWB', 'LB': 'Pos_LB', 'LCB': 'Pos_LCB', 'CB': 'Pos_CB', 'RCB': 'Pos_RCB',
        'RB': 'Pos_RB', 'Crossing': 'Centros', 'Finishing': 'Finalizacion',
        'HeadingAccuracy': 'Precision_Cabeza', 'ShortPassing': 'Pase_Corto', 'Volleys': 'Voleas',
        'Dribbling': 'Regates', 'Curve': 'Curva', 'FKAccuracy': 'Precision_Tiro_Libre',
        'LongPassing': 'Pase_Largo', 'BallControl': 'Control_Balon', 'Acceleration': 'Aceleracion',
        'SprintSpeed': 'Velocidad_Sprint', 'Agility': 'Agilidad', 'Reactions': 'Reacciones',
        'Balance': 'Equilibrio', 'ShotPower': 'Potencia_Tiro', 'Jumping': 'Salto',
        'Stamina': 'Resistencia', 'Strength': 'Fuerza', 'LongShots': 'Tiros_Lejanos',
        'Aggression': 'Agresividad', 'Interceptions': 'Intercepciones', 'Positioning': 'Posicionamiento',
        'Vision': 'Vision', 'Penalties': 'Penales', 'Composure': 'Compostura',
        'Marking': 'Marcaje', 'StandingTackle': 'Entrada_Normal', 'SlidingTackle': 'Entrada_Agresiva',
        'GKDiving': 'Estirada_Portero', 'GKHandling': 'Parada_Portero', 'GKKicking': 'Saque_Portero',
        'GKPositioning': 'Posicion_Portero', 'GKReflexes': 'Reflejos_Portero'
    }
    datos_df.rename(columns=habilidades_cols, inplace=True)

    print("Columnas renombradas al español.")

    # Mostramos las primeras 5 filas con las columnas ya en español
    print("\nVista previa del dataset con columnas en español:")
    display(datos_df.head())





Columnas renombradas al español.

Vista previa del dataset con columnas en español:


Unnamed: 0,Indice,ID_Jugador,Nombre,Edad,URL_Foto,Nacionalidad,URL_Bandera,Valoracion_General,Potencial,Club,...,Compostura,Marcaje,Entrada_Normal,Entrada_Agresiva,Estirada_Portero,Parada_Portero,Saque_Portero,Posicion_Portero,Reflejos_Portero,Clausula_Rescision
0,0,158023,L. Messi,31,https://cdn.sofifa.org/players/4/19/158023.png,Argentina,https://cdn.sofifa.org/flags/52.png,94,94,FC Barcelona,...,96.0,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M
1,1,20801,Cristiano Ronaldo,33,https://cdn.sofifa.org/players/4/19/20801.png,Portugal,https://cdn.sofifa.org/flags/38.png,94,94,Juventus,...,95.0,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M
2,2,190871,Neymar Jr,26,https://cdn.sofifa.org/players/4/19/190871.png,Brazil,https://cdn.sofifa.org/flags/54.png,92,93,Paris Saint-Germain,...,94.0,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,€228.1M
3,3,193080,De Gea,27,https://cdn.sofifa.org/players/4/19/193080.png,Spain,https://cdn.sofifa.org/flags/45.png,91,93,Manchester United,...,68.0,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0,€138.6M
4,4,192985,K. De Bruyne,27,https://cdn.sofifa.org/players/4/19/192985.png,Belgium,https://cdn.sofifa.org/flags/7.png,91,92,Manchester City,...,88.0,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0,€196.4M


In [16]:
# ### 2.2 Verificación de Tipos de Datos y Nulos

if not datos_df.empty:
    print("Resumen técnico del DataFrame (tipos de datos y valores nulos):")
    datos_df.info()

Resumen técnico del DataFrame (tipos de datos y valores nulos):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18207 entries, 0 to 18206
Data columns (total 89 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Indice                    18207 non-null  int64  
 1   ID_Jugador                18207 non-null  int64  
 2   Nombre                    18207 non-null  object 
 3   Edad                      18207 non-null  int64  
 4   URL_Foto                  18207 non-null  object 
 5   Nacionalidad              18207 non-null  object 
 6   URL_Bandera               18207 non-null  object 
 7   Valoracion_General        18207 non-null  int64  
 8   Potencial                 18207 non-null  int64  
 9   Club                      17966 non-null  object 
 10  URL_Logo_Club             18207 non-null  object 
 11  Valor_Mercado             18207 non-null  object 
 12  Salario                   18207 non-null  object 
 1

 ## Etapa 3: Limpieza y Transformación de Datos

In [17]:
 #3.1 Conversión de Columnas Monetarias
# Convertiremos `Valor_Mercado`, `Salario` y `Clausula_Rescision` de texto a un formato numérico (entero), representando el valor total en euros.

# %%
def convertir_moneda_a_numero(valor_texto):
    """
    Convierte un string de moneda (ej. '€110.5M', '€565K') a un valor numérico entero.
    Retorna 0 si el valor es inválido o nulo.
    """
    if isinstance(valor_texto, str):
        valor_texto = valor_texto.replace('€', '')
        multiplicador = 1
        if 'M' in valor_texto:
            multiplicador = 1000000
            valor_texto = valor_texto.replace('M', '')
        elif 'K' in valor_texto:
            multiplicador = 1000
            valor_texto = valor_texto.replace('K', '')
        
        try:
            return int(float(valor_texto) * multiplicador)
        except ValueError:
            return 0  # Retorna 0 si hay un error de conversión
    return 0

# Aplicamos la función a las columnas correspondientes
datos_df['Valor_Mercado'] = datos_df['Valor_Mercado'].apply(convertir_moneda_a_numero)
datos_df['Salario'] = datos_df['Salario'].apply(convertir_moneda_a_numero)
datos_df['Clausula_Rescision'] = datos_df['Clausula_Rescision'].apply(convertir_moneda_a_numero)

print("Columnas monetarias convertidas a tipo numérico entero.")
display(datos_df[['Nombre', 'Valor_Mercado', 'Salario', 'Clausula_Rescision']].head())

Columnas monetarias convertidas a tipo numérico entero.


Unnamed: 0,Nombre,Valor_Mercado,Salario,Clausula_Rescision
0,L. Messi,110500000,565000,226500000
1,Cristiano Ronaldo,77000000,405000,127100000
2,Neymar Jr,118500000,290000,228100000
3,De Gea,72000000,260000,138600000
4,K. De Bruyne,102000000,355000,196400000


In [18]:
# ### 3.2 Estandarización de Columnas Físicas y Creación de IMC
#
# Convertiremos `Altura` a cm, `Peso` a kg y crearemos la columna `IMC`.

# %%
def convertir_altura_a_cm(altura_texto):
    """Convierte la altura de formato pies'pulgadas a centímetros."""
    if isinstance(altura_texto, str):
        try:
            pies, pulgadas = map(int, altura_texto.split("'"))
            return (pies * 12 + pulgadas) * 2.54
        except:
            return np.nan # Devolvemos NaN si el formato es incorrecto
    return np.nan

def convertir_peso_a_kg(peso_texto):
    """Convierte el peso de string con 'lbs' a kilogramos."""
    if isinstance(peso_texto, str):
        try:
            return float(peso_texto.replace('lbs', '')) * 0.453592
        except:
            return np.nan
    return np.nan

# Aplicamos las funciones
datos_df['Altura'] = datos_df['Altura'].apply(convertir_altura_a_cm)
datos_df['Peso'] = datos_df['Peso'].apply(convertir_peso_a_kg)

# Renombramos para mayor claridad
datos_df.rename(columns={'Altura': 'Altura_cm', 'Peso': 'Peso_kg'}, inplace=True)

# Creación de la columna IMC (Índice de Masa Corporal)
# La fórmula es: peso (kg) / (altura (m))^2
altura_m = datos_df['Altura_cm'] / 100
datos_df['IMC'] = datos_df['Peso_kg'] / (altura_m ** 2)

print("Columnas de Altura y Peso estandarizadas. Creada la columna IMC.")
display(datos_df[['Nombre', 'Altura_cm', 'Peso_kg', 'IMC']].head())



Columnas de Altura y Peso estandarizadas. Creada la columna IMC.


Unnamed: 0,Nombre,Altura_cm,Peso_kg,IMC
0,L. Messi,170.18,72.121128,24.902645
1,Cristiano Ronaldo,187.96,83.007336,23.495549
2,Neymar Jr,175.26,68.0388,22.150882
3,De Gea,193.04,76.203456,20.449376
4,K. De Bruyne,180.34,69.853168,21.478402


In [19]:
# ### 3.3 Recategorización y Agrupación de Posiciones
#
# Primero, recategorizaremos la columna `Posicion` en 4 grupos principales. Luego, consolidaremos las 26 columnas de valoración por posición en 4 columnas de promedios.

# --- Recategorización de la columna 'Posicion' ---
mapa_posiciones = {
    # Porteros
    'GK': 'Portero',
    # Defensores
    'CB': 'Defensor', 'LCB': 'Defensor', 'RCB': 'Defensor', 'LB': 'Defensor', 'RB': 'Defensor',
    'LWB': 'Defensor', 'RWB': 'Defensor',
    # Mediocampistas
    'CDM': 'Mediocampista', 'LDM': 'Mediocampista', 'RDM': 'Mediocampista', 'CM': 'Mediocampista',
    'LCM': 'Mediocampista', 'RCM': 'Mediocampista', 'CAM': 'Mediocampista', 'LAM': 'Mediocampista',
    'RAM': 'Mediocampista', 'LM': 'Mediocampista', 'RM': 'Mediocampista',
    # Atacantes
    'ST': 'Atacante', 'LS': 'Atacante', 'RS': 'Atacante', 'CF': 'Atacante', 'LF': 'Atacante',
    'RF': 'Atacante', 'LW': 'Atacante', 'RW': 'Atacante'
}
datos_df['Grupo_Posicion'] = datos_df['Posicion'].map(mapa_posiciones)
print("Nueva columna 'Grupo_Posicion' creada.")

# --- Agrupación de valoraciones por posición ---
def limpiar_valoracion_pos(valor):
    """Extrae el número base de un string como '88+2' y lo convierte a numérico."""
    if isinstance(valor, str):
        return int(valor.split('+')[0])
    return np.nan

# Columnas para cada grupo
cols_defensa = ['Pos_CB', 'Pos_LCB', 'Pos_RCB', 'Pos_LB', 'Pos_RB', 'Pos_LWB', 'Pos_RWB']
cols_medio = ['Pos_CDM', 'Pos_LDM', 'Pos_RDM', 'Pos_CM', 'Pos_LCM', 'Pos_RCM', 'Pos_CAM', 'Pos_LAM', 'Pos_RAM', 'Pos_LM', 'Pos_RM']
cols_ataque = ['Pos_ST', 'Pos_LS', 'Pos_RS', 'Pos_CF', 'Pos_LF', 'Pos_RF', 'Pos_LW', 'Pos_RW']
todas_cols_pos = cols_defensa + cols_medio + cols_ataque

# Limpiamos todas las columnas de valoración
for col in todas_cols_pos:
    datos_df[col] = datos_df[col].apply(limpiar_valoracion_pos)

# Calculamos los promedios y creamos las nuevas columnas
datos_df['Valoracion_Prom_Defensa'] = datos_df[cols_defensa].mean(axis=1)
datos_df['Valoracion_Prom_Medio'] = datos_df[cols_medio].mean(axis=1)
datos_df['Valoracion_Prom_Ataque'] = datos_df[cols_ataque].mean(axis=1)

# Eliminamos las 26 columnas originales
datos_df.drop(columns=todas_cols_pos, inplace=True)

print("Columnas de valoración por posición consolidadas en 3 promedios.")
display(datos_df[['Nombre', 'Grupo_Posicion', 'Valoracion_Prom_Defensa', 'Valoracion_Prom_Medio', 'Valoracion_Prom_Ataque']].head())


Nueva columna 'Grupo_Posicion' creada.
Columnas de valoración por posición consolidadas en 3 promedios.


Unnamed: 0,Nombre,Grupo_Posicion,Valoracion_Prom_Defensa,Valoracion_Prom_Medio,Valoracion_Prom_Ataque
0,L. Messi,Atacante,55.285714,81.454545,90.875
1,Cristiano Ronaldo,Atacante,58.714286,78.727273,90.125
2,Neymar Jr,Atacante,55.857143,78.727273,87.125
3,De Gea,Portero,,,
4,K. De Bruyne,Mediocampista,71.142857,84.727273,85.125


In [50]:
# ### 3.4 Manejo de Valores Nulos (Lógica Refinada)
#
# Aplicaremos las nuevas estrategias definidas para un tratamiento de nulos más preciso.

# %%
# 1. Eliminar filas con datos críticos faltantes
filas_antes = len(datos_df)
datos_df.dropna(subset=['Posicion'], inplace=True)
filas_despues = len(datos_df)
print(f"Filas con 'Posicion' nula eliminadas. Se eliminaron {filas_antes - filas_despues} filas.")

# 2. Eliminar filas con Club nulo y imputación de columnas categóricas específicas
filas_antes_club = len(datos_df)
datos_df.dropna(subset=['Club'], inplace=True)
filas_despues_club = len(datos_df)
print(f"Filas con 'Club' nulo eliminadas. Se eliminaron {filas_antes_club - filas_despues_club} filas.")

datos_df['Cedido_Por'] = datos_df['Cedido_Por'].fillna('No Cedido')
print("Valores nulos en 'Cedido_Por' imputados.")

# 3. Imputación de columnas numéricas específicas
datos_df['Clausula_Rescision'] = datos_df['Clausula_Rescision'].fillna(0)
print("Valores nulos en 'Clausula_Rescision' rellenados con 0.")

# 4. Imputación lógica para valoraciones de porteros
# Rellenamos con 0, ya que los porteros no tienen valoración de campo.
columnas_valoracion_prom = ['Valoracion_Prom_Defensa', 'Valoracion_Prom_Medio', 'Valoracion_Prom_Ataque']
for col in columnas_valoracion_prom:
    datos_df[col] = datos_df[col].fillna(0)
print("Valores nulos en valoraciones promedio (para porteros) rellenados con 0.")

# 5. Tratamiento de columnas de fecha
# Convertimos a formato fecha. Los valores que no se puedan convertir se volverán 'NaT' (Not a Time).
datos_df['Fecha_Union_Club'] = pd.to_datetime(datos_df['Fecha_Union_Club'], errors='coerce')
datos_df['Contrato_Hasta'] = pd.to_datetime(datos_df['Contrato_Hasta'], errors='coerce')
print("Columnas de fecha convertidas. Los valores faltantes ahora son 'NaT'.")

# 6. Imputación final para cualquier nulo restante (como "catch-all" de seguridad)
# Este paso ahora solo afectará a las columnas que no hemos tratado explícitamente.
print("\n--- Reporte de Nulos Finales y Plan de Imputación ---")
nulos_restantes = datos_df.isnull().sum()
columnas_con_nulos = nulos_restantes[nulos_restantes > 0]

if not columnas_con_nulos.empty:
    print("Se imputarán las siguientes columnas restantes:")
    for col, num_nulos in columnas_con_nulos.items():
        print(f"- Columna '{col}': {num_nulos} filas a imputar.")
        if datos_df[col].dtype in ['float64', 'int64']:
            mediana = datos_df[col].median()
            datos_df[col] = datos_df[col].fillna(mediana)
        elif datos_df[col].dtype == 'object':
            moda = datos_df[col].mode()[0]
            datos_df[col] = datos_df[col].fillna(moda)
else:
    print("No hay más valores nulos que imputar de forma general.")

print("\nImputación final completada.")

Filas con 'Posicion' nula eliminadas. Se eliminaron 0 filas.
Filas con 'Club' nulo eliminadas. Se eliminaron 0 filas.
Valores nulos en 'Cedido_Por' imputados.
Valores nulos en 'Clausula_Rescision' rellenados con 0.
Valores nulos en valoraciones promedio (para porteros) rellenados con 0.
Columnas de fecha convertidas. Los valores faltantes ahora son 'NaT'.

--- Reporte de Nulos Finales y Plan de Imputación ---
Se imputarán las siguientes columnas restantes:
- Columna 'Fecha_Union_Club': 1493 filas a imputar.
- Columna 'Contrato_Hasta': 1493 filas a imputar.

Imputación final completada.


In [51]:
# ### 3.5 Verificación Final de la Limpieza
#
# Comprobamos que ya no hay valores nulos (excepto NaT en fechas) y que los tipos de datos son los correctos.

# %%
# Convertimos a entero las columnas que deben serlo para un manejo más limpio.
columnas_a_entero = ['Valoracion_General', 'Numero_Camiseta', 'Reputacion_Internacional', 'Pie_Debil', 'Movimientos_Habiles']
for col in columnas_a_entero:
    # Usamos .loc para evitar SettingWithCopyWarning
    datos_df.loc[:, col] = datos_df[col].astype(int)

print("Resumen técnico final del DataFrame tras la limpieza:")
datos_df.info()



Resumen técnico final del DataFrame tras la limpieza:
<class 'pandas.core.frame.DataFrame'>
Index: 18147 entries, 0 to 18206
Data columns (total 75 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   Indice                    18147 non-null  int64         
 1   ID_Jugador                18147 non-null  int64         
 2   Nombre                    18147 non-null  object        
 3   Edad                      18147 non-null  int64         
 4   URL_Foto                  18147 non-null  object        
 5   Nacionalidad              18147 non-null  object        
 6   URL_Bandera               18147 non-null  object        
 7   Valoracion_General        18147 non-null  int64         
 8   Potencial                 18147 non-null  int64         
 9   Club                      18147 non-null  object        
 10  URL_Logo_Club             18147 non-null  object        
 11  Valor_Mercado             18147

###ETAPA 4

In [52]:
#analisis_clubes_df.head()


###Etapa 5 Análisis de Arquetipos de Jugadores

In [53]:
# %% [markdown]
# # Análisis de Datos de Jugadores de FIFA 19
# ---
# ## Etapa 5: Análisis Avanzado - Identificación de Arquetipos de Jugadores Atípicos
#
# En esta etapa, vamos más allá de los outliers estadísticos básicos. Nuestro objetivo es identificar perfiles 
# de jugadores estratégicamente valiosos que no son evidentes a primera vista. Crearemos métricas compuestas y aplicaremos
#  una lógica de negocio para encontrar "Especialistas", "Talentos Infravalorados", "Diamantes en Bruto", "Maestros Veteranos" y "Anomalías Físicas".

# %%
# Importamos librerías adicionales si son necesarias
from scipy.stats import zscore

# Se asume que 'datos_df' es el DataFrame limpio de las etapas anteriores.

print("Iniciando Etapa 5: Análisis de Arquetipos.")
print(f"Dataset de entrada tiene {datos_df.shape[0]} filas.")


# ### 5.1 Ingeniería de Métricas Avanzadas
#
# Primero, creamos los índices personalizados que nos servirán para identificar los arquetipos.

# %%
# --- 1. Índice de Rendimiento por Posición ---
# Definimos las habilidades más importantes para cada rol
habilidades_portero = ['Reflejos_Portero', 'Estirada_Portero', 'Parada_Portero', 'Posicion_Portero', 'Compostura']
habilidades_defensor = ['Entrada_Normal', 'Marcaje', 'Intercepciones', 'Fuerza', 'Precision_Cabeza', 'Reacciones']
habilidades_mediocampista = ['Pase_Corto', 'Vision', 'Control_Balon', 'Regates', 'Compostura', 'Resistencia']
habilidades_atacante = ['Finalizacion', 'Posicionamiento', 'Potencia_Tiro', 'Control_Balon', 'Reacciones', 'Compostura']

# Calculamos el índice como el promedio de estas habilidades clave
def calcular_indice_rendimiento(jugador):
    if jugador['Grupo_Posicion'] == 'Portero':
        return jugador[habilidades_portero].mean()
    elif jugador['Grupo_Posicion'] == 'Defensor':
        return jugador[habilidades_defensor].mean()
    elif jugador['Grupo_Posicion'] == 'Mediocampista':
        return jugador[habilidades_mediocampista].mean()
    elif jugador['Grupo_Posicion'] == 'Atacante':
        return jugador[habilidades_atacante].mean()
    return 0

datos_df['Indice_Rendimiento'] = datos_df.apply(calcular_indice_rendimiento, axis=1)
print("Creada la columna 'Indice_Rendimiento'.")

# --- 2. Ratio de Valor por Rendimiento (Métrica 'Moneyball') ---
# Sumamos 1 al denominador para evitar divisiones por cero con jugadores sin salario/valor
datos_df['Ratio_Valor_Rendimiento'] = datos_df['Indice_Rendimiento'] / (datos_df['Salario'] + datos_df['Valor_Mercado'] + 1)
print("Creada la columna 'Ratio_Valor_Rendimiento'.")

# --- 3. Z-Score de Atributos Físicos por Posición ---
# Calculamos cuán atípico es un jugador físicamente comparado con otros de su misma posición
columnas_fisicas = ['Altura_cm', 'Peso_kg', 'Fuerza', 'Velocidad_Sprint']
for col in columnas_fisicas:
    # El Z-score se calcula dentro de cada grupo de posición
    datos_df[f'ZScore_{col}'] = datos_df.groupby('Grupo_Posicion')[col].transform(lambda x: zscore(x, nan_policy='omit'))
print("Creadas las columnas de Z-Score para atributos físicos.")

# %% [markdown]
# ### 5.2 Identificación y Etiquetado de Arquetipos
#
# Ahora aplicamos los filtros para encontrar a los jugadores que encajan en cada perfil.

# %%
# Inicializamos una columna para almacenar los arquetipos de cada jugador
datos_df['Arquetipo_Atipico'] = [[] for _ in range(len(datos_df))]

def agregar_arquetipo(df, condicion, nombre_arquetipo):
    """Función auxiliar para añadir etiquetas de arquetipo a los jugadores que cumplen una condición."""
    indices = df[condicion].index
    for i in indices:
        df.loc[i, 'Arquetipo_Atipico'].append(nombre_arquetipo)

# --- Arquetipo 1: El Especialista  ---
habilidades_especialista = ['Precision_Tiro_Libre', "Compostura", "Penales", "Pase_Largo" ,"Entrada_Agresiva"  ]
cond_valoracion = (datos_df['Valoracion_General'] >= 90) & (datos_df['Potencial'] > 90)
for habilidad in habilidades_especialista:
    cond_habilidad = datos_df[habilidad] > datos_df[habilidad].quantile(0.98)
    agregar_arquetipo(datos_df, cond_valoracion & cond_habilidad, 'El Especialista')


# --- Arquetipo 3: El Diamante en Bruto ---
cond_diamante = (datos_df['Edad'] < 21) & \
                (datos_df['Potencial'] > 84) & \
                (datos_df['Aceleracion'] > datos_df['Aceleracion'].quantile(0.70)) & \
                (datos_df['Compostura'] < datos_df['Compostura'].quantile(0.50))
agregar_arquetipo(datos_df, cond_diamante, 'Diamante en Bruto')

# --- Arquetipo 4: El Maestro Veterano ---
cond_maestro = (datos_df['Edad'] > 34) & \
               (datos_df['Resistencia'] > datos_df['Resistencia'].quantile(0.40)) & \
               ((datos_df['Vision'] > 85) | (datos_df['Compostura'] > 80) & (datos_df['Valoracion_General'] > 76))
agregar_arquetipo(datos_df, cond_maestro, 'Maestro Veterano')

# --- Arquetipo 5: La Anomalía Física ---
# Jugadores extremadamente altos o bajos para su posición (Z-score > 3 o < -3) y con potencial superior a 80
cond_anomalia_fisica = ((datos_df['ZScore_Altura_cm'].abs() > 3) | (datos_df['ZScore_Fuerza'].abs() > 3)) & (datos_df['Potencial'] > 80)
agregar_arquetipo(datos_df, cond_anomalia_fisica, 'Anomalía Física')

print("Etiquetado de arquetipos completado.")

# %% [markdown]
# ### 5.3 Creación del DataFrame Final de Jugadores Atípicos
#
# Filtramos solo los jugadores que fueron etiquetados con al menos un arquetipo y creamos nuestro entregable final.

# %%
# Filtramos el DataFrame para quedarnos solo con los jugadores que tienen alguna etiqueta de arquetipo
# El método .str.len() sobre la lista en la columna nos permite saber cuántas etiquetas tiene
jugadores_atipicos_df = datos_df[datos_df['Arquetipo_Atipico'].str.len() > 0].copy()

print(f"Se ha creado un DataFrame con {len(jugadores_atipicos_df)} jugadores atípicos que encajan en uno o más arquetipos.")

# Seleccionamos las columnas más relevantes para este análisis
columnas_relevantes = [
    'Nombre', 'Edad', 'Club', 'Grupo_Posicion', 'Nacionalidad', 'Valoracion_General', 'Potencial',
    'Valor_Mercado', 'Salario', 'Arquetipo_Atipico', 'Indice_Rendimiento',
    'Ratio_Valor_Rendimiento', 'ZScore_Altura_cm', 'ZScore_Fuerza'

]



jugadores_atipicos_df = jugadores_atipicos_df[columnas_relevantes]

# Guardamos el resultado en un CSV para Power BI
jugadores_atipicos_df.to_csv('jugadores_atipicos_final_diamante.csv')

print("DataFrame 'jugadores_atipicos.csv' guardado exitosamente.")
display(jugadores_atipicos_df.head())



Iniciando Etapa 5: Análisis de Arquetipos.
Dataset de entrada tiene 18147 filas.
Creada la columna 'Indice_Rendimiento'.
Creada la columna 'Ratio_Valor_Rendimiento'.
Creadas las columnas de Z-Score para atributos físicos.
Etiquetado de arquetipos completado.
Se ha creado un DataFrame con 23 jugadores atípicos que encajan en uno o más arquetipos.
DataFrame 'jugadores_atipicos.csv' guardado exitosamente.


Unnamed: 0,Nombre,Edad,Club,Grupo_Posicion,Nacionalidad,Valoracion_General,Potencial,Valor_Mercado,Salario,Arquetipo_Atipico,Indice_Rendimiento,Ratio_Valor_Rendimiento,ZScore_Altura_cm,ZScore_Fuerza
0,L. Messi,31,FC Barcelona,Atacante,Argentina,94,94,110500000,565000,"[El Especialista, El Especialista, El Especial...",93.5,8.418494e-07,-1.623995,-0.543013
1,Cristiano Ronaldo,33,Juventus,Atacante,Portugal,94,94,77000000,405000,"[El Especialista, El Especialista]",94.833333,1.225158e-06,1.074318,0.952509
2,Neymar Jr,26,Paris Saint-Germain,Atacante,Brazil,92,93,118500000,290000,"[El Especialista, El Especialista, El Especial...",89.833333,7.562365e-07,-0.853049,-1.290774
4,K. De Bruyne,27,Manchester City,Mediocampista,Belgium,91,92,102000000,355000,"[El Especialista, El Especialista, El Especial...",90.166667,8.80921e-07,0.366748,1.082487
5,E. Hazard,27,Chelsea,Atacante,Belgium,91,91,93000000,340000,"[El Especialista, El Especialista, El Especial...",88.0,9.427898e-07,-1.238522,-0.01958


###Etapa 6 Generación de tablas de análisis estratégicos para clubes

In [None]:
# %% [markdown]
# # Análisis de Datos de Jugadores de FIFA 19
# ---
# ## Etapa 6: Generación de Tablas de Análisis Estratégico
#
# En esta etapa, materializamos los insights del análisis estratégico. Utilizaremos los DataFrames limpios y enriquecidos (`datos_df` y `jugadores_atipicos_df`) para crear tablas agregadas específicas. Estas tablas servirán como fuente directa para las visualizaciones en Power BI, simplificando el desarrollo del tablero y optimizando su rendimiento.

# %%
# Se asumen que las etapas anteriores ya se ejecutaron.
# Cargamos los CSVs que generamos si estamos en un nuevo entorno.
try:
    datos_df = pd.read_csv('fifa19_cleaned.csv', low_memory=False)
    jugadores_atipicos_df = pd.read_csv('jugadores_atipicos.csv')
    print("Datasets limpios cargados correctamente.")
except FileNotFoundError:
    print("Error: Asegúrate de que los archivos 'fifa19_cleaned.csv' y 'jugadores_atipicos.csv' estén en el directorio.")
    # Creamos DataFrames vacíos para evitar errores posteriores
    datos_df = pd.DataFrame()
    jugadores_atipicos_df = pd.DataFrame()

# %% [markdown]
# ### 6.1 Análisis de Outliers Puros (Criterio Z-Score)
#
# Identificamos a los jugadores cuyos valores de Salario o Mercado son extremadamente atípicos (Z-Score > 3) en comparación con toda la población de jugadores.

# %%
if not datos_df.empty:
    columnas_zscore = ['Salario', 'Valor_Mercado']
    outliers_zscore_list = []

    for col in columnas_zscore:
        # Calculamos el Z-Score para la columna
        datos_df[f'ZScore_{col}'] = zscore(datos_df[col])
        
        # Filtramos jugadores con un Z-Score absoluto mayor a 3
        condicion_outlier = datos_df[f'ZScore_{col}'].abs() > 3
        
        # Seleccionamos las columnas de interés y añadimos el tipo de outlier
        outliers_detectados = datos_df[condicion_outlier][['Nombre', 'Club', 'Edad', col, f'ZScore_{col}']].copy()
        outliers_detectados['Tipo_Outlier_Puro'] = f'Z-Score > 3 en {col}'
        outliers_zscore_list.append(outliers_detectados)

    # Combinamos y guardamos
    outliers_zscore_df = pd.concat(outliers_zscore_list).drop_duplicates(subset=['Nombre'])
    outliers_zscore_df.to_csv('outliers_puros_zscore.csv', index=False, encoding='utf-8-sig')

    print(f"Se identificaron {len(outliers_zscore_df)} outliers puros por Z-Score.")
    print("Archivo 'outliers_puros_zscore.csv' guardado.")
    display(outliers_zscore_df.head())

# %% [markdown]
# ### 6.2 Rankings Estratégicos (Basado en Jugadores Atípicos)
#
# Generamos los Top 5 solicitados, pero enfocándonos en el universo de jugadores atípicos para obtener una perspectiva estratégica.

# %%
if not jugadores_atipicos_df.empty:
    # Top 5 por Salario entre los atípicos
    top5_salario_atipico = jugadores_atipicos_df.nlargest(5, 'Salario')[['Nombre', 'Club', 'Salario', 'Valoracion_General', 'Arquetipo_Atipico']]
    
    # Top 5 por Valoración General entre los atípicos
    top5_valoracion_atipico = jugadores_atipicos_df.nlargest(5, 'Valoracion_General')[['Nombre', 'Club', 'Valoracion_General', 'Potencial', 'Arquetipo_Atipico']]

    # Top 5 por Potencial entre los atípicos
    top5_potencial_atipico = jugadores_atipicos_df.nlargest(5, 'Potencial')[['Nombre', 'Club', 'Potencial', 'Valoracion_General', 'Arquetipo_Atipico']]

    # Guardamos cada ranking en un archivo CSV separado para mayor claridad en Power BI
    top5_salario_atipico.to_csv('ranking_salario_atipicos.csv', index=False, encoding='utf-8-sig')
    top5_valoracion_atipico.to_csv('ranking_valoracion_atipicos.csv', index=False, encoding='utf-8-sig')
    top5_potencial_atipico.to_csv('ranking_potencial_atipicos.csv', index=False, encoding='utf-8-sig')
    
    print("Tablas de rankings estratégicos guardadas.")
    print("\n--- Top 5 Salario (Atípicos) ---")
    display(top5_salario_atipico)
    print("\n--- Top 5 Valoración (Atípicos) ---")
    display(top5_valoracion_atipico)

# %% [markdown]
# ### 6.3 Tabla Comparativa de Clubes con Jugadores Atípicos
#
# Creamos la tabla de análisis que compara a los clubes según la cantidad y perfil de sus jugadores atípicos.

# %%
if not jugadores_atipicos_df.empty:
    # Agrupamos el DataFrame de atípicos por club
    comparativa_clubes_df = jugadores_atipicos_df.groupby('Club').agg(
        Jugadores_Atipicos=('Nombre', 'count'),
        Media_Edad_Atipicos=('Edad', 'mean'),
        Mediana_Salario_Atipicos=('Salario', 'median')
    ).reset_index()

    # Filtramos para quedarnos con clubes que tienen un número representativo de atípicos
    comparativa_clubes_df = comparativa_clubes_df[comparativa_clubes_df['Jugadores_Atipicos'] >= 5]
    comparativa_clubes_df = comparativa_clubes_df.sort_values(by='Jugadores_Atipicos', ascending=False)
    
    # Guardamos la tabla para Power BI
    comparativa_clubes_df.to_csv('comparativa_clubes_atipicos.csv', index=False, encoding='utf-8-sig')

    print("Tabla comparativa de clubes con jugadores atípicos guardada.")
    display(comparativa_clubes_df)

# %% [markdown]
# ### 6.4 Análisis Detallado de Habilidades por Posición
#
# Generamos una tabla que no solo promedia las habilidades por rol, sino que también identifica las 5 fortalezas y debilidades más marcadas.

# %%
if not datos_df.empty:
    habilidades = [
        'Centros', 'Finalizacion', 'Precision_Cabeza', 'Pase_Corto', 'Voleas',
        'Regates', 'Curva', 'Precision_Tiro_Libre', 'Pase_Largo', 'Control_Balon',
        'Aceleracion', 'Velocidad_Sprint', 'Agilidad', 'Reacciones', 'Equilibrio',
        'Potencia_Tiro', 'Salto', 'Resistencia', 'Fuerza', 'Tiros_Lejanos',
        'Agresividad', 'Intercepciones', 'Posicionamiento', 'Marcaje',
        'Entrada_Normal', 'Entrada_Agresiva'
    ]
    habilidades_portero = ['Estirada_Portero', 'Parada_Portero', 'Saque_Portero', 'Posicion_Portero', 'Reflejos_Portero']

    # Calculamos los promedios
    perfil_detallado_df = datos_df.groupby('Grupo_Posicion')[habilidades + habilidades_portero].mean().round(1)

    # Identificamos fortalezas y debilidades
    fortalezas = {}
    debilidades = {}

    for index, row in perfil_detallado_df.iterrows():
        if index == 'Portero':
            habilidades_a_considerar = habilidades_portero
        else:
            habilidades_a_considerar = habilidades
        
        fortalezas[index] = row[habilidades_a_considerar].nlargest(5).index.tolist()
        debilidades[index] = row[habilidades_a_considerar].nsmallest(5).index.tolist()

    # Añadimos al DataFrame
    perfil_detallado_df['Fortalezas'] = perfil_detallado_df.index.map(lambda x: ', '.join(fortalezas[x]))
    perfil_detallado_df['Debilidades'] = perfil_detallado_df.index.map(lambda x: ', '.join(debilidades[x]))

    # Guardamos para Power BI
    perfil_detallado_df.to_csv('perfil_detallado_habilidades.csv', encoding='utf-8-sig')
    
    print("Tabla de perfil detallado de habilidades por posición guardada.")
    display(perfil_detallado_df[['Fortalezas', 'Debilidades']])



Datasets limpios cargados correctamente.
Se identificaron 428 outliers puros por Z-Score.
Archivo 'outliers_puros_zscore.csv' guardado.


Unnamed: 0,Nombre,Club,Edad,Salario,ZScore_Salario,Tipo_Outlier_Puro,Valor_Mercado,ZScore_Valor_Mercado
0,L. Messi,FC Barcelona,31,565000.0,25.204265,Z-Score > 3 en Salario,,
1,Cristiano Ronaldo,Juventus,33,405000.0,17.941324,Z-Score > 3 en Salario,,
2,Neymar Jr,Paris Saint-Germain,26,290000.0,12.721085,Z-Score > 3 en Salario,,
3,De Gea,Manchester United,27,260000.0,11.359284,Z-Score > 3 en Salario,,
4,K. De Bruyne,Manchester City,27,355000.0,15.671655,Z-Score > 3 en Salario,,


Tablas de rankings estratégicos guardadas.

--- Top 5 Salario (Atípicos) ---


Unnamed: 0,Nombre,Club,Salario,Valoracion_General,Arquetipo_Atipico
9,Malcom,FC Barcelona,140000,82,"['Especialista Oculto', 'Especialista Oculto']"
20,Fred,Manchester United,140000,82,['Especialista Oculto']
102,Ander Herrera,Manchester United,140000,81,['Especialista Oculto']
11,C. Lenglet,FC Barcelona,135000,82,['Especialista Oculto']
44,A. Ramsey,Arsenal,130000,82,['Especialista Oculto']



--- Top 5 Valoración (Atípicos) ---


Unnamed: 0,Nombre,Club,Valoracion_General,Potencial,Arquetipo_Atipico
0,Iniesta,Vissel Kobe,86,86,['Maestro Veterano']
1,Z. Ibrahimovi?,LA Galaxy,85,85,['Maestro Veterano']
2,A. Barzagli,Juventus,84,84,['Maestro Veterano']
3,M. de Ligt,Ajax,82,91,['Especialista Oculto']
4,Rodri,Atlético Madrid,82,87,['Especialista Oculto']


Tabla comparativa de clubes con jugadores atípicos guardada.


Unnamed: 0,Club,Jugadores_Atipicos,Media_Edad_Atipicos,Mediana_Salario_Atipicos
13,Agente Libre,181,26.922652,0.0
210,Manchester United,13,25.538462,110000.0
351,West Ham United,13,28.076923,66000.0
335,Valencia CF,12,24.833333,34500.0
52,Borussia Dortmund,11,24.727273,50000.0
...,...,...,...,...
274,SC Braga,5,26.400000,15000.0
305,Southampton,5,23.800000,51000.0
286,SV Werder Bremen,5,30.400000,24000.0
320,Torino,5,28.600000,42000.0


Tabla de perfil detallado de habilidades por posición guardada.


Unnamed: 0_level_0,Fortalezas,Debilidades
Grupo_Posicion,Unnamed: 1_level_1,Unnamed: 2_level_1
Atacante,"Velocidad_Sprint, Aceleracion, Agilidad, Equil...","Entrada_Agresiva, Entrada_Normal, Intercepcion..."
Defensor,"Fuerza, Salto, Resistencia, Entrada_Normal, Ag...","Finalizacion, Voleas, Precision_Tiro_Libre, Ti..."
Mediocampista,"Equilibrio, Agilidad, Aceleracion, Velocidad_S...","Entrada_Agresiva, Intercepciones, Marcaje, Vol..."
Portero,"Reflejos_Portero, Estirada_Portero, Posicion_P...","Saque_Portero, Parada_Portero, Posicion_Porter..."
