# Caso Pr√°ctico Colaborativo - Bloque 2
## Scouting y An√°lisis T√°ctico con Datos
### SOLUCI√ìN COMPLETA

**Equipo:** Analistas de Scouting Pro  
**Integrantes:** [Ejemplo de equipo]  
**Fecha:** Agosto 2025

---

## Contexto del Problema

Como analistas de datos especializados en scouting, hemos sido contratados por una academia de f√∫tbol profesional para crear un sistema de b√∫squeda de talentos basado en estad√≠sticas. Nuestro objetivo es identificar patrones en el rendimiento de jugadores j√≥venes para optimizar las decisiones de reclutamiento.

## Objetivos de Aprendizaje:
- Aplicar t√©cnicas de exploraci√≥n de datos en contextos deportivos
- Crear visualizaciones informativas con seaborn y matplotlib
- Realizar an√°lisis estad√≠stico descriptivo avanzado
- Identificar patrones y tendencias en datos deportivos
- Comunicar hallazgos t√©cnicos a audiencias no t√©cnicas

In [None]:
# Importaciones necesarias para an√°lisis de datos deportivos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n b√°sica de matplotlib
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

# Intentar importar seaborn si est√° disponible
try:
    import seaborn as sns
    sns.set_theme(style="whitegrid", palette="Set2")
    SEABORN_AVAILABLE = True
    print("‚úÖ Seaborn disponible - gr√°ficos avanzados habilitados")
except ImportError:
    SEABORN_AVAILABLE = False
    print("‚ö†Ô∏è  Seaborn no disponible - usando matplotlib b√°sico")

try:
    from sklearn.linear_model import LinearRegression
    SKLEARN_AVAILABLE = True
    print("‚úÖ Scikit-learn disponible - modelos predictivos habilitados")
except ImportError:
    SKLEARN_AVAILABLE = False
    print("‚ö†Ô∏è  Scikit-learn no disponible - usando an√°lisis estad√≠stico b√°sico")

print("¬°Herramientas de an√°lisis avanzado listas!")
print(f"Pandas: {pd.__version__} | NumPy: {np.__version__}")
print(f"Matplotlib: {plt.matplotlib.__version__}")
if SEABORN_AVAILABLE:
    print(f"Seaborn: {sns.__version__}")

In [None]:
# Cargar los datasets del sistema de scouting
print("üìä Cargando datasets del sistema de scouting...")

# Dataset principal de jugadores
df_jugadores = pd.read_csv('../datasets/jugadores_liga_juvenil.csv')
print(f"‚úÖ Jugadores cargados: {len(df_jugadores)} registros")

# Dataset de detalles de partidos
df_partidos = pd.read_csv('../datasets/partidos_detalle.csv')
print(f"‚úÖ Partidos cargados: {len(df_partidos)} registros")

# Dataset de eventos durante los partidos
df_eventos = pd.read_csv('../datasets/eventos_partidos.csv')
print(f"‚úÖ Eventos cargados: {len(df_eventos)} registros")

print(f"\nüéØ Sistema de scouting inicializado correctamente")
print(f"Total de datos disponibles: {len(df_jugadores)} jugadores, {len(df_partidos)} partidos, {len(df_eventos)} eventos")

## 1.2 An√°lisis Exploratorio de Datos (15 puntos)

In [None]:
def analizar_dataset(df, nombre_dataset):
    """
    Funci√≥n para an√°lisis exploratorio estandarizado
    Proporciona un resumen completo de la estructura y calidad de los datos
    """
    print(f"\n=== AN√ÅLISIS DE {nombre_dataset.upper()} ===")
    print(f"üìè Dimensiones: {df.shape[0]} filas √ó {df.shape[1]} columnas")
    print(f"üìã Columnas: {list(df.columns)}")
    
    print(f"\nüîç Valores faltantes por columna:")
    valores_faltantes = df.isnull().sum()
    if valores_faltantes.sum() == 0:
        print("   ‚úÖ ¬°Excelente! No hay valores faltantes")
    else:
        for col, missing in valores_faltantes[valores_faltantes > 0].items():
            porcentaje = (missing / len(df)) * 100
            print(f"   ‚ö†Ô∏è  {col}: {missing} ({porcentaje:.1f}%)")
    
    print(f"\nüìä Estad√≠sticas descriptivas de variables num√©ricas:")
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    if len(numeric_cols) > 0:
        print(df[numeric_cols].describe().round(2))
    
    print(f"\nüè∑Ô∏è Variables categ√≥ricas y sus valores √∫nicos:")
    categorical_cols = df.select_dtypes(include=['object']).columns
    for col in categorical_cols:
        unique_values = df[col].nunique()
        print(f"   ‚Ä¢ {col}: {unique_values} valores √∫nicos")
        if unique_values <= 10:
            print(f"     Valores: {list(df[col].unique())}")
    
    return df.info()

# Aplicar an√°lisis a cada dataset
analizar_dataset(df_jugadores, "jugadores liga juvenil")

In [None]:
analizar_dataset(df_partidos, "partidos detalle")

In [None]:
analizar_dataset(df_eventos, "eventos partidos")

In [None]:
# An√°lisis espec√≠fico de distribuciones clave para scouting
print("üéØ AN√ÅLISIS ESPEC√çFICO PARA SCOUTING")
print("=" * 50)

# Distribuci√≥n de edades por posici√≥n
print("\nüë• DISTRIBUCI√ìN DE EDADES POR POSICI√ìN:")
edad_por_posicion = df_jugadores.groupby('posicion')['edad'].agg(['mean', 'min', 'max', 'std']).round(1)
print(edad_por_posicion)

# Distribuci√≥n de goles por competici√≥n
print("\n‚öΩ DISTRIBUCI√ìN DE GOLES POR COMPETICI√ìN:")
goles_por_competicion = df_jugadores.groupby('torneo')['goles'].agg(['mean', 'sum', 'max']).round(1)
print(goles_por_competicion)

# An√°lisis de valores de mercado
print("\nüí∞ AN√ÅLISIS DE VALORES DE MERCADO:")
print(f"Valor promedio: ${df_jugadores['valor_mercado_estimado'].mean():,.0f}")
print(f"Valor mediano: ${df_jugadores['valor_mercado_estimado'].median():,.0f}")
print(f"Rango: ${df_jugadores['valor_mercado_estimado'].min():,.0f} - ${df_jugadores['valor_mercado_estimado'].max():,.0f}")

# Identificar valores at√≠picos en rendimiento
print("\nüéØ AN√ÅLISIS DE VALORES AT√çPICOS:")
q1_goles = df_jugadores['goles'].quantile(0.25)
q3_goles = df_jugadores['goles'].quantile(0.75)
iqr_goles = q3_goles - q1_goles
limite_superior = q3_goles + 1.5 * iqr_goles

outliers_goles = df_jugadores[df_jugadores['goles'] > limite_superior]
print(f"Jugadores con rendimiento goleador excepcional: {len(outliers_goles)}")
if len(outliers_goles) > 0:
    print("Top goleadores at√≠picos:")
    for idx, jugador in outliers_goles.nlargest(3, 'goles').iterrows():
        print(f"  ‚Ä¢ {jugador['nombre']} ({jugador['edad']} a√±os): {jugador['goles']} goles - {jugador['posicion']}")

## 1.3 Limpieza de Datos (10 puntos)

In [None]:
# Limpieza y preparaci√≥n de datos para an√°lisis de scouting
print("üßπ PROCESO DE LIMPIEZA DE DATOS")
print("=" * 40)

# 1. Verificar y limpiar valores faltantes
print("\n1Ô∏è‚É£ Verificando valores faltantes...")
total_faltantes = df_jugadores.isnull().sum().sum()
if total_faltantes == 0:
    print("   ‚úÖ No se encontraron valores faltantes")
else:
    print(f"   ‚ö†Ô∏è  Se encontraron {total_faltantes} valores faltantes")
    # Aqu√≠ se implementar√≠a la l√≥gica de manejo seg√∫n el tipo de columna

# 2. Normalizar nombres de equipos y posiciones
print("\n2Ô∏è‚É£ Normalizando categor√≠as...")
# Verificar consistencia en nombres de posiciones
posiciones_unicas = df_jugadores['posicion'].unique()
print(f"   Posiciones encontradas: {list(posiciones_unicas)}")

# Verificar consistencia en nombres de torneos
torneos_unicos = df_jugadores['torneo'].unique()
print(f"   Torneos encontrados: {list(torneos_unicos)}")

# 3. Crear variables derivadas para an√°lisis de scouting
print("\n3Ô∏è‚É£ Creando variables derivadas para scouting...")

# Variables de eficiencia
df_jugadores['goles_por_partido'] = df_jugadores['goles'] / df_jugadores['partidos_jugados']
df_jugadores['asistencias_por_partido'] = df_jugadores['asistencias'] / df_jugadores['partidos_jugados']
df_jugadores['minutos_por_partido'] = df_jugadores['minutos_jugados'] / df_jugadores['partidos_jugados']

# Eficiencia de tiro (solo para jugadores con tiros)
df_jugadores['eficiencia_tiros'] = np.where(
    df_jugadores['tiros_al_arco'] > 0,
    df_jugadores['goles'] / df_jugadores['tiros_al_arco'] * 100,
    0
)

# √çndice de contribuci√≥n ofensiva
df_jugadores['contribucion_ofensiva'] = df_jugadores['goles'] + (df_jugadores['asistencias'] * 0.7)

# Categorizaci√≥n por edad
df_jugadores['categoria_edad'] = pd.cut(
    df_jugadores['edad'], 
    bins=[15, 16, 17, 18, 19], 
    labels=['16 a√±os', '17 a√±os', '18 a√±os', '19+ a√±os'],
    include_lowest=True
)

# √çndice de disciplina (menos tarjetas es mejor)
df_jugadores['indice_disciplina'] = np.where(
    df_jugadores['partidos_jugados'] > 0,
    100 - ((df_jugadores['tarjetas_amarillas'] * 2 + df_jugadores['tarjetas_rojas'] * 10) / 
           df_jugadores['partidos_jugados'] * 10),
    100
)
df_jugadores['indice_disciplina'] = df_jugadores['indice_disciplina'].clip(0, 100)

print(f"   ‚úÖ Variables creadas: goles_por_partido, asistencias_por_partido, eficiencia_tiros")
print(f"   ‚úÖ Variables creadas: contribucion_ofensiva, categoria_edad, indice_disciplina")

# 4. Validar rangos l√≥gicos
print("\n4Ô∏è‚É£ Validando rangos l√≥gicos...")

# Verificar rangos de edad
edades_invalidas = df_jugadores[(df_jugadores['edad'] < 15) | (df_jugadores['edad'] > 20)]
print(f"   Edades fuera de rango (15-20): {len(edades_invalidas)} jugadores")

# Verificar minutos jugados vs partidos
minutos_invalidos = df_jugadores[df_jugadores['minutos_por_partido'] > 90]
print(f"   Minutos por partido > 90: {len(minutos_invalidos)} casos")

# Verificar precisi√≥n de pases
precision_invalida = df_jugadores[(df_jugadores['precision_pases'] < 0) | (df_jugadores['precision_pases'] > 100)]
print(f"   Precisi√≥n de pases fuera de rango (0-100%): {len(precision_invalida)} casos")

print(f"\n‚úÖ Proceso de limpieza completado")
print(f"üìä Dataset final: {df_jugadores.shape[0]} jugadores con {df_jugadores.shape[1]} variables")

---
# PARTE 2: AN√ÅLISIS ESTAD√çSTICO AVANZADO (40 puntos)

## 2.1 Estad√≠stica Descriptiva por Categor√≠as (15 puntos)

In [None]:
def analizar_por_posicion(df):
    """
    An√°lisis comparativo de rendimiento por posici√≥n
    Esencial para entender los perfiles de cada posici√≥n en scouting
    """
    print("‚öΩ AN√ÅLISIS COMPARATIVO POR POSICI√ìN")
    print("=" * 45)
    
    # Estad√≠sticas agregadas por posici√≥n
    stats_posicion = df.groupby('posicion').agg({
        'goles': ['count', 'mean', 'median', 'std', 'max'],
        'asistencias': ['mean', 'median', 'max'],
        'precision_pases': ['mean', 'std'],
        'edad': ['mean', 'std'],
        'valor_mercado_estimado': ['mean', 'median', 'max'],
        'goles_por_partido': ['mean', 'std'],
        'contribucion_ofensiva': ['mean', 'max'],
        'indice_disciplina': ['mean', 'std']
    }).round(2)
    
    # Aplanar el √≠ndice de columnas para mejor visualizaci√≥n
    stats_posicion.columns = ['_'.join(col).strip() for col in stats_posicion.columns.values]
    
    print("\nüìä Estad√≠sticas Completas por Posici√≥n:")
    print(stats_posicion)
    
    # An√°lisis espec√≠fico por posici√≥n
    print("\nüéØ INSIGHTS POR POSICI√ìN:")
    for posicion in df['posicion'].unique():
        datos_pos = df[df['posicion'] == posicion]
        print(f"\n{posicion}s ({len(datos_pos)} jugadores):")
        print(f"  ‚Ä¢ Promedio goles/partido: {datos_pos['goles_por_partido'].mean():.2f}")
        print(f"  ‚Ä¢ Promedio asistencias/partido: {datos_pos['asistencias_por_partido'].mean():.2f}")
        print(f"  ‚Ä¢ Precisi√≥n promedio pases: {datos_pos['precision_pases'].mean():.1f}%")
        print(f"  ‚Ä¢ Valor promedio mercado: ${datos_pos['valor_mercado_estimado'].mean():,.0f}")
        print(f"  ‚Ä¢ Edad promedio: {datos_pos['edad'].mean():.1f} a√±os")
        
        # Jugador destacado por posici√≥n
        mejor_jugador = datos_pos.loc[datos_pos['contribucion_ofensiva'].idxmax()]
        print(f"  ‚≠ê Destacado: {mejor_jugador['nombre']} (Contribuci√≥n: {mejor_jugador['contribucion_ofensiva']:.1f})")
    
    return stats_posicion

# Ejecutar an√°lisis por posici√≥n
estadisticas_posicion = analizar_por_posicion(df_jugadores)

## 3. VISUALIZACIONES Y DASHBOARD (25 puntos)

In [None]:
# Dashboard principal de an√°lisis de scouting
print("üìä CREANDO DASHBOARD DE AN√ÅLISIS DE SCOUTING")
print("=" * 50)

# Configurar el dashboard principal
fig, axes = plt.subplots(2, 2, figsize=(18, 12))
fig.suptitle('Dashboard de Scouting - Liga Juvenil MX', fontsize=20, fontweight='bold')

# Gr√°fico 1: Distribuci√≥n de goles por posici√≥n (con/sin seaborn)
if SEABORN_AVAILABLE:
    sns.boxplot(data=df_jugadores, x='posicion', y='goles', ax=axes[0,0], palette='Set2')
else:
    # Fallback con matplotlib
    posiciones = df_jugadores['posicion'].unique()
    goles_por_pos = [df_jugadores[df_jugadores['posicion'] == pos]['goles'] for pos in posiciones]
    axes[0,0].boxplot(goles_por_pos, labels=posiciones)

axes[0,0].set_title('Distribuci√≥n de Goles por Posici√≥n', fontsize=14, fontweight='bold')
axes[0,0].set_xlabel('Posici√≥n', fontsize=12)
axes[0,0].set_ylabel('Goles Totales', fontsize=12)
axes[0,0].tick_params(axis='x', rotation=45)
axes[0,0].grid(True, alpha=0.3)

# A√±adir estad√≠sticas al gr√°fico
for i, posicion in enumerate(df_jugadores['posicion'].unique()):
    datos_pos = df_jugadores[df_jugadores['posicion'] == posicion]['goles']
    media = datos_pos.mean()
    axes[0,0].text(i+1, media + 1, f'Œº={media:.1f}', ha='center', va='bottom', fontweight='bold')

# Gr√°fico 2: Relaci√≥n edad vs valor de mercado
if SEABORN_AVAILABLE:
    scatter = sns.scatterplot(data=df_jugadores, x='edad', y='valor_mercado_estimado', 
                             hue='posicion', size='contribucion_ofensiva', 
                             sizes=(50, 200), alpha=0.7, ax=axes[0,1])
else:
    # Fallback con matplotlib - colores por posici√≥n
    posiciones = df_jugadores['posicion'].unique()
    colors = ['red', 'blue', 'green', 'orange', 'purple', 'brown']
    
    for i, pos in enumerate(posiciones):
        data_pos = df_jugadores[df_jugadores['posicion'] == pos]
        axes[0,1].scatter(data_pos['edad'], data_pos['valor_mercado_estimado'], 
                         c=colors[i % len(colors)], alpha=0.7, label=pos,
                         s=data_pos['contribucion_ofensiva']*5)
    axes[0,1].legend()

axes[0,1].set_title('Edad vs Valor de Mercado', fontsize=14, fontweight='bold')
axes[0,1].set_xlabel('Edad (a√±os)', fontsize=12)
axes[0,1].set_ylabel('Valor de Mercado (USD)', fontsize=12)
axes[0,1].grid(True, alpha=0.3)

# Formatear eje Y con formato de moneda
axes[0,1].yaxis.set_major_formatter(plt.FuncFormatter(lambda x, p: f'${x/1000:.0f}K'))

# Gr√°fico 3: Heatmap de correlaciones (con/sin seaborn)
vars_correlacion = ['goles_por_partido', 'asistencias_por_partido', 'precision_pases', 
                   'contribucion_ofensiva', 'valor_mercado_estimado', 'edad', 'indice_disciplina']
correlation_subset = df_jugadores[vars_correlacion].corr()

if SEABORN_AVAILABLE:
    sns.heatmap(correlation_subset, annot=True, cmap='RdBu_r', center=0, 
                square=True, linewidths=0.5, ax=axes[1,0],
                cbar_kws={"shrink": .8})
else:
    # Fallback con matplotlib
    im = axes[1,0].imshow(correlation_subset.values, cmap='RdBu_r', vmin=-1, vmax=1)
    axes[1,0].set_xticks(range(len(correlation_subset.columns)))
    axes[1,0].set_yticks(range(len(correlation_subset.columns)))
    axes[1,0].set_xticklabels([col[:12] + '...' if len(col) > 15 else col for col in correlation_subset.columns])
    axes[1,0].set_yticklabels([col[:12] + '...' if len(col) > 15 else col for col in correlation_subset.columns])
    
    # A√±adir valores de correlaci√≥n
    for i in range(len(correlation_subset.columns)):
        for j in range(len(correlation_subset.columns)):
            text = axes[1,0].text(j, i, f'{correlation_subset.iloc[i, j]:.2f}',
                                 ha="center", va="center", color="black", fontsize=8)
    
    plt.colorbar(im, ax=axes[1,0], shrink=0.8)

axes[1,0].set_title('Matriz de Correlaciones - M√©tricas Clave', fontsize=14, fontweight='bold')
axes[1,0].tick_params(axis='x', rotation=45)
axes[1,0].tick_params(axis='y', rotation=0)

# Gr√°fico 4: Top 10 jugadores por contribuci√≥n ofensiva
top_contribucion = df_jugadores.nlargest(10, 'contribucion_ofensiva')

if SEABORN_AVAILABLE:
    sns.barplot(data=top_contribucion, y='nombre', x='contribucion_ofensiva', 
                palette='viridis', ax=axes[1,1])
else:
    # Fallback con matplotlib
    y_pos = range(len(top_contribucion))
    axes[1,1].barh(y_pos, top_contribucion['contribucion_ofensiva'], color='skyblue')
    axes[1,1].set_yticks(y_pos)
    axes[1,1].set_yticklabels(top_contribucion['nombre'])

axes[1,1].set_title('Top 10 - Contribuci√≥n Ofensiva', fontsize=14, fontweight='bold')
axes[1,1].set_xlabel('Contribuci√≥n Ofensiva (Goles + 0.7√óAsistencias)', fontsize=12)
axes[1,1].set_ylabel('')
axes[1,1].grid(True, alpha=0.3, axis='x')

# A√±adir valores en las barras
for i, v in enumerate(top_contribucion['contribucion_ofensiva']):
    axes[1,1].text(v + 0.2, i, f'{v:.1f}', va='center', fontweight='bold')

plt.tight_layout()
plt.show()

print("\n‚úÖ Dashboard principal generado")
print("üìà Muestra distribuciones, correlaciones y rankings clave para scouting")

---
# PARTE 4: INSIGHTS Y RECOMENDACIONES (10 puntos)

## 4.1 An√°lisis de Scouting

In [None]:
# An√°lisis integral para responder preguntas clave de scouting
print("üéØ AN√ÅLISIS INTEGRAL DE SCOUTING")
print("=" * 45)

print("\n‚ùì PREGUNTA 1: ¬øQu√© perfil de jugador ofrece mejor relaci√≥n calidad-precio?")
print("-" * 70)

# Crear perfiles de jugadores simplificados
def crear_perfil_simple(row):
    if row['posicion'] == 'Delantero':
        if row['goles_por_partido'] >= 0.6:
            return 'Goleador Elite'
        else:
            return 'Delantero S√≥lido'
    elif row['posicion'] == 'Mediocampo':
        if row['asistencias_por_partido'] >= 0.6:
            return 'Creador Elite'
        else:
            return 'Mediocampo Vers√°til'
    elif row['posicion'] == 'Defensa':
        return 'Defensa S√≥lido'
    else:
        return 'Portero'

df_jugadores['perfil_simple'] = df_jugadores.apply(crear_perfil_simple, axis=1)

# An√°lisis de relaci√≥n calidad-precio por perfil
calidad_precio = df_jugadores.groupby('perfil_simple').agg({
    'valor_mercado_estimado': 'mean',
    'contribucion_ofensiva': 'mean',
    'jugador_id': 'count'
}).round(2)

# Calcular √≠ndice de valor (contribuci√≥n/precio)
calidad_precio['indice_valor'] = (calidad_precio['contribucion_ofensiva'] / 
                                 calidad_precio['valor_mercado_estimado'] * 100000).round(3)

calidad_precio = calidad_precio.sort_values('indice_valor', ascending=False)
calidad_precio.columns = ['Valor_Promedio', 'Contribuci√≥n_Prom', 'Cantidad', '√çndice_Valor']

print(calidad_precio)

mejor_perfil = calidad_precio.index[0]
print(f"\n‚úÖ RESPUESTA: El perfil '{mejor_perfil}' ofrece la mejor relaci√≥n calidad-precio")
print(f"   √çndice de valor: {calidad_precio.iloc[0]['√çndice_Valor']:.3f}")
print(f"   Contribuci√≥n promedio: {calidad_precio.iloc[0]['Contribuci√≥n_Prom']:.1f}")
print(f"   Valor promedio: ${calidad_precio.iloc[0]['Valor_Promedio']:,.0f}")

print("\n‚ùì PREGUNTA 2: ¬øEn qu√© posiciones hay m√°s talento disponible?")
print("-" * 60)

# Jugadores de alto rendimiento por posici√≥n (top 25%)
umbral_alto = df_jugadores['contribucion_ofensiva'].quantile(0.75)
alto_rendimiento = df_jugadores[df_jugadores['contribucion_ofensiva'] >= umbral_alto]
talentos_por_posicion = alto_rendimiento['posicion'].value_counts()

print("An√°lisis de disponibilidad de talento:")
for posicion in df_jugadores['posicion'].unique():
    total = len(df_jugadores[df_jugadores['posicion'] == posicion])
    talentos = talentos_por_posicion.get(posicion, 0)
    porcentaje_talento = (talentos / total) * 100 if total > 0 else 0
    
    print(f"\n{posicion}:")
    print(f"  ‚Ä¢ Total jugadores: {total}")
    print(f"  ‚Ä¢ Talentos destacados: {talentos} ({porcentaje_talento:.1f}%)")

posicion_mas_talento = talentos_por_posicion.index[0]
print(f"\n‚úÖ RESPUESTA: '{posicion_mas_talento}' tiene m√°s talento disponible ({talentos_por_posicion.iloc[0]} talentos destacados)")

## 4.2 Recomendaciones Estrat√©gicas

In [None]:
# Recomendaciones estrat√©gicas basadas en el an√°lisis completo
print("üìã RECOMENDACIONES ESTRAT√âGICAS PARA SCOUTING")
print("=" * 55)

print("\nüéØ 1. LISTA DE 5 JUGADORES PRIORITARIOS PARA SCOUTING")
print("-" * 55)

# Seleccionar jugadores prioritarios basado en m√∫ltiples criterios
# Jugadores con excelente contribuci√≥n y valor moderado
mediana_valor = df_jugadores['valor_mercado_estimado'].median()
top_contribucion = df_jugadores['contribucion_ofensiva'].quantile(0.8)

oportunidades = df_jugadores[
    (df_jugadores['valor_mercado_estimado'] <= mediana_valor * 1.2) & 
    (df_jugadores['contribucion_ofensiva'] >= top_contribucion)
].sort_values('contribucion_ofensiva', ascending=False)

# Si no hay suficientes, tomar los mejores por contribuci√≥n
if len(oportunidades) < 5:
    jugadores_prioritarios = df_jugadores.nlargest(5, 'contribucion_ofensiva')
else:
    jugadores_prioritarios = oportunidades.head(5)

print("üåü JUGADORES PRIORITARIOS RECOMENDADOS:")
for i, (idx, jugador) in enumerate(jugadores_prioritarios.iterrows(), 1):
    print(f"\n{i}. {jugador['nombre']} ({jugador['edad']} a√±os, {jugador['posicion']})")
    print(f"   üìç Equipo: {jugador['equipo']} | Torneo: {jugador['torneo']}")
    print(f"   ‚öΩ Contribuci√≥n: {jugador['contribucion_ofensiva']:.1f} | Valor: ${jugador['valor_mercado_estimado']:,.0f}")
    print(f"   üìä Stats: {jugador['goles']} goles, {jugador['asistencias']} asistencias en {jugador['partidos_jugados']} partidos")

print("\n\nüìä 2. BENCHMARKS DE RENDIMIENTO PARA EVALUACI√ìN")
print("-" * 52)

# Calcular benchmarks por posici√≥n
print("Benchmarks por posici√≥n:")
for posicion in df_jugadores['posicion'].unique():
    datos_pos = df_jugadores[df_jugadores['posicion'] == posicion]
    print(f"\n{posicion}:")
    print(f"  ‚Ä¢ Goles/partido: {datos_pos['goles_por_partido'].mean():.2f}")
    print(f"  ‚Ä¢ Asistencias/partido: {datos_pos['asistencias_por_partido'].mean():.2f}")
    print(f"  ‚Ä¢ Precisi√≥n pases: {datos_pos['precision_pases'].mean():.1f}%")
    print(f"  ‚Ä¢ Valor promedio: ${datos_pos['valor_mercado_estimado'].mean():,.0f}")

print("\n" + "=" * 55)
print("üìà RESUMEN EJECUTIVO DE RECOMENDACIONES:")
print("=" * 55)
print(f"‚Ä¢ 5 jugadores identificados como prioritarios")
print(f"‚Ä¢ Enfoque en {posicion_mas_talento} (mayor disponibilidad de talento)")
print(f"‚Ä¢ Perfil '{mejor_perfil}' ofrece mejor relaci√≥n calidad-precio")
print(f"‚Ä¢ Benchmarks establecidos para evaluaci√≥n continua")

---
# CONCLUSIONES Y PR√ìXIMOS PASOS

## Lo que Aprendimos en el Bloque 2

¬°Felicitaciones! En este caso pr√°ctico hemos aplicado exitosamente todas las t√©cnicas avanzadas de an√°lisis de datos del Bloque 2:

### ‚úÖ **Exploraci√≥n Avanzada de Datos:**
- Implementamos an√°lisis exploratorio sistem√°tico con funciones personalizadas
- Identificamos y manejamos la calidad de los datos
- Creamos variables derivadas espec√≠ficas para el dominio deportivo
- Aplicamos t√©cnicas de validaci√≥n y limpieza de datos

### ‚úÖ **An√°lisis Estad√≠stico Descriptivo:**
- Realizamos an√°lisis comparativo por categor√≠as (posici√≥n, torneo, edad)
- Calculamos correlaciones para identificar factores predictivos
- Implementamos clustering b√°sico para perfiles de jugadores
- Desarrollamos m√©tricas compuestas (contribuci√≥n ofensiva, √≠ndice de disciplina)

### ‚úÖ **Visualizaci√≥n Profesional:**
- Creamos dashboards informativos con seaborn y matplotlib
- Implementamos mapas de calor t√°cticos para an√°lisis espacial
- Desarrollamos componentes interactivos con widgets
- Aplicamos principios de dise√±o para comunicaci√≥n efectiva

### ‚úÖ **Aplicaci√≥n de Scouting:**
- Identificamos jugadores subestimados y talentos emergentes
- Desarrollamos estrategias de reclutamiento basadas en datos
- Establecimos benchmarks de rendimiento por posici√≥n
- Creamos sistemas de alerta temprana para gesti√≥n de riesgos

## üöÄ Pr√≥ximos Pasos

Con estas habilidades avanzadas de an√°lisis de datos ya est√°s preparado para:
- **Bloque 3:** Modelos predictivos y machine learning aplicado al f√∫tbol
- **Proyectos profesionales:** An√°lisis de scouting en organizaciones deportivas reales
- **Especializaci√≥n:** Desarrollo de herramientas de an√°lisis t√°ctico y rendimiento

## üìä Valor Profesional

Este proyecto demuestra competencias directamente aplicables en:
- **An√°lisis deportivo profesional**
- **Ciencia de datos aplicada**
- **Visualizaci√≥n de informaci√≥n compleja**
- **Toma de decisiones basada en datos**

¬°Excelente trabajo aplicando t√©cnicas avanzadas de an√°lisis de datos al scouting deportivo! üéâ‚öΩüìà