# Semana 5: Análisis e Interpretación

## Ciencia de Datos en el Deporte - Fundamentos con Python

---

**Objetivos de aprendizaje:**
- Interpretar resultados estadísticos descriptivos de manera efectiva
- Analizar temporadas específicas del dataset "champs"
- Generar insights significativos a partir de datos futbolísticos
- Comunicar hallazgos de manera clara y profesional
- Aplicar metodologías de análisis exploratorio
- Evaluar la calidad y limitaciones de los datos

---

## 1. Teoría: Interpretación de Resultados Descriptivos

### 1.1 ¿Qué Significa "Interpretar" Datos?

La interpretación de datos va más allá de calcular estadísticas. Implica:

#### **🔍 Análisis Crítico**
- **Contextualizar** los números dentro del dominio del fútbol
- **Identificar** patrones significativos vs. ruido aleatorio
- **Evaluar** la relevancia práctica de las diferencias encontradas

#### **📊 Traducción a Insights**
- **Convertir** estadísticas en información accionable
- **Explicar** qué significan los resultados para diferentes audiencias
- **Conectar** hallazgos con decisiones estratégicas

#### **⚠️ Reconocimiento de Limitaciones**
- **Identificar** sesgos en los datos
- **Considerar** factores no capturados
- **Evaluar** la generalización de resultados

### 1.2 Principios de Interpretación Efectiva

#### **1.2.1 Contexto Deportivo**
- **Considerar el contexto del fútbol**: ¿Es realista este resultado?
- **Evaluar magnitud práctica**: ¿Es una diferencia significativa en el deporte?
- **Analizar causas potenciales**: ¿Por qué podría ocurrir esto?

#### **1.2.2 Significancia Estadística vs. Práctica**
- **Significancia estadística**: ¿Es probable que sea real?
- **Significancia práctica**: ¿Importa en el mundo real?
- **Tamaño del efecto**: ¿Qué tan grande es la diferencia?

#### **1.2.3 Comunicación Clara**
- **Audiencia específica**: Adaptar el mensaje al receptor
- **Evitar jerga técnica**: Usar lenguaje accesible
- **Incluir incertidumbre**: Reconocer limitaciones y grados de confianza

### 1.3 Metodología de Análisis Exploratorio

#### **Paso 1: Descripción**
- ¿Qué observamos en los datos?
- ¿Cuáles son las tendencias principales?
- ¿Hay patrones evidentes?

#### **Paso 2: Exploración**
- ¿Por qué podría estar ocurriendo esto?
- ¿Qué factores pueden estar influyendo?
- ¿Hay relaciones entre variables?

#### **Paso 3: Interpretación**
- ¿Qué significan estos hallazgos?
- ¿Cuáles son las implicaciones prácticas?
- ¿Qué recomendaciones surgen?

#### **Paso 4: Validación**
- ¿Son consistentes los resultados?
- ¿Hay evidencia contradictoria?
- ¿Qué tan confiables son nuestras conclusiones?

### 1.4 Errores Comunes en Interpretación

#### **❌ Sobre-interpretación**
- Atribuir significado a variaciones aleatorias
- Generalizar a partir de muestras pequeñas
- Ignorar factores confusores

#### **❌ Correlación vs. Causalidad**
- Asumir que correlación implica causalidad
- No considerar variables omitidas
- Ignorar la dirección de la relación

#### **❌ Sesgos Cognitivos**
- Confirmación: Buscar solo evidencia que apoye nuestras creencias
- Disponibilidad: Dar más peso a información reciente o memorable
- Representatividad: Generalizar desde casos específicos

---

## 2. Configuración del Entorno

### 2.1 Librerías para Análisis Interpretativo

Utilizaremos las librerías fundamentales para análisis de datos y algunas adicionales para interpretación estadística:

- **pandas**: Manipulación y análisis de datos
- **numpy**: Cálculos numéricos y estadísticos
- **matplotlib/seaborn**: Visualización de resultados
- **scipy**: Pruebas estadísticas y distribuciones
- **warnings**: Manejo de advertencias

In [2]:
# Importar librerías esenciales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings
from datetime import datetime
import random

# Configuración general
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_rows', 20)

# Configuración de visualización
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 11
plt.rcParams['axes.titlesize'] = 14
plt.rcParams['axes.labelsize'] = 12
plt.rcParams['xtick.labelsize'] = 10
plt.rcParams['ytick.labelsize'] = 10

# Configuración de seaborn
sns.set_style("whitegrid")
sns.set_palette("husl")

# Semilla para reproducibilidad
np.random.seed(42)
random.seed(42)

# Verificar versiones
print("✅ LIBRERÍAS PARA ANÁLISIS INTERPRETATIVO")
print("=" * 50)
print(f"📊 Pandas: {pd.__version__}")
print(f"🔢 NumPy: {np.__version__}")
print(f"📈 Matplotlib: {plt.matplotlib.__version__}")
print(f"🎨 Seaborn: {sns.__version__}")
import scipy
print(f"📊 SciPy: {scipy.__version__}")

print("\n🔧 CONFIGURACIÓN APLICADA:")
print("- Visualización: 12x8, estilo whitegrid")
print("- Pandas: máximo 20 filas, todas las columnas")
print("- Reproducibilidad: semilla 42")
print("- Advertencias: suprimidas")

print("\n🎯 ¡Listo para análisis interpretativo profesional!")

✅ LIBRERÍAS PARA ANÁLISIS INTERPRETATIVO
📊 Pandas: 2.3.1
🔢 NumPy: 2.2.6
📈 Matplotlib: 3.10.3
🎨 Seaborn: 0.13.2
📊 SciPy: 1.15.3

🔧 CONFIGURACIÓN APLICADA:
- Visualización: 12x8, estilo whitegrid
- Pandas: máximo 20 filas, todas las columnas
- Reproducibilidad: semilla 42
- Advertencias: suprimidas

🎯 ¡Listo para análisis interpretativo profesional!


## 3. Datos de Práctica: Simulación del Dataset "Champs"

### 3.1 Creación de Dataset Realista

Vamos a crear un dataset que simule el famoso dataset "champs" de Kaggle, con datos de múltiples temporadas de la Champions League:

- **Temporadas**: 2018-2019 a 2022-2023 (5 temporadas)
- **Equipos**: 32 equipos típicos de Champions League
- **Métricas**: Goles, posesión, tiros, pases, rendimiento
- **Fases**: Fase de grupos, octavos, cuartos, semifinales, final

In [3]:
# Crear dataset simulado estilo "champs"
print("⚽ GENERANDO DATASET SIMULADO 'CHAMPS'")
print("=" * 50)

# Configuración del dataset
temporadas = ['2018-19', '2019-20', '2020-21', '2021-22', '2022-23']
equipos = [
    'Real Madrid', 'Barcelona', 'Manchester City', 'Liverpool',
    'Bayern Munich', 'Paris Saint-Germain', 'Chelsea', 'Manchester United',
    'Atletico Madrid', 'Juventus', 'Inter Milan', 'AC Milan',
    'Arsenal', 'Tottenham', 'Borussia Dortmund', 'RB Leipzig',
    'Sevilla', 'Villarreal', 'Porto', 'Benfica',
    'Ajax', 'PSV Eindhoven', 'Napoli', 'Roma',
    'Atalanta', 'Lazio', 'Olympique Lyon', 'Marseille',
    'Sporting CP', 'Shakhtar Donetsk', 'Salzburg', 'Basel'
]

fases = ['Grupos', 'Octavos', 'Cuartos', 'Semifinales', 'Final']
fase_peso = {'Grupos': 1.0, 'Octavos': 1.2, 'Cuartos': 1.4, 'Semifinales': 1.6, 'Final': 2.0}

# Generar datos de partidos
champs_data = []
match_id = 1

for temporada in temporadas:
    print(f"📅 Generando temporada {temporada}...")
    
    # Factor de dificultad por temporada (algunas temporadas más competitivas)
    factor_temporada = np.random.uniform(0.9, 1.1)
    
    for fase in fases:
        # Número de partidos por fase
        if fase == 'Grupos':
            n_partidos = 96  # 32 equipos, 6 partidos cada uno
        elif fase == 'Octavos':
            n_partidos = 16
        elif fase == 'Cuartos':
            n_partidos = 8
        elif fase == 'Semifinales':
            n_partidos = 4
        else:  # Final
            n_partidos = 1
            
        for i in range(n_partidos):
            # Seleccionar equipos
            equipos_partido = np.random.choice(equipos, 2, replace=False)
            equipo_local = equipos_partido[0]
            equipo_visitante = equipos_partido[1]
            
            # Calcular "strength" de cada equipo (algunos equipos son consistentemente mejores)
            strength_local = np.random.normal(0.5, 0.2)
            strength_visitante = np.random.normal(0.5, 0.2)
            
            # Ajustar por fase (fases más avanzadas tienen equipos más fuertes)
            strength_local *= fase_peso[fase]
            strength_visitante *= fase_peso[fase]
            
            # Ventaja de local (menor en Champions League)
            ventaja_local = np.random.normal(0.1, 0.05)
            
            # Goles
            goles_local = max(0, int(np.random.poisson(1.3 + strength_local + ventaja_local)))
            goles_visitante = max(0, int(np.random.poisson(1.3 + strength_visitante)))
            
            # Resultado
            if goles_local > goles_visitante:
                resultado = 'Local'
            elif goles_visitante > goles_local:
                resultado = 'Visitante'
            else:
                resultado = 'Empate'
            
            # Métricas avanzadas
            # Posesión
            posesion_local = np.random.normal(50 + (goles_local - goles_visitante) * 3, 12)
            posesion_local = np.clip(posesion_local, 25, 75)
            
            # Tiros
            tiros_local = max(1, int(np.random.poisson(8 + strength_local * 3)))
            tiros_visitante = max(1, int(np.random.poisson(8 + strength_visitante * 3)))
            
            # Tiros a puerta
            tiros_puerta_local = max(1, int(tiros_local * np.random.uniform(0.3, 0.6)))
            tiros_puerta_visitante = max(1, int(tiros_visitante * np.random.uniform(0.3, 0.6)))
            
            # Pases
            pases_local = max(200, int(np.random.normal(450 + strength_local * 50, 80)))
            pases_visitante = max(200, int(np.random.normal(450 + strength_visitante * 50, 80)))
            
            # Precisión de pases
            precision_pases_local = np.random.uniform(0.75, 0.95)
            precision_pases_visitante = np.random.uniform(0.75, 0.95)
            
            # Faltas
            faltas_local = max(0, int(np.random.poisson(12)))
            faltas_visitante = max(0, int(np.random.poisson(12)))
            
            # Tarjetas
            tarjetas_amarillas_local = max(0, int(np.random.poisson(2)))
            tarjetas_amarillas_visitante = max(0, int(np.random.poisson(2)))
            tarjetas_rojas_local = int(np.random.poisson(0.1))
            tarjetas_rojas_visitante = int(np.random.poisson(0.1))
            
            # Fecha aleatoria en la temporada
            año_inicio = int(temporada.split('-')[0])
            if fase == 'Grupos':
                fecha = pd.Timestamp(f'{año_inicio}-09-01') + pd.Timedelta(days=np.random.randint(0, 90))
            elif fase == 'Octavos':
                fecha = pd.Timestamp(f'{año_inicio+1}-02-01') + pd.Timedelta(days=np.random.randint(0, 45))
            elif fase == 'Cuartos':
                fecha = pd.Timestamp(f'{año_inicio+1}-04-01') + pd.Timedelta(days=np.random.randint(0, 30))
            elif fase == 'Semifinales':
                fecha = pd.Timestamp(f'{año_inicio+1}-04-15') + pd.Timedelta(days=np.random.randint(0, 30))
            else:  # Final
                fecha = pd.Timestamp(f'{año_inicio+1}-05-25') + pd.Timedelta(days=np.random.randint(0, 10))
            
            # Agregar registro
            champs_data.append({
                'match_id': match_id,
                'temporada': temporada,
                'fase': fase,
                'fecha': fecha,
                'equipo_local': equipo_local,
                'equipo_visitante': equipo_visitante,
                'goles_local': goles_local,
                'goles_visitante': goles_visitante,
                'resultado': resultado,
                'posesion_local': round(posesion_local, 1),
                'posesion_visitante': round(100 - posesion_local, 1),
                'tiros_local': tiros_local,
                'tiros_visitante': tiros_visitante,
                'tiros_puerta_local': tiros_puerta_local,
                'tiros_puerta_visitante': tiros_puerta_visitante,
                'pases_local': pases_local,
                'pases_visitante': pases_visitante,
                'precision_pases_local': round(precision_pases_local, 3),
                'precision_pases_visitante': round(precision_pases_visitante, 3),
                'faltas_local': faltas_local,
                'faltas_visitante': faltas_visitante,
                'tarjetas_amarillas_local': tarjetas_amarillas_local,
                'tarjetas_amarillas_visitante': tarjetas_amarillas_visitante,
                'tarjetas_rojas_local': tarjetas_rojas_local,
                'tarjetas_rojas_visitante': tarjetas_rojas_visitante,
                'total_goles': goles_local + goles_visitante
            })
            
            match_id += 1

# Crear DataFrame
df_champs = pd.DataFrame(champs_data)

# Información del dataset
print(f"\n✅ DATASET 'CHAMPS' GENERADO EXITOSAMENTE")
print("=" * 50)
print(f"🏆 Total de partidos: {len(df_champs)}")
print(f"📅 Temporadas: {len(temporadas)} ({temporadas[0]} a {temporadas[-1]})")
print(f"⚽ Equipos únicos: {len(equipos)}")
print(f"🎯 Fases incluidas: {len(fases)}")
print(f"📊 Variables por partido: {len(df_champs.columns)}")

# Estadísticas básicas
print(f"\n⚽ ESTADÍSTICAS GENERALES:")
print(f"- Promedio goles por partido: {df_champs['total_goles'].mean():.2f}")
print(f"- Máximo goles en un partido: {df_champs['total_goles'].max()}")
print(f"- Partidos con más de 3 goles: {(df_champs['total_goles'] > 3).sum()} ({(df_champs['total_goles'] > 3).mean()*100:.1f}%)")

# Distribución por resultado
print(f"\n🏆 DISTRIBUCIÓN DE RESULTADOS:")
print(df_champs['resultado'].value_counts(normalize=True).round(3))

print(f"\n📋 MUESTRA DEL DATASET:")
print(df_champs[['temporada', 'fase', 'equipo_local', 'equipo_visitante', 'goles_local', 'goles_visitante', 'resultado']].head(10))

⚽ GENERANDO DATASET SIMULADO 'CHAMPS'
📅 Generando temporada 2018-19...
📅 Generando temporada 2019-20...
📅 Generando temporada 2020-21...
📅 Generando temporada 2021-22...
📅 Generando temporada 2022-23...

✅ DATASET 'CHAMPS' GENERADO EXITOSAMENTE
🏆 Total de partidos: 625
📅 Temporadas: 5 (2018-19 a 2022-23)
⚽ Equipos únicos: 32
🎯 Fases incluidas: 5
📊 Variables por partido: 26

⚽ ESTADÍSTICAS GENERALES:
- Promedio goles por partido: 3.84
- Máximo goles en un partido: 11
- Partidos con más de 3 goles: 323 (51.7%)

🏆 DISTRIBUCIÓN DE RESULTADOS:
resultado
Local        0.408
Visitante    0.378
Empate       0.214
Name: proportion, dtype: float64

📋 MUESTRA DEL DATASET:
  temporada    fase       equipo_local equipo_visitante  goles_local  \
0   2018-19  Grupos           Salzburg       RB Leipzig            1   
1   2018-19  Grupos          Liverpool        Tottenham            1   
2   2018-19  Grupos             Napoli      Sporting CP            3   
3   2018-19  Grupos  Borussia Dortmund     

## 4. Práctica: Análisis de Temporada Específica

### 4.1 Selección y Exploración de Temporada

Vamos a realizar un análisis detallado de una temporada específica, aplicando los principios de interpretación que hemos aprendido.

In [4]:
# 4.1 Análisis de temporada específica: 2021-22
print("🎯 ANÁLISIS DE TEMPORADA ESPECÍFICA: 2021-22")
print("=" * 60)

# Filtrar datos de la temporada 2021-22
temporada_analisis = '2021-22'
df_temporada = df_champs[df_champs['temporada'] == temporada_analisis].copy()

print(f"📊 DATOS DE LA TEMPORADA {temporada_analisis}")
print(f"- Total de partidos: {len(df_temporada)}")
print(f"- Período: {df_temporada['fecha'].min().strftime('%Y-%m-%d')} a {df_temporada['fecha'].max().strftime('%Y-%m-%d')}")
print(f"- Equipos participantes: {df_temporada['equipo_local'].nunique() + df_temporada['equipo_visitante'].nunique() - len(set(df_temporada['equipo_local']) & set(df_temporada['equipo_visitante']))}")

# Análisis descriptivo básico
print(f"\n⚽ ANÁLISIS DESCRIPTIVO - GOLES")
print("-" * 40)
goles_stats = df_temporada['total_goles'].describe()
print(f"Media: {goles_stats['mean']:.2f} goles por partido")
print(f"Mediana: {goles_stats['50%']:.2f} goles por partido")
print(f"Desviación estándar: {goles_stats['std']:.2f}")
print(f"Rango: {goles_stats['min']:.0f} - {goles_stats['max']:.0f} goles")

# Interpretación de la distribución de goles
print(f"\n🔍 INTERPRETACIÓN - DISTRIBUCIÓN DE GOLES")
print("-" * 40)
coef_variacion = goles_stats['std'] / goles_stats['mean']
print(f"Coeficiente de variación: {coef_variacion:.3f}")

if coef_variacion < 0.5:
    interpretacion_cv = "BAJA variabilidad - Partidos bastante predecibles"
elif coef_variacion < 0.8:
    interpretacion_cv = "MODERADA variabilidad - Equilibrio típico del fútbol"
else:
    interpretacion_cv = "ALTA variabilidad - Partidos muy impredecibles"

print(f"Interpretación: {interpretacion_cv}")

# Análisis por fases
print(f"\n🏆 ANÁLISIS POR FASES")
print("-" * 40)
analisis_fases = df_temporada.groupby('fase').agg({
    'total_goles': ['mean', 'std', 'count'],
    'resultado': lambda x: (x == 'Empate').mean()
}).round(3)

analisis_fases.columns = ['Goles_Media', 'Goles_Std', 'Partidos', 'Prop_Empates']
analisis_fases = analisis_fases.sort_values('Goles_Media', ascending=False)

print(analisis_fases)

# Interpretación por fases
print(f"\n🔍 INTERPRETACIÓN - DIFERENCIAS POR FASE")
print("-" * 40)
fase_mas_goles = analisis_fases.index[0]
fase_menos_goles = analisis_fases.index[-1]
diferencia_goles = analisis_fases.loc[fase_mas_goles, 'Goles_Media'] - analisis_fases.loc[fase_menos_goles, 'Goles_Media']

print(f"Fase con más goles: {fase_mas_goles} ({analisis_fases.loc[fase_mas_goles, 'Goles_Media']:.2f} goles/partido)")
print(f"Fase con menos goles: {fase_menos_goles} ({analisis_fases.loc[fase_menos_goles, 'Goles_Media']:.2f} goles/partido)")
print(f"Diferencia: {diferencia_goles:.2f} goles por partido")

if diferencia_goles > 0.5:
    print("💡 INSIGHT: Existe una diferencia prácticamente significativa entre fases")
    print("   Las fases más avanzadas tienden a ser más/menos goleadoras")
else:
    print("💡 INSIGHT: Las diferencias entre fases no son prácticamente significativas")
    print("   El nivel de goles es relativamente consistente a lo largo del torneo")

# Análisis de ventaja local
print(f"\n🏠 ANÁLISIS DE VENTAJA LOCAL")
print("-" * 40)
ventaja_local = df_temporada.groupby('resultado').size()
prop_local = ventaja_local['Local'] / len(df_temporada)
prop_visitante = ventaja_local['Visitante'] / len(df_temporada)
prop_empate = ventaja_local['Empate'] / len(df_temporada)

print(f"Victorias locales: {ventaja_local['Local']} ({prop_local:.1%})")
print(f"Victorias visitantes: {ventaja_local['Visitante']} ({prop_visitante:.1%})")
print(f"Empates: {ventaja_local['Empate']} ({prop_empate:.1%})")

# Interpretación de ventaja local
print(f"\n🔍 INTERPRETACIÓN - VENTAJA LOCAL")
print("-" * 40)
diferencia_local_visitante = prop_local - prop_visitante

if diferencia_local_visitante > 0.1:
    print("💡 INSIGHT: Existe una ventaja local considerable")
    print(f"   Los equipos locales ganan {diferencia_local_visitante:.1%} más que los visitantes")
elif diferencia_local_visitante < -0.1:
    print("💡 INSIGHT: Los equipos visitantes tienen ventaja (inusual)")
    print(f"   Esto podría indicar un torneo muy competitivo o equipos visitantes más fuertes")
else:
    print("💡 INSIGHT: No hay ventaja local significativa")
    print("   Esto es típico en competiciones europeas de alto nivel")

🎯 ANÁLISIS DE TEMPORADA ESPECÍFICA: 2021-22
📊 DATOS DE LA TEMPORADA 2021-22
- Total de partidos: 125
- Período: 2021-09-01 a 2022-05-25
- Equipos participantes: 32

⚽ ANÁLISIS DESCRIPTIVO - GOLES
----------------------------------------
Media: 3.74 goles por partido
Mediana: 4.00 goles por partido
Desviación estándar: 2.03
Rango: 0 - 10 goles

🔍 INTERPRETACIÓN - DISTRIBUCIÓN DE GOLES
----------------------------------------
Coeficiente de variación: 0.543
Interpretación: MODERADA variabilidad - Equilibrio típico del fútbol

🏆 ANÁLISIS POR FASES
----------------------------------------
             Goles_Media  Goles_Std  Partidos  Prop_Empates
fase                                                       
Final              6.000        NaN         1         0.000
Octavos            4.438      2.279        16         0.125
Semifinales        4.250      1.708         4         0.250
Cuartos            3.625      2.326         8         0.250
Grupos             3.594      1.977        96   

## 5. Análisis Comparativo Entre Temporadas

### 5.1 Evolución Temporal del Torneo

Vamos a comparar las diferentes temporadas para identificar tendencias y cambios en el estilo de juego a lo largo del tiempo.

In [None]:
# 5.1 Análisis comparativo entre temporadas
print("📈 ANÁLISIS COMPARATIVO ENTRE TEMPORADAS")
print("=" * 60)

# Análisis temporal por temporada
analisis_temporal = df_champs.groupby('temporada').agg({
    'total_goles': ['mean', 'std'],
    'posesion_local': 'mean',
    'tiros_local': 'mean',
    'tiros_visitante': 'mean',
    'pases_local': 'mean',
    'pases_visitante': 'mean',
    'precision_pases_local': 'mean',
    'precision_pases_visitante': 'mean',
    'resultado': lambda x: (x == 'Empate').mean()
}).round(3)

# Simplificar nombres de columnas
analisis_temporal.columns = [
    'Goles_Media', 'Goles_Std', 'Posesion_Local', 'Tiros_Local', 'Tiros_Visitante',
    'Pases_Local', 'Pases_Visitante', 'Precision_Local', 'Precision_Visitante', 'Prop_Empates'
]

print("📊 EVOLUCIÓN POR TEMPORADA:")
print(analisis_temporal[['Goles_Media', 'Posesion_Local', 'Tiros_Local', 'Prop_Empates']])

# Análisis de tendencias
print(f"\n🔍 ANÁLISIS DE TENDENCIAS")
print("-" * 40)

# Tendencia en goles
goles_por_temporada = analisis_temporal['Goles_Media'].values
tendencia_goles = np.polyfit(range(len(goles_por_temporada)), goles_por_temporada, 1)[0]

print(f"Tendencia en goles: {tendencia_goles:+.3f} goles/temporada")
if abs(tendencia_goles) > 0.05:
    direccion = "AUMENTANDO" if tendencia_goles > 0 else "DISMINUYENDO"
    print(f"💡 INSIGHT: Los goles están {direccion} con el tiempo")
else:
    print("💡 INSIGHT: Los goles se mantienen estables entre temporadas")

# Tendencia en posesión
posesion_por_temporada = analisis_temporal['Posesion_Local'].values
tendencia_posesion = np.polyfit(range(len(posesion_por_temporada)), posesion_por_temporada, 1)[0]

print(f"\nTendencia en posesión local: {tendencia_posesion:+.3f} %/temporada")
if abs(tendencia_posesion) > 0.5:
    direccion = "AUMENTANDO" if tendencia_posesion > 0 else "DISMINUYENDO"
    print(f"💡 INSIGHT: La ventaja de posesión local está {direccion}")
else:
    print("💡 INSIGHT: La posesión local se mantiene estable")

# Crear visualización comparativa
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('🏆 EVOLUCIÓN DE LA CHAMPIONS LEAGUE (2018-2023)', fontsize=16, fontweight='bold')

# Gráfico 1: Evolución de goles
ax1 = axes[0, 0]
ax1.plot(analisis_temporal.index, analisis_temporal['Goles_Media'], 
         marker='o', linewidth=2, markersize=8, color='#1f77b4')
ax1.set_title('Evolución de Goles por Partido', fontweight='bold')
ax1.set_ylabel('Goles promedio')
ax1.grid(True, alpha=0.3)
ax1.tick_params(axis='x', rotation=45)

# Agregar línea de tendencia
z = np.polyfit(range(len(analisis_temporal)), analisis_temporal['Goles_Media'], 1)
p = np.poly1d(z)
ax1.plot(analisis_temporal.index, p(range(len(analisis_temporal))), 
         "--", color='red', alpha=0.7, label=f'Tendencia: {z[0]:+.3f}/año')
ax1.legend()

# Gráfico 2: Evolución de posesión
ax2 = axes[0, 1]
ax2.plot(analisis_temporal.index, analisis_temporal['Posesion_Local'], 
         marker='s', linewidth=2, markersize=8, color='#ff7f0e')
ax2.set_title('Evolución de Posesión Local', fontweight='bold')
ax2.set_ylabel('Posesión promedio (%)')
ax2.grid(True, alpha=0.3)
ax2.tick_params(axis='x', rotation=45)

# Línea de referencia en 50%
ax2.axhline(y=50, color='red', linestyle='--', alpha=0.7, label='Equilibrio (50%)')
ax2.legend()

# Gráfico 3: Comparación de tiros
ax3 = axes[1, 0]
ax3.plot(analisis_temporal.index, analisis_temporal['Tiros_Local'], 
         marker='o', linewidth=2, label='Tiros Local', color='#2ca02c')
ax3.plot(analisis_temporal.index, analisis_temporal['Tiros_Visitante'], 
         marker='s', linewidth=2, label='Tiros Visitante', color='#d62728')
ax3.set_title('Evolución de Tiros por Equipo', fontweight='bold')
ax3.set_ylabel('Tiros promedio')
ax3.grid(True, alpha=0.3)
ax3.tick_params(axis='x', rotation=45)
ax3.legend()

# Gráfico 4: Proporción de empates
ax4 = axes[1, 1]
ax4.plot(analisis_temporal.index, analisis_temporal['Prop_Empates'] * 100, 
         marker='d', linewidth=2, markersize=8, color='#9467bd')
ax4.set_title('Evolución de Empates', fontweight='bold')
ax4.set_ylabel('Proporción de empates (%)')
ax4.grid(True, alpha=0.3)
ax4.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

# Análisis estadístico de diferencias
print(f"\n📊 ANÁLISIS ESTADÍSTICO - COMPARACIÓN DE TEMPORADAS")
print("-" * 40)

# Test de ANOVA para diferencias entre temporadas
temporadas_goles = [df_champs[df_champs['temporada'] == temp]['total_goles'].values 
                    for temp in temporadas]
f_stat, p_value = stats.f_oneway(*temporadas_goles)

print(f"Test ANOVA para diferencias en goles entre temporadas:")
print(f"F-statistic: {f_stat:.3f}")
print(f"P-value: {p_value:.3f}")

if p_value < 0.05:
    print("💡 INSIGHT: Hay diferencias estadísticamente significativas entre temporadas")
    print("   Las temporadas no son homogéneas en términos de goles")
else:
    print("💡 INSIGHT: No hay diferencias estadísticamente significativas")
    print("   Las temporadas son consistentes en términos de goles")

# Identificar temporada más/menos goleadora
temp_mas_goles = analisis_temporal['Goles_Media'].idxmax()
temp_menos_goles = analisis_temporal['Goles_Media'].idxmin()

print(f"\nTemporada más goleadora: {temp_mas_goles} ({analisis_temporal.loc[temp_mas_goles, 'Goles_Media']:.2f} goles/partido)")
print(f"Temporada menos goleadora: {temp_menos_goles} ({analisis_temporal.loc[temp_menos_goles, 'Goles_Media']:.2f} goles/partido)")

## 6. Análisis de Patrones y Correlaciones

### 6.1 Relaciones Entre Variables

Vamos a explorar las relaciones entre diferentes métricas del juego para identificar patrones significativos y generar insights accionables.

In [None]:
# 6.1 Análisis de correlaciones y patrones
print("🔍 ANÁLISIS DE PATRONES Y CORRELACIONES")
print("=" * 60)

# Preparar datos para análisis de correlaciones
# Combinar datos de equipos locales y visitantes
datos_correlacion = []

for _, row in df_champs.iterrows():
    # Datos del equipo local
    datos_correlacion.append({
        'goles': row['goles_local'],
        'posesion': row['posesion_local'],
        'tiros': row['tiros_local'],
        'tiros_puerta': row['tiros_puerta_local'],
        'pases': row['pases_local'],
        'precision_pases': row['precision_pases_local'],
        'faltas': row['faltas_local'],
        'tarjetas_amarillas': row['tarjetas_amarillas_local'],
        'condicion': 'Local'
    })
    
    # Datos del equipo visitante
    datos_correlacion.append({
        'goles': row['goles_visitante'],
        'posesion': row['posesion_visitante'],
        'tiros': row['tiros_visitante'],
        'tiros_puerta': row['tiros_puerta_visitante'],
        'pases': row['pases_visitante'],
        'precision_pases': row['precision_pases_visitante'],
        'faltas': row['faltas_visitante'],
        'tarjetas_amarillas': row['tarjetas_amarillas_visitante'],
        'condicion': 'Visitante'
    })

df_correlacion = pd.DataFrame(datos_correlacion)

# Calcular matriz de correlaciones
variables_numericas = ['goles', 'posesion', 'tiros', 'tiros_puerta', 'pases', 'precision_pases', 'faltas', 'tarjetas_amarillas']
correlacion_matrix = df_correlacion[variables_numericas].corr()

print("📊 MATRIZ DE CORRELACIONES:")
print(correlacion_matrix.round(3))

# Identificar correlaciones más fuertes con goles
correlaciones_goles = correlacion_matrix['goles'].abs().sort_values(ascending=False)
print(f"\n🎯 CORRELACIONES MÁS FUERTES CON GOLES:")
print("-" * 40)
for variable, correlacion in correlaciones_goles.items():
    if variable != 'goles':
        print(f"{variable}: {correlacion:.3f}")

# Interpretación de correlaciones
print(f"\n🔍 INTERPRETACIÓN DE CORRELACIONES")
print("-" * 40)

# Correlación más fuerte (excluyendo goles consigo mismo)
var_mas_correlacionada = correlaciones_goles.index[1]
corr_mas_fuerte = correlaciones_goles.iloc[1]

print(f"Variable más correlacionada con goles: {var_mas_correlacionada}")
print(f"Coeficiente de correlación: {corr_mas_fuerte:.3f}")

if corr_mas_fuerte > 0.7:
    interpretacion = "FUERTE - Relación muy significativa"
elif corr_mas_fuerte > 0.5:
    interpretacion = "MODERADA-FUERTE - Relación importante"
elif corr_mas_fuerte > 0.3:
    interpretacion = "MODERADA - Relación notable"
else:
    interpretacion = "DÉBIL - Relación limitada"

print(f"Interpretación: {interpretacion}")

# Análisis de eficiencia
print(f"\n⚽ ANÁLISIS DE EFICIENCIA")
print("-" * 40)

# Calcular eficiencia (goles por tiro)
df_correlacion['eficiencia_tiros'] = df_correlacion['goles'] / df_correlacion['tiros']
df_correlacion['eficiencia_tiros_puerta'] = df_correlacion['goles'] / df_correlacion['tiros_puerta']

# Reemplazar infinitos y NaN
df_correlacion['eficiencia_tiros'] = df_correlacion['eficiencia_tiros'].replace([np.inf, -np.inf], np.nan)
df_correlacion['eficiencia_tiros_puerta'] = df_correlacion['eficiencia_tiros_puerta'].replace([np.inf, -np.inf], np.nan)

eficiencia_stats = df_correlacion['eficiencia_tiros'].describe()
print(f"Eficiencia promedio (goles/tiro): {eficiencia_stats['mean']:.3f}")
print(f"Mediana: {eficiencia_stats['50%']:.3f}")
print(f"Desviación estándar: {eficiencia_stats['std']:.3f}")

# Crear visualización de patrones
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('🔍 ANÁLISIS DE PATRONES EN CHAMPIONS LEAGUE', fontsize=16, fontweight='bold')

# Gráfico 1: Scatter plot Tiros vs Goles
ax1 = axes[0, 0]
scatter = ax1.scatter(df_correlacion['tiros'], df_correlacion['goles'], 
                     c=df_correlacion['posesion'], cmap='viridis', alpha=0.6)
ax1.set_xlabel('Tiros')
ax1.set_ylabel('Goles')
ax1.set_title('Relación: Tiros vs Goles\n(Color = Posesión)', fontweight='bold')
ax1.grid(True, alpha=0.3)
plt.colorbar(scatter, ax=ax1, label='Posesión (%)')

# Agregar línea de tendencia
z = np.polyfit(df_correlacion['tiros'].dropna(), df_correlacion['goles'].dropna(), 1)
p = np.poly1d(z)
ax1.plot(df_correlacion['tiros'], p(df_correlacion['tiros']), 
         "--", color='red', alpha=0.7, label=f'Tendencia: R²={correlacion_matrix.loc["tiros", "goles"]**2:.3f}')
ax1.legend()

# Gráfico 2: Boxplot Goles por Condición
ax2 = axes[0, 1]
sns.boxplot(data=df_correlacion, x='condicion', y='goles', ax=ax2)
ax2.set_title('Distribución de Goles: Local vs Visitante', fontweight='bold')
ax2.set_ylabel('Goles')

# Gráfico 3: Histograma de Eficiencia
ax3 = axes[1, 0]
ax3.hist(df_correlacion['eficiencia_tiros'].dropna(), bins=30, alpha=0.7, color='skyblue', edgecolor='black')
ax3.set_xlabel('Eficiencia (Goles/Tiro)')
ax3.set_ylabel('Frecuencia')
ax3.set_title('Distribución de Eficiencia de Tiros', fontweight='bold')
ax3.grid(True, alpha=0.3)

# Línea de media
media_eficiencia = df_correlacion['eficiencia_tiros'].mean()
ax3.axvline(media_eficiencia, color='red', linestyle='--', linewidth=2, label=f'Media: {media_eficiencia:.3f}')
ax3.legend()

# Gráfico 4: Heatmap de correlaciones
ax4 = axes[1, 1]
mask = np.triu(np.ones_like(correlacion_matrix, dtype=bool))
sns.heatmap(correlacion_matrix, mask=mask, annot=True, cmap='coolwarm', center=0,
            square=True, linewidths=0.5, cbar_kws={"shrink": .5}, ax=ax4)
ax4.set_title('Matriz de Correlaciones', fontweight='bold')

plt.tight_layout()
plt.show()

# Insights clave
print(f"\n💡 INSIGHTS CLAVE DEL ANÁLISIS")
print("=" * 60)

print("1. EFICIENCIA OFENSIVA:")
print(f"   - Eficiencia promedio: {media_eficiencia:.3f} goles por tiro")
print(f"   - Esto significa que se necesitan ~{1/media_eficiencia:.1f} tiros para anotar un gol")

print("\n2. CORRELACIONES PRINCIPALES:")
correlaciones_importantes = correlaciones_goles[correlaciones_goles > 0.3].drop('goles')
for var, corr in correlaciones_importantes.items():
    print(f"   - {var}: {corr:.3f} (importante para el éxito ofensivo)")

print("\n3. VENTAJA LOCAL:")
goles_local_media = df_correlacion[df_correlacion['condicion'] == 'Local']['goles'].mean()
goles_visitante_media = df_correlacion[df_correlacion['condicion'] == 'Visitante']['goles'].mean()
diferencia = goles_local_media - goles_visitante_media
print(f"   - Goles promedio local: {goles_local_media:.3f}")
print(f"   - Goles promedio visitante: {goles_visitante_media:.3f}")
print(f"   - Ventaja local: {diferencia:+.3f} goles por partido")

if abs(diferencia) > 0.1:
    print(f"   - Conclusión: {'SÍ' if diferencia > 0 else 'NO'} existe ventaja local significativa")
else:
    print("   - Conclusión: La ventaja local es mínima (típico en competiciones de élite)")

## 7. Evaluación: Entrega de Análisis Descriptivo

### 7.1 Plantilla para Proyecto Final

**Objetivo**: Realizar un análisis descriptivo completo de los datos de Champions League, aplicando todas las técnicas aprendidas en el curso.

### 7.2 Estructura del Análisis

Tu análisis debe incluir las siguientes secciones:

1. **Introducción y Objetivos**
   - Descripción del dataset
   - Preguntas de investigación
   - Metodología a seguir

2. **Análisis Descriptivo Univariado**
   - Estadísticas descriptivas de variables clave
   - Interpretación de distribuciones
   - Identificación de outliers

3. **Análisis Bivariado**
   - Correlaciones entre variables
   - Comparaciones entre grupos
   - Análisis de relaciones significativas

4. **Análisis Temporal**
   - Evolución por temporadas
   - Identificación de tendencias
   - Comparación de períodos

5. **Conclusiones e Insights**
   - Hallazgos principales
   - Implicaciones prácticas
   - Limitaciones del análisis

### 7.3 Criterios de Evaluación

- ✅ **Completitud**: Incluye todas las secciones requeridas
- ✅ **Precisión**: Cálculos correctos y interpretaciones apropiadas
- ✅ **Profundidad**: Análisis detallado y reflexivo
- ✅ **Comunicación**: Presentación clara y profesional
- ✅ **Insights**: Hallazgos relevantes y accionables

In [None]:
# 7.1 Plantilla para el análisis final
print("📋 PLANTILLA PARA ANÁLISIS DESCRIPTIVO FINAL")
print("=" * 60)

# Función para generar estadísticas descriptivas completas
def analisis_descriptivo_completo(df, variable, titulo):
    """
    Genera un análisis descriptivo completo de una variable
    """
    print(f"\n📊 {titulo}")
    print("-" * 40)
    
    # Estadísticas básicas
    stats_desc = df[variable].describe()
    print("Estadísticas descriptivas:")
    for stat, value in stats_desc.items():
        print(f"  {stat}: {value:.3f}")
    
    # Medidas adicionales
    q1, q3 = df[variable].quantile([0.25, 0.75])
    iqr = q3 - q1
    skewness = df[variable].skew()
    kurtosis = df[variable].kurtosis()
    
    print(f"\nMedidas adicionales:")
    print(f"  IQR: {iqr:.3f}")
    print(f"  Asimetría: {skewness:.3f}")
    print(f"  Curtosis: {kurtosis:.3f}")
    
    # Interpretación
    print(f"\nInterpretación:")
    if abs(skewness) < 0.5:
        print("  - Distribución aproximadamente simétrica")
    elif skewness > 0:
        print("  - Distribución con sesgo positivo (cola hacia la derecha)")
    else:
        print("  - Distribución con sesgo negativo (cola hacia la izquierda)")
    
    if kurtosis > 1:
        print("  - Distribución leptocúrtica (más puntiaguda que normal)")
    elif kurtosis < -1:
        print("  - Distribución platicúrtica (más plana que normal)")
    else:
        print("  - Distribución mesocúrtica (similar a normal)")
    
    return stats_desc

# Ejemplo de uso de la función
print("🎯 EJEMPLO DE ANÁLISIS DESCRIPTIVO:")
stats_goles = analisis_descriptivo_completo(df_champs, 'total_goles', 'ANÁLISIS DE GOLES TOTALES')

# Función para comparar grupos
def comparar_grupos(df, variable, grupo, titulo):
    """
    Compara una variable entre diferentes grupos
    """
    print(f"\n📊 {titulo}")
    print("-" * 40)
    
    # Estadísticas por grupo
    stats_grupo = df.groupby(grupo)[variable].agg(['mean', 'std', 'count']).round(3)
    print("Estadísticas por grupo:")
    print(stats_grupo)
    
    # Test estadístico
    grupos_valores = [df[df[grupo] == cat][variable].values for cat in df[grupo].unique()]
    f_stat, p_value = stats.f_oneway(*grupos_valores)
    
    print(f"\nTest ANOVA:")
    print(f"  F-statistic: {f_stat:.3f}")
    print(f"  P-value: {p_value:.3f}")
    
    if p_value < 0.05:
        print("  Interpretación: Hay diferencias estadísticamente significativas entre grupos")
    else:
        print("  Interpretación: No hay diferencias estadísticamente significativas")
    
    return stats_grupo

# Ejemplo de comparación
print("\n🎯 EJEMPLO DE COMPARACIÓN ENTRE GRUPOS:")
stats_fases = comparar_grupos(df_champs, 'total_goles', 'fase', 'GOLES POR FASE DEL TORNEO')

# Plantilla para el estudiante
print(f"\n📝 PLANTILLA PARA TU ANÁLISIS")
print("=" * 60)

plantilla_codigo = """
# ===== SECCIÓN 1: INTRODUCCIÓN Y OBJETIVOS =====
print("1. INTRODUCCIÓN")
print("Objetivo: [Describe tu objetivo de análisis]")
print("Dataset: [Describe el dataset]")
print("Preguntas: [Lista tus preguntas de investigación]")

# ===== SECCIÓN 2: ANÁLISIS DESCRIPTIVO UNIVARIADO =====
print("\\n2. ANÁLISIS UNIVARIADO")

# Analizar variable 1
analisis_descriptivo_completo(df_champs, 'total_goles', 'ANÁLISIS DE GOLES')

# Analizar variable 2
analisis_descriptivo_completo(df_champs, 'posesion_local', 'ANÁLISIS DE POSESIÓN')

# Agregar más variables según tu interés...

# ===== SECCIÓN 3: ANÁLISIS BIVARIADO =====
print("\\n3. ANÁLISIS BIVARIADO")

# Correlaciones
correlacion_matrix = df_champs[['total_goles', 'posesion_local', 'tiros_local']].corr()
print("Matriz de correlaciones:")
print(correlacion_matrix)

# Comparaciones entre grupos
comparar_grupos(df_champs, 'total_goles', 'fase', 'GOLES POR FASE')

# ===== SECCIÓN 4: ANÁLISIS TEMPORAL =====
print("\\n4. ANÁLISIS TEMPORAL")

# Evolución por temporadas
temporal = df_champs.groupby('temporada')['total_goles'].mean()
print("Evolución temporal:")
print(temporal)

# ===== SECCIÓN 5: CONCLUSIONES =====
print("\\n5. CONCLUSIONES")
print("Hallazgo 1: [Describe tu hallazgo más importante]")
print("Hallazgo 2: [Segundo hallazgo relevante]")
print("Implicaciones: [Qué significan estos hallazgos]")
print("Limitaciones: [Qué limitaciones tiene tu análisis]")
"""

print("📄 CÓDIGO PLANTILLA:")
print(plantilla_codigo)

print(f"\n✅ PRÓXIMOS PASOS:")
print("1. Copia la plantilla anterior")
print("2. Completa cada sección con tu análisis")
print("3. Agrega visualizaciones relevantes")
print("4. Interpreta todos los resultados")
print("5. Genera insights accionables")
print("6. Documenta limitaciones y recomendaciones")

print(f"\n🎯 ¡Aplica todo lo aprendido en tu análisis final!")

---

## 🎯 Conclusiones y Resumen de la Semana 5

### 📚 Conceptos Clave Aprendidos

1. **Interpretación de Resultados Descriptivos**
   - Contextualización de estadísticas en el dominio deportivo
   - Diferencia entre significancia estadística y práctica
   - Metodología estructurada de análisis exploratorio

2. **Análisis de Temporadas Específicas**
   - Técnicas de filtrado y segmentación de datos
   - Análisis comparativo entre fases del torneo
   - Identificación de patrones temporales

3. **Evaluación y Comunicación**
   - Estructura profesional de reportes de análisis
   - Generación de insights accionables
   - Reconocimiento de limitaciones del análisis

### 🛠️ Herramientas y Técnicas Dominadas

- **Análisis Descriptivo Avanzado**: Estadísticas robustas y medidas de forma
- **Análisis Comparativo**: Tests estadísticos y comparaciones entre grupos
- **Análisis Temporal**: Identificación de tendencias y cambios
- **Visualización Interpretativa**: Gráficos que comunican insights
- **Documentación Profesional**: Reportes estructurados y claros

### 🏆 Competencias Desarrolladas

✅ **Pensamiento Crítico**: Evaluar la relevancia y validez de hallazgos
✅ **Comunicación**: Transmitir resultados técnicos a audiencias diversas
✅ **Metodología**: Aplicar procesos estructurados de análisis
✅ **Interpretación**: Generar insights significativos desde datos
✅ **Evaluación**: Reconocer limitaciones y sesgos en el análisis

### 🚀 Preparación para Siguientes Bloques

Con la finalización del **Bloque 1**, los estudiantes están preparados para:

- **Bloque 2**: Modelado Predictivo y Machine Learning
- **Bloque 3**: Aplicaciones Avanzadas y Despliegue
- **Proyectos Especializados**: Análisis deportivo profesional

### 💡 Reflexión Final

La interpretación efectiva de datos es tanto arte como ciencia. Requiere:
- **Conocimiento técnico** para realizar análisis correctos
- **Contexto domain** para entender qué significan los resultados
- **Habilidades comunicativas** para transmitir insights
- **Pensamiento crítico** para evaluar limitaciones

### 🎓 Evaluación del Bloque

El proyecto final debe demostrar:
1. **Dominio técnico**: Aplicación correcta de técnicas estadísticas
2. **Comprensión conceptual**: Interpretación apropiada de resultados
3. **Comunicación efectiva**: Presentación clara y estructurada
4. **Pensamiento crítico**: Reconocimiento de limitaciones y sesgos

---

**¡Felicitaciones por completar el Bloque 1: Fundamentos de Ciencia de Datos y Fútbol!** 🏆

**Estás listo para avanzar al modelado predictivo y técnicas avanzadas de machine learning aplicadas al deporte.**