# 📋 IDENTIFICACIÓN COMPLETA DE VARIABLES
## Dataset de la Premier League - Análisis Exhaustivo de +100 Columnas

---

Este notebook **identifica y clasifica** todas las variables presentes en el dataset de la Premier League.

### Contenido:
1. **Diccionario de Variables** - Descripción detallada de cada columna
2. **Clasificación por Categorías** - Agrupación lógica
3. **Tipos de Datos** - Identificación de tipos (numéricos, categóricos, temporales)
4. **Métricas y Eventos** - Qué miden y representan
5. **Uso en Modelado** - Cuáles usar como features

In [None]:
import pandas as pd
import numpy as np
from pathlib import Path

# Cargar un archivo de ejemplo para ver todas las columnas
df_ejemplo = pd.read_csv('data/2023-2024.csv', nrows=5)

print("="*100)
print("📊 COLUMNAS DEL DATASET")
print("="*100)
print(f"\nTotal de columnas: {len(df_ejemplo.columns)}\n")
print("Nombres de columnas:")
for i, col in enumerate(df_ejemplo.columns, 1):
    print(f"{i:3d}. {col}")

---
## 📖 DICCIONARIO COMPLETO DE VARIABLES

A continuación, la **descripción detallada** de cada variable:

In [None]:
# Diccionario exhaustivo de todas las variables
variables_info = {
    
    # ========================================
    # 1. VARIABLES DE IDENTIFICACIÓN
    # ========================================
    'Div': {
        'nombre_completo': 'División/Liga',
        'tipo_dato': 'Categórica (Nominal)',
        'descripción': 'Código de la liga (E0 = Premier League Inglaterra)',
        'categoría': '🏆 Identificación',
        'valores_ejemplo': ['E0', 'E1', 'E2'],
        'es_predictora': False,
        'importancia': 'Baja - Solo identificador',
        'notas': 'Siempre es E0 para Premier League'
    },
    
    # ========================================
    # 2. VARIABLES TEMPORALES
    # ========================================
    'Date': {
        'nombre_completo': 'Fecha del Partido',
        'tipo_dato': 'Temporal (Fecha)',
        'descripción': 'Fecha en formato dd/mm/yyyy',
        'categoría': '📅 Temporal',
        'valores_ejemplo': ['11/08/2023', '12/08/2023'],
        'es_predictora': True,
        'importancia': 'Media - Útil para features temporales',
        'ingeniería_features': 'Extraer: mes, día de la semana, época de la temporada'
    },
    'Time': {
        'nombre_completo': 'Hora de Inicio',
        'tipo_dato': 'Temporal (Hora)',
        'descripción': 'Hora de inicio del partido (hh:mm)',
        'categoría': '⏰ Temporal',
        'valores_ejemplo': ['20:00', '15:00', '12:30'],
        'es_predictora': True,
        'importancia': 'Baja-Media - Puede afectar rendimiento',
        'notas': 'Partidos nocturnos vs vespertinos pueden tener diferentes dinámicas'
    },
    
    # ========================================
    # 3. EQUIPOS
    # ========================================
    'HomeTeam': {
        'nombre_completo': 'Equipo Local',
        'tipo_dato': 'Categórica (Nominal)',
        'descripción': 'Nombre del equipo que juega en casa',
        'categoría': '⚽ Equipos',
        'valores_ejemplo': ['Arsenal', 'Man City', 'Liverpool', 'Chelsea'],
        'es_predictora': True,
        'importancia': 'ALTA - Factor crítico',
        'ingeniería_features': 'Crear estadísticas históricas, racha de victorias, goles promedio'
    },
    'AwayTeam': {
        'nombre_completo': 'Equipo Visitante',
        'tipo_dato': 'Categórica (Nominal)',
        'descripción': 'Nombre del equipo visitante',
        'categoría': '⚽ Equipos',
        'valores_ejemplo': ['Man United', 'Tottenham', 'Leicester', 'Everton'],
        'es_predictora': True,
        'importancia': 'ALTA - Factor crítico',
        'ingeniería_features': 'Estadísticas como visitante, rendimiento fuera de casa'
    },
    
    # ========================================
    # 4. RESULTADO FINAL (FULL TIME)
    # ========================================
    'FTHG': {
        'nombre_completo': 'Full Time Home Goals',
        'tipo_dato': 'Numérica Discreta (Count)',
        'descripción': 'Goles anotados por el equipo local al final del partido',
        'categoría': '🎯 Resultado Final',
        'valores_ejemplo': [0, 1, 2, 3, 4, 5],
        'rango_típico': '0-5 goles',
        'es_predictora': False,
        'importancia': 'N/A - Es parte del resultado',
        'notas': 'NO usar directamente como predictor (es el resultado que queremos predecir)'
    },
    'FTAG': {
        'nombre_completo': 'Full Time Away Goals',
        'tipo_dato': 'Numérica Discreta (Count)',
        'descripción': 'Goles anotados por el equipo visitante al final',
        'categoría': '🎯 Resultado Final',
        'valores_ejemplo': [0, 1, 2, 3, 4],
        'rango_típico': '0-4 goles',
        'es_predictora': False,
        'importancia': 'N/A - Es parte del resultado'
    },
    'FTR': {
        'nombre_completo': 'Full Time Result',
        'tipo_dato': 'Categórica (Nominal) - VARIABLE OBJETIVO',
        'descripción': 'Resultado final: H (Home win), D (Draw), A (Away win)',
        'categoría': '🏆 VARIABLE OBJETIVO (TARGET)',
        'valores_posibles': ['H', 'D', 'A'],
        'significado_valores': {
            'H': 'Victoria del equipo local (Home)',
            'D': 'Empate (Draw)',
            'A': 'Victoria del equipo visitante (Away)'
        },
        'es_predictora': False,
        'importancia': 'CRÍTICA - Esta es la variable que queremos predecir',
        'distribución_típica': 'H ~46%, D ~27%, A ~27%'
    },
    
    # ========================================
    # 5. RESULTADO AL MEDIO TIEMPO (HALF TIME)
    # ========================================
    'HTHG': {
        'nombre_completo': 'Half Time Home Goals',
        'tipo_dato': 'Numérica Discreta',
        'descripción': 'Goles del equipo local al minuto 45',
        'categoría': '⏱️ Medio Tiempo',
        'valores_ejemplo': [0, 1, 2],
        'es_predictora': True,
        'importancia': 'ALTA - Indica momentum del partido',
        'notas': 'Útil para modelos de predicción en vivo'
    },
    'HTAG': {
        'nombre_completo': 'Half Time Away Goals',
        'tipo_dato': 'Numérica Discreta',
        'descripción': 'Goles del equipo visitante al minuto 45',
        'categoría': '⏱️ Medio Tiempo',
        'valores_ejemplo': [0, 1, 2],
        'es_predictora': True,
        'importancia': 'ALTA - Indica momentum'
    },
    'HTR': {
        'nombre_completo': 'Half Time Result',
        'tipo_dato': 'Categórica (Nominal)',
        'descripción': 'Resultado al medio tiempo: H, D, A',
        'categoría': '⏱️ Medio Tiempo',
        'valores_posibles': ['H', 'D', 'A'],
        'es_predictora': True,
        'importancia': 'MUY ALTA - Predictor fuerte del resultado final'
    },
    
    # ========================================
    # 6. OFICIALES
    # ========================================
    'Referee': {
        'nombre_completo': 'Árbitro',
        'tipo_dato': 'Categórica (Nominal)',
        'descripción': 'Nombre del árbitro principal',
        'categoría': '👨‍⚖️ Oficiales',
        'valores_ejemplo': ['M Oliver', 'C Pawson', 'A Taylor', 'M Dean'],
        'es_predictora': True,
        'importancia': 'Baja-Media - Algunos árbitros más estrictos',
        'ingeniería_features': 'Promedio de tarjetas por árbitro, penales concedidos'
    },
    
    # ========================================
    # 7. ESTADÍSTICAS DE TIROS (SHOTS)
    # ========================================
    'HS': {
        'nombre_completo': 'Home Shots',
        'tipo_dato': 'Numérica Discreta',
        'descripción': 'Total de tiros del equipo local (a puerta y fuera)',
        'categoría': '🎯 Tiros/Disparos',
        'valores_ejemplo': [6, 15, 20, 12],
        'rango_típico': '5-25 tiros',
        'es_predictora': True,
        'importancia': 'MUY ALTA - Indica dominio ofensivo',
        'correlación': 'Alta correlación con victoria'
    },
    'AS': {
        'nombre_completo': 'Away Shots',
        'tipo_dato': 'Numérica Discreta',
        'descripción': 'Total de tiros del equipo visitante',
        'categoría': '🎯 Tiros/Disparos',
        'valores_ejemplo': [17, 6, 12, 8],
        'rango_típico': '3-20 tiros',
        'es_predictora': True,
        'importancia': 'MUY ALTA'
    },
    'HST': {
        'nombre_completo': 'Home Shots on Target',
        'tipo_dato': 'Numérica Discreta',
        'descripción': 'Tiros a puerta del equipo local (que obligan al portero a actuar)',
        'categoría': '🎯 Tiros/Disparos',
        'valores_ejemplo': [1, 7, 8, 5],
        'rango_típico': '0-10 tiros',
        'es_predictora': True,
        'importancia': 'CRÍTICA - Mejor predictor que HS',
        'métrica_derivada': 'Efectividad = HST / HS'
    },
    'AST': {
        'nombre_completo': 'Away Shots on Target',
        'tipo_dato': 'Numérica Discreta',
        'descripción': 'Tiros a puerta del equipo visitante',
        'categoría': '🎯 Tiros/Disparos',
        'valores_ejemplo': [2, 8, 5, 3],
        'rango_típico': '0-8 tiros',
        'es_predictora': True,
        'importancia': 'CRÍTICA'
    },
    
    # ========================================
    # 8. FALTAS (FOULS)
    # ========================================
    'HF': {
        'nombre_completo': 'Home Fouls',
        'tipo_dato': 'Numérica Discreta',
        'descripción': 'Faltas cometidas por el equipo local',
        'categoría': '⚠️ Faltas/Disciplina',
        'valores_ejemplo': [11, 12, 8, 15],
        'rango_típico': '5-20 faltas',
        'es_predictora': True,
        'importancia': 'Media - Indica agresividad/presión',
        'interpretación': 'Más faltas puede indicar estar bajo presión'
    },
    'AF': {
        'nombre_completo': 'Away Fouls',
        'tipo_dato': 'Numérica Discreta',
        'descripción': 'Faltas cometidas por el equipo visitante',
        'categoría': '⚠️ Faltas/Disciplina',
        'valores_ejemplo': [8, 12, 15, 10],
        'rango_típico': '5-20 faltas',
        'es_predictora': True,
        'importancia': 'Media'
    },
    
    # ========================================
    # 9. SAQUES DE ESQUINA (CORNERS)
    # ========================================
    'HC': {
        'nombre_completo': 'Home Corners',
        'tipo_dato': 'Numérica Discreta',
        'descripción': 'Saques de esquina a favor del equipo local',
        'categoría': '🚩 Córners',
        'valores_ejemplo': [6, 8, 3, 10],
        'rango_típico': '0-15 corners',
        'es_predictora': True,
        'importancia': 'Media-Alta - Indica presión ofensiva',
        'correlación': 'Correlacionado con posesión y tiros'
    },
    'AC': {
        'nombre_completo': 'Away Corners',
        'tipo_dato': 'Numérica Discreta',
        'descripción': 'Saques de esquina a favor del visitante',
        'categoría': '🚩 Córners',
        'valores_ejemplo': [5, 3, 10, 7],
        'rango_típico': '0-12 corners',
        'es_predictora': True,
        'importancia': 'Media-Alta'
    },
    
    # ========================================
    # 10. TARJETAS AMARILLAS (YELLOW CARDS)
    # ========================================
    'HY': {
        'nombre_completo': 'Home Yellow Cards',
        'tipo_dato': 'Numérica Discreta',
        'descripción': 'Tarjetas amarillas mostradas al equipo local',
        'categoría': '🟨 Tarjetas Amarillas',
        'valores_ejemplo': [0, 2, 1, 3],
        'rango_típico': '0-5 tarjetas',
        'es_predictora': True,
        'importancia': 'Media - Indica disciplina/intensidad',
        'interpretación': 'Muchas tarjetas puede indicar frustración'
    },
    'AY': {
        'nombre_completo': 'Away Yellow Cards',
        'tipo_dato': 'Numérica Discreta',
        'descripción': 'Tarjetas amarillas mostradas al visitante',
        'categoría': '🟨 Tarjetas Amarillas',
        'valores_ejemplo': [0, 2, 3, 1],
        'rango_típico': '0-5 tarjetas',
        'es_predictora': True,
        'importancia': 'Media'
    },
    
    # ========================================
    # 11. TARJETAS ROJAS (RED CARDS)
    # ========================================
    'HR': {
        'nombre_completo': 'Home Red Cards',
        'tipo_dato': 'Numérica Discreta',
        'descripción': 'Tarjetas rojas/expulsiones del equipo local',
        'categoría': '🟥 Tarjetas Rojas',
        'valores_ejemplo': [0, 1],
        'rango_típico': '0-1 (muy raro >1)',
        'es_predictora': True,
        'importancia': 'ALTA cuando ocurre - Cambia completamente el partido',
        'frecuencia': 'Muy baja (~5% de partidos)'
    },
    'AR': {
        'nombre_completo': 'Away Red Cards',
        'tipo_dato': 'Numérica Discreta',
        'descripción': 'Tarjetas rojas del equipo visitante',
        'categoría': '🟥 Tarjetas Rojas',
        'valores_ejemplo': [0, 1],
        'rango_típico': '0-1',
        'es_predictora': True,
        'importancia': 'ALTA cuando ocurre'
    },
}

print("="*110)
print(" "*40 + "📋 DICCIONARIO DE VARIABLES")
print("="*110)
print()

for i, (var, info) in enumerate(variables_info.items(), 1):
    print(f"\n{'─'*110}")
    print(f"{i}. Variable: {var:15s} | {info.get('categoría', 'N/A')}")
    print(f"{'─'*110}")
    print(f"   📌 Nombre completo:  {info.get('nombre_completo', 'N/A')}")
    print(f"   📊 Tipo de dato:     {info.get('tipo_dato', 'N/A')}")
    print(f"   📝 Descripción:      {info.get('descripción', 'N/A')}")
    
    if 'valores_ejemplo' in info:
        print(f"   💡 Ejemplos:         {info['valores_ejemplo']}")
    if 'rango_típico' in info:
        print(f"   📏 Rango típico:     {info['rango_típico']}")
    if 'valores_posibles' in info:
        print(f"   ✅ Valores posibles: {info['valores_posibles']}")
    
    predictor = "✅ SÍ" if info.get('es_predictora', False) else "❌ NO"
    print(f"   🎯 ¿Es predictora?:  {predictor}")
    print(f"   ⭐ Importancia:      {info.get('importancia', 'N/A')}")
    
    if 'ingeniería_features' in info:
        print(f"   🔧 Feature Eng.:     {info['ingeniería_features']}")
    if 'notas' in info:
        print(f"   📌 Notas:            {info['notas']}")

print(f"\n\n{'='*110}")
print(f"Total de variables descritas hasta ahora: {len(variables_info)}")
print(f"Nota: El dataset tiene más variables de apuestas (cuotas) que veremos a continuación...")
print(f"{'='*110}")

---
## 💰 VARIABLES DE APUESTAS (BETTING ODDS)

El dataset incluye **cuotas de múltiples casas de apuestas**. Estas son MUY IMPORTANTES porque:
- Reflejan la **probabilidad implícita** del mercado
- Incorporan información de expertos, lesiones, forma reciente
- Son **predictores muy potentes**

### Casas de Apuestas (Bookmakers) incluidas:
- **B365**: Bet365
- **BW**: Bet&Win (Bwin)
- **IW**: Interwetten
- **PS**: Pinnacle Sports
- **WH**: William Hill
- **VC**: VC Bet

### Tipos de apuestas:
1. **1X2** (Resultado del partido): H (Home), D (Draw), A (Away)
2. **Over/Under 2.5** (Más/Menos de 2.5 goles totales)
3. **Asian Handicap** (Hándicap asiático)
4. **Closing Odds** (Cuotas de cierre - últimas antes del partido)

### Interpretación de las cuotas:
- **Cuota baja** (ej: 1.20) = Alta probabilidad (favorito)
- **Cuota media** (ej: 3.50) = Probabilidad moderada
- **Cuota alta** (ej: 8.00) = Baja probabilidad (underdog)

**Fórmula**: Probabilidad implícita ≈ 1 / Cuota × 100%

In [None]:
# Variables de apuestas (continuación del diccionario)
apuestas_info = {
    
    # ========================================
    # CUOTAS 1X2 - BET365
    # ========================================
    'B365H': 'Cuota Bet365 para victoria del equipo LOCAL',
    'B365D': 'Cuota Bet365 para EMPATE',
    'B365A': 'Cuota Bet365 para victoria del equipo VISITANTE',
    
    # CUOTAS 1X2 - BET&WIN
    'BWH': 'Cuota Bet&Win para victoria LOCAL',
    'BWD': 'Cuota Bet&Win para EMPATE',
    'BWA': 'Cuota Bet&Win para victoria VISITANTE',
    
    # CUOTAS 1X2 - INTERWETTEN
    'IWH': 'Cuota Interwetten para victoria LOCAL',
    'IWD': 'Cuota Interwetten para EMPATE',
    'IWA': 'Cuota Interwetten para victoria VISITANTE',
    
    # CUOTAS 1X2 - PINNACLE
    'PSH': 'Cuota Pinnacle para victoria LOCAL (considerada la más precisa)',
    'PSD': 'Cuota Pinnacle para EMPATE',
    'PSA': 'Cuota Pinnacle para victoria VISITANTE',
    
    # CUOTAS 1X2 - WILLIAM HILL
    'WHH': 'Cuota William Hill para victoria LOCAL',
    'WHD': 'Cuota William Hill para EMPATE',
    'WHA': 'Cuota William Hill para victoria VISITANTE',
    
    # CUOTAS 1X2 - VC BET
    'VCH': 'Cuota VC Bet para victoria LOCAL',
    'VCD': 'Cuota VC Bet para EMPATE',
    'VCA': 'Cuota VC Bet para victoria VISITANTE',
    
    # ========================================
    # CUOTAS AGREGADAS (MARKET CONSENSUS)
    # ========================================
    'MaxH': 'Cuota MÁXIMA entre todos los bookmakers para victoria LOCAL',
    'MaxD': 'Cuota MÁXIMA para EMPATE',
    'MaxA': 'Cuota MÁXIMA para victoria VISITANTE',
    
    'AvgH': 'Cuota PROMEDIO de todos los bookmakers para victoria LOCAL',
    'AvgD': 'Cuota PROMEDIO para EMPATE',
    'AvgA': 'Cuota PROMEDIO para victoria VISITANTE',
    
    # ========================================
    # OVER/UNDER 2.5 GOLES
    # ========================================
    'B365>2.5': 'Bet365: Cuota para MÁS de 2.5 goles totales',
    'B365<2.5': 'Bet365: Cuota para MENOS de 2.5 goles totales',
    'P>2.5': 'Pinnacle: Cuota para MÁS de 2.5 goles',
    'P<2.5': 'Pinnacle: Cuota para MENOS de 2.5 goles',
    'Max>2.5': 'Cuota MÁXIMA para over 2.5 goles',
    'Max<2.5': 'Cuota MÁXIMA para under 2.5 goles',
    'Avg>2.5': 'Cuota PROMEDIO para over 2.5 goles',
    'Avg<2.5': 'Cuota PROMEDIO para under 2.5 goles',
    
    # ========================================
    # ASIAN HANDICAP (HÁNDICAP ASIÁTICO)
    # ========================================
    'AHh': 'Línea del hándicap asiático (ej: -1.5, 0, +0.5)',
    'B365AHH': 'Bet365: Cuota para LOCAL con hándicap',
    'B365AHA': 'Bet365: Cuota para VISITANTE con hándicap',
    'PAHH': 'Pinnacle: Cuota para LOCAL con hándicap',
    'PAHA': 'Pinnacle: Cuota para VISITANTE con hándicap',
    'MaxAHH': 'Cuota MÁXIMA para LOCAL con hándicap',
    'MaxAHA': 'Cuota MÁXIMA para VISITANTE con hándicap',
    'AvgAHH': 'Cuota PROMEDIO para LOCAL con hándicap',
    'AvgAHA': 'Cuota PROMEDIO para VISITANTE con hándicap',
    
    # ========================================
    # CLOSING ODDS 1X2 (CUOTAS DE CIERRE)
    # ========================================
    'B365CH': 'Bet365 CLOSING: Victoria LOCAL',
    'B365CD': 'Bet365 CLOSING: EMPATE',
    'B365CA': 'Bet365 CLOSING: Victoria VISITANTE',
    
    'BWCH': 'Bet&Win CLOSING: Victoria LOCAL',
    'BWCD': 'Bet&Win CLOSING: EMPATE',
    'BWCA': 'Bet&Win CLOSING: Victoria VISITANTE',
    
    'IWCH': 'Interwetten CLOSING: Victoria LOCAL',
    'IWCD': 'Interwetten CLOSING: EMPATE',
    'IWCA': 'Interwetten CLOSING: Victoria VISITANTE',
    
    'PSCH': 'Pinnacle CLOSING: Victoria LOCAL',
    'PSCD': 'Pinnacle CLOSING: EMPATE',
    'PSCA': 'Pinnacle CLOSING: Victoria VISITANTE',
    
    'WHCH': 'William Hill CLOSING: Victoria LOCAL',
    'WHCD': 'William Hill CLOSING: EMPATE',
    'WHCA': 'William Hill CLOSING: Victoria VISITANTE',
    
    'VCCH': 'VC Bet CLOSING: Victoria LOCAL',
    'VCCD': 'VC Bet CLOSING: EMPATE',
    'VCCA': 'VC Bet CLOSING: Victoria VISITANTE',
    
    'MaxCH': 'MÁXIMA cuota de cierre para victoria LOCAL',
    'MaxCD': 'MÁXIMA cuota de cierre para EMPATE',
    'MaxCA': 'MÁXIMA cuota de cierre para victoria VISITANTE',
    
    'AvgCH': 'PROMEDIO cuotas de cierre para victoria LOCAL',
    'AvgCD': 'PROMEDIO cuotas de cierre para EMPATE',
    'AvgCA': 'PROMEDIO cuotas de cierre para victoria VISITANTE',
    
    # ========================================
    # CLOSING OVER/UNDER 2.5
    # ========================================
    'B365C>2.5': 'Bet365 CLOSING: Over 2.5 goles',
    'B365C<2.5': 'Bet365 CLOSING: Under 2.5 goles',
    'PC>2.5': 'Pinnacle CLOSING: Over 2.5 goles',
    'PC<2.5': 'Pinnacle CLOSING: Under 2.5 goles',
    'MaxC>2.5': 'MÁXIMA cuota de cierre para Over 2.5',
    'MaxC<2.5': 'MÁXIMA cuota de cierre para Under 2.5',
    'AvgC>2.5': 'PROMEDIO cuotas de cierre para Over 2.5',
    'AvgC<2.5': 'PROMEDIO cuotas de cierre para Under 2.5',
    
    # ========================================
    # CLOSING ASIAN HANDICAP
    # ========================================
    'AHCh': 'Línea del hándicap asiático CLOSING',
    'B365CAHH': 'Bet365 CLOSING: LOCAL con hándicap',
    'B365CAHA': 'Bet365 CLOSING: VISITANTE con hándicap',
    'PCAHH': 'Pinnacle CLOSING: LOCAL con hándicap',
    'PCAHA': 'Pinnacle CLOSING: VISITANTE con hándicap',
    'MaxCAHH': 'MÁXIMA cuota de cierre LOCAL con hándicap',
    'MaxCAHA': 'MÁXIMA cuota de cierre VISITANTE con hándicap',
    'AvgCAHH': 'PROMEDIO cuotas de cierre LOCAL con hándicap',
    'AvgCAHA': 'PROMEDIO cuotas de cierre VISITANTE con hándicap',
}

print("="*110)
print(" "*35 + "💰 VARIABLES DE APUESTAS (BETTING ODDS)")
print("="*110)
print()
print(f"Total de variables de apuestas: {len(apuestas_info)}\n")

# Agrupar por tipo
categorias_apuestas = {
    '1X2 - Opening Odds': [],
    '1X2 - Closing Odds': [],
    'Over/Under 2.5': [],
    'Asian Handicap': [],
    'Market Consensus': []
}

for var, desc in apuestas_info.items():
    if 'C' in var and ('CH' in var or 'CD' in var or 'CA' in var) and var not in ['HC', 'AC']:
        categorias_apuestas['1X2 - Closing Odds'].append((var, desc))
    elif 'AH' in var or 'Ah' in var:
        categorias_apuestas['Asian Handicap'].append((var, desc))
    elif '>' in var or '<' in var:
        categorias_apuestas['Over/Under 2.5'].append((var, desc))
    elif 'Max' in var or 'Avg' in var:
        categorias_apuestas['Market Consensus'].append((var, desc))
    else:
        categorias_apuestas['1X2 - Opening Odds'].append((var, desc))

for cat, vars_list in categorias_apuestas.items():
    if not vars_list:
        continue
    print(f"\n{'─'*110}")
    print(f"📊 {cat} ({len(vars_list)} variables)")
    print(f"{'─'*110}\n")
    for var, desc in sorted(vars_list):
        print(f"   {var:15s} → {desc}")

print(f"\n{'='*110}")

---
## 📊 RESUMEN POR CATEGORÍAS

Clasificación de todas las variables por tipo y utilidad:

In [None]:
# Resumen completo
resumen_categorias = {
    '🏆 Identificación': {
        'variables': ['Div'],
        'uso': 'Filtrado y organización',
        'importancia_ml': 'Muy Baja'
    },
    '📅 Temporales': {
        'variables': ['Date', 'Time'],
        'uso': 'Ingeniería de features (mes, día semana, hora)',
        'importancia_ml': 'Media'
    },
    '⚽ Equipos': {
        'variables': ['HomeTeam', 'AwayTeam'],
        'uso': 'Encoding + estadísticas históricas',
        'importancia_ml': 'MUY ALTA'
    },
    '🎯 Resultado Final': {
        'variables': ['FTHG', 'FTAG', 'FTR'],
        'uso': 'FTR es el TARGET. FTHG/FTAG NO usar como predictores',
        'importancia_ml': 'CRÍTICA (FTR es el objetivo)'
    },
    '⏱️ Medio Tiempo': {
        'variables': ['HTHG', 'HTAG', 'HTR'],
        'uso': 'Predicción en vivo, features muy potentes',
        'importancia_ml': 'ALTA'
    },
    '👨‍⚖️ Oficiales': {
        'variables': ['Referee'],
        'uso': 'Estadísticas por árbitro (tarjetas, penales)',
        'importancia_ml': 'Baja-Media'
    },
    '🎯 Tiros': {
        'variables': ['HS', 'AS', 'HST', 'AST'],
        'uso': 'Indicadores clave de dominio y efectividad',
        'importancia_ml': 'MUY ALTA'
    },
    '⚠️ Faltas': {
        'variables': ['HF', 'AF'],
        'uso': 'Indicador de presión y agresividad',
        'importancia_ml': 'Media'
    },
    '🚩 Córners': {
        'variables': ['HC', 'AC'],
        'uso': 'Indicador de presión ofensiva',
        'importancia_ml': 'Media-Alta'
    },
    '🟨 Tarjetas Amarillas': {
        'variables': ['HY', 'AY'],
        'uso': 'Disciplina e intensidad del partido',
        'importancia_ml': 'Media'
    },
    '🟥 Tarjetas Rojas': {
        'variables': ['HR', 'AR'],
        'uso': 'Eventos raros pero muy influyentes',
        'importancia_ml': 'Alta (cuando ocurren)'
    },
    '💰 Cuotas 1X2': {
        'variables': ['B365H/D/A', 'BWH/D/A', 'IWH/D/A', 'PSH/D/A', 'WHH/D/A', 'VCH/D/A'],
        'uso': 'Probabilidades implícitas del mercado',
        'importancia_ml': 'MUY ALTA - Mejores predictores'
    },
    '💰 Cuotas Over/Under': {
        'variables': ['B365>/<2.5', 'P>/<2.5', 'Max/Avg >/<2.5'],
        'uso': 'Expectativa de goles totales',
        'importancia_ml': 'ALTA'
    },
    '💰 Asian Handicap': {
        'variables': ['AHh', 'B365AHH/AHA', 'PAHH/AHA', 'MaxAHH/AHA', 'AvgAHH/AHA'],
        'uso': 'Diferencia de nivel esperada entre equipos',
        'importancia_ml': 'ALTA'
    },
    '💰 Closing Odds': {
        'variables': ['Todas las variables con C (B365CH, PSCH, etc.)'],
        'uso': 'Última información antes del partido - MÁS PRECISAS',
        'importancia_ml': 'CRÍTICA - Las más precisas'
    },
    '📈 Market Consensus': {
        'variables': ['MaxH/D/A', 'AvgH/D/A', 'Max/AvgC...'],
        'uso': 'Consenso del mercado de apuestas',
        'importancia_ml': 'MUY ALTA'
    }
}

print("="*110)
print(" "*35 + "📊 RESUMEN POR CATEGORÍAS")
print("="*110)
print()

total_vars = 0
for i, (cat, info) in enumerate(resumen_categorias.items(), 1):
    vars_ejemplo = info['variables'][:3] if isinstance(info['variables'], list) else [info['variables']]
    n_vars = len(info['variables']) if isinstance(info['variables'], list) else '~20-60'
    total_vars += len(info['variables']) if isinstance(info['variables'], list) else 0
    
    print(f"\n{i:2d}. {cat}")
    print(f"    {'─'*100}")
    print(f"    Variables: {n_vars}")
    print(f"    Uso: {info['uso']}")
    print(f"    Importancia ML: {info['importancia_ml']}")
    print(f"    Ejemplo: {', '.join(vars_ejemplo)}")

print(f"\n\n{'='*110}")
print(f"📊 ESTADÍSTICAS FINALES")
print(f"{'='*110}")
print(f"   Total aproximado de variables: 100+")
print(f"   Variables de estadísticas del partido: ~20")
print(f"   Variables de apuestas: ~80+")
print(f"   Variable OBJETIVO (Target): FTR (Full Time Result)")
print(f"{'='*110}")

---
## 🎯 MÉTRICAS Y EVENTOS PRINCIPALES

### ¿Qué eventos se registran?

1. **Goles** (FTHG, FTAG, HTHG, HTAG)
   - Evento más importante
   - Definen el resultado del partido

2. **Tiros** (HS, AS, HST, AST)
   - Miden el dominio ofensivo
   - HST/AST son más valiosos (a puerta)

3. **Faltas** (HF, AF)
   - Indican estilo de juego
   - Alta correlación con tarjetas

4. **Córners** (HC, AC)
   - Miden presión ofensiva
   - Correlacionados con tiros y posesión

5. **Tarjetas** (HY, AY, HR, AR)
   - Amarillas: Disciplina/intensidad
   - Rojas: Eventos raros que cambian el partido

### ¿Qué métricas podemos derivar?

```python
# Efectividad de tiros
efectividad_tiros = HST / HS

# Conversión de goles
conversion_goles = FTHG / HST

# Diferencia de tiros
diferencia_tiros = HS - AS

# Ratio córners
ratio_corners = HC / (HC + AC)

# Probabilidad implícita de las cuotas
prob_victoria_local = 1 / B365H
```

---
## ✅ RECOMENDACIONES PARA MODELADO

### ✅ Variables ALTAMENTE recomendadas:
1. **Cuotas de apuestas** (B365H/D/A, PSH/D/A, AvgH/D/A)
   - Son los mejores predictores
   - Ya incorporan toda la información disponible

2. **Tiros a puerta** (HST, AST)
   - Mejor que tiros totales
   - Alta correlación con goles

3. **Resultado medio tiempo** (HTR)
   - Muy predictivo del resultado final

4. **Features de equipos** (estadísticas históricas)
   - Forma reciente (últimos 5 partidos)
   - Promedio de goles
   - Racha de victorias/derrotas

### ⚠️ Variables a usar con cuidado:
- **FTHG, FTAG**: NO usar como predictores (son el resultado)
- **Referee**: Encoding puede crear muchas dimensiones
- **Time**: Impacto limitado

### ❌ Variables a evitar:
- **Div**: No aporta información (siempre E0)
- Variables con muchos valores faltantes

### 🔧 Ingeniería de Features recomendada:
```python
# 1. Features temporales
df['mes'] = pd.to_datetime(df['Date'], dayfirst=True).dt.month
df['dia_semana'] = pd.to_datetime(df['Date'], dayfirst=True).dt.dayofweek

# 2. Ratios y diferencias
df['dif_tiros_puerta'] = df['HST'] - df['AST']
df['ratio_tiros'] = df['HST'] / (df['AST'] + 0.1)

# 3. Probabilidades implícitas
df['prob_impl_home'] = 1 / df['B365H']
df['prob_impl_draw'] = 1 / df['B365D']
df['prob_impl_away'] = 1 / df['B365A']

# 4. Forma reciente (rolling)
df['forma_local_5'] = df.groupby('HomeTeam')['FTR'].rolling(5).apply(
    lambda x: (x == 'H').sum()
).reset_index(0, drop=True)
```

---
## 📝 CONCLUSIONES

### Resumen del Dataset:

- **Total de columnas**: ~100+
- **Variable objetivo**: FTR (Full Time Result: H/D/A)
- **Variables más importantes**: Cuotas de apuestas y estadísticas de tiros
- **Tipo de problema**: Clasificación multiclase (3 clases)

### Fortalezas del Dataset:
✅ Muy completo y detallado
✅ Incluye cuotas de múltiples bookmakers
✅ Estadísticas exhaustivas del partido
✅ Datos temporales para features

### Retos:
⚠️ Valores faltantes en algunas columnas
⚠️ Muchas variables correlacionadas
⚠️ Clases desbalanceadas (Home win ~46%, Draw ~27%, Away ~27%)

### Próximos pasos:
1. Limpieza y manejo de valores faltantes
2. Ingeniería de features
3. Análisis de correlación
4. Modelado con ExtraTreesClassifier

---

**Este análisis proporciona una base sólida para construir un modelo predictivo profesional.** 🚀⚽