# üìã IDENTIFICACI√ìN COMPLETA DE VARIABLES
## Dataset de la Premier League - An√°lisis Exhaustivo de +100 Columnas

---

Este notebook **identifica y clasifica** todas las variables presentes en el dataset de la Premier League.

### Contenido:
1. **Diccionario de Variables** - Descripci√≥n detallada de cada columna
2. **Clasificaci√≥n por Categor√≠as** - Agrupaci√≥n l√≥gica
3. **Tipos de Datos** - Identificaci√≥n de tipos (num√©ricos, categ√≥ricos, temporales)
4. **M√©tricas y Eventos** - Qu√© miden y representan
5. **Uso en Modelado** - Cu√°les usar como features

In [None]:
import pandas as pd
import numpy as np
from pathlib import Path

# Cargar un archivo de ejemplo para ver todas las columnas
df_ejemplo = pd.read_csv('data/2023-2024.csv', nrows=5)

print("="*100)
print("üìä COLUMNAS DEL DATASET")
print("="*100)
print(f"\nTotal de columnas: {len(df_ejemplo.columns)}\n")
print("Nombres de columnas:")
for i, col in enumerate(df_ejemplo.columns, 1):
    print(f"{i:3d}. {col}")

---
## üìñ DICCIONARIO COMPLETO DE VARIABLES

A continuaci√≥n, la **descripci√≥n detallada** de cada variable:

In [None]:
# Diccionario exhaustivo de todas las variables
variables_info = {
    
    # ========================================
    # 1. VARIABLES DE IDENTIFICACI√ìN
    # ========================================
    'Div': {
        'nombre_completo': 'Divisi√≥n/Liga',
        'tipo_dato': 'Categ√≥rica (Nominal)',
        'descripci√≥n': 'C√≥digo de la liga (E0 = Premier League Inglaterra)',
        'categor√≠a': 'üèÜ Identificaci√≥n',
        'valores_ejemplo': ['E0', 'E1', 'E2'],
        'es_predictora': False,
        'importancia': 'Baja - Solo identificador',
        'notas': 'Siempre es E0 para Premier League'
    },
    
    # ========================================
    # 2. VARIABLES TEMPORALES
    # ========================================
    'Date': {
        'nombre_completo': 'Fecha del Partido',
        'tipo_dato': 'Temporal (Fecha)',
        'descripci√≥n': 'Fecha en formato dd/mm/yyyy',
        'categor√≠a': 'üìÖ Temporal',
        'valores_ejemplo': ['11/08/2023', '12/08/2023'],
        'es_predictora': True,
        'importancia': 'Media - √ötil para features temporales',
        'ingenier√≠a_features': 'Extraer: mes, d√≠a de la semana, √©poca de la temporada'
    },
    'Time': {
        'nombre_completo': 'Hora de Inicio',
        'tipo_dato': 'Temporal (Hora)',
        'descripci√≥n': 'Hora de inicio del partido (hh:mm)',
        'categor√≠a': '‚è∞ Temporal',
        'valores_ejemplo': ['20:00', '15:00', '12:30'],
        'es_predictora': True,
        'importancia': 'Baja-Media - Puede afectar rendimiento',
        'notas': 'Partidos nocturnos vs vespertinos pueden tener diferentes din√°micas'
    },
    
    # ========================================
    # 3. EQUIPOS
    # ========================================
    'HomeTeam': {
        'nombre_completo': 'Equipo Local',
        'tipo_dato': 'Categ√≥rica (Nominal)',
        'descripci√≥n': 'Nombre del equipo que juega en casa',
        'categor√≠a': '‚öΩ Equipos',
        'valores_ejemplo': ['Arsenal', 'Man City', 'Liverpool', 'Chelsea'],
        'es_predictora': True,
        'importancia': 'ALTA - Factor cr√≠tico',
        'ingenier√≠a_features': 'Crear estad√≠sticas hist√≥ricas, racha de victorias, goles promedio'
    },
    'AwayTeam': {
        'nombre_completo': 'Equipo Visitante',
        'tipo_dato': 'Categ√≥rica (Nominal)',
        'descripci√≥n': 'Nombre del equipo visitante',
        'categor√≠a': '‚öΩ Equipos',
        'valores_ejemplo': ['Man United', 'Tottenham', 'Leicester', 'Everton'],
        'es_predictora': True,
        'importancia': 'ALTA - Factor cr√≠tico',
        'ingenier√≠a_features': 'Estad√≠sticas como visitante, rendimiento fuera de casa'
    },
    
    # ========================================
    # 4. RESULTADO FINAL (FULL TIME)
    # ========================================
    'FTHG': {
        'nombre_completo': 'Full Time Home Goals',
        'tipo_dato': 'Num√©rica Discreta (Count)',
        'descripci√≥n': 'Goles anotados por el equipo local al final del partido',
        'categor√≠a': 'üéØ Resultado Final',
        'valores_ejemplo': [0, 1, 2, 3, 4, 5],
        'rango_t√≠pico': '0-5 goles',
        'es_predictora': False,
        'importancia': 'N/A - Es parte del resultado',
        'notas': 'NO usar directamente como predictor (es el resultado que queremos predecir)'
    },
    'FTAG': {
        'nombre_completo': 'Full Time Away Goals',
        'tipo_dato': 'Num√©rica Discreta (Count)',
        'descripci√≥n': 'Goles anotados por el equipo visitante al final',
        'categor√≠a': 'üéØ Resultado Final',
        'valores_ejemplo': [0, 1, 2, 3, 4],
        'rango_t√≠pico': '0-4 goles',
        'es_predictora': False,
        'importancia': 'N/A - Es parte del resultado'
    },
    'FTR': {
        'nombre_completo': 'Full Time Result',
        'tipo_dato': 'Categ√≥rica (Nominal) - VARIABLE OBJETIVO',
        'descripci√≥n': 'Resultado final: H (Home win), D (Draw), A (Away win)',
        'categor√≠a': 'üèÜ VARIABLE OBJETIVO (TARGET)',
        'valores_posibles': ['H', 'D', 'A'],
        'significado_valores': {
            'H': 'Victoria del equipo local (Home)',
            'D': 'Empate (Draw)',
            'A': 'Victoria del equipo visitante (Away)'
        },
        'es_predictora': False,
        'importancia': 'CR√çTICA - Esta es la variable que queremos predecir',
        'distribuci√≥n_t√≠pica': 'H ~46%, D ~27%, A ~27%'
    },
    
    # ========================================
    # 5. RESULTADO AL MEDIO TIEMPO (HALF TIME)
    # ========================================
    'HTHG': {
        'nombre_completo': 'Half Time Home Goals',
        'tipo_dato': 'Num√©rica Discreta',
        'descripci√≥n': 'Goles del equipo local al minuto 45',
        'categor√≠a': '‚è±Ô∏è Medio Tiempo',
        'valores_ejemplo': [0, 1, 2],
        'es_predictora': True,
        'importancia': 'ALTA - Indica momentum del partido',
        'notas': '√ötil para modelos de predicci√≥n en vivo'
    },
    'HTAG': {
        'nombre_completo': 'Half Time Away Goals',
        'tipo_dato': 'Num√©rica Discreta',
        'descripci√≥n': 'Goles del equipo visitante al minuto 45',
        'categor√≠a': '‚è±Ô∏è Medio Tiempo',
        'valores_ejemplo': [0, 1, 2],
        'es_predictora': True,
        'importancia': 'ALTA - Indica momentum'
    },
    'HTR': {
        'nombre_completo': 'Half Time Result',
        'tipo_dato': 'Categ√≥rica (Nominal)',
        'descripci√≥n': 'Resultado al medio tiempo: H, D, A',
        'categor√≠a': '‚è±Ô∏è Medio Tiempo',
        'valores_posibles': ['H', 'D', 'A'],
        'es_predictora': True,
        'importancia': 'MUY ALTA - Predictor fuerte del resultado final'
    },
    
    # ========================================
    # 6. OFICIALES
    # ========================================
    'Referee': {
        'nombre_completo': '√Årbitro',
        'tipo_dato': 'Categ√≥rica (Nominal)',
        'descripci√≥n': 'Nombre del √°rbitro principal',
        'categor√≠a': 'üë®‚Äç‚öñÔ∏è Oficiales',
        'valores_ejemplo': ['M Oliver', 'C Pawson', 'A Taylor', 'M Dean'],
        'es_predictora': True,
        'importancia': 'Baja-Media - Algunos √°rbitros m√°s estrictos',
        'ingenier√≠a_features': 'Promedio de tarjetas por √°rbitro, penales concedidos'
    },
    
    # ========================================
    # 7. ESTAD√çSTICAS DE TIROS (SHOTS)
    # ========================================
    'HS': {
        'nombre_completo': 'Home Shots',
        'tipo_dato': 'Num√©rica Discreta',
        'descripci√≥n': 'Total de tiros del equipo local (a puerta y fuera)',
        'categor√≠a': 'üéØ Tiros/Disparos',
        'valores_ejemplo': [6, 15, 20, 12],
        'rango_t√≠pico': '5-25 tiros',
        'es_predictora': True,
        'importancia': 'MUY ALTA - Indica dominio ofensivo',
        'correlaci√≥n': 'Alta correlaci√≥n con victoria'
    },
    'AS': {
        'nombre_completo': 'Away Shots',
        'tipo_dato': 'Num√©rica Discreta',
        'descripci√≥n': 'Total de tiros del equipo visitante',
        'categor√≠a': 'üéØ Tiros/Disparos',
        'valores_ejemplo': [17, 6, 12, 8],
        'rango_t√≠pico': '3-20 tiros',
        'es_predictora': True,
        'importancia': 'MUY ALTA'
    },
    'HST': {
        'nombre_completo': 'Home Shots on Target',
        'tipo_dato': 'Num√©rica Discreta',
        'descripci√≥n': 'Tiros a puerta del equipo local (que obligan al portero a actuar)',
        'categor√≠a': 'üéØ Tiros/Disparos',
        'valores_ejemplo': [1, 7, 8, 5],
        'rango_t√≠pico': '0-10 tiros',
        'es_predictora': True,
        'importancia': 'CR√çTICA - Mejor predictor que HS',
        'm√©trica_derivada': 'Efectividad = HST / HS'
    },
    'AST': {
        'nombre_completo': 'Away Shots on Target',
        'tipo_dato': 'Num√©rica Discreta',
        'descripci√≥n': 'Tiros a puerta del equipo visitante',
        'categor√≠a': 'üéØ Tiros/Disparos',
        'valores_ejemplo': [2, 8, 5, 3],
        'rango_t√≠pico': '0-8 tiros',
        'es_predictora': True,
        'importancia': 'CR√çTICA'
    },
    
    # ========================================
    # 8. FALTAS (FOULS)
    # ========================================
    'HF': {
        'nombre_completo': 'Home Fouls',
        'tipo_dato': 'Num√©rica Discreta',
        'descripci√≥n': 'Faltas cometidas por el equipo local',
        'categor√≠a': '‚ö†Ô∏è Faltas/Disciplina',
        'valores_ejemplo': [11, 12, 8, 15],
        'rango_t√≠pico': '5-20 faltas',
        'es_predictora': True,
        'importancia': 'Media - Indica agresividad/presi√≥n',
        'interpretaci√≥n': 'M√°s faltas puede indicar estar bajo presi√≥n'
    },
    'AF': {
        'nombre_completo': 'Away Fouls',
        'tipo_dato': 'Num√©rica Discreta',
        'descripci√≥n': 'Faltas cometidas por el equipo visitante',
        'categor√≠a': '‚ö†Ô∏è Faltas/Disciplina',
        'valores_ejemplo': [8, 12, 15, 10],
        'rango_t√≠pico': '5-20 faltas',
        'es_predictora': True,
        'importancia': 'Media'
    },
    
    # ========================================
    # 9. SAQUES DE ESQUINA (CORNERS)
    # ========================================
    'HC': {
        'nombre_completo': 'Home Corners',
        'tipo_dato': 'Num√©rica Discreta',
        'descripci√≥n': 'Saques de esquina a favor del equipo local',
        'categor√≠a': 'üö© C√≥rners',
        'valores_ejemplo': [6, 8, 3, 10],
        'rango_t√≠pico': '0-15 corners',
        'es_predictora': True,
        'importancia': 'Media-Alta - Indica presi√≥n ofensiva',
        'correlaci√≥n': 'Correlacionado con posesi√≥n y tiros'
    },
    'AC': {
        'nombre_completo': 'Away Corners',
        'tipo_dato': 'Num√©rica Discreta',
        'descripci√≥n': 'Saques de esquina a favor del visitante',
        'categor√≠a': 'üö© C√≥rners',
        'valores_ejemplo': [5, 3, 10, 7],
        'rango_t√≠pico': '0-12 corners',
        'es_predictora': True,
        'importancia': 'Media-Alta'
    },
    
    # ========================================
    # 10. TARJETAS AMARILLAS (YELLOW CARDS)
    # ========================================
    'HY': {
        'nombre_completo': 'Home Yellow Cards',
        'tipo_dato': 'Num√©rica Discreta',
        'descripci√≥n': 'Tarjetas amarillas mostradas al equipo local',
        'categor√≠a': 'üü® Tarjetas Amarillas',
        'valores_ejemplo': [0, 2, 1, 3],
        'rango_t√≠pico': '0-5 tarjetas',
        'es_predictora': True,
        'importancia': 'Media - Indica disciplina/intensidad',
        'interpretaci√≥n': 'Muchas tarjetas puede indicar frustraci√≥n'
    },
    'AY': {
        'nombre_completo': 'Away Yellow Cards',
        'tipo_dato': 'Num√©rica Discreta',
        'descripci√≥n': 'Tarjetas amarillas mostradas al visitante',
        'categor√≠a': 'üü® Tarjetas Amarillas',
        'valores_ejemplo': [0, 2, 3, 1],
        'rango_t√≠pico': '0-5 tarjetas',
        'es_predictora': True,
        'importancia': 'Media'
    },
    
    # ========================================
    # 11. TARJETAS ROJAS (RED CARDS)
    # ========================================
    'HR': {
        'nombre_completo': 'Home Red Cards',
        'tipo_dato': 'Num√©rica Discreta',
        'descripci√≥n': 'Tarjetas rojas/expulsiones del equipo local',
        'categor√≠a': 'üü• Tarjetas Rojas',
        'valores_ejemplo': [0, 1],
        'rango_t√≠pico': '0-1 (muy raro >1)',
        'es_predictora': True,
        'importancia': 'ALTA cuando ocurre - Cambia completamente el partido',
        'frecuencia': 'Muy baja (~5% de partidos)'
    },
    'AR': {
        'nombre_completo': 'Away Red Cards',
        'tipo_dato': 'Num√©rica Discreta',
        'descripci√≥n': 'Tarjetas rojas del equipo visitante',
        'categor√≠a': 'üü• Tarjetas Rojas',
        'valores_ejemplo': [0, 1],
        'rango_t√≠pico': '0-1',
        'es_predictora': True,
        'importancia': 'ALTA cuando ocurre'
    },
}

print("="*110)
print(" "*40 + "üìã DICCIONARIO DE VARIABLES")
print("="*110)
print()

for i, (var, info) in enumerate(variables_info.items(), 1):
    print(f"\n{'‚îÄ'*110}")
    print(f"{i}. Variable: {var:15s} | {info.get('categor√≠a', 'N/A')}")
    print(f"{'‚îÄ'*110}")
    print(f"   üìå Nombre completo:  {info.get('nombre_completo', 'N/A')}")
    print(f"   üìä Tipo de dato:     {info.get('tipo_dato', 'N/A')}")
    print(f"   üìù Descripci√≥n:      {info.get('descripci√≥n', 'N/A')}")
    
    if 'valores_ejemplo' in info:
        print(f"   üí° Ejemplos:         {info['valores_ejemplo']}")
    if 'rango_t√≠pico' in info:
        print(f"   üìè Rango t√≠pico:     {info['rango_t√≠pico']}")
    if 'valores_posibles' in info:
        print(f"   ‚úÖ Valores posibles: {info['valores_posibles']}")
    
    predictor = "‚úÖ S√ç" if info.get('es_predictora', False) else "‚ùå NO"
    print(f"   üéØ ¬øEs predictora?:  {predictor}")
    print(f"   ‚≠ê Importancia:      {info.get('importancia', 'N/A')}")
    
    if 'ingenier√≠a_features' in info:
        print(f"   üîß Feature Eng.:     {info['ingenier√≠a_features']}")
    if 'notas' in info:
        print(f"   üìå Notas:            {info['notas']}")

print(f"\n\n{'='*110}")
print(f"Total de variables descritas hasta ahora: {len(variables_info)}")
print(f"Nota: El dataset tiene m√°s variables de apuestas (cuotas) que veremos a continuaci√≥n...")
print(f"{'='*110}")

---
## üí∞ VARIABLES DE APUESTAS (BETTING ODDS)

El dataset incluye **cuotas de m√∫ltiples casas de apuestas**. Estas son MUY IMPORTANTES porque:
- Reflejan la **probabilidad impl√≠cita** del mercado
- Incorporan informaci√≥n de expertos, lesiones, forma reciente
- Son **predictores muy potentes**

### Casas de Apuestas (Bookmakers) incluidas:
- **B365**: Bet365
- **BW**: Bet&Win (Bwin)
- **IW**: Interwetten
- **PS**: Pinnacle Sports
- **WH**: William Hill
- **VC**: VC Bet

### Tipos de apuestas:
1. **1X2** (Resultado del partido): H (Home), D (Draw), A (Away)
2. **Over/Under 2.5** (M√°s/Menos de 2.5 goles totales)
3. **Asian Handicap** (H√°ndicap asi√°tico)
4. **Closing Odds** (Cuotas de cierre - √∫ltimas antes del partido)

### Interpretaci√≥n de las cuotas:
- **Cuota baja** (ej: 1.20) = Alta probabilidad (favorito)
- **Cuota media** (ej: 3.50) = Probabilidad moderada
- **Cuota alta** (ej: 8.00) = Baja probabilidad (underdog)

**F√≥rmula**: Probabilidad impl√≠cita ‚âà 1 / Cuota √ó 100%

In [None]:
# Variables de apuestas (continuaci√≥n del diccionario)
apuestas_info = {
    
    # ========================================
    # CUOTAS 1X2 - BET365
    # ========================================
    'B365H': 'Cuota Bet365 para victoria del equipo LOCAL',
    'B365D': 'Cuota Bet365 para EMPATE',
    'B365A': 'Cuota Bet365 para victoria del equipo VISITANTE',
    
    # CUOTAS 1X2 - BET&WIN
    'BWH': 'Cuota Bet&Win para victoria LOCAL',
    'BWD': 'Cuota Bet&Win para EMPATE',
    'BWA': 'Cuota Bet&Win para victoria VISITANTE',
    
    # CUOTAS 1X2 - INTERWETTEN
    'IWH': 'Cuota Interwetten para victoria LOCAL',
    'IWD': 'Cuota Interwetten para EMPATE',
    'IWA': 'Cuota Interwetten para victoria VISITANTE',
    
    # CUOTAS 1X2 - PINNACLE
    'PSH': 'Cuota Pinnacle para victoria LOCAL (considerada la m√°s precisa)',
    'PSD': 'Cuota Pinnacle para EMPATE',
    'PSA': 'Cuota Pinnacle para victoria VISITANTE',
    
    # CUOTAS 1X2 - WILLIAM HILL
    'WHH': 'Cuota William Hill para victoria LOCAL',
    'WHD': 'Cuota William Hill para EMPATE',
    'WHA': 'Cuota William Hill para victoria VISITANTE',
    
    # CUOTAS 1X2 - VC BET
    'VCH': 'Cuota VC Bet para victoria LOCAL',
    'VCD': 'Cuota VC Bet para EMPATE',
    'VCA': 'Cuota VC Bet para victoria VISITANTE',
    
    # ========================================
    # CUOTAS AGREGADAS (MARKET CONSENSUS)
    # ========================================
    'MaxH': 'Cuota M√ÅXIMA entre todos los bookmakers para victoria LOCAL',
    'MaxD': 'Cuota M√ÅXIMA para EMPATE',
    'MaxA': 'Cuota M√ÅXIMA para victoria VISITANTE',
    
    'AvgH': 'Cuota PROMEDIO de todos los bookmakers para victoria LOCAL',
    'AvgD': 'Cuota PROMEDIO para EMPATE',
    'AvgA': 'Cuota PROMEDIO para victoria VISITANTE',
    
    # ========================================
    # OVER/UNDER 2.5 GOLES
    # ========================================
    'B365>2.5': 'Bet365: Cuota para M√ÅS de 2.5 goles totales',
    'B365<2.5': 'Bet365: Cuota para MENOS de 2.5 goles totales',
    'P>2.5': 'Pinnacle: Cuota para M√ÅS de 2.5 goles',
    'P<2.5': 'Pinnacle: Cuota para MENOS de 2.5 goles',
    'Max>2.5': 'Cuota M√ÅXIMA para over 2.5 goles',
    'Max<2.5': 'Cuota M√ÅXIMA para under 2.5 goles',
    'Avg>2.5': 'Cuota PROMEDIO para over 2.5 goles',
    'Avg<2.5': 'Cuota PROMEDIO para under 2.5 goles',
    
    # ========================================
    # ASIAN HANDICAP (H√ÅNDICAP ASI√ÅTICO)
    # ========================================
    'AHh': 'L√≠nea del h√°ndicap asi√°tico (ej: -1.5, 0, +0.5)',
    'B365AHH': 'Bet365: Cuota para LOCAL con h√°ndicap',
    'B365AHA': 'Bet365: Cuota para VISITANTE con h√°ndicap',
    'PAHH': 'Pinnacle: Cuota para LOCAL con h√°ndicap',
    'PAHA': 'Pinnacle: Cuota para VISITANTE con h√°ndicap',
    'MaxAHH': 'Cuota M√ÅXIMA para LOCAL con h√°ndicap',
    'MaxAHA': 'Cuota M√ÅXIMA para VISITANTE con h√°ndicap',
    'AvgAHH': 'Cuota PROMEDIO para LOCAL con h√°ndicap',
    'AvgAHA': 'Cuota PROMEDIO para VISITANTE con h√°ndicap',
    
    # ========================================
    # CLOSING ODDS 1X2 (CUOTAS DE CIERRE)
    # ========================================
    'B365CH': 'Bet365 CLOSING: Victoria LOCAL',
    'B365CD': 'Bet365 CLOSING: EMPATE',
    'B365CA': 'Bet365 CLOSING: Victoria VISITANTE',
    
    'BWCH': 'Bet&Win CLOSING: Victoria LOCAL',
    'BWCD': 'Bet&Win CLOSING: EMPATE',
    'BWCA': 'Bet&Win CLOSING: Victoria VISITANTE',
    
    'IWCH': 'Interwetten CLOSING: Victoria LOCAL',
    'IWCD': 'Interwetten CLOSING: EMPATE',
    'IWCA': 'Interwetten CLOSING: Victoria VISITANTE',
    
    'PSCH': 'Pinnacle CLOSING: Victoria LOCAL',
    'PSCD': 'Pinnacle CLOSING: EMPATE',
    'PSCA': 'Pinnacle CLOSING: Victoria VISITANTE',
    
    'WHCH': 'William Hill CLOSING: Victoria LOCAL',
    'WHCD': 'William Hill CLOSING: EMPATE',
    'WHCA': 'William Hill CLOSING: Victoria VISITANTE',
    
    'VCCH': 'VC Bet CLOSING: Victoria LOCAL',
    'VCCD': 'VC Bet CLOSING: EMPATE',
    'VCCA': 'VC Bet CLOSING: Victoria VISITANTE',
    
    'MaxCH': 'M√ÅXIMA cuota de cierre para victoria LOCAL',
    'MaxCD': 'M√ÅXIMA cuota de cierre para EMPATE',
    'MaxCA': 'M√ÅXIMA cuota de cierre para victoria VISITANTE',
    
    'AvgCH': 'PROMEDIO cuotas de cierre para victoria LOCAL',
    'AvgCD': 'PROMEDIO cuotas de cierre para EMPATE',
    'AvgCA': 'PROMEDIO cuotas de cierre para victoria VISITANTE',
    
    # ========================================
    # CLOSING OVER/UNDER 2.5
    # ========================================
    'B365C>2.5': 'Bet365 CLOSING: Over 2.5 goles',
    'B365C<2.5': 'Bet365 CLOSING: Under 2.5 goles',
    'PC>2.5': 'Pinnacle CLOSING: Over 2.5 goles',
    'PC<2.5': 'Pinnacle CLOSING: Under 2.5 goles',
    'MaxC>2.5': 'M√ÅXIMA cuota de cierre para Over 2.5',
    'MaxC<2.5': 'M√ÅXIMA cuota de cierre para Under 2.5',
    'AvgC>2.5': 'PROMEDIO cuotas de cierre para Over 2.5',
    'AvgC<2.5': 'PROMEDIO cuotas de cierre para Under 2.5',
    
    # ========================================
    # CLOSING ASIAN HANDICAP
    # ========================================
    'AHCh': 'L√≠nea del h√°ndicap asi√°tico CLOSING',
    'B365CAHH': 'Bet365 CLOSING: LOCAL con h√°ndicap',
    'B365CAHA': 'Bet365 CLOSING: VISITANTE con h√°ndicap',
    'PCAHH': 'Pinnacle CLOSING: LOCAL con h√°ndicap',
    'PCAHA': 'Pinnacle CLOSING: VISITANTE con h√°ndicap',
    'MaxCAHH': 'M√ÅXIMA cuota de cierre LOCAL con h√°ndicap',
    'MaxCAHA': 'M√ÅXIMA cuota de cierre VISITANTE con h√°ndicap',
    'AvgCAHH': 'PROMEDIO cuotas de cierre LOCAL con h√°ndicap',
    'AvgCAHA': 'PROMEDIO cuotas de cierre VISITANTE con h√°ndicap',
}

print("="*110)
print(" "*35 + "üí∞ VARIABLES DE APUESTAS (BETTING ODDS)")
print("="*110)
print()
print(f"Total de variables de apuestas: {len(apuestas_info)}\n")

# Agrupar por tipo
categorias_apuestas = {
    '1X2 - Opening Odds': [],
    '1X2 - Closing Odds': [],
    'Over/Under 2.5': [],
    'Asian Handicap': [],
    'Market Consensus': []
}

for var, desc in apuestas_info.items():
    if 'C' in var and ('CH' in var or 'CD' in var or 'CA' in var) and var not in ['HC', 'AC']:
        categorias_apuestas['1X2 - Closing Odds'].append((var, desc))
    elif 'AH' in var or 'Ah' in var:
        categorias_apuestas['Asian Handicap'].append((var, desc))
    elif '>' in var or '<' in var:
        categorias_apuestas['Over/Under 2.5'].append((var, desc))
    elif 'Max' in var or 'Avg' in var:
        categorias_apuestas['Market Consensus'].append((var, desc))
    else:
        categorias_apuestas['1X2 - Opening Odds'].append((var, desc))

for cat, vars_list in categorias_apuestas.items():
    if not vars_list:
        continue
    print(f"\n{'‚îÄ'*110}")
    print(f"üìä {cat} ({len(vars_list)} variables)")
    print(f"{'‚îÄ'*110}\n")
    for var, desc in sorted(vars_list):
        print(f"   {var:15s} ‚Üí {desc}")

print(f"\n{'='*110}")

---
## üìä RESUMEN POR CATEGOR√çAS

Clasificaci√≥n de todas las variables por tipo y utilidad:

In [None]:
# Resumen completo
resumen_categorias = {
    'üèÜ Identificaci√≥n': {
        'variables': ['Div'],
        'uso': 'Filtrado y organizaci√≥n',
        'importancia_ml': 'Muy Baja'
    },
    'üìÖ Temporales': {
        'variables': ['Date', 'Time'],
        'uso': 'Ingenier√≠a de features (mes, d√≠a semana, hora)',
        'importancia_ml': 'Media'
    },
    '‚öΩ Equipos': {
        'variables': ['HomeTeam', 'AwayTeam'],
        'uso': 'Encoding + estad√≠sticas hist√≥ricas',
        'importancia_ml': 'MUY ALTA'
    },
    'üéØ Resultado Final': {
        'variables': ['FTHG', 'FTAG', 'FTR'],
        'uso': 'FTR es el TARGET. FTHG/FTAG NO usar como predictores',
        'importancia_ml': 'CR√çTICA (FTR es el objetivo)'
    },
    '‚è±Ô∏è Medio Tiempo': {
        'variables': ['HTHG', 'HTAG', 'HTR'],
        'uso': 'Predicci√≥n en vivo, features muy potentes',
        'importancia_ml': 'ALTA'
    },
    'üë®‚Äç‚öñÔ∏è Oficiales': {
        'variables': ['Referee'],
        'uso': 'Estad√≠sticas por √°rbitro (tarjetas, penales)',
        'importancia_ml': 'Baja-Media'
    },
    'üéØ Tiros': {
        'variables': ['HS', 'AS', 'HST', 'AST'],
        'uso': 'Indicadores clave de dominio y efectividad',
        'importancia_ml': 'MUY ALTA'
    },
    '‚ö†Ô∏è Faltas': {
        'variables': ['HF', 'AF'],
        'uso': 'Indicador de presi√≥n y agresividad',
        'importancia_ml': 'Media'
    },
    'üö© C√≥rners': {
        'variables': ['HC', 'AC'],
        'uso': 'Indicador de presi√≥n ofensiva',
        'importancia_ml': 'Media-Alta'
    },
    'üü® Tarjetas Amarillas': {
        'variables': ['HY', 'AY'],
        'uso': 'Disciplina e intensidad del partido',
        'importancia_ml': 'Media'
    },
    'üü• Tarjetas Rojas': {
        'variables': ['HR', 'AR'],
        'uso': 'Eventos raros pero muy influyentes',
        'importancia_ml': 'Alta (cuando ocurren)'
    },
    'üí∞ Cuotas 1X2': {
        'variables': ['B365H/D/A', 'BWH/D/A', 'IWH/D/A', 'PSH/D/A', 'WHH/D/A', 'VCH/D/A'],
        'uso': 'Probabilidades impl√≠citas del mercado',
        'importancia_ml': 'MUY ALTA - Mejores predictores'
    },
    'üí∞ Cuotas Over/Under': {
        'variables': ['B365>/<2.5', 'P>/<2.5', 'Max/Avg >/<2.5'],
        'uso': 'Expectativa de goles totales',
        'importancia_ml': 'ALTA'
    },
    'üí∞ Asian Handicap': {
        'variables': ['AHh', 'B365AHH/AHA', 'PAHH/AHA', 'MaxAHH/AHA', 'AvgAHH/AHA'],
        'uso': 'Diferencia de nivel esperada entre equipos',
        'importancia_ml': 'ALTA'
    },
    'üí∞ Closing Odds': {
        'variables': ['Todas las variables con C (B365CH, PSCH, etc.)'],
        'uso': '√öltima informaci√≥n antes del partido - M√ÅS PRECISAS',
        'importancia_ml': 'CR√çTICA - Las m√°s precisas'
    },
    'üìà Market Consensus': {
        'variables': ['MaxH/D/A', 'AvgH/D/A', 'Max/AvgC...'],
        'uso': 'Consenso del mercado de apuestas',
        'importancia_ml': 'MUY ALTA'
    }
}

print("="*110)
print(" "*35 + "üìä RESUMEN POR CATEGOR√çAS")
print("="*110)
print()

total_vars = 0
for i, (cat, info) in enumerate(resumen_categorias.items(), 1):
    vars_ejemplo = info['variables'][:3] if isinstance(info['variables'], list) else [info['variables']]
    n_vars = len(info['variables']) if isinstance(info['variables'], list) else '~20-60'
    total_vars += len(info['variables']) if isinstance(info['variables'], list) else 0
    
    print(f"\n{i:2d}. {cat}")
    print(f"    {'‚îÄ'*100}")
    print(f"    Variables: {n_vars}")
    print(f"    Uso: {info['uso']}")
    print(f"    Importancia ML: {info['importancia_ml']}")
    print(f"    Ejemplo: {', '.join(vars_ejemplo)}")

print(f"\n\n{'='*110}")
print(f"üìä ESTAD√çSTICAS FINALES")
print(f"{'='*110}")
print(f"   Total aproximado de variables: 100+")
print(f"   Variables de estad√≠sticas del partido: ~20")
print(f"   Variables de apuestas: ~80+")
print(f"   Variable OBJETIVO (Target): FTR (Full Time Result)")
print(f"{'='*110}")

---
## üéØ M√âTRICAS Y EVENTOS PRINCIPALES

### ¬øQu√© eventos se registran?

1. **Goles** (FTHG, FTAG, HTHG, HTAG)
   - Evento m√°s importante
   - Definen el resultado del partido

2. **Tiros** (HS, AS, HST, AST)
   - Miden el dominio ofensivo
   - HST/AST son m√°s valiosos (a puerta)

3. **Faltas** (HF, AF)
   - Indican estilo de juego
   - Alta correlaci√≥n con tarjetas

4. **C√≥rners** (HC, AC)
   - Miden presi√≥n ofensiva
   - Correlacionados con tiros y posesi√≥n

5. **Tarjetas** (HY, AY, HR, AR)
   - Amarillas: Disciplina/intensidad
   - Rojas: Eventos raros que cambian el partido

### ¬øQu√© m√©tricas podemos derivar?

```python
# Efectividad de tiros
efectividad_tiros = HST / HS

# Conversi√≥n de goles
conversion_goles = FTHG / HST

# Diferencia de tiros
diferencia_tiros = HS - AS

# Ratio c√≥rners
ratio_corners = HC / (HC + AC)

# Probabilidad impl√≠cita de las cuotas
prob_victoria_local = 1 / B365H
```

---
## ‚úÖ RECOMENDACIONES PARA MODELADO

### ‚úÖ Variables ALTAMENTE recomendadas:
1. **Cuotas de apuestas** (B365H/D/A, PSH/D/A, AvgH/D/A)
   - Son los mejores predictores
   - Ya incorporan toda la informaci√≥n disponible

2. **Tiros a puerta** (HST, AST)
   - Mejor que tiros totales
   - Alta correlaci√≥n con goles

3. **Resultado medio tiempo** (HTR)
   - Muy predictivo del resultado final

4. **Features de equipos** (estad√≠sticas hist√≥ricas)
   - Forma reciente (√∫ltimos 5 partidos)
   - Promedio de goles
   - Racha de victorias/derrotas

### ‚ö†Ô∏è Variables a usar con cuidado:
- **FTHG, FTAG**: NO usar como predictores (son el resultado)
- **Referee**: Encoding puede crear muchas dimensiones
- **Time**: Impacto limitado

### ‚ùå Variables a evitar:
- **Div**: No aporta informaci√≥n (siempre E0)
- Variables con muchos valores faltantes

### üîß Ingenier√≠a de Features recomendada:
```python
# 1. Features temporales
df['mes'] = pd.to_datetime(df['Date'], dayfirst=True).dt.month
df['dia_semana'] = pd.to_datetime(df['Date'], dayfirst=True).dt.dayofweek

# 2. Ratios y diferencias
df['dif_tiros_puerta'] = df['HST'] - df['AST']
df['ratio_tiros'] = df['HST'] / (df['AST'] + 0.1)

# 3. Probabilidades impl√≠citas
df['prob_impl_home'] = 1 / df['B365H']
df['prob_impl_draw'] = 1 / df['B365D']
df['prob_impl_away'] = 1 / df['B365A']

# 4. Forma reciente (rolling)
df['forma_local_5'] = df.groupby('HomeTeam')['FTR'].rolling(5).apply(
    lambda x: (x == 'H').sum()
).reset_index(0, drop=True)
```

---
## üìù CONCLUSIONES

### Resumen del Dataset:

- **Total de columnas**: ~100+
- **Variable objetivo**: FTR (Full Time Result: H/D/A)
- **Variables m√°s importantes**: Cuotas de apuestas y estad√≠sticas de tiros
- **Tipo de problema**: Clasificaci√≥n multiclase (3 clases)

### Fortalezas del Dataset:
‚úÖ Muy completo y detallado
‚úÖ Incluye cuotas de m√∫ltiples bookmakers
‚úÖ Estad√≠sticas exhaustivas del partido
‚úÖ Datos temporales para features

### Retos:
‚ö†Ô∏è Valores faltantes en algunas columnas
‚ö†Ô∏è Muchas variables correlacionadas
‚ö†Ô∏è Clases desbalanceadas (Home win ~46%, Draw ~27%, Away ~27%)

### Pr√≥ximos pasos:
1. Limpieza y manejo de valores faltantes
2. Ingenier√≠a de features
3. An√°lisis de correlaci√≥n
4. Modelado con ExtraTreesClassifier

---

**Este an√°lisis proporciona una base s√≥lida para construir un modelo predictivo profesional.** üöÄ‚öΩ