## 1. Cargar y Explorar Dataset EPL

In [None]:
import sys
sys.path.insert(0, '../src')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configurar estilos
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (14, 6)

print('‚úÖ Librer√≠as importadas correctamente')

In [None]:
# Cargar el dataset EPL
data_path = Path('../data/raw/epl_final.csv')

if data_path.exists():
    df = pd.read_csv(data_path)
    print(f'‚úÖ Dataset cargado: {df.shape[0]} filas √ó {df.shape[1]} columnas')
    print(f'\nüìÖ Rango temporal: {df.iloc[:, 0] if "Date" in str(df.columns) else "Verificar columnas"}')
else:
    print(f'‚ùå Archivo no encontrado en {data_path}')
    print(f'   Descarga epl_final.csv desde Kaggle y col√≥calo en: data/raw/')
    df = None

In [None]:
# Inspeccionar estructura del dataset
if df is not None:
    print('\n' + '='*70)
    print('ESTRUCTURA DEL DATASET')
    print('='*70)
    
    print(f'\nüìã Columnas ({len(df.columns)}):')  
    for i, col in enumerate(df.columns, 1):
        dtype = df[col].dtype
        nulls = df[col].isnull().sum()
        print(f'   {i:2d}. {col:<25} {str(dtype):<15} (nulls: {nulls:4d})')
    
    print(f'\nüìä Primeras 5 filas:')
    display(df.head())
    
    print(f'\nüìä Info del Dataset:')
    print(df.info())

## 2. Preprocesamiento y Feature Engineering

In [None]:
if df is not None:
    # Hacer una copia para trabajar
    df_processed = df.copy()
    
    # Identificar columnas de fecha
    date_cols = [col for col in df_processed.columns if 'date' in col.lower()]
    print(f'Columnas de fecha encontradas: {date_cols}')
    
    # Convertir a datetime si es necesario
    for col in date_cols:
        df_processed[col] = pd.to_datetime(df_processed[col], errors='coerce')
    
    # Verificar valores nulos
    print(f'\nüìä Valores nulos por columna:')
    null_counts = df_processed.isnull().sum()
    null_counts = null_counts[null_counts > 0].sort_values(ascending=False)
    if len(null_counts) > 0:
        print(null_counts)
    else:
        print('‚úÖ Sin valores nulos')
    
    print(f'\n‚úÖ Preprocesamiento inicial completado')

In [None]:
# Feature Engineering - Crear features derivadas
if df_processed is not None:
    # Extraer caracter√≠sticas de tiempo
    date_col = date_cols[0] if date_cols else None
    
    if date_col:
        df_processed['Year'] = df_processed[date_col].dt.year
        df_processed['Month'] = df_processed[date_col].dt.month
        df_processed['DayOfWeek'] = df_processed[date_col].dt.dayofweek
        df_processed['Season'] = df_processed['Year'].apply(lambda x: f'{x}-{x+1}')
        print(f'‚úÖ Features temporales creadas')
    
    # Identificar columnas de equipo y resultado
    print(f'\nColumnas disponibles:')
    print(df_processed.columns.tolist())

## 3. An√°lisis Exploratorio (EDA)

In [None]:
if df_processed is not None:
    print('\n' + '='*70)
    print('AN√ÅLISIS EXPLORATORIO')
    print('='*70)
    
    # Estad√≠sticas b√°sicas
    print('\nüìä Estad√≠sticas descriptivas:')
    display(df_processed.describe())

In [None]:
# Visualizar distribuciones
if df_processed is not None:
    # Encontrar columnas num√©ricas potencialmente interesantes
    numeric_cols = df_processed.select_dtypes(include=[np.number]).columns.tolist()
    
    print(f'Columnas num√©ricas: {numeric_cols[:10]}...')
    print(f'\nTotal de columnas num√©ricas: {len(numeric_cols)}')

## 4. Preparar Datos para Modelado

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

if df_processed is not None:
    print('Datos listos para la siguiente fase:')
    print(f'  - {df_processed.shape[0]} muestras')
    print(f'  - {df_processed.shape[1]} features')
    print(f'\n‚úÖ Pr√≥ximas fases: An√°lisis de target variables')

## 5. Modelo de Predicci√≥n de Resultados (1X2)

In [None]:
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

print('üìä Modelos de predicci√≥n de resultados preparados')
print('  - Random Forest Classifier')
print('  - Gradient Boosting Classifier')

## 6. Modelo de Predicci√≥n de Goles Totales

In [None]:
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

print('üìä Modelos de predicci√≥n de goles preparados')
print('  - Random Forest Regressor')
print('  - Gradient Boosting Regressor')

## 7. Evaluaci√≥n y Comparaci√≥n de Modelos

In [None]:
print('‚úÖ Fase de evaluaci√≥n lista')
print('M√©tricas a evaluar:')
print('  Clasificaci√≥n: Accuracy, Precision, Recall, F1-Score, ROC-AUC')
print('  Regresi√≥n: MAE, RMSE, R¬≤')

## 8. Comparar Predicciones vs Odds del Mercado

In [None]:
print('üìä Investigar APIs de odds disponibles:')
print('  1. odds-api.com - Gratis con l√≠mite de requests')
print('  2. RapidAPI - M√∫ltiples endpoints de apuestas')
print('  3. Datos hist√≥ricos de sitios especializados')

## 9. Identificar Oportunidades de Value Betting

In [None]:
print('üí° Estrategia de Value Betting:')
print('\n1. Calcular probabilidad impl√≠cita de odds:')
print('   Prob_impl√≠cita = 1 / Odd')
print('\n2. Comparar con probabilidad predicha por modelo:')
print('   Si Prob_modelo > Prob_impl√≠cita ‚Üí Posible value bet')
print('\n3. Filtrar por edge m√≠nimo (ej: 5%)')
print('   Edge = Prob_modelo - Prob_impl√≠cita')

## 10. An√°lisis de Rentabilidad

In [None]:
print('üí∞ M√©tricas de Rentabilidad:')
print('  - ROI (Return on Investment)')
print('  - Win Rate (%)')
print('  - Valor Esperado (EV) por apuesta')
print('  - Backtesting en datos hist√≥ricos')
print('  - An√°lisis de rentabilidad por temporada')