# üèÜ Predicci√≥n de Resultados de la Premier League
## Aplicaci√≥n de √Årboles Extremadamente Aleatorios (ExtraTreesClassifier)

---

### üë®‚Äçüéì Proyecto Universitario - Ciencia de Datos
### üìÖ Fecha: Octubre 2025
### üéØ Objetivo: Predecir resultados de partidos usando Machine Learning

---

## üìã √çndice del Proyecto

1. **Configuraci√≥n del Entorno**
2. **Carga y Consolidaci√≥n de Datos**
3. **Identificaci√≥n y Clasificaci√≥n de Variables**
4. **Limpieza y Preprocesamiento**
5. **An√°lisis Exploratorio de Datos (EDA)**
6. **Ingenier√≠a de Caracter√≠sticas**
7. **Fundamento Matem√°tico: Extra Trees vs Random Forest**
8. **Preparaci√≥n para Modelado**
9. **Implementaci√≥n del Modelo ExtraTreesClassifier**
10. **Evaluaci√≥n y M√©tricas**
11. **Comparaci√≥n con Random Forest**
12. **An√°lisis de Importancia de Variables**
13. **Predicciones y Conclusiones**

---

## üìñ Resumen Ejecutivo

Este proyecto implementa un modelo de **Machine Learning** basado en **√Årboles Extremadamente Aleatorios (Extra Trees)** para predecir resultados de partidos de f√∫tbol de la Premier League.

### üéØ Objetivos Espec√≠ficos:
- ‚úÖ Analizar m√°s de 30 temporadas de datos hist√≥ricos
- ‚úÖ Identificar y clasificar variables relevantes
- ‚úÖ Implementar t√©cnicas avanzadas de ingenier√≠a de caracter√≠sticas
- ‚úÖ Demostrar el fundamento matem√°tico del modelo
- ‚úÖ Comparar Extra Trees vs Random Forest
- ‚úÖ Lograr predicciones con alta precisi√≥n

### üìä Alcance:
- **Datos**: 32 temporadas (1993-2025)
- **Variable Objetivo**: Resultado del partido (H/D/A)
- **Algoritmo Principal**: ExtraTreesClassifier
- **Algoritmo Comparativo**: RandomForestClassifier

---
## 1Ô∏è‚É£ CONFIGURACI√ìN DEL ENTORNO

Configuraci√≥n de librer√≠as, visualizaci√≥n y par√°metros del proyecto.

In [None]:
# Supresi√≥n de warnings
import warnings
warnings.filterwarnings('ignore')

# Librer√≠as b√°sicas
import os
import sys
from pathlib import Path
import glob
import pandas as pd
import numpy as np
from datetime import datetime
import pickle

# Visualizaci√≥n
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
import seaborn as sns
from scipy import stats

# Machine Learning - Scikit-learn
from sklearn.model_selection import (
    train_test_split, cross_val_score, GridSearchCV, 
    StratifiedKFold, learning_curve
)
from sklearn.ensemble import (
    ExtraTreesClassifier, RandomForestClassifier, 
    GradientBoostingClassifier
)
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    confusion_matrix, classification_report, roc_auc_score, roc_curve,
    log_loss, matthews_corrcoef, cohen_kappa_score
)

# Configuraci√≥n de visualizaci√≥n profesional
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (14, 8)
plt.rcParams['font.size'] = 11
plt.rcParams['axes.labelsize'] = 12
plt.rcParams['axes.titlesize'] = 14
plt.rcParams['xtick.labelsize'] = 10
plt.rcParams['ytick.labelsize'] = 10
plt.rcParams['legend.fontsize'] = 10
plt.rcParams['figure.dpi'] = 100

# Configuraci√≥n de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.width', 1000)
pd.set_option('display.precision', 4)
pd.set_option('display.float_format', '{:.4f}'.format)

# Crear carpetas necesarias
Path('figures').mkdir(exist_ok=True)
Path('models').mkdir(exist_ok=True)
Path('results').mkdir(exist_ok=True)

# Semilla para reproducibilidad
RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)

# Banner de inicio
print("="*80)
print(" " * 20 + "üèÜ PROYECTO DE CIENCIA DE DATOS üèÜ")
print(" " * 15 + "Predicci√≥n de Resultados - Premier League")
print("="*80)
print("\n‚úÖ Entorno configurado correctamente\n")
print(f"üì¶ Versiones de librer√≠as:")
print(f"   ‚Ä¢ Pandas: {pd.__version__}")
print(f"   ‚Ä¢ NumPy: {np.__version__}")
print(f"   ‚Ä¢ Scikit-learn: {__import__('sklearn').__version__}")
print(f"   ‚Ä¢ Matplotlib: {__import__('matplotlib').__version__}")
print(f"   ‚Ä¢ Seaborn: {sns.__version__}")
print(f"\nüé≤ Random State: {RANDOM_STATE}")
print(f"üìÅ Carpetas creadas: figures/, models/, results/")
print("="*80)