# 🏆 Predicción de Resultados de la Premier League
## Aplicación de Árboles Extremadamente Aleatorios (ExtraTreesClassifier)

---

### 👨‍🎓 Proyecto Universitario - Ciencia de Datos
### 📅 Fecha: Octubre 2025
### 🎯 Objetivo: Predecir resultados de partidos usando Machine Learning

---

## 📋 Índice del Proyecto

1. **Configuración del Entorno**
2. **Carga y Consolidación de Datos**
3. **Identificación y Clasificación de Variables**
4. **Limpieza y Preprocesamiento**
5. **Análisis Exploratorio de Datos (EDA)**
6. **Ingeniería de Características**
7. **Fundamento Matemático: Extra Trees vs Random Forest**
8. **Preparación para Modelado**
9. **Implementación del Modelo ExtraTreesClassifier**
10. **Evaluación y Métricas**
11. **Comparación con Random Forest**
12. **Análisis de Importancia de Variables**
13. **Predicciones y Conclusiones**

---

## 📖 Resumen Ejecutivo

Este proyecto implementa un modelo de **Machine Learning** basado en **Árboles Extremadamente Aleatorios (Extra Trees)** para predecir resultados de partidos de fútbol de la Premier League.

### 🎯 Objetivos Específicos:
- ✅ Analizar más de 30 temporadas de datos históricos
- ✅ Identificar y clasificar variables relevantes
- ✅ Implementar técnicas avanzadas de ingeniería de características
- ✅ Demostrar el fundamento matemático del modelo
- ✅ Comparar Extra Trees vs Random Forest
- ✅ Lograr predicciones con alta precisión

### 📊 Alcance:
- **Datos**: 32 temporadas (1993-2025)
- **Variable Objetivo**: Resultado del partido (H/D/A)
- **Algoritmo Principal**: ExtraTreesClassifier
- **Algoritmo Comparativo**: RandomForestClassifier

---
## 1️⃣ CONFIGURACIÓN DEL ENTORNO

Configuración de librerías, visualización y parámetros del proyecto.

In [None]:
# Supresión de warnings
import warnings
warnings.filterwarnings('ignore')

# Librerías básicas
import os
import sys
from pathlib import Path
import glob
import pandas as pd
import numpy as np
from datetime import datetime
import pickle

# Visualización
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
import seaborn as sns
from scipy import stats

# Machine Learning - Scikit-learn
from sklearn.model_selection import (
    train_test_split, cross_val_score, GridSearchCV, 
    StratifiedKFold, learning_curve
)
from sklearn.ensemble import (
    ExtraTreesClassifier, RandomForestClassifier, 
    GradientBoostingClassifier
)
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    confusion_matrix, classification_report, roc_auc_score, roc_curve,
    log_loss, matthews_corrcoef, cohen_kappa_score
)

# Configuración de visualización profesional
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (14, 8)
plt.rcParams['font.size'] = 11
plt.rcParams['axes.labelsize'] = 12
plt.rcParams['axes.titlesize'] = 14
plt.rcParams['xtick.labelsize'] = 10
plt.rcParams['ytick.labelsize'] = 10
plt.rcParams['legend.fontsize'] = 10
plt.rcParams['figure.dpi'] = 100

# Configuración de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.width', 1000)
pd.set_option('display.precision', 4)
pd.set_option('display.float_format', '{:.4f}'.format)

# Crear carpetas necesarias
Path('figures').mkdir(exist_ok=True)
Path('models').mkdir(exist_ok=True)
Path('results').mkdir(exist_ok=True)

# Semilla para reproducibilidad
RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)

# Banner de inicio
print("="*80)
print(" " * 20 + "🏆 PROYECTO DE CIENCIA DE DATOS 🏆")
print(" " * 15 + "Predicción de Resultados - Premier League")
print("="*80)
print("\n✅ Entorno configurado correctamente\n")
print(f"📦 Versiones de librerías:")
print(f"   • Pandas: {pd.__version__}")
print(f"   • NumPy: {np.__version__}")
print(f"   • Scikit-learn: {__import__('sklearn').__version__}")
print(f"   • Matplotlib: {__import__('matplotlib').__version__}")
print(f"   • Seaborn: {sns.__version__}")
print(f"\n🎲 Random State: {RANDOM_STATE}")
print(f"📁 Carpetas creadas: figures/, models/, results/")
print("="*80)