# **Semana 14: Feature Engineering y Optimizaci√≥n de Hiperpar√°metros**

## Ciencia de Datos en el Deporte - An√°lisis Avanzado

### üöÄ **Bloque 3: An√°lisis Avanzado y Modelado**

---

**Objetivos de Aprendizaje:**
- ‚úÖ Dominar t√©cnicas de Feature Engineering para datos deportivos
- ‚úÖ Crear variables predictivas m√°s informativas
- ‚úÖ Implementar Grid Search y Random Search
- ‚úÖ Optimizar hiperpar√°metros sistem√°ticamente
- ‚úÖ Mejorar el rendimiento de modelos existentes

**Herramientas:**
- üîß Feature Engineering (variables sint√©ticas, transformaciones)
- üéõÔ∏è GridSearchCV y RandomizedSearchCV
- üìä Validaci√≥n cruzada avanzada
- üîç An√°lisis de importancia de caracter√≠sticas
- ‚ö° T√©cnicas de selecci√≥n de variables

---

## üìö **1. Configuraci√≥n Inicial**

En esta semana daremos el siguiente paso: no solo evaluaremos qu√© tan buenos son nuestros modelos, sino que aprenderemos a **mejorarlos** creando mejores variables (Feature Engineering) y ajustando sus par√°metros internos (Optimizaci√≥n de Hiperpar√°metros).

### üéØ **Analog√≠a Deportiva**
Piensa en un entrenador de f√∫tbol que no solo eval√∫a c√≥mo juega su equipo, sino que:
- **Feature Engineering** = Crear nuevas jugadas y formaciones (nuevas variables a partir de las existentes)
- **Optimizaci√≥n** = Ajustar la alineaci√≥n y estrategia para cada rival espec√≠fico

In [1]:
# Importaciones b√°sicas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, RandomizedSearchCV
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.feature_selection import SelectKBest, f_classif, RFE
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

print("‚úÖ Bibliotecas importadas correctamente")
print("üöÄ Listo para Feature Engineering y Optimizaci√≥n")

‚úÖ Bibliotecas importadas correctamente
üöÄ Listo para Feature Engineering y Optimizaci√≥n


In [2]:
# Cargar los datos deportivos
np.random.seed(42)

# Generar dataset deportivo ampliado para Feature Engineering
n_samples = 1000

data = {
    'altura': np.random.normal(175, 10, n_samples),
    'peso': np.random.normal(70, 12, n_samples),
    'edad': np.random.randint(18, 35, n_samples),
    'experiencia': np.random.randint(0, 15, n_samples),
    'velocidad_max': np.random.normal(25, 5, n_samples),
    'resistencia': np.random.normal(80, 15, n_samples),
    'precision_tiros': np.random.normal(65, 20, n_samples),
    'partidos_jugados': np.random.randint(10, 200, n_samples),
    'goles_temporada': np.random.randint(0, 30, n_samples),
    'asistencias': np.random.randint(0, 15, n_samples),
    'lesiones_historicas': np.random.randint(0, 5, n_samples)
}

# Crear DataFrame
df = pd.DataFrame(data)

# Variable objetivo: rendimiento del jugador (alta/media/baja)
# Basado en una combinaci√≥n de variables
rendimiento_score = (
    (df['goles_temporada'] / 30) * 0.3 +
    (df['asistencias'] / 15) * 0.2 +
    (df['precision_tiros'] / 100) * 0.2 +
    (df['velocidad_max'] / 35) * 0.15 +
    (df['resistencia'] / 100) * 0.15
)

# Crear categor√≠as de rendimiento
df['rendimiento'] = pd.cut(rendimiento_score, 
                          bins=[0, 0.4, 0.7, 1.0], 
                          labels=['Bajo', 'Medio', 'Alto'])

print(f"üìä Dataset cargado: {df.shape[0]} jugadores, {df.shape[1]} variables")
print(f"üéØ Distribuci√≥n de rendimiento:")
print(df['rendimiento'].value_counts())
print("\n" + "="*50)
df.head()

üìä Dataset cargado: 1000 jugadores, 12 variables
üéØ Distribuci√≥n de rendimiento:
rendimiento
Medio    759
Alto     203
Bajo      38
Name: count, dtype: int64



Unnamed: 0,altura,peso,edad,experiencia,velocidad_max,resistencia,precision_tiros,partidos_jugados,goles_temporada,asistencias,lesiones_historicas,rendimiento
0,179.967142,86.792265,23,9,26.087317,93.444259,16.514994,134,15,1,2,Medio
1,173.617357,81.095604,28,13,20.780496,80.317522,57.430907,193,19,2,0,Medio
2,181.476885,70.715564,20,12,16.653553,79.009175,71.05396,181,14,0,4,Medio
3,190.230299,62.236759,25,2,25.799383,102.437674,69.053567,194,13,14,4,Alto
4,172.658466,78.37868,20,13,20.669022,94.591616,102.998793,143,22,9,2,Alto


## üõ†Ô∏è **2. Feature Engineering - Creando Variables Inteligentes**

### üéØ **¬øQu√© es Feature Engineering?**

El **Feature Engineering** es el arte de crear nuevas variables m√°s informativas a partir de las existentes. Es como ser un chef que combina ingredientes b√°sicos para crear platos extraordinarios.

### üèà **Analog√≠a Deportiva: El Scouting Inteligente**

Imagina que eres un scout de f√∫tbol:
- **Variables b√°sicas**: altura, peso, velocidad
- **Variables engineered**: 
  - √çndice Masa Corporal (BMI) = peso/altura¬≤
  - Eficiencia de gol = goles/partidos_jugados
  - Experiencia relativa = experiencia/edad
  - Ratio f√≠sico = velocidad/peso

### üîß **Tipos de Feature Engineering**

1. **üìè Ratios e √çndices**: Combinar variables existentes
2. **üî¢ Transformaciones Matem√°ticas**: log, sqrt, potencias
3. **üè∑Ô∏è Binning**: Convertir num√©ricas en categor√≠as
4. **üé≠ Interacciones**: Productos entre variables
5. **üìä Variables Polin√≥micas**: x¬≤, x¬≥, etc.

In [3]:
# 1. RATIOS E √çNDICES DEPORTIVOS
print("üîß Creando Variables Engineered - Ratios e √çndices")
print("="*50)

# Crear una copia para trabajar
df_featured = df.copy()

# √çndice de Masa Corporal (BMI)
df_featured['bmi'] = df_featured['peso'] / (df_featured['altura']/100)**2

# Eficiencia de goles (goles por partido)
df_featured['eficiencia_gol'] = df_featured['goles_temporada'] / df_featured['partidos_jugados']

# Eficiencia de asistencias
df_featured['eficiencia_asistencia'] = df_featured['asistencias'] / df_featured['partidos_jugados']

# Productividad total (goles + asistencias por partido)
df_featured['productividad_total'] = (df_featured['goles_temporada'] + df_featured['asistencias']) / df_featured['partidos_jugados']

# Experiencia relativa (a√±os de experiencia por edad)
df_featured['experiencia_relativa'] = df_featured['experiencia'] / df_featured['edad']

# Ratio f√≠sico (velocidad por peso - velocidad espec√≠fica)
df_featured['ratio_velocidad_peso'] = df_featured['velocidad_max'] / df_featured['peso']

# √çndice de robustez (resistencia vs lesiones)
df_featured['robustez'] = df_featured['resistencia'] / (df_featured['lesiones_historicas'] + 1)  # +1 para evitar divisi√≥n por 0

print("‚úÖ Variables creadas:")
nuevas_vars = ['bmi', 'eficiencia_gol', 'eficiencia_asistencia', 'productividad_total', 
               'experiencia_relativa', 'ratio_velocidad_peso', 'robustez']

for var in nuevas_vars:
    print(f"   ‚Ä¢ {var}: {df_featured[var].mean():.3f} (promedio)")

print(f"\nüìä Dataset ampliado: {df_featured.shape[1]} variables totales")
df_featured[nuevas_vars].head()

üîß Creando Variables Engineered - Ratios e √çndices
‚úÖ Variables creadas:
   ‚Ä¢ bmi: 23.321 (promedio)
   ‚Ä¢ eficiencia_gol: 0.236 (promedio)
   ‚Ä¢ eficiencia_asistencia: 0.113 (promedio)
   ‚Ä¢ productividad_total: 0.349 (promedio)
   ‚Ä¢ experiencia_relativa: 0.287 (promedio)
   ‚Ä¢ ratio_velocidad_peso: 0.364 (promedio)
   ‚Ä¢ robustez: 36.240 (promedio)

üìä Dataset ampliado: 19 variables totales


Unnamed: 0,bmi,eficiencia_gol,eficiencia_asistencia,productividad_total,experiencia_relativa,ratio_velocidad_peso,robustez
0,26.797519,0.11194,0.007463,0.119403,0.391304,0.300572,31.148086
1,26.903639,0.098446,0.010363,0.108808,0.464286,0.256247,80.317522
2,21.471994,0.077348,0.0,0.077348,0.6,0.235501,15.801835
3,17.198382,0.06701,0.072165,0.139175,0.08,0.414536,20.487535
4,26.291913,0.153846,0.062937,0.216783,0.65,0.263707,31.530539


In [4]:
# 2. TRANSFORMACIONES MATEM√ÅTICAS
print("\nüî¢ Aplicando Transformaciones Matem√°ticas")
print("="*50)

# Transformaciones logar√≠tmicas (√∫tiles para variables asim√©tricas)
df_featured['log_experiencia'] = np.log1p(df_featured['experiencia'])  # log1p para manejar 0s
df_featured['log_partidos'] = np.log1p(df_featured['partidos_jugados'])

# Transformaciones de ra√≠z cuadrada
df_featured['sqrt_resistencia'] = np.sqrt(df_featured['resistencia'])
df_featured['sqrt_precision'] = np.sqrt(np.abs(df_featured['precision_tiros']))  # abs para evitar negativos

# Variables al cuadrado (capturar relaciones no lineales)
df_featured['velocidad_cuadrada'] = df_featured['velocidad_max'] ** 2
df_featured['edad_cuadrada'] = df_featured['edad'] ** 2

print("‚úÖ Transformaciones aplicadas:")
transformaciones = ['log_experiencia', 'log_partidos', 'sqrt_resistencia', 
                   'sqrt_precision', 'velocidad_cuadrada', 'edad_cuadrada']

for trans in transformaciones:
    print(f"   ‚Ä¢ {trans}: rango [{df_featured[trans].min():.2f}, {df_featured[trans].max():.2f}]")

# 3. VARIABLES POLIN√ìMICAS AUTOM√ÅTICAS
print("\nüé≠ Creando Interacciones Polin√≥micas")
print("="*50)

# Seleccionar variables clave para interacciones
vars_clave = ['altura', 'peso', 'velocidad_max', 'resistencia', 'precision_tiros']

# Crear caracter√≠sticas polin√≥micas (grado 2 = incluye interacciones)
poly = PolynomialFeatures(degree=2, include_bias=False, interaction_only=True)
poly_features = poly.fit_transform(df_featured[vars_clave])

# Obtener nombres de las nuevas caracter√≠sticas
poly_names = poly.get_feature_names_out(vars_clave)

# Agregar solo las interacciones (no las variables originales)
interaction_features = poly_features[:, len(vars_clave):]  # Omitir las primeras columnas originales
interaction_names = poly_names[len(vars_clave):]

# Crear DataFrame con interacciones
df_interactions = pd.DataFrame(interaction_features, columns=interaction_names)

# Agregar las m√°s importantes (primeras 5 para mantener manageable)
for i, col in enumerate(interaction_names[:5]):
    clean_name = col.replace(' ', '_').replace('*', '_x_')
    df_featured[f'interact_{clean_name}'] = df_interactions.iloc[:, i]

print(f"‚úÖ {len(interaction_names[:5])} interacciones principales creadas")
print(f"üìä Dataset final: {df_featured.shape[1]} variables totales")

# Mostrar estad√≠sticas finales
print(f"\nüìà Resumen del Feature Engineering:")
print(f"   ‚Ä¢ Variables originales: {len(df.columns)}")
print(f"   ‚Ä¢ Variables engineered: {df_featured.shape[1] - len(df.columns)}")
print(f"   ‚Ä¢ Total final: {df_featured.shape[1]}")


üî¢ Aplicando Transformaciones Matem√°ticas
‚úÖ Transformaciones aplicadas:
   ‚Ä¢ log_experiencia: rango [0.00, 2.71]
   ‚Ä¢ log_partidos: rango [2.40, 5.30]
   ‚Ä¢ sqrt_resistencia: rango [4.94, 11.02]
   ‚Ä¢ sqrt_precision: rango [1.93, 11.70]
   ‚Ä¢ velocidad_cuadrada: rango [77.49, 1873.90]
   ‚Ä¢ edad_cuadrada: rango [324.00, 1156.00]

üé≠ Creando Interacciones Polin√≥micas
‚úÖ 5 interacciones principales creadas
üìä Dataset final: 30 variables totales

üìà Resumen del Feature Engineering:
   ‚Ä¢ Variables originales: 12
   ‚Ä¢ Variables engineered: 18
   ‚Ä¢ Total final: 30


## üéØ **3. Selecci√≥n de Caracter√≠sticas - Identificando las Variables Estrella**

### üèÜ **¬øPor qu√© seleccionar caracter√≠sticas?**

No todas las variables creadas ser√°n √∫tiles. Algunas pueden:
- **üö´ Generar ruido** en lugar de informaci√≥n
- **‚ö° Ralentizar** el entrenamiento 
- **ü§ù Correlacionarse** demasiado con otras (redundancia)

### üîç **T√©cnicas de Selecci√≥n**

1. **üìä An√°lisis Univariado**: F-score, correlaci√≥n
2. **üé≠ Selecci√≥n Recursiva**: RFE (Recursive Feature Elimination)
3. **üå≥ Importancia de Modelo**: Random Forest feature importance
4. **üß† An√°lisis de Correlaci√≥n**: Detectar redundancia

In [5]:
# PREPARAR DATOS PARA SELECCI√ìN
print("üéØ Selecci√≥n de Caracter√≠sticas - Identificando Variables Estrella")
print("="*60)

# Preparar X e y (convertir categ√≥rica a num√©rica)
X = df_featured.drop('rendimiento', axis=1)
y = df_featured['rendimiento'].map({'Bajo': 0, 'Medio': 1, 'Alto': 2})

# Manejar valores infinitos o NaN
X = X.replace([np.inf, -np.inf], np.nan)
X = X.fillna(X.mean())

print(f"üìä Analizando {X.shape[1]} caracter√≠sticas para predecir rendimiento")

# 1. AN√ÅLISIS UNIVARIADO con F-score
print("\n1Ô∏è‚É£ An√°lisis Univariado (F-score)")
print("-" * 40)

selector_f = SelectKBest(score_func=f_classif, k=10)
X_f_selected = selector_f.fit_transform(X, y)

# Obtener puntuaciones y caracter√≠sticas seleccionadas
f_scores = selector_f.scores_
selected_features_f = X.columns[selector_f.get_support()]

print("üèÜ Top 10 caracter√≠sticas por F-score:")
feature_scores = list(zip(X.columns, f_scores))
feature_scores.sort(key=lambda x: x[1], reverse=True)

for i, (feature, score) in enumerate(feature_scores[:10]):
    print(f"   {i+1:2d}. {feature:<25} | F-score: {score:.2f}")

# 2. IMPORTANCIA CON RANDOM FOREST
print("\n2Ô∏è‚É£ Importancia con Random Forest")
print("-" * 40)

rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X, y)

# Obtener importancias
importances = rf.feature_importances_
feature_importance = list(zip(X.columns, importances))
feature_importance.sort(key=lambda x: x[1], reverse=True)

print("üå≥ Top 10 caracter√≠sticas por importancia RF:")
for i, (feature, importance) in enumerate(feature_importance[:10]):
    print(f"   {i+1:2d}. {feature:<25} | Importancia: {importance:.4f}")

# 3. SELECCI√ìN RECURSIVA (RFE)
print("\n3Ô∏è‚É£ Selecci√≥n Recursiva (RFE)")
print("-" * 40)

rfe = RFE(estimator=LogisticRegression(random_state=42, max_iter=1000), n_features_to_select=10)
X_rfe_selected = rfe.fit_transform(X, y)
selected_features_rfe = X.columns[rfe.support_]

print("üîÑ Top 10 caracter√≠sticas por RFE:")
for i, feature in enumerate(selected_features_rfe):
    ranking = rfe.ranking_[X.columns.get_loc(feature)]
    print(f"   {i+1:2d}. {feature:<25} | Ranking: {ranking}")

print(f"\nüìà Resumen de Selecci√≥n:")
print(f"   ‚Ä¢ M√©todo F-score: {len(selected_features_f)} caracter√≠sticas")
print(f"   ‚Ä¢ M√©todo RF: Top 10 por importancia")
print(f"   ‚Ä¢ M√©todo RFE: {len(selected_features_rfe)} caracter√≠sticas")

üéØ Selecci√≥n de Caracter√≠sticas - Identificando Variables Estrella
üìä Analizando 29 caracter√≠sticas para predecir rendimiento

1Ô∏è‚É£ An√°lisis Univariado (F-score)
----------------------------------------
üèÜ Top 10 caracter√≠sticas por F-score:
    1. goles_temporada           | F-score: 221.75
    2. asistencias               | F-score: 116.34
    3. precision_tiros           | F-score: 60.45
    4. interact_altura_precision_tiros | F-score: 58.99
    5. sqrt_precision            | F-score: 56.50
    6. productividad_total       | F-score: 38.79
    7. eficiencia_gol            | F-score: 36.12
    8. eficiencia_asistencia     | F-score: 23.57
    9. velocidad_cuadrada        | F-score: 12.72
   10. interact_altura_velocidad_max | F-score: 12.51

2Ô∏è‚É£ Importancia con Random Forest
----------------------------------------
üå≥ Top 10 caracter√≠sticas por importancia RF:
    1. goles_temporada           | Importancia: 0.1832
    2. asistencias               | Importancia: 

## ‚öôÔ∏è **4. Optimizaci√≥n de Hiperpar√°metros - Ajustando la M√°quina**

### üéõÔ∏è **¬øQu√© son los Hiperpar√°metros?**

Los **hiperpar√°metros** son los "ajustes" del modelo que NO se aprenden de los datos, sino que nosotros debemos configurar antes del entrenamiento.

### üèéÔ∏è **Analog√≠a Deportiva: Ajustando un Coche de Carreras**

Imagina que eres mec√°nico de F1:
- **Motor (algoritmo)**: Random Forest, SVM, etc.
- **Hiperpar√°metros**: 
  - Presi√≥n de neum√°ticos (learning rate)
  - Aerodin√°mica (regularizaci√≥n)
  - Configuraci√≥n del motor (n_estimators, max_depth)

### üîç **T√©cnicas de Optimizaci√≥n**

1. **üéØ Grid Search**: Prueba TODAS las combinaciones (exhaustivo pero lento)
2. **üé≤ Random Search**: Prueba combinaciones aleatorias (m√°s eficiente)
3. **üß† Bayesian Optimization**: Usa experiencia previa (m√°s inteligente)

In [6]:
# PREPARAR DATOS PARA OPTIMIZACI√ìN
print("‚öôÔ∏è Optimizaci√≥n de Hiperpar√°metros - Ajustando la M√°quina")
print("="*60)

# Usar las mejores caracter√≠sticas identificadas (top 10 por F-score)
X_best = X[selected_features_f]
X_train, X_test, y_train, y_test = train_test_split(X_best, y, test_size=0.2, random_state=42, stratify=y)

# Escalar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"üìä Usando {X_best.shape[1]} mejores caracter√≠sticas")
print(f"üéØ Datos: {X_train.shape[0]} entrenamiento, {X_test.shape[0]} prueba")

# 1. GRID SEARCH para Random Forest
print("\n1Ô∏è‚É£ Grid Search - Random Forest")
print("-" * 40)

# Definir par√°metros a probar
param_grid_rf = {
    'n_estimators': [50, 100, 200],
    'max_depth': [5, 10, 15, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Crear Grid Search
grid_search_rf = GridSearchCV(
    estimator=RandomForestClassifier(random_state=42),
    param_grid=param_grid_rf,
    cv=5,  # 5-fold cross validation
    scoring='accuracy',
    n_jobs=-1,  # Usar todos los procesadores
    verbose=1
)

print(f"üîç Probando {len(param_grid_rf['n_estimators']) * len(param_grid_rf['max_depth']) * len(param_grid_rf['min_samples_split']) * len(param_grid_rf['min_samples_leaf'])} combinaciones...")

# Ejecutar b√∫squeda
import time
start_time = time.time()
grid_search_rf.fit(X_train_scaled, y_train)
grid_time = time.time() - start_time

print(f"‚úÖ Grid Search completado en {grid_time:.1f} segundos")
print(f"üèÜ Mejor puntuaci√≥n CV: {grid_search_rf.best_score_:.4f}")
print(f"‚öôÔ∏è Mejores par√°metros:")
for param, value in grid_search_rf.best_params_.items():
    print(f"   ‚Ä¢ {param}: {value}")

# Evaluar en test
best_rf = grid_search_rf.best_estimator_
rf_test_score = best_rf.score(X_test_scaled, y_test)
print(f"üìä Accuracy en test: {rf_test_score:.4f}")

‚öôÔ∏è Optimizaci√≥n de Hiperpar√°metros - Ajustando la M√°quina
üìä Usando 10 mejores caracter√≠sticas
üéØ Datos: 800 entrenamiento, 200 prueba

1Ô∏è‚É£ Grid Search - Random Forest
----------------------------------------
üîç Probando 108 combinaciones...
Fitting 5 folds for each of 108 candidates, totalling 540 fits
‚úÖ Grid Search completado en 24.8 segundos
üèÜ Mejor puntuaci√≥n CV: 0.9163
‚öôÔ∏è Mejores par√°metros:
   ‚Ä¢ max_depth: 10
   ‚Ä¢ min_samples_leaf: 2
   ‚Ä¢ min_samples_split: 5
   ‚Ä¢ n_estimators: 100
üìä Accuracy en test: 0.9150


In [7]:
# 2. RANDOM SEARCH para SVM
print("\n2Ô∏è‚É£ Random Search - SVM")
print("-" * 40)

# Definir distribuciones de par√°metros para SVM
from scipy.stats import uniform, randint

param_dist_svm = {
    'C': uniform(0.1, 10),  # Entre 0.1 y 10.1
    'gamma': uniform(0.001, 0.1),  # Entre 0.001 y 0.101
    'kernel': ['rbf', 'poly', 'sigmoid']
}

# Crear Random Search
random_search_svm = RandomizedSearchCV(
    estimator=SVC(random_state=42),
    param_distributions=param_dist_svm,
    n_iter=50,  # N√∫mero de combinaciones aleatorias a probar
    cv=5,
    scoring='accuracy',
    n_jobs=-1,
    random_state=42,
    verbose=1
)

print(f"üé≤ Probando 50 combinaciones aleatorias...")

start_time = time.time()
random_search_svm.fit(X_train_scaled, y_train)
random_time = time.time() - start_time

print(f"‚úÖ Random Search completado en {random_time:.1f} segundos")
print(f"üèÜ Mejor puntuaci√≥n CV: {random_search_svm.best_score_:.4f}")
print(f"‚öôÔ∏è Mejores par√°metros:")
for param, value in random_search_svm.best_params_.items():
    if isinstance(value, float):
        print(f"   ‚Ä¢ {param}: {value:.4f}")
    else:
        print(f"   ‚Ä¢ {param}: {value}")

# Evaluar en test
best_svm = random_search_svm.best_estimator_
svm_test_score = best_svm.score(X_test_scaled, y_test)
print(f"üìä Accuracy en test: {svm_test_score:.4f}")

# 3. COMPARACI√ìN DE EFICIENCIA
print("\n3Ô∏è‚É£ Comparaci√≥n de Eficiencia")
print("-" * 40)
print(f"‚è±Ô∏è Grid Search (RF):   {grid_time:.1f}s para 108 combinaciones")
print(f"‚è±Ô∏è Random Search (SVM): {random_time:.1f}s para 50 combinaciones")
print(f"üéØ RF Test Accuracy: {rf_test_score:.4f}")
print(f"üéØ SVM Test Accuracy: {svm_test_score:.4f}")

if rf_test_score > svm_test_score:
    winner = "üèÜ Random Forest (Grid Search)"
    diff = rf_test_score - svm_test_score
else:
    winner = "üèÜ SVM (Random Search)"
    diff = svm_test_score - rf_test_score

print(f"\n{winner} gana por {diff:.4f} puntos!")


2Ô∏è‚É£ Random Search - SVM
----------------------------------------
üé≤ Probando 50 combinaciones aleatorias...
Fitting 5 folds for each of 50 candidates, totalling 250 fits
‚úÖ Random Search completado en 0.6 segundos
üèÜ Mejor puntuaci√≥n CV: 0.9425
‚öôÔ∏è Mejores par√°metros:
   ‚Ä¢ C: 6.3435
   ‚Ä¢ gamma: 0.0306
   ‚Ä¢ kernel: rbf
üìä Accuracy en test: 0.9250

3Ô∏è‚É£ Comparaci√≥n de Eficiencia
----------------------------------------
‚è±Ô∏è Grid Search (RF):   24.8s para 108 combinaciones
‚è±Ô∏è Random Search (SVM): 0.6s para 50 combinaciones
üéØ RF Test Accuracy: 0.9150
üéØ SVM Test Accuracy: 0.9250

üèÜ SVM (Random Search) gana por 0.0100 puntos!


## üéØ **5. Interpretaci√≥n Pr√°ctica - De los N√∫meros a las Decisiones**

### üìä **¬øQu√© aprendimos hoy?**

#### üõ†Ô∏è **Feature Engineering Efectivo**
- ‚úÖ **Ratios deportivos** (eficiencia de gol, BMI) son m√°s informativos que variables brutas
- ‚úÖ **Interacciones** entre altura y precisi√≥n revelan patrones ocultos
- ‚úÖ **Transformaciones** matem√°ticas capturan relaciones no lineales

#### ‚öôÔ∏è **Optimizaci√≥n Inteligente**
- üéØ **Random Search** puede ser m√°s eficiente que Grid Search
- ‚è±Ô∏è **50 combinaciones aleatorias** vs **108 sistem√°ticas**
- üèÜ **SVM optimizado** super√≥ a Random Forest por 1%

### üèà **Aplicaciones Deportivas Reales**

#### üîç **Para un Scout de F√∫tbol**
```python
# Variables m√°s importantes identificadas:
top_variables = [
    'goles_temporada',      # Productividad ofensiva
    'asistencias',          # Visi√≥n de juego  
    'precision_tiros',      # Calidad t√©cnica
    'productividad_total',  # Rendimiento integral
    'eficiencia_gol'        # Consistencia
]
```

#### üéØ **Recomendaciones Pr√°cticas**
1. **Crear ratios** siempre que tengas m√©tricas base (goles/partidos)
2. **Probar interacciones** entre caracter√≠sticas f√≠sicas y t√©cnicas
3. **Usar Random Search** para optimizaci√≥n r√°pida inicial
4. **Validar SIEMPRE** en datos de prueba independientes

In [8]:
# RESUMEN EJECUTIVO FINAL
print("üèÜ RESUMEN EJECUTIVO - Feature Engineering y Optimizaci√≥n")
print("="*65)

# Comparar modelo base vs optimizado
print("üìä COMPARACI√ìN DE RENDIMIENTO:")
print("-" * 40)

# Modelo base (sin feature engineering)
X_original = df[['altura', 'peso', 'velocidad_max', 'resistencia', 'precision_tiros']]
X_orig_train, X_orig_test, y_orig_train, y_orig_test = train_test_split(X_original, y, test_size=0.2, random_state=42, stratify=y)

# Escalar datos originales
X_orig_train_scaled = scaler.fit_transform(X_orig_train)
X_orig_test_scaled = scaler.transform(X_orig_test)

# Entrenar modelo base
base_rf = RandomForestClassifier(n_estimators=100, random_state=42)
base_rf.fit(X_orig_train_scaled, y_orig_train)
base_score = base_rf.score(X_orig_test_scaled, y_orig_test)

# Mejora obtenida
improvement = svm_test_score - base_score

print(f"üî∏ Modelo Base (5 variables originales):     {base_score:.4f}")
print(f"üî∏ Modelo Optimizado (10 features + tuning): {svm_test_score:.4f}")
print(f"üìà Mejora obtenida: +{improvement:.4f} ({improvement*100:.1f}%)")

print(f"\nüéØ ESTRATEGIA GANADORA:")
print(f"   1. ‚úÖ Feature Engineering: +{df_featured.shape[1] - df.shape[1]} variables sint√©ticas")
print(f"   2. ‚úÖ Selecci√≥n: {len(selected_features_f)} mejores caracter√≠sticas")
print(f"   3. ‚úÖ Optimizaci√≥n: Random Search en {random_time:.1f}s")
print(f"   4. ‚úÖ Resultado: 92.5% accuracy")

print(f"\nüí° LECCIONES CLAVE:")
print(f"   ‚Ä¢ Los ratios (eficiencia_gol, productividad) son MUY informativos")
print(f"   ‚Ä¢ Random Search es {grid_time/random_time:.1f}x m√°s r√°pido que Grid Search")
print(f"   ‚Ä¢ Feature Engineering puede mejorar {improvement*100:.1f}% el rendimiento")
print(f"   ‚Ä¢ SIEMPRE validar en datos independientes")

print(f"\nüöÄ PR√ìXIMOS PASOS RECOMENDADOS:")
print(f"   1. Probar Bayesian Optimization (m√°s inteligente)")
print(f"   2. Explorar m√°s interacciones espec√≠ficas del deporte")
print(f"   3. Implementar en pipeline de producci√≥n")
print(f"   4. Validar con datos de temporadas diferentes")

print("\n" + "="*65)
print("üéì ¬°FELICITACIONES! Dominas Feature Engineering y Optimizaci√≥n")
print("="*65)

üèÜ RESUMEN EJECUTIVO - Feature Engineering y Optimizaci√≥n
üìä COMPARACI√ìN DE RENDIMIENTO:
----------------------------------------
üî∏ Modelo Base (5 variables originales):     0.7850
üî∏ Modelo Optimizado (10 features + tuning): 0.9250
üìà Mejora obtenida: +0.1400 (14.0%)

üéØ ESTRATEGIA GANADORA:
   1. ‚úÖ Feature Engineering: +18 variables sint√©ticas
   2. ‚úÖ Selecci√≥n: 10 mejores caracter√≠sticas
   3. ‚úÖ Optimizaci√≥n: Random Search en 0.6s
   4. ‚úÖ Resultado: 92.5% accuracy

üí° LECCIONES CLAVE:
   ‚Ä¢ Los ratios (eficiencia_gol, productividad) son MUY informativos
   ‚Ä¢ Random Search es 40.7x m√°s r√°pido que Grid Search
   ‚Ä¢ Feature Engineering puede mejorar 14.0% el rendimiento
   ‚Ä¢ SIEMPRE validar en datos independientes

üöÄ PR√ìXIMOS PASOS RECOMENDADOS:
   1. Probar Bayesian Optimization (m√°s inteligente)
   2. Explorar m√°s interacciones espec√≠ficas del deporte
   3. Implementar en pipeline de producci√≥n
   4. Validar con datos de temporadas diferen