# 🤖 Machine Learning con Python - Módulo 6

## Bienvenido al Módulo de Machine Learning

### 📚 Contenido del Módulo 6:
1. **Introducción al Machine Learning**
2. **Preparación de datos para ML**
3. **Algoritmos de aprendizaje supervisado**
4. **Algoritmos de aprendizaje no supervisado**
5. **Evaluación y validación de modelos**
6. **Optimización de hiperparámetros**
7. **Proyecto: Sistema de recomendaciones**

### 🎯 Objetivos de Aprendizaje:
- Entender los conceptos fundamentales del ML
- Dominar scikit-learn para construir modelos
- Implementar algoritmos de clasificación y regresión
- Realizar clustering y análisis de componentes principales
- Evaluar y optimizar modelos de ML
- Aplicar técnicas de feature engineering
- Construir un sistema de recomendaciones completo

### 🛠️ Tecnologías y bibliotecas:
- **Scikit-learn**: Framework principal de ML
- **XGBoost**: Gradient boosting avanzado
- **Pandas & NumPy**: Manipulación de datos
- **Matplotlib & Seaborn**: Visualización
- **Plotly**: Visualizaciones interactivas
- **Joblib**: Persistencia de modelos
- **SHAP**: Explicabilidad de modelos

---

## 1. 🧠 Introducción al Machine Learning

El Machine Learning es una rama de la inteligencia artificial que permite a las computadoras aprender y hacer predicciones o decisiones sin ser explícitamente programadas para cada tarea específica.

### 🌟 Tipos de Machine Learning:

1. **Aprendizaje Supervisado**: Aprendemos de datos etiquetados
   - **Clasificación**: Predecir categorías (spam/no spam, diagnóstico médico)
   - **Regresión**: Predecir valores numéricos (precio de casa, temperatura)

2. **Aprendizaje No Supervisado**: Encontrar patrones sin etiquetas
   - **Clustering**: Agrupar datos similares (segmentación de clientes)
   - **Reducción de dimensionalidad**: Simplificar datos (PCA, t-SNE)

3. **Aprendizaje por Refuerzo**: Aprender a través de recompensas
   - Agentes que interactúan con un entorno (juegos, robótica)

### 🔄 Flujo de trabajo típico en ML:

1. **Definición del problema**: ¿Qué queremos predecir?
2. **Recolección de datos**: Obtener datos relevantes y suficientes
3. **Exploración y limpieza**: Entender y preparar los datos
4. **Feature engineering**: Crear variables relevantes
5. **Selección del modelo**: Elegir algoritmos apropiados
6. **Entrenamiento**: Ajustar el modelo a los datos
7. **Evaluación**: Medir el rendimiento del modelo
8. **Optimización**: Mejorar el modelo
9. **Despliegue**: Poner el modelo en producción

In [None]:
# Importar las bibliotecas principales para Machine Learning
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Scikit-learn: Framework principal de ML
from sklearn.datasets import make_classification, make_regression, load_iris, load_boston
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder, OneHotEncoder
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import mean_squared_error, r2_score, classification_report, confusion_matrix

# Algoritmos de ML
from sklearn.linear_model import LinearRegression, LogisticRegression, Ridge, Lasso
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor, GradientBoostingClassifier
from sklearn.svm import SVC, SVR
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.cluster import KMeans, AgglomerativeClustering
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline

# Manejo de modelos
import joblib
import warnings
warnings.filterwarnings('ignore')

# Configuración para visualizaciones
plt.style.use('ggplot')
sns.set(style="whitegrid")
np.random.seed(42)

# Mostrar versiones
print("🛠️ Bibliotecas de Machine Learning cargadas:")
print(f"📊 Pandas: {pd.__version__}")
print(f"🔢 NumPy: {np.__version__}")
print(f"🤖 Scikit-learn: {sklearn.__version__}")
print(f"📈 Matplotlib: {plt.__version__}")
print(f"🎨 Seaborn: {sns.__version__}")

print("\n✅ ¡Entorno de Machine Learning listo!")

---

## 2. 📊 Preparación de datos para ML

La calidad de los datos determina el éxito de cualquier proyecto de ML. La preparación de datos puede tomar el 80% del tiempo en un proyecto de ML.

### 🧹 Pasos esenciales en la preparación:

1. **Limpieza de datos**: Manejar valores faltantes y outliers
2. **Codificación de variables categóricas**: Convertir texto a números
3. **Escalado de features**: Normalizar rangos de variables
4. **Feature engineering**: Crear nuevas variables relevantes
5. **Selección de features**: Elegir las variables más importantes
6. **División de datos**: Separar entrenamiento, validación y prueba

### 📈 Vamos a trabajar con un dataset real

In [None]:
# Crear un dataset sintético realista para demostración
np.random.seed(42)
n_samples = 1000

# Simular datos de empleados con salarios
data = {
    'edad': np.random.normal(35, 10, n_samples).clip(22, 65).astype(int),
    'experiencia': np.random.exponential(5, n_samples).clip(0, 30).astype(int),
    'educacion': np.random.choice(['Bachillerato', 'Universidad', 'Maestría', 'Doctorado'], 
                                 n_samples, p=[0.3, 0.5, 0.15, 0.05]),
    'genero': np.random.choice(['M', 'F'], n_samples),
    'departamento': np.random.choice(['IT', 'Marketing', 'Ventas', 'RRHH', 'Finanzas'], 
                                   n_samples, p=[0.3, 0.2, 0.25, 0.1, 0.15]),
    'ciudad': np.random.choice(['Madrid', 'Barcelona', 'Valencia', 'Sevilla'], 
                              n_samples, p=[0.4, 0.3, 0.2, 0.1])
}

# Crear variable objetivo (salario) basada en otras variables
base_salary = 30000
salary = (base_salary + 
          data['edad'] * 500 + 
          data['experiencia'] * 1200 +
          (data['educacion'] == 'Universidad').astype(int) * 5000 +
          (data['educacion'] == 'Maestría').astype(int) * 12000 +
          (data['educacion'] == 'Doctorado').astype(int) * 20000 +
          (data['departamento'] == 'IT').astype(int) * 8000 +
          np.random.normal(0, 5000, n_samples))

data['salario'] = np.clip(salary, 25000, 120000).astype(int)

# Introducir algunos valores faltantes de manera realista
missing_indices = np.random.choice(n_samples, size=50, replace=False)
data['experiencia'][missing_indices[:25]] = np.nan
data['educacion'][missing_indices[25:]] = np.nan

df = pd.DataFrame(data)

print("📊 Dataset de empleados creado:")
print(f"Tamaño: {df.shape}")
print("\nPrimeras filas:")
print(df.head())

print("\nInformación del dataset:")
print(df.info())

print("\nValores faltantes:")
print(df.isnull().sum())

print("\nEstadísticas descriptivas:")
print(df.describe())

In [None]:
# 1. MANEJO DE VALORES FALTANTES
print("🔧 1. Manejo de valores faltantes\n")

# Estrategias diferentes según el tipo de variable
df_clean = df.copy()

# Para experiencia (numérica): imputar con la mediana
df_clean['experiencia'].fillna(df_clean['experiencia'].median(), inplace=True)

# Para educación (categórica): imputar con la moda
df_clean['educacion'].fillna(df_clean['educacion'].mode()[0], inplace=True)

print("Valores faltantes después de la limpieza:")
print(df_clean.isnull().sum())

# 2. CODIFICACIÓN DE VARIABLES CATEGÓRICAS
print("\n🔢 2. Codificación de variables categóricas\n")

# Label Encoding para variables ordinales (educación tiene orden)
label_encoder = LabelEncoder()
df_clean['educacion_encoded'] = label_encoder.fit_transform(df_clean['educacion'])

print("Mapeo de educación:")
for i, label in enumerate(label_encoder.classes_):
    print(f"{label} -> {i}")

# One-Hot Encoding para variables nominales
df_encoded = pd.get_dummies(df_clean, columns=['genero', 'departamento', 'ciudad'], prefix=['genero', 'dept', 'ciudad'])

print(f"\nNuevas columnas después del One-Hot Encoding:")
print([col for col in df_encoded.columns if col not in df_clean.columns])

# 3. ESCALADO DE FEATURES
print("\n📏 3. Escalado de features\n")

# Separar features numéricas
numeric_features = ['edad', 'experiencia', 'educacion_encoded']
X_numeric = df_encoded[numeric_features]

# StandardScaler (media=0, std=1)
scaler_standard = StandardScaler()
X_scaled_standard = scaler_standard.fit_transform(X_numeric)

# MinMaxScaler (rango 0-1)
scaler_minmax = MinMaxScaler()
X_scaled_minmax = scaler_minmax.fit_transform(X_numeric)

# Comparar distribuciones
fig, axes = plt.subplots(2, 3, figsize=(15, 8))

for i, feature in enumerate(numeric_features):
    # Original
    axes[0, i].hist(X_numeric.iloc[:, i], bins=30, alpha=0.7, color='blue')
    axes[0, i].set_title(f'{feature} - Original')
    
    # Escalado estándar
    axes[1, i].hist(X_scaled_standard[:, i], bins=30, alpha=0.7, color='green')
    axes[1, i].set_title(f'{feature} - StandardScaled')

plt.tight_layout()
plt.show()

print("Estadísticas después del escalado estándar:")
print(f"Media: {X_scaled_standard.mean(axis=0)}")
print(f"Desviación estándar: {X_scaled_standard.std(axis=0)}")

print(f"\nEscalado Min-Max - Rango: [{X_scaled_minmax.min():.2f}, {X_scaled_minmax.max():.2f}]")

---

## 3. 🎯 Algoritmos de Aprendizaje Supervisado

El aprendizaje supervisado utiliza datos etiquetados para entrenar modelos que pueden hacer predicciones sobre nuevos datos.

### 📊 Regresión: Predecir valores numéricos

Vamos a predecir el salario basándose en las características del empleado.

#### Algoritmos de regresión que veremos:
1. **Regresión Lineal**: Modelo más simple, relación lineal
2. **Ridge Regression**: Regresión lineal con regularización L2
3. **Random Forest**: Conjunto de árboles de decisión
4. **Support Vector Regression**: Máquinas de soporte vectorial

### 🏷️ Clasificación: Predecir categorías

También crearemos un problema de clasificación: predecir el departamento basándose en las características.

In [None]:
# PROBLEMA DE REGRESIÓN: Predecir salario
print("💰 Problema de Regresión: Predicción de Salarios\n")

# Preparar datos para regresión
# Seleccionar features (excluir la variable objetivo 'salario')
feature_columns = [col for col in df_encoded.columns if col not in ['salario', 'educacion']]
X = df_encoded[feature_columns]
y = df_encoded['salario']

print(f"Features utilizadas: {len(feature_columns)}")
print(f"Primeras 5 features: {feature_columns[:5]}")

# División de datos: 70% entrenamiento, 30% prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print(f"\nTamaño conjunto entrenamiento: {X_train.shape}")
print(f"Tamaño conjunto prueba: {X_test.shape}")

# Escalado de features (importante para algunos algoritmos)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# MODELOS DE REGRESIÓN
print("\n🔧 Entrenando modelos de regresión...\n")

# 1. Regresión Lineal
lr = LinearRegression()
lr.fit(X_train_scaled, y_train)
y_pred_lr = lr.predict(X_test_scaled)

# 2. Ridge Regression (regularización L2)
ridge = Ridge(alpha=1.0)
ridge.fit(X_train_scaled, y_train)
y_pred_ridge = ridge.predict(X_test_scaled)

# 3. Random Forest (no necesita escalado)
rf = RandomForestRegressor(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

# 4. Support Vector Regression
svr = SVR(kernel='rbf', C=1000, gamma=0.1)
svr.fit(X_train_scaled, y_train)
y_pred_svr = svr.predict(X_test_scaled)

# EVALUACIÓN DE MODELOS
print("📊 Evaluación de modelos de regresión:\n")

models = {
    'Regresión Lineal': y_pred_lr,
    'Ridge Regression': y_pred_ridge,
    'Random Forest': y_pred_rf,
    'SVR': y_pred_svr
}

results = []
for name, predictions in models.items():
    mse = mean_squared_error(y_test, predictions)
    rmse = np.sqrt(mse)
    r2 = r2_score(y_test, predictions)
    
    results.append({
        'Modelo': name,
        'MSE': mse,
        'RMSE': rmse,
        'R² Score': r2
    })
    
    print(f"{name}:")
    print(f"  MSE: {mse:.2f}")
    print(f"  RMSE: {rmse:.2f}")
    print(f"  R² Score: {r2:.4f}")
    print()

# Crear DataFrame con resultados
results_df = pd.DataFrame(results)
print("Resumen de resultados:")
print(results_df)

In [None]:
# VISUALIZACIÓN DE RESULTADOS
print("📈 Visualización de predicciones vs valores reales\n")

fig, axes = plt.subplots(2, 2, figsize=(14, 10))
fig.suptitle('Predicciones vs Valores Reales - Modelos de Regresión', fontsize=16)

models_plot = [
    ('Regresión Lineal', y_pred_lr),
    ('Ridge Regression', y_pred_ridge),
    ('Random Forest', y_pred_rf),
    ('SVR', y_pred_svr)
]

for i, (name, predictions) in enumerate(models_plot):
    row = i // 2
    col = i % 2
    
    axes[row, col].scatter(y_test, predictions, alpha=0.6)
    axes[row, col].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
    axes[row, col].set_xlabel('Salario Real')
    axes[row, col].set_ylabel('Salario Predicho')
    axes[row, col].set_title(f'{name} (R² = {r2_score(y_test, predictions):.3f})')
    axes[row, col].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Importancia de features (Random Forest)
print("🎯 Importancia de Features (Random Forest):\n")

feature_importance = pd.DataFrame({
    'feature': feature_columns,
    'importance': rf.feature_importances_
}).sort_values('importance', ascending=False)

print(feature_importance.head(10))

# Visualizar importancia de features
plt.figure(figsize=(10, 6))
top_features = feature_importance.head(10)
plt.barh(range(len(top_features)), top_features['importance'])
plt.yticks(range(len(top_features)), top_features['feature'])
plt.xlabel('Importancia')
plt.title('Top 10 Features más Importantes (Random Forest)')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

In [None]:
# PROBLEMA DE CLASIFICACIÓN: Predecir departamento
print("🏢 Problema de Clasificación: Predicción de Departamento\n")

# Preparar datos para clasificación
X_class = df_encoded.drop(['departamento', 'salario'], axis=1)
y_class = df_encoded['departamento']

# Codificar variable objetivo
le_dept = LabelEncoder()
y_class_encoded = le_dept.fit_transform(y_class)

print(f"Clases a predecir: {le_dept.classes_}")
print(f"Distribución de clases:")
print(pd.Series(y_class).value_counts())

# División de datos
X_train_c, X_test_c, y_train_c, y_test_c = train_test_split(
    X_class, y_class_encoded, test_size=0.3, random_state=42, stratify=y_class_encoded
)

# Escalado para algoritmos que lo requieren
X_train_c_scaled = scaler.fit_transform(X_train_c)
X_test_c_scaled = scaler.transform(X_test_c)

print(f"\nTamaño conjunto entrenamiento: {X_train_c.shape}")
print(f"Tamaño conjunto prueba: {X_test_c.shape}")

# MODELOS DE CLASIFICACIÓN
print("\n🔧 Entrenando modelos de clasificación...\n")

# 1. Regresión Logística
log_reg = LogisticRegression(random_state=42, max_iter=1000)
log_reg.fit(X_train_c_scaled, y_train_c)
y_pred_log = log_reg.predict(X_test_c_scaled)

# 2. Árbol de Decisión
dt = DecisionTreeClassifier(random_state=42, max_depth=10)
dt.fit(X_train_c, y_train_c)
y_pred_dt = dt.predict(X_test_c)

# 3. Random Forest
rf_class = RandomForestClassifier(n_estimators=100, random_state=42)
rf_class.fit(X_train_c, y_train_c)
y_pred_rf_class = rf_class.predict(X_test_c)

# 4. Support Vector Machine
svm = SVC(random_state=42, kernel='rbf')
svm.fit(X_train_c_scaled, y_train_c)
y_pred_svm = svm.predict(X_test_c_scaled)

# 5. K-Nearest Neighbors
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train_c_scaled, y_train_c)
y_pred_knn = knn.predict(X_test_c_scaled)

# 6. Naive Bayes
nb = GaussianNB()
nb.fit(X_train_c_scaled, y_train_c)
y_pred_nb = nb.predict(X_test_c_scaled)

# EVALUACIÓN DE MODELOS DE CLASIFICACIÓN
print("📊 Evaluación de modelos de clasificación:\n")

classification_models = {
    'Regresión Logística': y_pred_log,
    'Árbol de Decisión': y_pred_dt,
    'Random Forest': y_pred_rf_class,
    'SVM': y_pred_svm,
    'K-NN': y_pred_knn,
    'Naive Bayes': y_pred_nb
}

classification_results = []
for name, predictions in classification_models.items():
    accuracy = accuracy_score(y_test_c, predictions)
    precision = precision_score(y_test_c, predictions, average='weighted')
    recall = recall_score(y_test_c, predictions, average='weighted')
    f1 = f1_score(y_test_c, predictions, average='weighted')
    
    classification_results.append({
        'Modelo': name,
        'Accuracy': accuracy,
        'Precision': precision,
        'Recall': recall,
        'F1-Score': f1
    })
    
    print(f"{name}:")
    print(f"  Accuracy: {accuracy:.4f}")
    print(f"  Precision: {precision:.4f}")
    print(f"  Recall: {recall:.4f}")
    print(f"  F1-Score: {f1:.4f}")
    print()

# Crear DataFrame con resultados
classification_results_df = pd.DataFrame(classification_results)
print("Resumen de resultados de clasificación:")
print(classification_results_df)

---

## 4. 🔍 Algoritmos de Aprendizaje No Supervisado

El aprendizaje no supervisado encuentra patrones ocultos en datos sin etiquetas.

### 🎯 Principales técnicas:

1. **Clustering**: Agrupar datos similares
   - K-Means: Agrupa en k clusters
   - Clustering Jerárquico: Crea jerarquías de clusters

2. **Reducción de Dimensionalidad**: Simplificar datos manteniendo información
   - PCA (Principal Component Analysis): Componentes principales
   - t-SNE: Visualización de datos de alta dimensión

### 📊 Vamos a aplicar estas técnicas a nuestros datos

In [None]:
# CLUSTERING: Segmentación de empleados
print("👥 Clustering: Segmentación de Empleados\n")

# Usar solo variables numéricas para clustering
numeric_cols = ['edad', 'experiencia', 'educacion_encoded', 'salario']
X_cluster = df_encoded[numeric_cols].copy()

# Escalado para clustering (importante para K-means)
scaler_cluster = StandardScaler()
X_cluster_scaled = scaler_cluster.fit_transform(X_cluster)

# 1. K-MEANS CLUSTERING
print("🎯 K-Means Clustering\n")

# Encontrar el número óptimo de clusters usando el método del codo
inertias = []
k_range = range(2, 11)

for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    kmeans.fit(X_cluster_scaled)
    inertias.append(kmeans.inertia_)

# Visualizar método del codo
plt.figure(figsize=(10, 6))
plt.plot(k_range, inertias, 'bo-')
plt.xlabel('Número de Clusters (k)')
plt.ylabel('Inercia')
plt.title('Método del Codo para Determinar k Óptimo')
plt.grid(True, alpha=0.3)
plt.show()

# Aplicar K-means con k=4
k_optimal = 4
kmeans = KMeans(n_clusters=k_optimal, random_state=42, n_init=10)
clusters_kmeans = kmeans.fit_predict(X_cluster_scaled)

# Agregar clusters al DataFrame
df_clustered = df_encoded.copy()
df_clustered['cluster_kmeans'] = clusters_kmeans

print(f"Distribución de clusters K-Means (k={k_optimal}):")
print(pd.Series(clusters_kmeans).value_counts().sort_index())

# 2. CLUSTERING JERÁRQUICO
print("\n🌳 Clustering Jerárquico\n")

hierarchical = AgglomerativeClustering(n_clusters=k_optimal)
clusters_hierarchical = hierarchical.fit_predict(X_cluster_scaled)

df_clustered['cluster_hierarchical'] = clusters_hierarchical

print(f"Distribución de clusters Jerárquicos:")
print(pd.Series(clusters_hierarchical).value_counts().sort_index())

# ANÁLISIS DE CLUSTERS
print("\n📊 Análisis de Clusters K-Means:\n")

for cluster in range(k_optimal):
    cluster_data = df_clustered[df_clustered['cluster_kmeans'] == cluster]
    print(f"Cluster {cluster} (n={len(cluster_data)}):")
    print(f"  Edad promedio: {cluster_data['edad'].mean():.1f}")
    print(f"  Experiencia promedio: {cluster_data['experiencia'].mean():.1f}")
    print(f"  Salario promedio: {cluster_data['salario'].mean():.0f}")
    print(f"  Departamento más común: {cluster_data['departamento'].mode().iloc[0]}")
    print(f"  Educación más común: {cluster_data['educacion'].mode().iloc[0]}")
    print()

# VISUALIZACIÓN DE CLUSTERS
print("📈 Visualización de Clusters\n")

# Reducir dimensionalidad para visualizar
pca_viz = PCA(n_components=2, random_state=42)
X_pca = pca_viz.fit_transform(X_cluster_scaled)

fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# K-Means clusters
scatter1 = axes[0].scatter(X_pca[:, 0], X_pca[:, 1], c=clusters_kmeans, cmap='viridis', alpha=0.6)
axes[0].set_title('K-Means Clustering (PCA)')
axes[0].set_xlabel('Primera Componente Principal')
axes[0].set_ylabel('Segunda Componente Principal')
plt.colorbar(scatter1, ax=axes[0])

# Hierarchical clusters
scatter2 = axes[1].scatter(X_pca[:, 0], X_pca[:, 1], c=clusters_hierarchical, cmap='viridis', alpha=0.6)
axes[1].set_title('Clustering Jerárquico (PCA)')
axes[1].set_xlabel('Primera Componente Principal')
axes[1].set_ylabel('Segunda Componente Principal')
plt.colorbar(scatter2, ax=axes[1])

plt.tight_layout()
plt.show()

In [None]:
# PCA - ANÁLISIS DE COMPONENTES PRINCIPALES
print("🔬 PCA - Análisis de Componentes Principales\n")

# Aplicar PCA para entender la estructura de los datos
pca_full = PCA()
X_pca_full = pca_full.fit_transform(X_cluster_scaled)

# Varianza explicada por cada componente
explained_variance_ratio = pca_full.explained_variance_ratio_
cumulative_variance = np.cumsum(explained_variance_ratio)

print("Varianza explicada por componente:")
for i, var in enumerate(explained_variance_ratio):
    print(f"  Componente {i+1}: {var:.4f} ({var*100:.2f}%)")

print(f"\nVarianza acumulada: {cumulative_variance}")

# Visualizar varianza explicada
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Varianza por componente
axes[0].bar(range(1, len(explained_variance_ratio)+1), explained_variance_ratio)
axes[0].set_xlabel('Componente Principal')
axes[0].set_ylabel('Varianza Explicada')
axes[0].set_title('Varianza Explicada por Componente')
axes[0].grid(True, alpha=0.3)

# Varianza acumulada
axes[1].plot(range(1, len(cumulative_variance)+1), cumulative_variance, 'bo-')
axes[1].axhline(y=0.95, color='r', linestyle='--', label='95% varianza')
axes[1].set_xlabel('Número de Componentes')
axes[1].set_ylabel('Varianza Acumulada')
axes[1].set_title('Varianza Acumulada')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# PCA con 2 componentes para visualización
pca_2d = PCA(n_components=2)
X_pca_2d = pca_2d.fit_transform(X_cluster_scaled)

print(f"\nCon 2 componentes explicamos {pca_2d.explained_variance_ratio_.sum():.3f} de la varianza")

# Interpretar componentes principales
components_df = pd.DataFrame(
    pca_2d.components_.T,
    columns=['PC1', 'PC2'],
    index=numeric_cols
)

print("\nPesos de las variables en cada componente principal:")
print(components_df)

# Visualización con información adicional
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# PCA coloreado por departamento
dept_colors = df_encoded['departamento'].astype('category').cat.codes
scatter1 = axes[0].scatter(X_pca_2d[:, 0], X_pca_2d[:, 1], c=dept_colors, cmap='tab10', alpha=0.6)
axes[0].set_title('PCA - Coloreado por Departamento')
axes[0].set_xlabel(f'PC1 ({pca_2d.explained_variance_ratio_[0]:.3f} varianza)')
axes[0].set_ylabel(f'PC2 ({pca_2d.explained_variance_ratio_[1]:.3f} varianza)')

# PCA coloreado por salario
scatter2 = axes[1].scatter(X_pca_2d[:, 0], X_pca_2d[:, 1], c=df_encoded['salario'], cmap='viridis', alpha=0.6)
axes[1].set_title('PCA - Coloreado por Salario')
axes[1].set_xlabel(f'PC1 ({pca_2d.explained_variance_ratio_[0]:.3f} varianza)')
axes[1].set_ylabel(f'PC2 ({pca_2d.explained_variance_ratio_[1]:.3f} varianza)')
plt.colorbar(scatter2, ax=axes[1])

# Biplot: variables y observaciones
axes[2].scatter(X_pca_2d[:, 0], X_pca_2d[:, 1], alpha=0.3, s=30)

# Vectores de variables
for i, (var, pc1, pc2) in enumerate(zip(numeric_cols, components_df['PC1'], components_df['PC2'])):
    axes[2].arrow(0, 0, pc1*3, pc2*3, head_width=0.1, head_length=0.1, fc='red', ec='red')
    axes[2].text(pc1*3.2, pc2*3.2, var, fontsize=10, ha='center', va='center')

axes[2].set_title('Biplot PCA')
axes[2].set_xlabel(f'PC1 ({pca_2d.explained_variance_ratio_[0]:.3f} varianza)')
axes[2].set_ylabel(f'PC2 ({pca_2d.explained_variance_ratio_[1]:.3f} varianza)')
axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

---

## 5. 📏 Evaluación y Validación de Modelos

La evaluación correcta de modelos es crucial para evitar sobreajuste y asegurar que funcionen bien con datos nuevos.

### 🎯 Técnicas de validación:

1. **Validación Cruzada**: Dividir datos en múltiples folds
2. **Curvas de Aprendizaje**: Evaluar rendimiento vs tamaño de datos
3. **Curvas de Validación**: Evaluar rendimiento vs hiperparámetros
4. **Métricas específicas**: Según el tipo de problema

### 📊 Aplicaremos estas técnicas a nuestros mejores modelos

In [None]:
# VALIDACIÓN CRUZADA
print("🔄 Validación Cruzada\n")

from sklearn.model_selection import cross_val_score, learning_curve, validation_curve

# Seleccionar mejores modelos para evaluación profunda
best_models = {
    'Random Forest (Regresión)': RandomForestRegressor(n_estimators=100, random_state=42),
    'Random Forest (Clasificación)': RandomForestClassifier(n_estimators=100, random_state=42),
    'Regresión Logística': LogisticRegression(random_state=42, max_iter=1000)
}

# VALIDACIÓN CRUZADA PARA REGRESIÓN
print("📊 Validación Cruzada - Problema de Regresión:\n")

# Usar scoring apropiado para regresión
cv_scores_reg = cross_val_score(
    best_models['Random Forest (Regresión)'], 
    X_train_scaled, y_train, 
    cv=5, 
    scoring='r2'
)

print(f"Random Forest (Regresión) - R² scores:")
print(f"  Scores individuales: {cv_scores_reg}")
print(f"  Promedio: {cv_scores_reg.mean():.4f}")
print(f"  Desviación estándar: {cv_scores_reg.std():.4f}")

# VALIDACIÓN CRUZADA PARA CLASIFICACIÓN
print("\n🏷️ Validación Cruzada - Problema de Clasificación:\n")

cv_scores_rf_class = cross_val_score(
    best_models['Random Forest (Clasificación)'], 
    X_train_c, y_train_c, 
    cv=5, 
    scoring='accuracy'
)

cv_scores_log_reg = cross_val_score(
    best_models['Regresión Logística'], 
    X_train_c_scaled, y_train_c, 
    cv=5, 
    scoring='accuracy'
)

print(f"Random Forest (Clasificación) - Accuracy scores:")
print(f"  Scores individuales: {cv_scores_rf_class}")
print(f"  Promedio: {cv_scores_rf_class.mean():.4f}")
print(f"  Desviación estándar: {cv_scores_rf_class.std():.4f}")

print(f"\nRegresión Logística - Accuracy scores:")
print(f"  Scores individuales: {cv_scores_log_reg}")
print(f"  Promedio: {cv_scores_log_reg.mean():.4f}")
print(f"  Desviación estándar: {cv_scores_log_reg.std():.4f}")

# CURVAS DE APRENDIZAJE
print("\n📈 Curvas de Aprendizaje\n")

def plot_learning_curve(estimator, X, y, title, scoring='accuracy'):
    train_sizes, train_scores, val_scores = learning_curve(
        estimator, X, y, cv=5, train_sizes=np.linspace(0.1, 1.0, 10),
        scoring=scoring, random_state=42
    )
    
    train_mean = train_scores.mean(axis=1)
    train_std = train_scores.std(axis=1)
    val_mean = val_scores.mean(axis=1)
    val_std = val_scores.std(axis=1)
    
    plt.figure(figsize=(10, 6))
    plt.plot(train_sizes, train_mean, 'o-', color='blue', label='Entrenamiento')
    plt.fill_between(train_sizes, train_mean - train_std, train_mean + train_std, alpha=0.1, color='blue')
    
    plt.plot(train_sizes, val_mean, 'o-', color='red', label='Validación')
    plt.fill_between(train_sizes, val_mean - val_std, val_mean + val_std, alpha=0.1, color='red')
    
    plt.xlabel('Tamaño del conjunto de entrenamiento')
    plt.ylabel(f'Score ({scoring})')
    plt.title(f'Curva de Aprendizaje - {title}')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.show()
    
    return train_sizes, train_scores, val_scores

# Curva de aprendizaje para Random Forest (Clasificación)
plot_learning_curve(
    RandomForestClassifier(n_estimators=50, random_state=42),
    X_train_c, y_train_c,
    'Random Forest (Clasificación)',
    scoring='accuracy'
)

# Curva de aprendizaje para Random Forest (Regresión)
plot_learning_curve(
    RandomForestRegressor(n_estimators=50, random_state=42),
    X_train_scaled, y_train,
    'Random Forest (Regresión)',
    scoring='r2'
)

---

## 6. ⚙️ Optimización de Hiperparámetros

Los hiperparámetros son configuraciones que no se aprenden durante el entrenamiento pero afectan significativamente el rendimiento del modelo.

### 🔍 Técnicas de optimización:

1. **Grid Search**: Búsqueda exhaustiva en una grilla de parámetros
2. **Random Search**: Búsqueda aleatoria (más eficiente para espacios grandes)
3. **Validación de hiperparámetros**: Evaluar el efecto de cada parámetro

### 🎯 Optimizaremos nuestro mejor modelo

In [None]:
# OPTIMIZACIÓN DE HIPERPARÁMETROS
print("⚙️ Optimización de Hiperparámetros\n")

from sklearn.model_selection import RandomizedSearchCV

# GRID SEARCH para Random Forest (Clasificación)
print("🔍 Grid Search - Random Forest (Clasificación)\n")

# Definir grilla de parámetros (versión simplificada para rapidez)
param_grid_rf = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Grid Search
rf_grid_search = GridSearchCV(
    RandomForestClassifier(random_state=42),
    param_grid_rf,
    cv=3,  # 3-fold CV para rapidez
    scoring='accuracy',
    n_jobs=-1,  # Usar todos los cores
    verbose=1
)

# Entrenar con una muestra más pequeña para rapidez
sample_size = 500
sample_indices = np.random.choice(len(X_train_c), sample_size, replace=False)
X_sample = X_train_c.iloc[sample_indices]
y_sample = y_train_c[sample_indices]

rf_grid_search.fit(X_sample, y_sample)

print(f"Mejores parámetros encontrados:")
print(rf_grid_search.best_params_)
print(f"Mejor score: {rf_grid_search.best_score_:.4f}")

# RANDOM SEARCH (más eficiente para espacios grandes)
print("\n🎲 Random Search - Random Forest (Regresión)\n")

param_dist_rf = {
    'n_estimators': [50, 100, 150, 200, 250],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10, 15],
    'min_samples_leaf': [1, 2, 4, 6],
    'bootstrap': [True, False]
}

rf_random_search = RandomizedSearchCV(
    RandomForestRegressor(random_state=42),
    param_dist_rf,
    n_iter=20,  # 20 combinaciones aleatorias
    cv=3,
    scoring='r2',
    n_jobs=-1,
    verbose=1,
    random_state=42
)

# Usar muestra para rapidez
X_sample_reg = X_train_scaled[sample_indices]
y_sample_reg = y_train.iloc[sample_indices]

rf_random_search.fit(X_sample_reg, y_sample_reg)

print(f"Mejores parámetros encontrados:")
print(rf_random_search.best_params_)
print(f"Mejor score: {rf_random_search.best_score_:.4f}")

# CURVAS DE VALIDACIÓN
print("\n📊 Curvas de Validación\n")

# Evaluar el efecto del número de estimadores
param_range = [10, 25, 50, 100, 150, 200]

train_scores, validation_scores = validation_curve(
    RandomForestClassifier(random_state=42),
    X_sample, y_sample,
    param_name='n_estimators',
    param_range=param_range,
    cv=3,
    scoring='accuracy'
)

# Visualizar curva de validación
plt.figure(figsize=(10, 6))

train_mean = train_scores.mean(axis=1)
train_std = train_scores.std(axis=1)
validation_mean = validation_scores.mean(axis=1)
validation_std = validation_scores.std(axis=1)

plt.plot(param_range, train_mean, 'o-', color='blue', label='Entrenamiento')
plt.fill_between(param_range, train_mean - train_std, train_mean + train_std, alpha=0.1, color='blue')

plt.plot(param_range, validation_mean, 'o-', color='red', label='Validación')
plt.fill_between(param_range, validation_mean - validation_std, validation_mean + validation_std, alpha=0.1, color='red')

plt.xlabel('Número de Estimadores')
plt.ylabel('Accuracy')
plt.title('Curva de Validación - n_estimators')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

# COMPARAR MODELO OPTIMIZADO VS ORIGINAL
print("\n🏆 Comparación: Modelo Original vs Optimizado\n")

# Modelo original
rf_original = RandomForestClassifier(n_estimators=100, random_state=42)
rf_original.fit(X_train_c, y_train_c)
y_pred_original = rf_original.predict(X_test_c)
accuracy_original = accuracy_score(y_test_c, y_pred_original)

# Modelo optimizado
rf_optimized = RandomForestClassifier(**rf_grid_search.best_params_, random_state=42)
rf_optimized.fit(X_train_c, y_train_c)
y_pred_optimized = rf_optimized.predict(X_test_c)
accuracy_optimized = accuracy_score(y_test_c, y_pred_optimized)

print(f"Modelo Original:")
print(f"  Accuracy: {accuracy_original:.4f}")

print(f"\nModelo Optimizado:")
print(f"  Accuracy: {accuracy_optimized:.4f}")
print(f"  Mejora: {accuracy_optimized - accuracy_original:.4f}")

# Matriz de confusión para el modelo optimizado
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test_c, y_pred_optimized)

plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=le_dept.classes_, 
            yticklabels=le_dept.classes_)
plt.title('Matriz de Confusión - Modelo Optimizado')
plt.xlabel('Predicho')
plt.ylabel('Real')
plt.show()

---

## 7. 🎬 Proyecto Integrador: Sistema de Recomendaciones de Películas

Aplicaremos todo lo aprendido en un proyecto real: construir un sistema de recomendaciones de películas usando diferentes técnicas de Machine Learning.

### 🎯 Objetivos del proyecto:
1. Crear un dataset sintético de películas y ratings
2. Implementar filtrado colaborativo
3. Usar clustering para segmentar usuarios
4. Crear un sistema híbrido de recomendaciones
5. Evaluar y comparar diferentes enfoques

### 📊 Tipos de sistemas de recomendación:
- **Filtrado Colaborativo**: Recomienda basándose en usuarios similares
- **Filtrado por Contenido**: Recomienda basándose en características del item
- **Sistemas Híbridos**: Combina múltiples enfoques

In [None]:
# PROYECTO: SISTEMA DE RECOMENDACIONES DE PELÍCULAS
print("🎬 Sistema de Recomendaciones de Películas\n")

# 1. CREAR DATASET SINTÉTICO DE PELÍCULAS
print("📊 1. Creando dataset de películas y ratings\n")

np.random.seed(42)

# Géneros de películas
genres = ['Acción', 'Comedia', 'Drama', 'Sci-Fi', 'Romance', 'Terror', 'Aventura', 'Animación']

# Crear dataset de películas
n_movies = 100
movies_data = []

for i in range(n_movies):
    movie = {
        'movie_id': i,
        'title': f'Película_{i}',
        'genre': np.random.choice(genres),
        'year': np.random.randint(1990, 2024),
        'duration': np.random.randint(80, 180),
        'budget': np.random.randint(1, 200),  # Millones
        'rating_avg': np.random.uniform(3.0, 9.0)
    }
    movies_data.append(movie)

movies_df = pd.DataFrame(movies_data)

print(f"Dataset de películas creado: {movies_df.shape}")
print(movies_df.head())

# Crear dataset de usuarios
n_users = 200
users_data = []

for i in range(n_users):
    user = {
        'user_id': i,
        'age': np.random.randint(16, 70),
        'gender': np.random.choice(['M', 'F']),
        'preferred_genre': np.random.choice(genres)
    }
    users_data.append(user)

users_df = pd.DataFrame(users_data)

print(f"\nDataset de usuarios creado: {users_df.shape}")
print(users_df.head())

# 2. GENERAR RATINGS REALISTAS
print("\n⭐ 2. Generando ratings de usuarios\n")

ratings_data = []

for user_id in range(n_users):
    user = users_df.iloc[user_id]
    n_ratings = np.random.randint(5, 30)  # Cada usuario califica 5-30 películas
    
    movie_ids = np.random.choice(n_movies, n_ratings, replace=False)
    
    for movie_id in movie_ids:
        movie = movies_df.iloc[movie_id]
        
        # Rating base de la película
        base_rating = movie['rating_avg']
        
        # Ajuste por preferencia de género
        if movie['genre'] == user['preferred_genre']:
            genre_bonus = np.random.uniform(0.5, 1.5)
        else:
            genre_bonus = np.random.uniform(-0.5, 0.5)
        
        # Añadir ruido
        noise = np.random.normal(0, 0.8)
        
        # Rating final (1-10)
        final_rating = np.clip(base_rating + genre_bonus + noise, 1, 10)
        
        ratings_data.append({
            'user_id': user_id,
            'movie_id': movie_id,
            'rating': round(final_rating, 1)
        })

ratings_df = pd.DataFrame(ratings_data)

print(f"Dataset de ratings creado: {ratings_df.shape}")
print(f"Promedio de ratings por usuario: {len(ratings_df) / n_users:.1f}")
print(f"Rating promedio: {ratings_df['rating'].mean():.2f}")

print("\nDistribución de ratings:")
print(ratings_df['rating'].value_counts().sort_index())

# 3. ANÁLISIS EXPLORATORIO
print("\n🔍 3. Análisis exploratorio\n")

# Matriz usuario-película (sparse)
user_movie_matrix = ratings_df.pivot(index='user_id', columns='movie_id', values='rating')
print(f"Matriz usuario-película: {user_movie_matrix.shape}")
print(f"Densidad: {(~user_movie_matrix.isna()).sum().sum() / (user_movie_matrix.shape[0] * user_movie_matrix.shape[1]):.3f}")

# Rellenar NaN con 0 para algunos algoritmos
user_movie_matrix_filled = user_movie_matrix.fillna(0)

# Visualizaciones
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Distribución de ratings
axes[0, 0].hist(ratings_df['rating'], bins=20, edgecolor='black', alpha=0.7)
axes[0, 0].set_title('Distribución de Ratings')
axes[0, 0].set_xlabel('Rating')
axes[0, 0].set_ylabel('Frecuencia')

# Número de ratings por usuario
user_counts = ratings_df['user_id'].value_counts()
axes[0, 1].hist(user_counts, bins=20, edgecolor='black', alpha=0.7)
axes[0, 1].set_title('Número de Ratings por Usuario')
axes[0, 1].set_xlabel('Número de Ratings')
axes[0, 1].set_ylabel('Número de Usuarios')

# Ratings por género
genre_ratings = ratings_df.merge(movies_df, on='movie_id').groupby('genre')['rating'].mean().sort_values(ascending=False)
axes[1, 0].bar(range(len(genre_ratings)), genre_ratings.values)
axes[1, 0].set_title('Rating Promedio por Género')
axes[1, 0].set_xlabel('Género')
axes[1, 0].set_ylabel('Rating Promedio')
axes[1, 0].set_xticks(range(len(genre_ratings)))
axes[1, 0].set_xticklabels(genre_ratings.index, rotation=45)

# Heatmap de correlaciones entre géneros
genre_matrix = ratings_df.merge(movies_df, on='movie_id').pivot_table(
    index='user_id', columns='genre', values='rating', aggfunc='mean'
).fillna(0)

correlation_matrix = genre_matrix.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, ax=axes[1, 1])
axes[1, 1].set_title('Correlación entre Géneros')

plt.tight_layout()
plt.show()

In [None]:
# 4. IMPLEMENTAR ALGORITMOS DE RECOMENDACIÓN
print("🤖 4. Implementando algoritmos de recomendación\n")

from sklearn.metrics.pairwise import cosine_similarity
from sklearn.decomposition import TruncatedSVD

# 4.1 FILTRADO COLABORATIVO BASADO EN USUARIOS
print("👥 Filtrado Colaborativo Basado en Usuarios\n")

def collaborative_filtering_users(user_id, user_movie_matrix, n_recommendations=5):
    """
    Recomienda películas basándose en usuarios similares
    """
    # Calcular similitud entre usuarios
    user_similarity = cosine_similarity(user_movie_matrix_filled)
    
    # Encontrar usuarios más similares (excluyendo al propio usuario)
    user_idx = user_id
    similarities = user_similarity[user_idx]
    similar_users = np.argsort(similarities)[::-1][1:11]  # Top 10 usuarios similares
    
    # Obtener películas que el usuario no ha visto
    user_ratings = user_movie_matrix.iloc[user_idx]
    unwatched_movies = user_ratings[user_ratings.isna()].index
    
    # Calcular scores para películas no vistas
    movie_scores = {}
    
    for movie_id in unwatched_movies:
        weighted_sum = 0
        similarity_sum = 0
        
        for similar_user in similar_users:
            if not pd.isna(user_movie_matrix.iloc[similar_user, movie_id]):
                rating = user_movie_matrix.iloc[similar_user, movie_id]
                similarity = similarities[similar_user]
                weighted_sum += rating * similarity
                similarity_sum += similarity
        
        if similarity_sum > 0:
            movie_scores[movie_id] = weighted_sum / similarity_sum
    
    # Ordenar y devolver top recomendaciones
    recommended_movies = sorted(movie_scores.items(), key=lambda x: x[1], reverse=True)
    return recommended_movies[:n_recommendations]

# Ejemplo de recomendación
user_test = 0
recommendations_user = collaborative_filtering_users(user_test, user_movie_matrix)

print(f"Recomendaciones para Usuario {user_test}:")
for movie_id, score in recommendations_user:
    movie_title = movies_df.iloc[movie_id]['title']
    movie_genre = movies_df.iloc[movie_id]['genre']
    print(f"  {movie_title} ({movie_genre}) - Score: {score:.2f}")

# 4.2 FILTRADO COLABORATIVO BASADO EN ITEMS
print(f"\n🎬 Filtrado Colaborativo Basado en Items\n")

def collaborative_filtering_items(user_id, user_movie_matrix, n_recommendations=5):
    """
    Recomienda películas basándose en similitud entre películas
    """
    # Transponer para tener películas como filas
    movie_user_matrix = user_movie_matrix_filled.T
    
    # Calcular similitud entre películas
    movie_similarity = cosine_similarity(movie_user_matrix)
    
    # Obtener películas que el usuario ha calificado bien (rating >= 7)
    user_ratings = user_movie_matrix.iloc[user_id]
    liked_movies = user_ratings[user_ratings >= 7].index
    
    # Películas no vistas
    unwatched_movies = user_ratings[user_ratings.isna()].index
    
    # Calcular scores para películas no vistas
    movie_scores = {}
    
    for movie_id in unwatched_movies:
        weighted_sum = 0
        similarity_sum = 0
        
        for liked_movie in liked_movies:
            similarity = movie_similarity[movie_id, liked_movie]
            rating = user_ratings[liked_movie]
            weighted_sum += rating * similarity
            similarity_sum += similarity
        
        if similarity_sum > 0:
            movie_scores[movie_id] = weighted_sum / similarity_sum
    
    # Ordenar y devolver top recomendaciones
    recommended_movies = sorted(movie_scores.items(), key=lambda x: x[1], reverse=True)
    return recommended_movies[:n_recommendations]

recommendations_item = collaborative_filtering_items(user_test, user_movie_matrix)

print(f"Recomendaciones basadas en items para Usuario {user_test}:")
for movie_id, score in recommendations_item:
    movie_title = movies_df.iloc[movie_id]['title']
    movie_genre = movies_df.iloc[movie_id]['genre']
    print(f"  {movie_title} ({movie_genre}) - Score: {score:.2f}")

# 4.3 MATRIX FACTORIZATION (SVD)
print(f"\n🔢 Matrix Factorization (SVD)\n")

# Aplicar SVD
n_components = 20
svd = TruncatedSVD(n_components=n_components, random_state=42)
user_factors = svd.fit_transform(user_movie_matrix_filled)
movie_factors = svd.components_.T

print(f"Factorización completada:")
print(f"  Usuarios: {user_factors.shape}")
print(f"  Películas: {movie_factors.shape}")
print(f"  Varianza explicada: {svd.explained_variance_ratio_.sum():.3f}")

def svd_recommendations(user_id, user_factors, movie_factors, user_movie_matrix, n_recommendations=5):
    """
    Recomienda usando factorización matricial
    """
    # Calcular scores predichos
    user_vector = user_factors[user_id]
    predicted_ratings = np.dot(user_vector, movie_factors.T)
    
    # Películas no vistas
    user_ratings = user_movie_matrix.iloc[user_id]
    unwatched_movies = user_ratings[user_ratings.isna()].index
    
    # Obtener scores para películas no vistas
    movie_scores = [(movie_id, predicted_ratings[movie_id]) for movie_id in unwatched_movies]
    
    # Ordenar y devolver top recomendaciones
    recommended_movies = sorted(movie_scores, key=lambda x: x[1], reverse=True)
    return recommended_movies[:n_recommendations]

recommendations_svd = svd_recommendations(user_test, user_factors, movie_factors, user_movie_matrix)

print(f"Recomendaciones SVD para Usuario {user_test}:")
for movie_id, score in recommendations_svd:
    movie_title = movies_df.iloc[movie_id]['title']
    movie_genre = movies_df.iloc[movie_id]['genre']
    print(f"  {movie_title} ({movie_genre}) - Score: {score:.2f}")

# 4.4 SISTEMA HÍBRIDO
print(f"\n🔄 Sistema Híbrido\n")

def hybrid_recommendations(user_id, user_movie_matrix, user_factors, movie_factors, n_recommendations=5):
    """
    Combina múltiples enfoques de recomendación
    """
    # Obtener recomendaciones de cada método
    rec_user = collaborative_filtering_users(user_id, user_movie_matrix, 10)
    rec_item = collaborative_filtering_items(user_id, user_movie_matrix, 10)
    rec_svd = svd_recommendations(user_id, user_factors, movie_factors, user_movie_matrix, 10)
    
    # Combinar scores (promedio ponderado)
    combined_scores = {}
    
    # Peso para cada método
    weights = {'user': 0.3, 'item': 0.3, 'svd': 0.4}
    
    for movie_id, score in rec_user:
        combined_scores[movie_id] = combined_scores.get(movie_id, 0) + score * weights['user']
    
    for movie_id, score in rec_item:
        combined_scores[movie_id] = combined_scores.get(movie_id, 0) + score * weights['item']
    
    for movie_id, score in rec_svd:
        combined_scores[movie_id] = combined_scores.get(movie_id, 0) + score * weights['svd']
    
    # Ordenar y devolver top recomendaciones
    recommended_movies = sorted(combined_scores.items(), key=lambda x: x[1], reverse=True)
    return recommended_movies[:n_recommendations]

recommendations_hybrid = hybrid_recommendations(user_test, user_movie_matrix, user_factors, movie_factors)

print(f"Recomendaciones Híbridas para Usuario {user_test}:")
for movie_id, score in recommendations_hybrid:
    movie_title = movies_df.iloc[movie_id]['title']
    movie_genre = movies_df.iloc[movie_id]['genre']
    print(f"  {movie_title} ({movie_genre}) - Score: {score:.2f}")

---

## 🎯 Conclusiones y Próximos Pasos

### 📊 Lo que hemos aprendido en este módulo:

1. **✅ Fundamentos del Machine Learning**
   - Tipos de aprendizaje (supervisado, no supervisado, por refuerzo)
   - Flujo de trabajo en proyectos de ML
   - Preparación y preprocesamiento de datos

2. **✅ Algoritmos de Aprendizaje Supervisado**
   - Regresión: Linear, Ridge, Random Forest, SVR
   - Clasificación: Logística, Árboles, Random Forest, SVM, K-NN, Naive Bayes
   - Métricas de evaluación apropiadas para cada tipo

3. **✅ Algoritmos de Aprendizaje No Supervisado**
   - Clustering: K-Means, Clustering Jerárquico
   - Reducción de dimensionalidad: PCA
   - Análisis de componentes principales

4. **✅ Evaluación y Validación**
   - Validación cruzada
   - Curvas de aprendizaje
   - Detección de sobreajuste y subajuste

5. **✅ Optimización de Hiperparámetros**
   - Grid Search exhaustivo
   - Random Search eficiente
   - Curvas de validación

6. **✅ Proyecto Integrador**
   - Sistema de recomendaciones completo
   - Filtrado colaborativo (usuarios e items)
   - Matrix Factorization (SVD)
   - Sistema híbrido

### 🚀 Próximo módulo: Deep Learning

En el **Módulo 7** exploraremos:
- Redes neuronales artificiales
- TensorFlow/Keras para Deep Learning
- CNNs para visión por computadora
- RNNs para secuencias y texto
- Transfer Learning
- Proyectos avanzados de Deep Learning

---

## 🎯 Ejercicios Finales del Módulo

### Ejercicio 1: Análisis comparativo de algoritmos
Usando el dataset de empleados:
1. Implementa y compara todos los algoritmos de clasificación
2. Usa validación cruzada para evaluar cada uno
3. Crea visualizaciones comparativas
4. Selecciona el mejor modelo y justifica tu elección

### Ejercicio 2: Sistema de recomendaciones personalizado
1. Modifica el sistema de recomendaciones para incluir información demográfica
2. Implementa un filtro por género de película preferido
3. Añade penalización por antigüedad de la película
4. Evalúa la calidad de las recomendaciones

### Ejercicio 3: Optimización avanzada
1. Implementa búsqueda bayesiana de hiperparámetros
2. Usa ensemble methods (Voting, Bagging, Boosting)
3. Compara rendimiento vs tiempo de entrenamiento
4. Crea un pipeline completo de ML

### Ejercicio 4: Análisis de clustering avanzado
1. Implementa DBSCAN para clustering
2. Compara con K-Means y clustering jerárquico
3. Usa t-SNE para visualización
4. Interpreta y valida los clusters encontrados

---

## 🎉 ¡Felicitaciones! Has completado el Módulo 6

### 📚 Resumen de habilidades adquiridas:

- **🔧 Preparación de datos**: Limpieza, escalado, codificación
- **🎯 Modelado supervisado**: Regresión y clasificación
- **🔍 Análisis no supervisado**: Clustering y reducción dimensional
- **📊 Evaluación rigurosa**: Validación cruzada y métricas
- **⚙️ Optimización**: Búsqueda de hiperparámetros
- **🤖 Proyectos reales**: Sistema de recomendaciones

### 📖 Recursos adicionales recomendados:

- **Libros**: 
  - "Hands-On Machine Learning" by Aurélien Géron
  - "The Elements of Statistical Learning" by Hastie, Tibshirani & Friedman
- **Documentación**: Scikit-learn, XGBoost, LightGBM
- **Práctica**: Kaggle competitions, OpenML datasets
- **Comunidad**: Machine Learning subreddit, Stack Overflow

¡Estás listo para Deep Learning! 🚀

In [None]:
# 🤖 Machine Learning con Python - Módulo 6

## Bienvenido al Módulo de Machine Learning

### 📚 Contenido del Módulo 6:
1. **Introducción al Machine Learning**
2. **Preparación de datos para ML**
3. **Algoritmos de aprendizaje supervisado**
4. **Algoritmos de aprendizaje no supervisado**
5. **Evaluación y validación de modelos**
6. **Optimización de hiperparámetros**
7. **Proyecto: Sistema de recomendaciones**

### 🎯 Objetivos de Aprendizaje:
- Entender los conceptos fundamentales del ML
- Dominar scikit-learn para construir modelos
- Implementar algoritmos de clasificación y regresión
- Realizar clustering y análisis de componentes principales
- Evaluar y optimizar modelos de ML
- Aplicar técnicas de feature engineering
- Construir un sistema de recomendaciones completo

### 🛠️ Tecnologías y bibliotecas:
- **Scikit-learn**: Framework principal de ML
- **XGBoost**: Gradient boosting avanzado
- **Pandas & NumPy**: Manipulación de datos
- **Matplotlib & Seaborn**: Visualización
- **Plotly**: Visualizaciones interactivas
- **Joblib**: Persistencia de modelos
- **SHAP**: Explicabilidad de modelos

---

## 1. 🧠 Introducción al Machine Learning

El Machine Learning es una rama de la inteligencia artificial que permite a las computadoras aprender y hacer predicciones o decisiones sin ser explícitamente programadas para cada tarea específica.

### 🌟 Tipos de Machine Learning:

1. **Aprendizaje Supervisado**: Aprendemos de datos etiquetados
   - Clasificación: Predecir categorías
   - Regresión: Predecir valores numéricos

2. **Aprendizaje No Supervisado**: Encontrar patrones sin etiquetas
   - Clustering: Agrupar datos similares
   - Reducción de dimensionalidad: Simplificar datos

3. **Aprendizaje por Refuerzo**: Aprender a través de recompensas
   - Agentes que interactúan con un entorno

### 🔄 Flujo de trabajo típico en ML:

1. **Definición del problema**: ¿Qué queremos predecir?
2. **Recolección de datos**: Obtener datos relevantes
3. **Exploración y limpieza**: Entender y preparar los datos
4. **Feature engineering**: Crear variables relevantes
5. **Selección del modelo**: Elegir algoritmos apropiados
6. **Entrenamiento**: Ajustar el modelo a los datos
7. **Evaluación**: Medir el rendimiento del modelo
8. **Optimización**: Mejorar el modelo
9. **Despliegue**: Poner el modelo en producción

---

## 2. 📊 Preparación de datos para ML

La calidad de los datos determina el éxito de cualquier proyecto de ML. La preparación de datos puede tomar el 80% del tiempo en un proyecto de ML.