# ü§ñ Machine Learning con Python - M√≥dulo 6

## Bienvenido al M√≥dulo de Machine Learning

### üìö Contenido del M√≥dulo 6:
1. **Introducci√≥n al Machine Learning**
2. **Preparaci√≥n de datos para ML**
3. **Algoritmos de aprendizaje supervisado**
4. **Algoritmos de aprendizaje no supervisado**
5. **Evaluaci√≥n y validaci√≥n de modelos**
6. **Optimizaci√≥n de hiperpar√°metros**
7. **Proyecto: Sistema de recomendaciones**

### üéØ Objetivos de Aprendizaje:
- Entender los conceptos fundamentales del ML
- Dominar scikit-learn para construir modelos
- Implementar algoritmos de clasificaci√≥n y regresi√≥n
- Realizar clustering y an√°lisis de componentes principales
- Evaluar y optimizar modelos de ML
- Aplicar t√©cnicas de feature engineering
- Construir un sistema de recomendaciones completo

### üõ†Ô∏è Tecnolog√≠as y bibliotecas:
- **Scikit-learn**: Framework principal de ML
- **XGBoost**: Gradient boosting avanzado
- **Pandas & NumPy**: Manipulaci√≥n de datos
- **Matplotlib & Seaborn**: Visualizaci√≥n
- **Plotly**: Visualizaciones interactivas
- **Joblib**: Persistencia de modelos
- **SHAP**: Explicabilidad de modelos

---

## 1. üß† Introducci√≥n al Machine Learning

El Machine Learning es una rama de la inteligencia artificial que permite a las computadoras aprender y hacer predicciones o decisiones sin ser expl√≠citamente programadas para cada tarea espec√≠fica.

### üåü Tipos de Machine Learning:

1. **Aprendizaje Supervisado**: Aprendemos de datos etiquetados
   - **Clasificaci√≥n**: Predecir categor√≠as (spam/no spam, diagn√≥stico m√©dico)
   - **Regresi√≥n**: Predecir valores num√©ricos (precio de casa, temperatura)

2. **Aprendizaje No Supervisado**: Encontrar patrones sin etiquetas
   - **Clustering**: Agrupar datos similares (segmentaci√≥n de clientes)
   - **Reducci√≥n de dimensionalidad**: Simplificar datos (PCA, t-SNE)

3. **Aprendizaje por Refuerzo**: Aprender a trav√©s de recompensas
   - Agentes que interact√∫an con un entorno (juegos, rob√≥tica)

### üîÑ Flujo de trabajo t√≠pico en ML:

1. **Definici√≥n del problema**: ¬øQu√© queremos predecir?
2. **Recolecci√≥n de datos**: Obtener datos relevantes y suficientes
3. **Exploraci√≥n y limpieza**: Entender y preparar los datos
4. **Feature engineering**: Crear variables relevantes
5. **Selecci√≥n del modelo**: Elegir algoritmos apropiados
6. **Entrenamiento**: Ajustar el modelo a los datos
7. **Evaluaci√≥n**: Medir el rendimiento del modelo
8. **Optimizaci√≥n**: Mejorar el modelo
9. **Despliegue**: Poner el modelo en producci√≥n

In [None]:
# Importar las bibliotecas principales para Machine Learning
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Scikit-learn: Framework principal de ML
from sklearn.datasets import make_classification, make_regression, load_iris, load_boston
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder, OneHotEncoder
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import mean_squared_error, r2_score, classification_report, confusion_matrix

# Algoritmos de ML
from sklearn.linear_model import LinearRegression, LogisticRegression, Ridge, Lasso
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor, GradientBoostingClassifier
from sklearn.svm import SVC, SVR
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.cluster import KMeans, AgglomerativeClustering
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline

# Manejo de modelos
import joblib
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n para visualizaciones
plt.style.use('ggplot')
sns.set(style="whitegrid")
np.random.seed(42)

# Mostrar versiones
print("üõ†Ô∏è Bibliotecas de Machine Learning cargadas:")
print(f"üìä Pandas: {pd.__version__}")
print(f"üî¢ NumPy: {np.__version__}")
print(f"ü§ñ Scikit-learn: {sklearn.__version__}")
print(f"üìà Matplotlib: {plt.__version__}")
print(f"üé® Seaborn: {sns.__version__}")

print("\n‚úÖ ¬°Entorno de Machine Learning listo!")

---

## 2. üìä Preparaci√≥n de datos para ML

La calidad de los datos determina el √©xito de cualquier proyecto de ML. La preparaci√≥n de datos puede tomar el 80% del tiempo en un proyecto de ML.

### üßπ Pasos esenciales en la preparaci√≥n:

1. **Limpieza de datos**: Manejar valores faltantes y outliers
2. **Codificaci√≥n de variables categ√≥ricas**: Convertir texto a n√∫meros
3. **Escalado de features**: Normalizar rangos de variables
4. **Feature engineering**: Crear nuevas variables relevantes
5. **Selecci√≥n de features**: Elegir las variables m√°s importantes
6. **Divisi√≥n de datos**: Separar entrenamiento, validaci√≥n y prueba

### üìà Vamos a trabajar con un dataset real

In [None]:
# Crear un dataset sint√©tico realista para demostraci√≥n
np.random.seed(42)
n_samples = 1000

# Simular datos de empleados con salarios
data = {
    'edad': np.random.normal(35, 10, n_samples).clip(22, 65).astype(int),
    'experiencia': np.random.exponential(5, n_samples).clip(0, 30).astype(int),
    'educacion': np.random.choice(['Bachillerato', 'Universidad', 'Maestr√≠a', 'Doctorado'], 
                                 n_samples, p=[0.3, 0.5, 0.15, 0.05]),
    'genero': np.random.choice(['M', 'F'], n_samples),
    'departamento': np.random.choice(['IT', 'Marketing', 'Ventas', 'RRHH', 'Finanzas'], 
                                   n_samples, p=[0.3, 0.2, 0.25, 0.1, 0.15]),
    'ciudad': np.random.choice(['Madrid', 'Barcelona', 'Valencia', 'Sevilla'], 
                              n_samples, p=[0.4, 0.3, 0.2, 0.1])
}

# Crear variable objetivo (salario) basada en otras variables
base_salary = 30000
salary = (base_salary + 
          data['edad'] * 500 + 
          data['experiencia'] * 1200 +
          (data['educacion'] == 'Universidad').astype(int) * 5000 +
          (data['educacion'] == 'Maestr√≠a').astype(int) * 12000 +
          (data['educacion'] == 'Doctorado').astype(int) * 20000 +
          (data['departamento'] == 'IT').astype(int) * 8000 +
          np.random.normal(0, 5000, n_samples))

data['salario'] = np.clip(salary, 25000, 120000).astype(int)

# Introducir algunos valores faltantes de manera realista
missing_indices = np.random.choice(n_samples, size=50, replace=False)
data['experiencia'][missing_indices[:25]] = np.nan
data['educacion'][missing_indices[25:]] = np.nan

df = pd.DataFrame(data)

print("üìä Dataset de empleados creado:")
print(f"Tama√±o: {df.shape}")
print("\nPrimeras filas:")
print(df.head())

print("\nInformaci√≥n del dataset:")
print(df.info())

print("\nValores faltantes:")
print(df.isnull().sum())

print("\nEstad√≠sticas descriptivas:")
print(df.describe())

In [None]:
# 1. MANEJO DE VALORES FALTANTES
print("üîß 1. Manejo de valores faltantes\n")

# Estrategias diferentes seg√∫n el tipo de variable
df_clean = df.copy()

# Para experiencia (num√©rica): imputar con la mediana
df_clean['experiencia'].fillna(df_clean['experiencia'].median(), inplace=True)

# Para educaci√≥n (categ√≥rica): imputar con la moda
df_clean['educacion'].fillna(df_clean['educacion'].mode()[0], inplace=True)

print("Valores faltantes despu√©s de la limpieza:")
print(df_clean.isnull().sum())

# 2. CODIFICACI√ìN DE VARIABLES CATEG√ìRICAS
print("\nüî¢ 2. Codificaci√≥n de variables categ√≥ricas\n")

# Label Encoding para variables ordinales (educaci√≥n tiene orden)
label_encoder = LabelEncoder()
df_clean['educacion_encoded'] = label_encoder.fit_transform(df_clean['educacion'])

print("Mapeo de educaci√≥n:")
for i, label in enumerate(label_encoder.classes_):
    print(f"{label} -> {i}")

# One-Hot Encoding para variables nominales
df_encoded = pd.get_dummies(df_clean, columns=['genero', 'departamento', 'ciudad'], prefix=['genero', 'dept', 'ciudad'])

print(f"\nNuevas columnas despu√©s del One-Hot Encoding:")
print([col for col in df_encoded.columns if col not in df_clean.columns])

# 3. ESCALADO DE FEATURES
print("\nüìè 3. Escalado de features\n")

# Separar features num√©ricas
numeric_features = ['edad', 'experiencia', 'educacion_encoded']
X_numeric = df_encoded[numeric_features]

# StandardScaler (media=0, std=1)
scaler_standard = StandardScaler()
X_scaled_standard = scaler_standard.fit_transform(X_numeric)

# MinMaxScaler (rango 0-1)
scaler_minmax = MinMaxScaler()
X_scaled_minmax = scaler_minmax.fit_transform(X_numeric)

# Comparar distribuciones
fig, axes = plt.subplots(2, 3, figsize=(15, 8))

for i, feature in enumerate(numeric_features):
    # Original
    axes[0, i].hist(X_numeric.iloc[:, i], bins=30, alpha=0.7, color='blue')
    axes[0, i].set_title(f'{feature} - Original')
    
    # Escalado est√°ndar
    axes[1, i].hist(X_scaled_standard[:, i], bins=30, alpha=0.7, color='green')
    axes[1, i].set_title(f'{feature} - StandardScaled')

plt.tight_layout()
plt.show()

print("Estad√≠sticas despu√©s del escalado est√°ndar:")
print(f"Media: {X_scaled_standard.mean(axis=0)}")
print(f"Desviaci√≥n est√°ndar: {X_scaled_standard.std(axis=0)}")

print(f"\nEscalado Min-Max - Rango: [{X_scaled_minmax.min():.2f}, {X_scaled_minmax.max():.2f}]")

---

## 3. üéØ Algoritmos de Aprendizaje Supervisado

El aprendizaje supervisado utiliza datos etiquetados para entrenar modelos que pueden hacer predicciones sobre nuevos datos.

### üìä Regresi√≥n: Predecir valores num√©ricos

Vamos a predecir el salario bas√°ndose en las caracter√≠sticas del empleado.

#### Algoritmos de regresi√≥n que veremos:
1. **Regresi√≥n Lineal**: Modelo m√°s simple, relaci√≥n lineal
2. **Ridge Regression**: Regresi√≥n lineal con regularizaci√≥n L2
3. **Random Forest**: Conjunto de √°rboles de decisi√≥n
4. **Support Vector Regression**: M√°quinas de soporte vectorial

### üè∑Ô∏è Clasificaci√≥n: Predecir categor√≠as

Tambi√©n crearemos un problema de clasificaci√≥n: predecir el departamento bas√°ndose en las caracter√≠sticas.

In [None]:
# PROBLEMA DE REGRESI√ìN: Predecir salario
print("üí∞ Problema de Regresi√≥n: Predicci√≥n de Salarios\n")

# Preparar datos para regresi√≥n
# Seleccionar features (excluir la variable objetivo 'salario')
feature_columns = [col for col in df_encoded.columns if col not in ['salario', 'educacion']]
X = df_encoded[feature_columns]
y = df_encoded['salario']

print(f"Features utilizadas: {len(feature_columns)}")
print(f"Primeras 5 features: {feature_columns[:5]}")

# Divisi√≥n de datos: 70% entrenamiento, 30% prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print(f"\nTama√±o conjunto entrenamiento: {X_train.shape}")
print(f"Tama√±o conjunto prueba: {X_test.shape}")

# Escalado de features (importante para algunos algoritmos)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# MODELOS DE REGRESI√ìN
print("\nüîß Entrenando modelos de regresi√≥n...\n")

# 1. Regresi√≥n Lineal
lr = LinearRegression()
lr.fit(X_train_scaled, y_train)
y_pred_lr = lr.predict(X_test_scaled)

# 2. Ridge Regression (regularizaci√≥n L2)
ridge = Ridge(alpha=1.0)
ridge.fit(X_train_scaled, y_train)
y_pred_ridge = ridge.predict(X_test_scaled)

# 3. Random Forest (no necesita escalado)
rf = RandomForestRegressor(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

# 4. Support Vector Regression
svr = SVR(kernel='rbf', C=1000, gamma=0.1)
svr.fit(X_train_scaled, y_train)
y_pred_svr = svr.predict(X_test_scaled)

# EVALUACI√ìN DE MODELOS
print("üìä Evaluaci√≥n de modelos de regresi√≥n:\n")

models = {
    'Regresi√≥n Lineal': y_pred_lr,
    'Ridge Regression': y_pred_ridge,
    'Random Forest': y_pred_rf,
    'SVR': y_pred_svr
}

results = []
for name, predictions in models.items():
    mse = mean_squared_error(y_test, predictions)
    rmse = np.sqrt(mse)
    r2 = r2_score(y_test, predictions)
    
    results.append({
        'Modelo': name,
        'MSE': mse,
        'RMSE': rmse,
        'R¬≤ Score': r2
    })
    
    print(f"{name}:")
    print(f"  MSE: {mse:.2f}")
    print(f"  RMSE: {rmse:.2f}")
    print(f"  R¬≤ Score: {r2:.4f}")
    print()

# Crear DataFrame con resultados
results_df = pd.DataFrame(results)
print("Resumen de resultados:")
print(results_df)

In [None]:
# VISUALIZACI√ìN DE RESULTADOS
print("üìà Visualizaci√≥n de predicciones vs valores reales\n")

fig, axes = plt.subplots(2, 2, figsize=(14, 10))
fig.suptitle('Predicciones vs Valores Reales - Modelos de Regresi√≥n', fontsize=16)

models_plot = [
    ('Regresi√≥n Lineal', y_pred_lr),
    ('Ridge Regression', y_pred_ridge),
    ('Random Forest', y_pred_rf),
    ('SVR', y_pred_svr)
]

for i, (name, predictions) in enumerate(models_plot):
    row = i // 2
    col = i % 2
    
    axes[row, col].scatter(y_test, predictions, alpha=0.6)
    axes[row, col].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
    axes[row, col].set_xlabel('Salario Real')
    axes[row, col].set_ylabel('Salario Predicho')
    axes[row, col].set_title(f'{name} (R¬≤ = {r2_score(y_test, predictions):.3f})')
    axes[row, col].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Importancia de features (Random Forest)
print("üéØ Importancia de Features (Random Forest):\n")

feature_importance = pd.DataFrame({
    'feature': feature_columns,
    'importance': rf.feature_importances_
}).sort_values('importance', ascending=False)

print(feature_importance.head(10))

# Visualizar importancia de features
plt.figure(figsize=(10, 6))
top_features = feature_importance.head(10)
plt.barh(range(len(top_features)), top_features['importance'])
plt.yticks(range(len(top_features)), top_features['feature'])
plt.xlabel('Importancia')
plt.title('Top 10 Features m√°s Importantes (Random Forest)')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

In [None]:
# PROBLEMA DE CLASIFICACI√ìN: Predecir departamento
print("üè¢ Problema de Clasificaci√≥n: Predicci√≥n de Departamento\n")

# Preparar datos para clasificaci√≥n
X_class = df_encoded.drop(['departamento', 'salario'], axis=1)
y_class = df_encoded['departamento']

# Codificar variable objetivo
le_dept = LabelEncoder()
y_class_encoded = le_dept.fit_transform(y_class)

print(f"Clases a predecir: {le_dept.classes_}")
print(f"Distribuci√≥n de clases:")
print(pd.Series(y_class).value_counts())

# Divisi√≥n de datos
X_train_c, X_test_c, y_train_c, y_test_c = train_test_split(
    X_class, y_class_encoded, test_size=0.3, random_state=42, stratify=y_class_encoded
)

# Escalado para algoritmos que lo requieren
X_train_c_scaled = scaler.fit_transform(X_train_c)
X_test_c_scaled = scaler.transform(X_test_c)

print(f"\nTama√±o conjunto entrenamiento: {X_train_c.shape}")
print(f"Tama√±o conjunto prueba: {X_test_c.shape}")

# MODELOS DE CLASIFICACI√ìN
print("\nüîß Entrenando modelos de clasificaci√≥n...\n")

# 1. Regresi√≥n Log√≠stica
log_reg = LogisticRegression(random_state=42, max_iter=1000)
log_reg.fit(X_train_c_scaled, y_train_c)
y_pred_log = log_reg.predict(X_test_c_scaled)

# 2. √Årbol de Decisi√≥n
dt = DecisionTreeClassifier(random_state=42, max_depth=10)
dt.fit(X_train_c, y_train_c)
y_pred_dt = dt.predict(X_test_c)

# 3. Random Forest
rf_class = RandomForestClassifier(n_estimators=100, random_state=42)
rf_class.fit(X_train_c, y_train_c)
y_pred_rf_class = rf_class.predict(X_test_c)

# 4. Support Vector Machine
svm = SVC(random_state=42, kernel='rbf')
svm.fit(X_train_c_scaled, y_train_c)
y_pred_svm = svm.predict(X_test_c_scaled)

# 5. K-Nearest Neighbors
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train_c_scaled, y_train_c)
y_pred_knn = knn.predict(X_test_c_scaled)

# 6. Naive Bayes
nb = GaussianNB()
nb.fit(X_train_c_scaled, y_train_c)
y_pred_nb = nb.predict(X_test_c_scaled)

# EVALUACI√ìN DE MODELOS DE CLASIFICACI√ìN
print("üìä Evaluaci√≥n de modelos de clasificaci√≥n:\n")

classification_models = {
    'Regresi√≥n Log√≠stica': y_pred_log,
    '√Årbol de Decisi√≥n': y_pred_dt,
    'Random Forest': y_pred_rf_class,
    'SVM': y_pred_svm,
    'K-NN': y_pred_knn,
    'Naive Bayes': y_pred_nb
}

classification_results = []
for name, predictions in classification_models.items():
    accuracy = accuracy_score(y_test_c, predictions)
    precision = precision_score(y_test_c, predictions, average='weighted')
    recall = recall_score(y_test_c, predictions, average='weighted')
    f1 = f1_score(y_test_c, predictions, average='weighted')
    
    classification_results.append({
        'Modelo': name,
        'Accuracy': accuracy,
        'Precision': precision,
        'Recall': recall,
        'F1-Score': f1
    })
    
    print(f"{name}:")
    print(f"  Accuracy: {accuracy:.4f}")
    print(f"  Precision: {precision:.4f}")
    print(f"  Recall: {recall:.4f}")
    print(f"  F1-Score: {f1:.4f}")
    print()

# Crear DataFrame con resultados
classification_results_df = pd.DataFrame(classification_results)
print("Resumen de resultados de clasificaci√≥n:")
print(classification_results_df)

---

## 4. üîç Algoritmos de Aprendizaje No Supervisado

El aprendizaje no supervisado encuentra patrones ocultos en datos sin etiquetas.

### üéØ Principales t√©cnicas:

1. **Clustering**: Agrupar datos similares
   - K-Means: Agrupa en k clusters
   - Clustering Jer√°rquico: Crea jerarqu√≠as de clusters

2. **Reducci√≥n de Dimensionalidad**: Simplificar datos manteniendo informaci√≥n
   - PCA (Principal Component Analysis): Componentes principales
   - t-SNE: Visualizaci√≥n de datos de alta dimensi√≥n

### üìä Vamos a aplicar estas t√©cnicas a nuestros datos

In [None]:
# CLUSTERING: Segmentaci√≥n de empleados
print("üë• Clustering: Segmentaci√≥n de Empleados\n")

# Usar solo variables num√©ricas para clustering
numeric_cols = ['edad', 'experiencia', 'educacion_encoded', 'salario']
X_cluster = df_encoded[numeric_cols].copy()

# Escalado para clustering (importante para K-means)
scaler_cluster = StandardScaler()
X_cluster_scaled = scaler_cluster.fit_transform(X_cluster)

# 1. K-MEANS CLUSTERING
print("üéØ K-Means Clustering\n")

# Encontrar el n√∫mero √≥ptimo de clusters usando el m√©todo del codo
inertias = []
k_range = range(2, 11)

for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    kmeans.fit(X_cluster_scaled)
    inertias.append(kmeans.inertia_)

# Visualizar m√©todo del codo
plt.figure(figsize=(10, 6))
plt.plot(k_range, inertias, 'bo-')
plt.xlabel('N√∫mero de Clusters (k)')
plt.ylabel('Inercia')
plt.title('M√©todo del Codo para Determinar k √ìptimo')
plt.grid(True, alpha=0.3)
plt.show()

# Aplicar K-means con k=4
k_optimal = 4
kmeans = KMeans(n_clusters=k_optimal, random_state=42, n_init=10)
clusters_kmeans = kmeans.fit_predict(X_cluster_scaled)

# Agregar clusters al DataFrame
df_clustered = df_encoded.copy()
df_clustered['cluster_kmeans'] = clusters_kmeans

print(f"Distribuci√≥n de clusters K-Means (k={k_optimal}):")
print(pd.Series(clusters_kmeans).value_counts().sort_index())

# 2. CLUSTERING JER√ÅRQUICO
print("\nüå≥ Clustering Jer√°rquico\n")

hierarchical = AgglomerativeClustering(n_clusters=k_optimal)
clusters_hierarchical = hierarchical.fit_predict(X_cluster_scaled)

df_clustered['cluster_hierarchical'] = clusters_hierarchical

print(f"Distribuci√≥n de clusters Jer√°rquicos:")
print(pd.Series(clusters_hierarchical).value_counts().sort_index())

# AN√ÅLISIS DE CLUSTERS
print("\nüìä An√°lisis de Clusters K-Means:\n")

for cluster in range(k_optimal):
    cluster_data = df_clustered[df_clustered['cluster_kmeans'] == cluster]
    print(f"Cluster {cluster} (n={len(cluster_data)}):")
    print(f"  Edad promedio: {cluster_data['edad'].mean():.1f}")
    print(f"  Experiencia promedio: {cluster_data['experiencia'].mean():.1f}")
    print(f"  Salario promedio: {cluster_data['salario'].mean():.0f}")
    print(f"  Departamento m√°s com√∫n: {cluster_data['departamento'].mode().iloc[0]}")
    print(f"  Educaci√≥n m√°s com√∫n: {cluster_data['educacion'].mode().iloc[0]}")
    print()

# VISUALIZACI√ìN DE CLUSTERS
print("üìà Visualizaci√≥n de Clusters\n")

# Reducir dimensionalidad para visualizar
pca_viz = PCA(n_components=2, random_state=42)
X_pca = pca_viz.fit_transform(X_cluster_scaled)

fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# K-Means clusters
scatter1 = axes[0].scatter(X_pca[:, 0], X_pca[:, 1], c=clusters_kmeans, cmap='viridis', alpha=0.6)
axes[0].set_title('K-Means Clustering (PCA)')
axes[0].set_xlabel('Primera Componente Principal')
axes[0].set_ylabel('Segunda Componente Principal')
plt.colorbar(scatter1, ax=axes[0])

# Hierarchical clusters
scatter2 = axes[1].scatter(X_pca[:, 0], X_pca[:, 1], c=clusters_hierarchical, cmap='viridis', alpha=0.6)
axes[1].set_title('Clustering Jer√°rquico (PCA)')
axes[1].set_xlabel('Primera Componente Principal')
axes[1].set_ylabel('Segunda Componente Principal')
plt.colorbar(scatter2, ax=axes[1])

plt.tight_layout()
plt.show()

In [None]:
# PCA - AN√ÅLISIS DE COMPONENTES PRINCIPALES
print("üî¨ PCA - An√°lisis de Componentes Principales\n")

# Aplicar PCA para entender la estructura de los datos
pca_full = PCA()
X_pca_full = pca_full.fit_transform(X_cluster_scaled)

# Varianza explicada por cada componente
explained_variance_ratio = pca_full.explained_variance_ratio_
cumulative_variance = np.cumsum(explained_variance_ratio)

print("Varianza explicada por componente:")
for i, var in enumerate(explained_variance_ratio):
    print(f"  Componente {i+1}: {var:.4f} ({var*100:.2f}%)")

print(f"\nVarianza acumulada: {cumulative_variance}")

# Visualizar varianza explicada
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Varianza por componente
axes[0].bar(range(1, len(explained_variance_ratio)+1), explained_variance_ratio)
axes[0].set_xlabel('Componente Principal')
axes[0].set_ylabel('Varianza Explicada')
axes[0].set_title('Varianza Explicada por Componente')
axes[0].grid(True, alpha=0.3)

# Varianza acumulada
axes[1].plot(range(1, len(cumulative_variance)+1), cumulative_variance, 'bo-')
axes[1].axhline(y=0.95, color='r', linestyle='--', label='95% varianza')
axes[1].set_xlabel('N√∫mero de Componentes')
axes[1].set_ylabel('Varianza Acumulada')
axes[1].set_title('Varianza Acumulada')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# PCA con 2 componentes para visualizaci√≥n
pca_2d = PCA(n_components=2)
X_pca_2d = pca_2d.fit_transform(X_cluster_scaled)

print(f"\nCon 2 componentes explicamos {pca_2d.explained_variance_ratio_.sum():.3f} de la varianza")

# Interpretar componentes principales
components_df = pd.DataFrame(
    pca_2d.components_.T,
    columns=['PC1', 'PC2'],
    index=numeric_cols
)

print("\nPesos de las variables en cada componente principal:")
print(components_df)

# Visualizaci√≥n con informaci√≥n adicional
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# PCA coloreado por departamento
dept_colors = df_encoded['departamento'].astype('category').cat.codes
scatter1 = axes[0].scatter(X_pca_2d[:, 0], X_pca_2d[:, 1], c=dept_colors, cmap='tab10', alpha=0.6)
axes[0].set_title('PCA - Coloreado por Departamento')
axes[0].set_xlabel(f'PC1 ({pca_2d.explained_variance_ratio_[0]:.3f} varianza)')
axes[0].set_ylabel(f'PC2 ({pca_2d.explained_variance_ratio_[1]:.3f} varianza)')

# PCA coloreado por salario
scatter2 = axes[1].scatter(X_pca_2d[:, 0], X_pca_2d[:, 1], c=df_encoded['salario'], cmap='viridis', alpha=0.6)
axes[1].set_title('PCA - Coloreado por Salario')
axes[1].set_xlabel(f'PC1 ({pca_2d.explained_variance_ratio_[0]:.3f} varianza)')
axes[1].set_ylabel(f'PC2 ({pca_2d.explained_variance_ratio_[1]:.3f} varianza)')
plt.colorbar(scatter2, ax=axes[1])

# Biplot: variables y observaciones
axes[2].scatter(X_pca_2d[:, 0], X_pca_2d[:, 1], alpha=0.3, s=30)

# Vectores de variables
for i, (var, pc1, pc2) in enumerate(zip(numeric_cols, components_df['PC1'], components_df['PC2'])):
    axes[2].arrow(0, 0, pc1*3, pc2*3, head_width=0.1, head_length=0.1, fc='red', ec='red')
    axes[2].text(pc1*3.2, pc2*3.2, var, fontsize=10, ha='center', va='center')

axes[2].set_title('Biplot PCA')
axes[2].set_xlabel(f'PC1 ({pca_2d.explained_variance_ratio_[0]:.3f} varianza)')
axes[2].set_ylabel(f'PC2 ({pca_2d.explained_variance_ratio_[1]:.3f} varianza)')
axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

---

## 5. üìè Evaluaci√≥n y Validaci√≥n de Modelos

La evaluaci√≥n correcta de modelos es crucial para evitar sobreajuste y asegurar que funcionen bien con datos nuevos.

### üéØ T√©cnicas de validaci√≥n:

1. **Validaci√≥n Cruzada**: Dividir datos en m√∫ltiples folds
2. **Curvas de Aprendizaje**: Evaluar rendimiento vs tama√±o de datos
3. **Curvas de Validaci√≥n**: Evaluar rendimiento vs hiperpar√°metros
4. **M√©tricas espec√≠ficas**: Seg√∫n el tipo de problema

### üìä Aplicaremos estas t√©cnicas a nuestros mejores modelos

In [None]:
# VALIDACI√ìN CRUZADA
print("üîÑ Validaci√≥n Cruzada\n")

from sklearn.model_selection import cross_val_score, learning_curve, validation_curve

# Seleccionar mejores modelos para evaluaci√≥n profunda
best_models = {
    'Random Forest (Regresi√≥n)': RandomForestRegressor(n_estimators=100, random_state=42),
    'Random Forest (Clasificaci√≥n)': RandomForestClassifier(n_estimators=100, random_state=42),
    'Regresi√≥n Log√≠stica': LogisticRegression(random_state=42, max_iter=1000)
}

# VALIDACI√ìN CRUZADA PARA REGRESI√ìN
print("üìä Validaci√≥n Cruzada - Problema de Regresi√≥n:\n")

# Usar scoring apropiado para regresi√≥n
cv_scores_reg = cross_val_score(
    best_models['Random Forest (Regresi√≥n)'], 
    X_train_scaled, y_train, 
    cv=5, 
    scoring='r2'
)

print(f"Random Forest (Regresi√≥n) - R¬≤ scores:")
print(f"  Scores individuales: {cv_scores_reg}")
print(f"  Promedio: {cv_scores_reg.mean():.4f}")
print(f"  Desviaci√≥n est√°ndar: {cv_scores_reg.std():.4f}")

# VALIDACI√ìN CRUZADA PARA CLASIFICACI√ìN
print("\nüè∑Ô∏è Validaci√≥n Cruzada - Problema de Clasificaci√≥n:\n")

cv_scores_rf_class = cross_val_score(
    best_models['Random Forest (Clasificaci√≥n)'], 
    X_train_c, y_train_c, 
    cv=5, 
    scoring='accuracy'
)

cv_scores_log_reg = cross_val_score(
    best_models['Regresi√≥n Log√≠stica'], 
    X_train_c_scaled, y_train_c, 
    cv=5, 
    scoring='accuracy'
)

print(f"Random Forest (Clasificaci√≥n) - Accuracy scores:")
print(f"  Scores individuales: {cv_scores_rf_class}")
print(f"  Promedio: {cv_scores_rf_class.mean():.4f}")
print(f"  Desviaci√≥n est√°ndar: {cv_scores_rf_class.std():.4f}")

print(f"\nRegresi√≥n Log√≠stica - Accuracy scores:")
print(f"  Scores individuales: {cv_scores_log_reg}")
print(f"  Promedio: {cv_scores_log_reg.mean():.4f}")
print(f"  Desviaci√≥n est√°ndar: {cv_scores_log_reg.std():.4f}")

# CURVAS DE APRENDIZAJE
print("\nüìà Curvas de Aprendizaje\n")

def plot_learning_curve(estimator, X, y, title, scoring='accuracy'):
    train_sizes, train_scores, val_scores = learning_curve(
        estimator, X, y, cv=5, train_sizes=np.linspace(0.1, 1.0, 10),
        scoring=scoring, random_state=42
    )
    
    train_mean = train_scores.mean(axis=1)
    train_std = train_scores.std(axis=1)
    val_mean = val_scores.mean(axis=1)
    val_std = val_scores.std(axis=1)
    
    plt.figure(figsize=(10, 6))
    plt.plot(train_sizes, train_mean, 'o-', color='blue', label='Entrenamiento')
    plt.fill_between(train_sizes, train_mean - train_std, train_mean + train_std, alpha=0.1, color='blue')
    
    plt.plot(train_sizes, val_mean, 'o-', color='red', label='Validaci√≥n')
    plt.fill_between(train_sizes, val_mean - val_std, val_mean + val_std, alpha=0.1, color='red')
    
    plt.xlabel('Tama√±o del conjunto de entrenamiento')
    plt.ylabel(f'Score ({scoring})')
    plt.title(f'Curva de Aprendizaje - {title}')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.show()
    
    return train_sizes, train_scores, val_scores

# Curva de aprendizaje para Random Forest (Clasificaci√≥n)
plot_learning_curve(
    RandomForestClassifier(n_estimators=50, random_state=42),
    X_train_c, y_train_c,
    'Random Forest (Clasificaci√≥n)',
    scoring='accuracy'
)

# Curva de aprendizaje para Random Forest (Regresi√≥n)
plot_learning_curve(
    RandomForestRegressor(n_estimators=50, random_state=42),
    X_train_scaled, y_train,
    'Random Forest (Regresi√≥n)',
    scoring='r2'
)

---

## 6. ‚öôÔ∏è Optimizaci√≥n de Hiperpar√°metros

Los hiperpar√°metros son configuraciones que no se aprenden durante el entrenamiento pero afectan significativamente el rendimiento del modelo.

### üîç T√©cnicas de optimizaci√≥n:

1. **Grid Search**: B√∫squeda exhaustiva en una grilla de par√°metros
2. **Random Search**: B√∫squeda aleatoria (m√°s eficiente para espacios grandes)
3. **Validaci√≥n de hiperpar√°metros**: Evaluar el efecto de cada par√°metro

### üéØ Optimizaremos nuestro mejor modelo

In [None]:
# OPTIMIZACI√ìN DE HIPERPAR√ÅMETROS
print("‚öôÔ∏è Optimizaci√≥n de Hiperpar√°metros\n")

from sklearn.model_selection import RandomizedSearchCV

# GRID SEARCH para Random Forest (Clasificaci√≥n)
print("üîç Grid Search - Random Forest (Clasificaci√≥n)\n")

# Definir grilla de par√°metros (versi√≥n simplificada para rapidez)
param_grid_rf = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Grid Search
rf_grid_search = GridSearchCV(
    RandomForestClassifier(random_state=42),
    param_grid_rf,
    cv=3,  # 3-fold CV para rapidez
    scoring='accuracy',
    n_jobs=-1,  # Usar todos los cores
    verbose=1
)

# Entrenar con una muestra m√°s peque√±a para rapidez
sample_size = 500
sample_indices = np.random.choice(len(X_train_c), sample_size, replace=False)
X_sample = X_train_c.iloc[sample_indices]
y_sample = y_train_c[sample_indices]

rf_grid_search.fit(X_sample, y_sample)

print(f"Mejores par√°metros encontrados:")
print(rf_grid_search.best_params_)
print(f"Mejor score: {rf_grid_search.best_score_:.4f}")

# RANDOM SEARCH (m√°s eficiente para espacios grandes)
print("\nüé≤ Random Search - Random Forest (Regresi√≥n)\n")

param_dist_rf = {
    'n_estimators': [50, 100, 150, 200, 250],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10, 15],
    'min_samples_leaf': [1, 2, 4, 6],
    'bootstrap': [True, False]
}

rf_random_search = RandomizedSearchCV(
    RandomForestRegressor(random_state=42),
    param_dist_rf,
    n_iter=20,  # 20 combinaciones aleatorias
    cv=3,
    scoring='r2',
    n_jobs=-1,
    verbose=1,
    random_state=42
)

# Usar muestra para rapidez
X_sample_reg = X_train_scaled[sample_indices]
y_sample_reg = y_train.iloc[sample_indices]

rf_random_search.fit(X_sample_reg, y_sample_reg)

print(f"Mejores par√°metros encontrados:")
print(rf_random_search.best_params_)
print(f"Mejor score: {rf_random_search.best_score_:.4f}")

# CURVAS DE VALIDACI√ìN
print("\nüìä Curvas de Validaci√≥n\n")

# Evaluar el efecto del n√∫mero de estimadores
param_range = [10, 25, 50, 100, 150, 200]

train_scores, validation_scores = validation_curve(
    RandomForestClassifier(random_state=42),
    X_sample, y_sample,
    param_name='n_estimators',
    param_range=param_range,
    cv=3,
    scoring='accuracy'
)

# Visualizar curva de validaci√≥n
plt.figure(figsize=(10, 6))

train_mean = train_scores.mean(axis=1)
train_std = train_scores.std(axis=1)
validation_mean = validation_scores.mean(axis=1)
validation_std = validation_scores.std(axis=1)

plt.plot(param_range, train_mean, 'o-', color='blue', label='Entrenamiento')
plt.fill_between(param_range, train_mean - train_std, train_mean + train_std, alpha=0.1, color='blue')

plt.plot(param_range, validation_mean, 'o-', color='red', label='Validaci√≥n')
plt.fill_between(param_range, validation_mean - validation_std, validation_mean + validation_std, alpha=0.1, color='red')

plt.xlabel('N√∫mero de Estimadores')
plt.ylabel('Accuracy')
plt.title('Curva de Validaci√≥n - n_estimators')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

# COMPARAR MODELO OPTIMIZADO VS ORIGINAL
print("\nüèÜ Comparaci√≥n: Modelo Original vs Optimizado\n")

# Modelo original
rf_original = RandomForestClassifier(n_estimators=100, random_state=42)
rf_original.fit(X_train_c, y_train_c)
y_pred_original = rf_original.predict(X_test_c)
accuracy_original = accuracy_score(y_test_c, y_pred_original)

# Modelo optimizado
rf_optimized = RandomForestClassifier(**rf_grid_search.best_params_, random_state=42)
rf_optimized.fit(X_train_c, y_train_c)
y_pred_optimized = rf_optimized.predict(X_test_c)
accuracy_optimized = accuracy_score(y_test_c, y_pred_optimized)

print(f"Modelo Original:")
print(f"  Accuracy: {accuracy_original:.4f}")

print(f"\nModelo Optimizado:")
print(f"  Accuracy: {accuracy_optimized:.4f}")
print(f"  Mejora: {accuracy_optimized - accuracy_original:.4f}")

# Matriz de confusi√≥n para el modelo optimizado
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test_c, y_pred_optimized)

plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=le_dept.classes_, 
            yticklabels=le_dept.classes_)
plt.title('Matriz de Confusi√≥n - Modelo Optimizado')
plt.xlabel('Predicho')
plt.ylabel('Real')
plt.show()

---

## 7. üé¨ Proyecto Integrador: Sistema de Recomendaciones de Pel√≠culas

Aplicaremos todo lo aprendido en un proyecto real: construir un sistema de recomendaciones de pel√≠culas usando diferentes t√©cnicas de Machine Learning.

### üéØ Objetivos del proyecto:
1. Crear un dataset sint√©tico de pel√≠culas y ratings
2. Implementar filtrado colaborativo
3. Usar clustering para segmentar usuarios
4. Crear un sistema h√≠brido de recomendaciones
5. Evaluar y comparar diferentes enfoques

### üìä Tipos de sistemas de recomendaci√≥n:
- **Filtrado Colaborativo**: Recomienda bas√°ndose en usuarios similares
- **Filtrado por Contenido**: Recomienda bas√°ndose en caracter√≠sticas del item
- **Sistemas H√≠bridos**: Combina m√∫ltiples enfoques

In [None]:
# PROYECTO: SISTEMA DE RECOMENDACIONES DE PEL√çCULAS
print("üé¨ Sistema de Recomendaciones de Pel√≠culas\n")

# 1. CREAR DATASET SINT√âTICO DE PEL√çCULAS
print("üìä 1. Creando dataset de pel√≠culas y ratings\n")

np.random.seed(42)

# G√©neros de pel√≠culas
genres = ['Acci√≥n', 'Comedia', 'Drama', 'Sci-Fi', 'Romance', 'Terror', 'Aventura', 'Animaci√≥n']

# Crear dataset de pel√≠culas
n_movies = 100
movies_data = []

for i in range(n_movies):
    movie = {
        'movie_id': i,
        'title': f'Pel√≠cula_{i}',
        'genre': np.random.choice(genres),
        'year': np.random.randint(1990, 2024),
        'duration': np.random.randint(80, 180),
        'budget': np.random.randint(1, 200),  # Millones
        'rating_avg': np.random.uniform(3.0, 9.0)
    }
    movies_data.append(movie)

movies_df = pd.DataFrame(movies_data)

print(f"Dataset de pel√≠culas creado: {movies_df.shape}")
print(movies_df.head())

# Crear dataset de usuarios
n_users = 200
users_data = []

for i in range(n_users):
    user = {
        'user_id': i,
        'age': np.random.randint(16, 70),
        'gender': np.random.choice(['M', 'F']),
        'preferred_genre': np.random.choice(genres)
    }
    users_data.append(user)

users_df = pd.DataFrame(users_data)

print(f"\nDataset de usuarios creado: {users_df.shape}")
print(users_df.head())

# 2. GENERAR RATINGS REALISTAS
print("\n‚≠ê 2. Generando ratings de usuarios\n")

ratings_data = []

for user_id in range(n_users):
    user = users_df.iloc[user_id]
    n_ratings = np.random.randint(5, 30)  # Cada usuario califica 5-30 pel√≠culas
    
    movie_ids = np.random.choice(n_movies, n_ratings, replace=False)
    
    for movie_id in movie_ids:
        movie = movies_df.iloc[movie_id]
        
        # Rating base de la pel√≠cula
        base_rating = movie['rating_avg']
        
        # Ajuste por preferencia de g√©nero
        if movie['genre'] == user['preferred_genre']:
            genre_bonus = np.random.uniform(0.5, 1.5)
        else:
            genre_bonus = np.random.uniform(-0.5, 0.5)
        
        # A√±adir ruido
        noise = np.random.normal(0, 0.8)
        
        # Rating final (1-10)
        final_rating = np.clip(base_rating + genre_bonus + noise, 1, 10)
        
        ratings_data.append({
            'user_id': user_id,
            'movie_id': movie_id,
            'rating': round(final_rating, 1)
        })

ratings_df = pd.DataFrame(ratings_data)

print(f"Dataset de ratings creado: {ratings_df.shape}")
print(f"Promedio de ratings por usuario: {len(ratings_df) / n_users:.1f}")
print(f"Rating promedio: {ratings_df['rating'].mean():.2f}")

print("\nDistribuci√≥n de ratings:")
print(ratings_df['rating'].value_counts().sort_index())

# 3. AN√ÅLISIS EXPLORATORIO
print("\nüîç 3. An√°lisis exploratorio\n")

# Matriz usuario-pel√≠cula (sparse)
user_movie_matrix = ratings_df.pivot(index='user_id', columns='movie_id', values='rating')
print(f"Matriz usuario-pel√≠cula: {user_movie_matrix.shape}")
print(f"Densidad: {(~user_movie_matrix.isna()).sum().sum() / (user_movie_matrix.shape[0] * user_movie_matrix.shape[1]):.3f}")

# Rellenar NaN con 0 para algunos algoritmos
user_movie_matrix_filled = user_movie_matrix.fillna(0)

# Visualizaciones
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Distribuci√≥n de ratings
axes[0, 0].hist(ratings_df['rating'], bins=20, edgecolor='black', alpha=0.7)
axes[0, 0].set_title('Distribuci√≥n de Ratings')
axes[0, 0].set_xlabel('Rating')
axes[0, 0].set_ylabel('Frecuencia')

# N√∫mero de ratings por usuario
user_counts = ratings_df['user_id'].value_counts()
axes[0, 1].hist(user_counts, bins=20, edgecolor='black', alpha=0.7)
axes[0, 1].set_title('N√∫mero de Ratings por Usuario')
axes[0, 1].set_xlabel('N√∫mero de Ratings')
axes[0, 1].set_ylabel('N√∫mero de Usuarios')

# Ratings por g√©nero
genre_ratings = ratings_df.merge(movies_df, on='movie_id').groupby('genre')['rating'].mean().sort_values(ascending=False)
axes[1, 0].bar(range(len(genre_ratings)), genre_ratings.values)
axes[1, 0].set_title('Rating Promedio por G√©nero')
axes[1, 0].set_xlabel('G√©nero')
axes[1, 0].set_ylabel('Rating Promedio')
axes[1, 0].set_xticks(range(len(genre_ratings)))
axes[1, 0].set_xticklabels(genre_ratings.index, rotation=45)

# Heatmap de correlaciones entre g√©neros
genre_matrix = ratings_df.merge(movies_df, on='movie_id').pivot_table(
    index='user_id', columns='genre', values='rating', aggfunc='mean'
).fillna(0)

correlation_matrix = genre_matrix.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, ax=axes[1, 1])
axes[1, 1].set_title('Correlaci√≥n entre G√©neros')

plt.tight_layout()
plt.show()

In [None]:
# 4. IMPLEMENTAR ALGORITMOS DE RECOMENDACI√ìN
print("ü§ñ 4. Implementando algoritmos de recomendaci√≥n\n")

from sklearn.metrics.pairwise import cosine_similarity
from sklearn.decomposition import TruncatedSVD

# 4.1 FILTRADO COLABORATIVO BASADO EN USUARIOS
print("üë• Filtrado Colaborativo Basado en Usuarios\n")

def collaborative_filtering_users(user_id, user_movie_matrix, n_recommendations=5):
    """
    Recomienda pel√≠culas bas√°ndose en usuarios similares
    """
    # Calcular similitud entre usuarios
    user_similarity = cosine_similarity(user_movie_matrix_filled)
    
    # Encontrar usuarios m√°s similares (excluyendo al propio usuario)
    user_idx = user_id
    similarities = user_similarity[user_idx]
    similar_users = np.argsort(similarities)[::-1][1:11]  # Top 10 usuarios similares
    
    # Obtener pel√≠culas que el usuario no ha visto
    user_ratings = user_movie_matrix.iloc[user_idx]
    unwatched_movies = user_ratings[user_ratings.isna()].index
    
    # Calcular scores para pel√≠culas no vistas
    movie_scores = {}
    
    for movie_id in unwatched_movies:
        weighted_sum = 0
        similarity_sum = 0
        
        for similar_user in similar_users:
            if not pd.isna(user_movie_matrix.iloc[similar_user, movie_id]):
                rating = user_movie_matrix.iloc[similar_user, movie_id]
                similarity = similarities[similar_user]
                weighted_sum += rating * similarity
                similarity_sum += similarity
        
        if similarity_sum > 0:
            movie_scores[movie_id] = weighted_sum / similarity_sum
    
    # Ordenar y devolver top recomendaciones
    recommended_movies = sorted(movie_scores.items(), key=lambda x: x[1], reverse=True)
    return recommended_movies[:n_recommendations]

# Ejemplo de recomendaci√≥n
user_test = 0
recommendations_user = collaborative_filtering_users(user_test, user_movie_matrix)

print(f"Recomendaciones para Usuario {user_test}:")
for movie_id, score in recommendations_user:
    movie_title = movies_df.iloc[movie_id]['title']
    movie_genre = movies_df.iloc[movie_id]['genre']
    print(f"  {movie_title} ({movie_genre}) - Score: {score:.2f}")

# 4.2 FILTRADO COLABORATIVO BASADO EN ITEMS
print(f"\nüé¨ Filtrado Colaborativo Basado en Items\n")

def collaborative_filtering_items(user_id, user_movie_matrix, n_recommendations=5):
    """
    Recomienda pel√≠culas bas√°ndose en similitud entre pel√≠culas
    """
    # Transponer para tener pel√≠culas como filas
    movie_user_matrix = user_movie_matrix_filled.T
    
    # Calcular similitud entre pel√≠culas
    movie_similarity = cosine_similarity(movie_user_matrix)
    
    # Obtener pel√≠culas que el usuario ha calificado bien (rating >= 7)
    user_ratings = user_movie_matrix.iloc[user_id]
    liked_movies = user_ratings[user_ratings >= 7].index
    
    # Pel√≠culas no vistas
    unwatched_movies = user_ratings[user_ratings.isna()].index
    
    # Calcular scores para pel√≠culas no vistas
    movie_scores = {}
    
    for movie_id in unwatched_movies:
        weighted_sum = 0
        similarity_sum = 0
        
        for liked_movie in liked_movies:
            similarity = movie_similarity[movie_id, liked_movie]
            rating = user_ratings[liked_movie]
            weighted_sum += rating * similarity
            similarity_sum += similarity
        
        if similarity_sum > 0:
            movie_scores[movie_id] = weighted_sum / similarity_sum
    
    # Ordenar y devolver top recomendaciones
    recommended_movies = sorted(movie_scores.items(), key=lambda x: x[1], reverse=True)
    return recommended_movies[:n_recommendations]

recommendations_item = collaborative_filtering_items(user_test, user_movie_matrix)

print(f"Recomendaciones basadas en items para Usuario {user_test}:")
for movie_id, score in recommendations_item:
    movie_title = movies_df.iloc[movie_id]['title']
    movie_genre = movies_df.iloc[movie_id]['genre']
    print(f"  {movie_title} ({movie_genre}) - Score: {score:.2f}")

# 4.3 MATRIX FACTORIZATION (SVD)
print(f"\nüî¢ Matrix Factorization (SVD)\n")

# Aplicar SVD
n_components = 20
svd = TruncatedSVD(n_components=n_components, random_state=42)
user_factors = svd.fit_transform(user_movie_matrix_filled)
movie_factors = svd.components_.T

print(f"Factorizaci√≥n completada:")
print(f"  Usuarios: {user_factors.shape}")
print(f"  Pel√≠culas: {movie_factors.shape}")
print(f"  Varianza explicada: {svd.explained_variance_ratio_.sum():.3f}")

def svd_recommendations(user_id, user_factors, movie_factors, user_movie_matrix, n_recommendations=5):
    """
    Recomienda usando factorizaci√≥n matricial
    """
    # Calcular scores predichos
    user_vector = user_factors[user_id]
    predicted_ratings = np.dot(user_vector, movie_factors.T)
    
    # Pel√≠culas no vistas
    user_ratings = user_movie_matrix.iloc[user_id]
    unwatched_movies = user_ratings[user_ratings.isna()].index
    
    # Obtener scores para pel√≠culas no vistas
    movie_scores = [(movie_id, predicted_ratings[movie_id]) for movie_id in unwatched_movies]
    
    # Ordenar y devolver top recomendaciones
    recommended_movies = sorted(movie_scores, key=lambda x: x[1], reverse=True)
    return recommended_movies[:n_recommendations]

recommendations_svd = svd_recommendations(user_test, user_factors, movie_factors, user_movie_matrix)

print(f"Recomendaciones SVD para Usuario {user_test}:")
for movie_id, score in recommendations_svd:
    movie_title = movies_df.iloc[movie_id]['title']
    movie_genre = movies_df.iloc[movie_id]['genre']
    print(f"  {movie_title} ({movie_genre}) - Score: {score:.2f}")

# 4.4 SISTEMA H√çBRIDO
print(f"\nüîÑ Sistema H√≠brido\n")

def hybrid_recommendations(user_id, user_movie_matrix, user_factors, movie_factors, n_recommendations=5):
    """
    Combina m√∫ltiples enfoques de recomendaci√≥n
    """
    # Obtener recomendaciones de cada m√©todo
    rec_user = collaborative_filtering_users(user_id, user_movie_matrix, 10)
    rec_item = collaborative_filtering_items(user_id, user_movie_matrix, 10)
    rec_svd = svd_recommendations(user_id, user_factors, movie_factors, user_movie_matrix, 10)
    
    # Combinar scores (promedio ponderado)
    combined_scores = {}
    
    # Peso para cada m√©todo
    weights = {'user': 0.3, 'item': 0.3, 'svd': 0.4}
    
    for movie_id, score in rec_user:
        combined_scores[movie_id] = combined_scores.get(movie_id, 0) + score * weights['user']
    
    for movie_id, score in rec_item:
        combined_scores[movie_id] = combined_scores.get(movie_id, 0) + score * weights['item']
    
    for movie_id, score in rec_svd:
        combined_scores[movie_id] = combined_scores.get(movie_id, 0) + score * weights['svd']
    
    # Ordenar y devolver top recomendaciones
    recommended_movies = sorted(combined_scores.items(), key=lambda x: x[1], reverse=True)
    return recommended_movies[:n_recommendations]

recommendations_hybrid = hybrid_recommendations(user_test, user_movie_matrix, user_factors, movie_factors)

print(f"Recomendaciones H√≠bridas para Usuario {user_test}:")
for movie_id, score in recommendations_hybrid:
    movie_title = movies_df.iloc[movie_id]['title']
    movie_genre = movies_df.iloc[movie_id]['genre']
    print(f"  {movie_title} ({movie_genre}) - Score: {score:.2f}")

---

## üéØ Conclusiones y Pr√≥ximos Pasos

### üìä Lo que hemos aprendido en este m√≥dulo:

1. **‚úÖ Fundamentos del Machine Learning**
   - Tipos de aprendizaje (supervisado, no supervisado, por refuerzo)
   - Flujo de trabajo en proyectos de ML
   - Preparaci√≥n y preprocesamiento de datos

2. **‚úÖ Algoritmos de Aprendizaje Supervisado**
   - Regresi√≥n: Linear, Ridge, Random Forest, SVR
   - Clasificaci√≥n: Log√≠stica, √Årboles, Random Forest, SVM, K-NN, Naive Bayes
   - M√©tricas de evaluaci√≥n apropiadas para cada tipo

3. **‚úÖ Algoritmos de Aprendizaje No Supervisado**
   - Clustering: K-Means, Clustering Jer√°rquico
   - Reducci√≥n de dimensionalidad: PCA
   - An√°lisis de componentes principales

4. **‚úÖ Evaluaci√≥n y Validaci√≥n**
   - Validaci√≥n cruzada
   - Curvas de aprendizaje
   - Detecci√≥n de sobreajuste y subajuste

5. **‚úÖ Optimizaci√≥n de Hiperpar√°metros**
   - Grid Search exhaustivo
   - Random Search eficiente
   - Curvas de validaci√≥n

6. **‚úÖ Proyecto Integrador**
   - Sistema de recomendaciones completo
   - Filtrado colaborativo (usuarios e items)
   - Matrix Factorization (SVD)
   - Sistema h√≠brido

### üöÄ Pr√≥ximo m√≥dulo: Deep Learning

En el **M√≥dulo 7** exploraremos:
- Redes neuronales artificiales
- TensorFlow/Keras para Deep Learning
- CNNs para visi√≥n por computadora
- RNNs para secuencias y texto
- Transfer Learning
- Proyectos avanzados de Deep Learning

---

## üéØ Ejercicios Finales del M√≥dulo

### Ejercicio 1: An√°lisis comparativo de algoritmos
Usando el dataset de empleados:
1. Implementa y compara todos los algoritmos de clasificaci√≥n
2. Usa validaci√≥n cruzada para evaluar cada uno
3. Crea visualizaciones comparativas
4. Selecciona el mejor modelo y justifica tu elecci√≥n

### Ejercicio 2: Sistema de recomendaciones personalizado
1. Modifica el sistema de recomendaciones para incluir informaci√≥n demogr√°fica
2. Implementa un filtro por g√©nero de pel√≠cula preferido
3. A√±ade penalizaci√≥n por antig√ºedad de la pel√≠cula
4. Eval√∫a la calidad de las recomendaciones

### Ejercicio 3: Optimizaci√≥n avanzada
1. Implementa b√∫squeda bayesiana de hiperpar√°metros
2. Usa ensemble methods (Voting, Bagging, Boosting)
3. Compara rendimiento vs tiempo de entrenamiento
4. Crea un pipeline completo de ML

### Ejercicio 4: An√°lisis de clustering avanzado
1. Implementa DBSCAN para clustering
2. Compara con K-Means y clustering jer√°rquico
3. Usa t-SNE para visualizaci√≥n
4. Interpreta y valida los clusters encontrados

---

## üéâ ¬°Felicitaciones! Has completado el M√≥dulo 6

### üìö Resumen de habilidades adquiridas:

- **üîß Preparaci√≥n de datos**: Limpieza, escalado, codificaci√≥n
- **üéØ Modelado supervisado**: Regresi√≥n y clasificaci√≥n
- **üîç An√°lisis no supervisado**: Clustering y reducci√≥n dimensional
- **üìä Evaluaci√≥n rigurosa**: Validaci√≥n cruzada y m√©tricas
- **‚öôÔ∏è Optimizaci√≥n**: B√∫squeda de hiperpar√°metros
- **ü§ñ Proyectos reales**: Sistema de recomendaciones

### üìñ Recursos adicionales recomendados:

- **Libros**: 
  - "Hands-On Machine Learning" by Aur√©lien G√©ron
  - "The Elements of Statistical Learning" by Hastie, Tibshirani & Friedman
- **Documentaci√≥n**: Scikit-learn, XGBoost, LightGBM
- **Pr√°ctica**: Kaggle competitions, OpenML datasets
- **Comunidad**: Machine Learning subreddit, Stack Overflow

¬°Est√°s listo para Deep Learning! üöÄ

In [None]:
# ü§ñ Machine Learning con Python - M√≥dulo 6

## Bienvenido al M√≥dulo de Machine Learning

### üìö Contenido del M√≥dulo 6:
1. **Introducci√≥n al Machine Learning**
2. **Preparaci√≥n de datos para ML**
3. **Algoritmos de aprendizaje supervisado**
4. **Algoritmos de aprendizaje no supervisado**
5. **Evaluaci√≥n y validaci√≥n de modelos**
6. **Optimizaci√≥n de hiperpar√°metros**
7. **Proyecto: Sistema de recomendaciones**

### üéØ Objetivos de Aprendizaje:
- Entender los conceptos fundamentales del ML
- Dominar scikit-learn para construir modelos
- Implementar algoritmos de clasificaci√≥n y regresi√≥n
- Realizar clustering y an√°lisis de componentes principales
- Evaluar y optimizar modelos de ML
- Aplicar t√©cnicas de feature engineering
- Construir un sistema de recomendaciones completo

### üõ†Ô∏è Tecnolog√≠as y bibliotecas:
- **Scikit-learn**: Framework principal de ML
- **XGBoost**: Gradient boosting avanzado
- **Pandas & NumPy**: Manipulaci√≥n de datos
- **Matplotlib & Seaborn**: Visualizaci√≥n
- **Plotly**: Visualizaciones interactivas
- **Joblib**: Persistencia de modelos
- **SHAP**: Explicabilidad de modelos

---

## 1. üß† Introducci√≥n al Machine Learning

El Machine Learning es una rama de la inteligencia artificial que permite a las computadoras aprender y hacer predicciones o decisiones sin ser expl√≠citamente programadas para cada tarea espec√≠fica.

### üåü Tipos de Machine Learning:

1. **Aprendizaje Supervisado**: Aprendemos de datos etiquetados
   - Clasificaci√≥n: Predecir categor√≠as
   - Regresi√≥n: Predecir valores num√©ricos

2. **Aprendizaje No Supervisado**: Encontrar patrones sin etiquetas
   - Clustering: Agrupar datos similares
   - Reducci√≥n de dimensionalidad: Simplificar datos

3. **Aprendizaje por Refuerzo**: Aprender a trav√©s de recompensas
   - Agentes que interact√∫an con un entorno

### üîÑ Flujo de trabajo t√≠pico en ML:

1. **Definici√≥n del problema**: ¬øQu√© queremos predecir?
2. **Recolecci√≥n de datos**: Obtener datos relevantes
3. **Exploraci√≥n y limpieza**: Entender y preparar los datos
4. **Feature engineering**: Crear variables relevantes
5. **Selecci√≥n del modelo**: Elegir algoritmos apropiados
6. **Entrenamiento**: Ajustar el modelo a los datos
7. **Evaluaci√≥n**: Medir el rendimiento del modelo
8. **Optimizaci√≥n**: Mejorar el modelo
9. **Despliegue**: Poner el modelo en producci√≥n

---

## 2. üìä Preparaci√≥n de datos para ML

La calidad de los datos determina el √©xito de cualquier proyecto de ML. La preparaci√≥n de datos puede tomar el 80% del tiempo en un proyecto de ML.