üìä Ejercicios Pr√°cticos: √Årboles de Decisi√≥n y SVM
Aplicaci√≥n en Datasets Reales - California Housing, Diabetes y Titanic

## Introducci√≥n General

Este notebook est√° dise√±ado para que aprendas de manera pr√°ctica c√≥mo aplicar **√Årboles de Decisi√≥n** y **M√°quinas de Soporte Vectorial (SVM)** en problemas reales de Machine Learning. Usaremos tres datasets famosos: California Housing (para regresi√≥n), Diabetes (para clasificaci√≥n) y Titanic (para clasificaci√≥n con feature engineering).

**¬øPor qu√© estos modelos?**

- **√Årboles de Decisi√≥n**: Son f√°ciles de interpretar, no requieren escalado de datos y manejan tanto variables num√©ricas como categ√≥ricas. Son ideales para principiantes porque puedes visualizar las decisiones como un √°rbol.
- **SVM**: Son potentes para datos complejos y robustos a outliers, pero requieren escalado y son m√°s dif√≠ciles de interpretar. Son √∫tiles cuando la precisi√≥n es clave.

**¬øPor qu√© estos datasets?**

- **California Housing**: Problema de regresi√≥n para predecir precios de casas. Te ayudar√° a entender c√≥mo los modelos predicen valores continuos.
- **Diabetes**: Problema de clasificaci√≥n para predecir si la diabetes est√° avanzada. Es un dataset num√©rico limpio, perfecto para comparar modelos.
- **Titanic**: Problema de clasificaci√≥n para predecir supervivencia. Incluye feature engineering, lo que te ense√±a a preparar datos reales con valores faltantes y variables categ√≥ricas.

**Estructura del Notebook:**

1. Configuraci√≥n inicial: Importar librer√≠as necesarias.
2. Ejercicio 1: California Housing (Regresi√≥n).
3. Ejercicio 2: Diabetes (Clasificaci√≥n).
4. Ejercicio 3: Titanic (Clasificaci√≥n con preprocesamiento avanzado).
5. Comparaciones y conclusiones.

**Consejos para Aprender:**

- Lee las explicaciones antes de ejecutar el c√≥digo.
- Experimenta cambiando par√°metros y observa c√≥mo cambian los resultados.
- Preg√∫ntate: ¬øPor qu√© se hace esto? ¬øQu√© pasa si no lo hago?

---

## 1. Configuraci√≥n Inicial

Antes de empezar, necesitamos importar todas las librer√≠as que usaremos. Esto es como preparar tus herramientas antes de construir algo.

**Explicaci√≥n de las librer√≠as:**

- `numpy` y `pandas`: Para manejar datos num√©ricos y tablas (DataFrames).
- `matplotlib` y `seaborn`: Para crear gr√°ficos y visualizaciones.
- `sklearn`: La librer√≠a principal para Machine Learning. Incluye modelos como DecisionTree y SVM, herramientas para dividir datos (train_test_split), optimizar par√°metros (GridSearchCV) y calcular m√©tricas.
- `warnings`: Para ignorar advertencias que no son cr√≠ticas, manteniendo el output limpio.

**¬øPor qu√© usar estas librer√≠as?** Scikit-learn (sklearn) es est√°ndar en ML porque es f√°cil de usar y tiene implementaciones eficientes de algoritmos. Seaborn hace gr√°ficos bonitos y f√°ciles de leer.


In [None]:
# Configuraci√≥n inicial

# Importamos librer√≠as esenciales para datos y visualizaci√≥n
import numpy as np  # Para operaciones num√©ricas r√°pidas
import pandas as pd  # Para manejar datos en forma de tablas (DataFrames)
import matplotlib.pyplot as plt  # Para crear gr√°ficos b√°sicos
import seaborn as sns  # Para gr√°ficos m√°s avanzados y atractivos

# Importamos herramientas de scikit-learn para Machine Learning
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score  # Para dividir datos y optimizar modelos
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor, plot_tree  # Modelos de √Årboles de Decisi√≥n
from sklearn.svm import SVC, SVR  # Modelos de SVM para clasificaci√≥n (SVC) y regresi√≥n (SVR)
from sklearn.metrics import (accuracy_score, classification_report, confusion_matrix,
                             mean_squared_error, r2_score, precision_score, recall_score, f1_score)  # M√©tricas para evaluar modelos
from sklearn.preprocessing import StandardScaler, LabelEncoder  # Para escalar datos y codificar categor√≠as
from sklearn.datasets import fetch_california_housing, load_diabetes  # Datasets de ejemplo incluidos en sklearn
from sklearn.ensemble import RandomForestClassifier  # Otro modelo de ensemble (no usado aqu√≠, pero disponible)

# Configuramos el entorno para evitar advertencias innecesarias
import warnings
warnings.filterwarnings('ignore')  # Ignoramos warnings para mantener el output limpio (en producci√≥n, revisa estos warnings)

# Configuramos el estilo de los gr√°ficos para que sean m√°s atractivos
plt.style.use('seaborn-v0_8')  # Estilo de seaborn para gr√°ficos
sns.set_palette("husl")  # Paleta de colores variada y legible

# Mensaje de confirmaci√≥n para saber que todo se carg√≥ bien
print("‚úÖ Librer√≠as cargadas correctamente")


**Explicaci√≥n del c√≥digo:**

- Cada `import` trae funciones espec√≠ficas. Por ejemplo, `DecisionTreeRegressor` es para predecir n√∫meros (regresi√≥n), mientras que `DecisionTreeClassifier` es para categor√≠as (clasificaci√≥n).
- `warnings.filterwarnings('ignore')`: En un entorno de aprendizaje, ignoramos warnings para no distraernos, pero en el mundo real, siempre rev√≠salos porque pueden indicar problemas.
- `plt.style.use` y `sns.set_palette`: Hacen que los gr√°ficos se vean profesionales. ¬øPor qu√©? Porque las visualizaciones ayudan a entender los datos y resultados.

**¬øQu√© sigue?** Ahora vamos al primer ejercicio: California Housing, donde aplicaremos estos modelos para predecir precios de casas.

---

## 2. Ejercicio 1: California Housing - Predicci√≥n de Precios

Este ejercicio se centra en un problema de **regresi√≥n**: predecir el precio de las casas en California basado en caracter√≠sticas como ingresos medios, edad de las casas, etc. Usaremos el dataset incluido en scikit-learn.

**¬øPor qu√© este dataset?** Es un problema real de regresi√≥n, ideal para aprender c√≥mo los modelos predicen valores continuos. Te ayudar√° a entender m√©tricas como RMSE (error promedio) y R¬≤ (qu√© tan bien el modelo explica los datos).

**Pasos generales:**

1. Cargar y explorar los datos.
2. Visualizar relaciones.
3. Preprocesar (dividir y escalar).
4. Entrenar modelos (√Årbol y SVM).
5. Evaluar y comparar.

### 2.1 Carga y Exploraci√≥n de Datos

Primero, cargamos el dataset y lo exploramos para entender su estructura. Esto es crucial porque nos da insights sobre qu√© variables son importantes.

**Explicaci√≥n:**

- `fetch_california_housing()`: Carga el dataset directamente de sklearn. Incluye datos de casas en California con 8 caracter√≠sticas y el precio como objetivo.
- Convertimos el precio a d√≥lares multiplicando por 100,000 (el dataset original est√° en cientos de miles).
- Usamos `print` para mostrar informaci√≥n: forma (filas y columnas), nombres de columnas, rango de precios, primeras filas y estad√≠sticas descriptivas (media, mediana, etc.).
- **¬øPor qu√© explorar?** Para detectar outliers, distribuciones sesgadas o correlaciones. Por ejemplo, si una variable tiene muchos valores faltantes, tendr√≠amos que manejarlo.


In [None]:
# Cargar dataset California Housing

print("üè† EJERCICIO 1: CALIFORNIA HOUSING - PREDICCI√ìN DE PRECIOS")

# Cargar el dataset desde sklearn (incluye datos reales de casas en California)
california = fetch_california_housing()

# Convertir a DataFrame de pandas para manipulaci√≥n f√°cil
df_california = pd.DataFrame(california.data, columns=california.feature_names)

# A√±adir la columna objetivo (precio) y convertir a d√≥lares para mayor claridad
df_california['Price'] = california.target * 100000  # El target original est√° en cientos de miles, lo convertimos a d√≥lares

# Mostrar informaci√≥n b√°sica del dataset
print("üìä INFORMACI√ìN DEL DATASET:")
print(f"Forma del dataset: {df_california.shape}")  # N√∫mero de filas y columnas
print(f"Caracter√≠sticas: {list(df_california.columns)}")  # Nombres de las columnas
print(f"Rango de precios: ${df_california['Price'].min():,.0f} - ${df_california['Price'].max():,.0f}")  # Precio m√≠nimo y m√°ximo

# Mostrar las primeras 5 filas para ver ejemplos de datos
print("\nüîç PRIMERAS 5 FILAS:")
print(df_california.head())

# An√°lisis estad√≠stico: media, mediana, std, etc., para cada columna
print("\nüìà ESTAD√çSTICAS DESCRIPTIVAS:")
print(df_california.describe())


**Explicaci√≥n del c√≥digo:**

- `fetch_california_housing()`: Proporciona datos limpios y listos para usar. ¬øPor qu√© usarlo? Es est√°ndar y no requiere descarga externa.
- `df_california.describe()`: Muestra estad√≠sticas como media y desviaci√≥n est√°ndar. **¬øPor qu√©?** Para ver si hay valores extremos (outliers) que podr√≠an afectar el modelo.
- **Consejo:** Observa el rango de precios. Si es muy amplio, el modelo podr√≠a tener dificultades; eso es normal en regresi√≥n.

**¬øQu√© esperamos ver?** Caracter√≠sticas como 'MedInc' (ingreso medio) probablemente correlacionen con el precio. Las estad√≠sticas nos dir√°n si necesitamos normalizar o manejar outliers.

### 2.2 An√°lisis Exploratorio

Ahora, visualizamos las relaciones entre las caracter√≠sticas y el precio para entender patrones. Esto nos ayuda a ver si hay correlaciones lineales o no lineales, y a identificar outliers.

**Explicaci√≥n:**

- Usamos scatter plots para ver c√≥mo cada caracter√≠stica se relaciona con el precio. `alpha=0.3` hace los puntos semi-transparentes para ver densidades.
- La matriz de correlaci√≥n muestra coeficientes entre -1 y 1. Valores cercanos a 1 indican correlaci√≥n positiva fuerte (e.g., m√°s ingresos = precios m√°s altos).
- **¬øPor qu√© visualizar?** Los gr√°ficos revelan insights que las estad√≠sticas no muestran, como relaciones no lineales o clusters de datos.
- **¬øPor qu√© grid y tight_layout?** Para que los gr√°ficos se vean ordenados y no se superpongan.


In [None]:
# Visualizaci√≥n de relaciones

# Crear una figura con subplots (2 filas, 3 columnas) para 6 gr√°ficos
fig, axes = plt.subplots(2, 3, figsize=(18, 10))

# Lista de caracter√≠sticas a analizar
caracteristicas = ['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup']

# Bucle para crear scatter plots para cada caracter√≠stica vs precio
for i, feature in enumerate(caracteristicas):
    ax = axes[i//3, i%3]  # Seleccionar el subplot correcto
    ax.scatter(df_california[feature], df_california['Price'], alpha=0.3)  # Scatter plot con transparencia
    ax.set_xlabel(feature)  # Etiqueta del eje X
    ax.set_ylabel('Precio ($)')  # Etiqueta del eje Y
    ax.set_title(f'{feature} vs Precio')  # T√≠tulo del gr√°fico
    ax.grid(True, alpha=0.3)  # A√±adir grid para mejor lectura

# Ajustar el layout para que no se superpongan los gr√°ficos
plt.tight_layout()
plt.show()

# Matriz de correlaci√≥n para ver relaciones entre todas las variables
plt.figure(figsize=(10, 8))
correlation_matrix = df_california.corr()  # Calcular matriz de correlaci√≥n
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, fmt='.2f')  # Heatmap con anotaciones
plt.title('Matriz de Correlaci√≥n - California Housing')
plt.tight_layout()
plt.show()

# Imprimir observaciones iniciales basadas en los gr√°ficos
print("üîç OBSERVACIONES INICIALES:")
print("- MedInc (Ingreso medio) tiene alta correlaci√≥n con el precio")
print("- Algunas caracter√≠sticas tienen correlaci√≥n baja")
print("- Hay outliers en algunas variables como AveRooms")


**Explicaci√≥n del c√≥digo:**

- `plt.subplots(2, 3)`: Crea una grid de 6 gr√°ficos. **¬øPor qu√©?** Para comparar todas las caracter√≠sticas de manera eficiente.
- `ax.scatter`: Dibuja puntos para cada par (caracter√≠stica, precio). `alpha=0.3` evita que se vean densos.
- `sns.heatmap`: Visualiza la matriz de correlaci√≥n. Colores rojos indican correlaci√≥n positiva, azules negativa. **¬øPor qu√©?** Para identificar r√°pidamente qu√© variables influyen en el precio.
- **Consejo:** Busca correlaciones >0.5 o <-0.5. Si una variable no correlaciona, podr√≠a no ser √∫til para el modelo.

**¬øQu√© esperamos ver?** 'MedInc' deber√≠a tener correlaci√≥n alta con 'Price'. Outliers en 'AveRooms' podr√≠an indicar datos err√≥neos o extremos (e.g., casas con muchas habitaciones).

### 2.3 Preprocesamiento

Antes de entrenar los modelos, necesitamos preparar los datos: separarlos en caracter√≠sticas (X) y objetivo (y), dividir en entrenamiento y prueba, y escalar para SVM.

**Explicaci√≥n:**

- **Separar X e y:** X son las caracter√≠sticas (inputs), y es el objetivo (precio). Usamos `drop` para eliminar 'Price' de X.
- **Dividir datos:** Usamos `train_test_split` para crear conjuntos de entrenamiento (80%) y prueba (20%). `random_state=42` asegura reproducibilidad. **¬øPor qu√© dividir?** Para evaluar el modelo en datos no vistos y evitar overfitting.
- **Escalar:** SVM es sensible a escalas, as√≠ que usamos `StandardScaler` para normalizar (media=0, std=1). √Årboles no lo necesitan, pero lo preparamos para ambos. **¬øPor qu√© escalar para SVM?** Variables con escalas grandes dominan el modelo; escalar las hace comparables.
- `test_size=0.2`: 20% para prueba es est√°ndar. `stratify` no se usa aqu√≠ porque es regresi√≥n.


In [None]:
# Preparar datos para modelos

# Separar caracter√≠sticas (X) y objetivo (y)
X_house = df_california.drop('Price', axis=1)  # X: todas las columnas excepto 'Price'
y_house = df_california['Price']  # y: la columna 'Price' (objetivo)

# Dividir en entrenamiento y prueba (80% train, 20% test)
X_house_train, X_house_test, y_house_train, y_house_test = train_test_split(
    X_house, y_house, test_size=0.2, random_state=42  # random_state para reproducibilidad
)

# Escalar caracter√≠sticas (importante para SVM, no para √Årboles)
scaler_house = StandardScaler()  # Inicializar el escalador
X_house_train_scaled = scaler_house.fit_transform(X_house_train)  # Ajustar y transformar train
X_house_test_scaled = scaler_house.transform(X_house_test)  # Solo transformar test (para evitar data leakage)

# Confirmar que los datos est√°n listos
print("‚úÖ DATOS PREPARADOS:")
print(f"Entrenamiento: {X_house_train.shape[0]} muestras")  # N√∫mero de filas en train
print(f"Prueba: {X_house_test.shape[0]} muestras")  # N√∫mero de filas en test
print(f"Caracter√≠sticas: {X_house_train.shape[1]}")  # N√∫mero de columnas en X


**Explicaci√≥n del c√≥digo:**

- `drop('Price', axis=1)`: Elimina la columna 'Price' de X. **¬øPor qu√©?** El modelo no debe ver el objetivo durante el entrenamiento.
- `train_test_split`: Divide aleatoriamente pero reproduciblemente. **¬øPor qu√© random_state?** Para que los resultados sean consistentes al reejecutar.
- `StandardScaler`: Transforma datos a media 0 y std 1. `fit_transform` en train aprende la media/std y transforma; `transform` en test usa los mismos valores. **¬øPor qu√© no fit en test?** Para simular datos reales no vistos.
- **Consejo:** Siempre escala despu√©s de dividir para evitar "data leakage" (el modelo ve info de test).

**¬øQu√© sigue?** Ahora entrenamos los modelos: primero el √Årbol de Decisi√≥n.

### 2.4 Modelo: √Årbol de Decisi√≥n para Regresi√≥n

Entrenamos un √Årbol de Decisi√≥n para predecir precios. Usamos GridSearchCV para encontrar los mejores par√°metros y evaluamos con m√©tricas de regresi√≥n.

**Explicaci√≥n:**

- **DecisionTreeRegressor:** Modelo para regresi√≥n. Divide los datos en nodos basados en caracter√≠sticas para predecir valores continuos.
- **GridSearchCV:** Prueba combinaciones de par√°metros para encontrar el mejor modelo. **¬øPor qu√©?** Para optimizar y evitar overfitting. Usamos 'neg_mean_squared_error' porque GridSearch maximiza, pero MSE es minimizado.
- **Par√°metros probados:** 'max_depth' limita la profundidad del √°rbol (evita overfitting); 'min_samples_split' y 'min_samples_leaf' controlan splits (evitan √°rboles demasiado complejos).
- **M√©tricas:** RMSE (error promedio en d√≥lares), R¬≤ (proporci√≥n de varianza explicada, 1 es perfecto).
- **Importancia de caracter√≠sticas:** Muestra qu√© variables son m√°s influyentes. **¬øPor qu√©?** Para entender el modelo y posiblemente simplificarlo.


In [None]:
# √Årbol de Decisi√≥n para regresi√≥n

print("üå≥ ENTRENANDO √ÅRBOL DE DECISI√ìN (REGRESI√ìN)")

# Definir par√°metros a probar para optimizaci√≥n
param_grid_tree = {
    'max_depth': [3, 5, 7, 10, 15],  # Profundidad m√°xima del √°rbol (m√°s profundo = m√°s complejo)
    'min_samples_split': [2, 5, 10],  # M√≠nimo muestras para dividir un nodo
    'min_samples_leaf': [1, 2, 4]  # M√≠nimo muestras en una hoja
}

# Inicializar el modelo base
tree_reg = DecisionTreeRegressor(random_state=42)  # random_state para reproducibilidad

# Usar GridSearchCV para encontrar los mejores par√°metros
grid_tree = GridSearchCV(tree_reg, param_grid_tree, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_tree.fit(X_house_train, y_house_train)  # Entrenar con datos de entrenamiento

# Obtener el mejor modelo encontrado
best_tree = grid_tree.best_estimator_
y_pred_tree = best_tree.predict(X_house_test)  # Predecir en datos de prueba

# Calcular m√©tricas de evaluaci√≥n
mse_tree = mean_squared_error(y_house_test, y_pred_tree)  # Error cuadr√°tico medio
rmse_tree = np.sqrt(mse_tree)  # Ra√≠z del MSE (en d√≥lares)
r2_tree = r2_score(y_house_test, y_pred_tree)  # Coeficiente de determinaci√≥n

# Imprimir resultados
print(f"‚úÖ MEJORES PAR√ÅMETROS: {grid_tree.best_params_}")
print(f"üìä RESULTADOS √ÅRBOL:")
print(f" RMSE: ${rmse_tree:,.0f}")  # Error promedio en d√≥lares
print(f" R¬≤: {r2_tree:.3f}")  # Proporci√≥n de varianza explicada

# Visualizar importancia de caracter√≠sticas
importancia = pd.DataFrame({
    'caracteristica': X_house.columns,  # Nombres de las caracter√≠sticas
    'importancia': best_tree.feature_importances_  # Importancia calculada por el modelo
}).sort_values('importancia', ascending=False)  # Ordenar de mayor a menor

plt.figure(figsize=(10, 6))
plt.barh(importancia['caracteristica'], importancia['importancia'])  # Gr√°fico de barras horizontal
plt.xlabel('Importancia')
plt.title('Importancia de Caracter√≠sticas - √Årbol de Decisi√≥n')
plt.gca().invert_yaxis()  # Invertir eje Y para que la m√°s importante est√© arriba
plt.grid(True, alpha=0.3, axis='x')  # Grid para mejor lectura
plt.show()


**Explicaci√≥n del c√≥digo:**

- `GridSearchCV:** Prueba todas las combinaciones de par√°metros (e.g., 5x3x3=45 modelos). cv=5 usa validaci√≥n cruzada. **¬øPor qu√© cv=5?\*\* Para una evaluaci√≥n robusta sin usar datos de prueba.
- `best_tree.predict:** Usa el modelo optimizado para predecir. **¬øPor qu√© no usar train para predecir?\*\* Para evaluar generalizaci√≥n.
- `mean_squared_error` y `r2_score:\*\* M√©tricas est√°ndar para regresi√≥n. RMSE es interpretable (en unidades del objetivo); R¬≤ indica qu√© tan bien el modelo se ajusta (0=mal, 1=perfecto).
- `feature*importances*:** √Årboles calculan importancia basada en c√≥mo reducen el error. **¬øPor qu√© visualizar?\*\* Para ver si el modelo usa las variables esperadas (e.g., 'MedInc' deber√≠a ser alta).
- **Consejo:** Si R¬≤ es bajo, el modelo no explica bien los datos; prueba m√°s par√°metros o feature engineering.

**¬øQu√© esperamos ver?** Un RMSE bajo (e.g., <50,000) y R¬≤ alto (e.g., >0.5). La importancia deber√≠a resaltar 'MedInc'.

### 2.5 Modelo: SVM para Regresi√≥n

Ahora entrenamos un SVM para regresi√≥n. SVM usa un kernel para mapear datos a un espacio de mayor dimensi√≥n donde son linealmente separables.

**Explicaci√≥n:**

- **SVR (Support Vector Regressor):** Versi√≥n de SVM para regresi√≥n. Encuentra un hiperplano que maximice el margen, pero permite errores dentro de un umbral (epsilon).
- **GridSearchCV:** Optimiza par√°metros como C (penalizaci√≥n por errores), gamma (influencia de un punto) y kernel (forma de la funci√≥n).
- **Par√°metros probados:** C alto penaliza errores m√°s; gamma alto hace el modelo m√°s complejo; kernel 'rbf' es no lineal, 'linear' es lineal.
- **M√©tricas:** Mismas que el √Årbol (RMSE, R¬≤). SVM puede ser m√°s preciso pero m√°s lento.
- **Escalado:** Usamos datos escalados porque SVM es sensible a escalas.


In [None]:
# SVM para regresi√≥n

print("üéØ ENTRENANDO SVM (REGRESI√ìN)")

# Definir par√°metros a probar para optimizaci√≥n
param_grid_svm = {
    'C': [0.1, 1, 10, 100],  # Penalizaci√≥n por errores (m√°s alto = menos tolerancia)
    'gamma': ['scale', 'auto', 0.1, 0.01],  # Influencia de un punto (m√°s alto = m√°s complejo)
    'kernel': ['rbf', 'linear']  # Tipo de kernel: 'rbf' para no lineal, 'linear' para lineal
}

# Inicializar el modelo SVR
svm_reg = SVR()

# Usar GridSearchCV para encontrar los mejores par√°metros
grid_svm = GridSearchCV(svm_reg, param_grid_svm, cv=3, scoring='neg_mean_squared_error', n_jobs=-1)
grid_svm.fit(X_house_train_scaled, y_house_train)  # Entrenar con datos escalados

# Obtener el mejor modelo
best_svm = grid_svm.best_estimator_
y_pred_svm = best_svm.predict(X_house_test_scaled)  # Predecir en datos de prueba escalados

# Calcular m√©tricas
mse_svm = mean_squared_error(y_house_test, y_pred_svm)  # Error cuadr√°tico medio
rmse_svm = np.sqrt(mse_svm)  # Ra√≠z del MSE
r2_svm = r2_score(y_house_test, y_pred_svm)  # R¬≤

# Imprimir resultados
print(f"‚úÖ MEJORES PAR√ÅMETROS: {grid_svm.best_params_}")
print(f"üìä RESULTADOS SVM:")
print(f" RMSE: ${rmse_svm:,.0f}")
print(f" R¬≤: {r2_svm:.3f}")


**Explicaci√≥n del c√≥digo:**

- `param_grid_svm:\*\* Prueba combinaciones (e.g., 4x4x2=32 modelos). cv=3 es m√°s r√°pido que cv=5 para SVM, ya que son lentos.
- `SVR():** Usa kernel 'rbf' por defecto. **¬øPor qu√© kernel?\*\* Para capturar relaciones no lineales en los datos.
- `fit con datos escalados:** SVM requiere escalado para funcionar bien. **¬øPor qu√©?\*\* Variables con escalas diferentes afectan el c√°lculo del margen.
- `predict en test escalado:\*\* Asegura consistencia.
- **Consejo:** Si el modelo es lento, reduce el grid o usa cv=3. Compara RMSE y R¬≤ con el √Årbol.

**¬øQu√© esperamos ver?** SVM podr√≠a tener RMSE similar o mejor que el √Årbol, pero toma m√°s tiempo. R¬≤ alto indica buen ajuste.

### 2.6 Comparaci√≥n y An√°lisis

Finalmente, comparamos los resultados de ambos modelos para ver cu√°l es mejor en este dataset.

**Explicaci√≥n:**

- **DataFrame de resultados:** Creamos una tabla con m√©tricas para comparar f√°cilmente.
- **Gr√°ficos de barras:** Visualizamos R¬≤ (cuanto m√°s alto mejor) y RMSE (cuanto m√°s bajo mejor). Colores diferentes para distinguir modelos.
- **Textos en barras:** A√±adimos valores exactos para precisi√≥n.
- **Conclusiones:** Basadas en m√©tricas, determinamos el mejor modelo. **¬øPor qu√© comparar?** Para elegir el modelo m√°s adecuado para el problema.


In [None]:
# Comparaci√≥n de modelos

print("üìä COMPARACI√ìN FINAL - CALIFORNIA HOUSING")

# Crear DataFrame con resultados para comparaci√≥n
resultados_california = pd.DataFrame({
    'Modelo': ['√Årbol de Decisi√≥n', 'SVM'],
    'RMSE': [rmse_tree, rmse_svm],  # Error promedio en d√≥lares
    'R¬≤': [r2_tree, r2_svm]  # Proporci√≥n de varianza explicada
})

print(resultados_california)  # Mostrar tabla de resultados

# Visualizaci√≥n comparativa
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Comparaci√≥n R¬≤ (m√°s alto es mejor)
axes[0].bar(resultados_california['Modelo'], resultados_california['R¬≤'], color=['skyblue', 'lightcoral'])
axes[0].set_ylabel('R¬≤ Score')
axes[0].set_title('Comparaci√≥n: R¬≤ Score')
axes[0].grid(True, alpha=0.3)

# Comparaci√≥n RMSE (m√°s bajo es mejor)
axes[1].bar(resultados_california['Modelo'], resultados_california['RMSE'], color=['skyblue', 'lightcoral'])
axes[1].set_ylabel('RMSE ($)')
axes[1].set_title('Comparaci√≥n: Error (RMSE)')
axes[1].grid(True, alpha=0.3)

# A√±adir valores exactos en las barras
for i, (modelo, r2, rmse) in enumerate(zip(resultados_california['Modelo'],
                                            resultados_california['R¬≤'],
                                            resultados_california['RMSE'])):
    axes[0].text(i, r2 + 0.01, f'{r2:.3f}', ha='center', va='bottom')  # Texto para R¬≤
    axes[1].text(i, rmse + 1000, f'${rmse:,.0f}', ha='center', va='bottom')  # Texto para RMSE

plt.tight_layout()
plt.show()

# Conclusiones basadas en m√©tricas
print("üí° CONCLUSIONES CALIFORNIA HOUSING:")
print(f"‚Ä¢ Mejor modelo: {'√Årbol de Decisi√≥n' if r2_tree > r2_svm else 'SVM'}")
print(f"‚Ä¢ El error promedio es de aproximadamente ${min(rmse_tree, rmse_svm):,.0f}")
print(f"‚Ä¢ El modelo explica el {max(r2_tree, r2_svm)*100:.1f}% de la variaci√≥n en los precios")


**Explicaci√≥n del c√≥digo:**

- `pd.DataFrame:** Crea una tabla para comparar m√©tricas. **¬øPor qu√©?\*\* Facilita la lectura de resultados.
- `plt.subplots(1, 2):** Dos gr√°ficos lado a lado. **¬øPor qu√©?\*\* Para comparar R¬≤ y RMSE visualmente.
- `axes[0].bar:\*\* Gr√°fico de barras para R¬≤. Color 'skyblue' para √Årbol, 'lightcoral' para SVM.
- `axes[1].bar:** Gr√°fico para RMSE. **¬øPor qu√© invertir colores?\*\* Para consistencia.
- `text:** A√±ade valores en las barras. **¬øPor qu√©?\*\* Para ver n√∫meros exactos sin leer el DataFrame.
- **Conclusiones:** Usa condicionales para determinar el mejor basado en R¬≤ (m√°s alto gana). **¬øPor qu√© R¬≤?** Indica qu√© tan bien el modelo explica los datos.

**¬øQu√© esperamos ver?** El √Årbol podr√≠a ser mejor en interpretabilidad, SVM en precisi√≥n. El error promedio nos dice cu√°nto se equivoca el modelo en d√≥lares.

---

## 3. Ejercicio 2: Diabetes - Predicci√≥n de Enfermedad

Este ejercicio es un problema de **clasificaci√≥n**: predecir si la diabetes est√° avanzada basado en caracter√≠sticas m√©dicas. Convertimos el dataset de regresi√≥n a binario para clasificaci√≥n.

**¬øPor qu√© este dataset?** Es un dataset num√©rico limpio de sklearn, ideal para comparar modelos en clasificaci√≥n. Te ense√±a a convertir problemas de regresi√≥n a clasificaci√≥n.

**Pasos generales:**

1. Cargar y explorar los datos.
2. Visualizar distribuciones por clase.
3. Preprocesar (dividir y escalar).
4. Entrenar modelos (√Årbol y SVM).
5. Evaluar y comparar.

### 3.1 Carga y Exploraci√≥n de Datos

Cargamos el dataset Diabetes y lo convertimos a un problema binario para clasificaci√≥n.

**Explicaci√≥n:**

- `load_diabetes()`: Carga datos de progresi√≥n de diabetes. Originalmente para regresi√≥n, lo convertimos a binario usando la mediana como umbral.
- **Convertir a binario:** Valores > mediana = 1 (avanzada), <= mediana = 0 (no avanzada). **¬øPor qu√©?** Para hacer un problema de clasificaci√≥n.
- Mostramos forma, caracter√≠sticas, distribuci√≥n de clases, primeras filas y estad√≠sticas.
- **¬øPor qu√© explorar?** Para ver balance de clases y distribuciones.


In [None]:
# Cargar dataset Diabetes

print("\n" + "="*60)
print("ü©∫ EJERCICIO 2: DIABETES - PREDICCI√ìN DE ENFERMEDAD")

# Cargar el dataset desde sklearn (datos de progresi√≥n de diabetes)
diabetes = load_diabetes()
df_diabetes = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df_diabetes['target'] = diabetes.target  # A√±adir la columna objetivo (progresi√≥n de diabetes)

# Para clasificaci√≥n, convertimos en problema binario
# Valores altos de target indican mayor progresi√≥n de diabetes
umbral = df_diabetes['target'].median()  # Usar mediana como umbral
df_diabetes['diabetes_avanzada'] = (df_diabetes['target'] > umbral).astype(int)  # 1 si avanzada, 0 si no

# Mostrar informaci√≥n del dataset
print("üìä INFORMACI√ìN DEL DATASET:")
print(f"Forma del dataset: {df_diabetes.shape}")  # Filas y columnas
print(f"Caracter√≠sticas: {list(diabetes.feature_names)}")  # Nombres de variables
print(f"Distribuci√≥n de clases:")
print(df_diabetes['diabetes_avanzada'].value_counts())  # Conteo de 0 y 1

# Mostrar las primeras 5 filas
print("\nüîç PRIMERAS 5 FILAS:")
print(df_diabetes.head())


**Explicaci√≥n del c√≥digo:**

- `load_diabetes():` Proporciona datos m√©dicos estandarizados. **¬øPor qu√© usarlo?** Es limpio y no requiere preprocesamiento inicial.
- `umbral = df_diabetes['target'].median():` Mediana asegura balance aproximado de clases. **¬øPor qu√© mediana?** Para evitar sesgo si hay outliers.
- `astype(int):` Convierte booleanos a enteros (0/1).
- **Consejo:** Observa la distribuci√≥n de clases. Si est√° desbalanceada, considera t√©cnicas como oversampling.

**¬øQu√© esperamos ver?** Clases balanceadas (alrededor de 50% cada una). Caracter√≠sticas como 'bmi' (IMC) podr√≠an correlacionar con diabetes avanzada.

### 3.2 An√°lisis Exploratorio

Visualizamos las distribuciones de las caracter√≠sticas por clase para ver diferencias entre diabetes avanzada y no avanzada.

**Explicaci√≥n:**

- **Boxplots:** Muestran la distribuci√≥n de cada caracter√≠stica por clase. La caja representa el 50% central, la l√≠nea la mediana, y los bigotes los extremos.
- **Matriz de correlaci√≥n:** Similar a antes, pero ahora incluye la nueva columna 'diabetes_avanzada'.
- **¬øPor qu√© boxplots?** Para ver si hay diferencias en las distribuciones (e.g., BMI m√°s alto en diabetes avanzada).
- **¬øPor qu√© grid?** Para organizar m√∫ltiples gr√°ficos.


In [None]:
# An√°lisis exploratorio diabetes

# Crear figura con subplots para boxplots
fig, axes = plt.subplots(2, 3, figsize=(18, 10))

# Lista de caracter√≠sticas a analizar
caracteristicas_diabetes = ['age', 'bmi', 'bp', 's1', 's2', 's3']

# Bucle para crear boxplots por clase
for i, feature in enumerate(caracteristicas_diabetes):
    ax = axes[i//3, i%3]  # Seleccionar subplot
    # Datos para cada clase
    data_to_plot = [df_diabetes[df_diabetes['diabetes_avanzada'] == 0][feature],
                   df_diabetes[df_diabetes['diabetes_avanzada'] == 1][feature]]
    ax.boxplot(data_to_plot, labels=['No Avanzada', 'Avanzada'])  # Boxplot con etiquetas
    ax.set_ylabel(feature)  # Etiqueta del eje Y
    ax.set_title(f'Distribuci√≥n de {feature} por Clase')  # T√≠tulo
    ax.grid(True, alpha=0.3)  # Grid para mejor lectura

plt.tight_layout()
plt.show()

# Matriz de correlaci√≥n para ver relaciones
plt.figure(figsize=(10, 8))
corr_diabetes = df_diabetes.corr()  # Calcular correlaci√≥n
sns.heatmap(corr_diabetes, annot=True, cmap='coolwarm', center=0, fmt='.2f')  # Heatmap
plt.title('Matriz de Correlaci√≥n - Diabetes')
plt.tight_layout()
plt.show()


**Explicaci√≥n del c√≥digo:**

- `plt.subplots(2, 3):` Crea 6 gr√°ficos. **¬øPor qu√©?** Para comparar todas las caracter√≠sticas.
- `ax.boxplot:** Dibuja cajas para cada clase. **¬øPor qu√©?\*\* Para ver si hay separaci√≥n entre clases (e.g., BMI m√°s alto en avanzada).
- `sns.heatmap:** Visualiza correlaciones. **¬øPor qu√©?\*\* Para ver qu√© variables correlacionan con 'diabetes_avanzada'.
- **Consejo:** Busca diferencias en medianas o outliers entre clases. Si no hay separaci√≥n, el modelo podr√≠a tener dificultades.

**¬øQu√© esperamos ver?** 'bmi' y 'bp' podr√≠an tener distribuciones diferentes por clase. Correlaciones con 'diabetes_avanzada' indican variables √∫tiles.

### 3.3 Preprocesamiento

Preparamos los datos para clasificaci√≥n: separamos X e y, dividimos en train/test con estratificaci√≥n, y escalamos para SVM.

**Explicaci√≥n:**

- **Separar X e y:** X son las caracter√≠sticas (sin 'target' ni 'diabetes_avanzada'), y es la clase binaria.
- **Dividir datos:** 70% train, 30% test. `stratify=y_diabetes` asegura balance de clases en ambos sets. **¬øPor qu√© estratificar?** Para que train y test tengan la misma proporci√≥n de clases.
- **Escalar:** SVM necesita escalado; √Årboles no, pero lo preparamos.
- **¬øPor qu√© test_size=0.3?** M√°s datos para test en clasificaci√≥n para evaluar mejor.


In [None]:
# Preparar datos para clasificaci√≥n

# Separar caracter√≠sticas (X) y objetivo (y)
X_diabetes = df_diabetes.drop(['target', 'diabetes_avanzada'], axis=1)  # X: caracter√≠sticas originales
y_diabetes = df_diabetes['diabetes_avanzada']  # y: clase binaria

# Dividir en entrenamiento y prueba (70% train, 30% test) con estratificaci√≥n
X_diab_train, X_diab_test, y_diab_train, y_diab_test = train_test_split(
    X_diabetes, y_diabetes, test_size=0.3, random_state=42, stratify=y_diabetes  # stratify para balance de clases
)

# Escalar caracter√≠sticas para SVM
scaler_diab = StandardScaler()  # Inicializar escalador
X_diab_train_scaled = scaler_diab.fit_transform(X_diab_train)  # Ajustar y transformar train
X_diab_test_scaled = scaler_diab.transform(X_diab_test)  # Solo transformar test

# Confirmar preparaci√≥n
print("‚úÖ DATOS DIABETES PREPARADOS:")
print(f"Entrenamiento: {X_diab_train.shape[0]} muestras")  # N√∫mero de filas en train
print(f"Prueba: {X_diab_test.shape[0]} muestras")  # N√∫mero de filas en test
print(f"Proporci√≥n clases entrenamiento: {y_diab_train.value_counts(normalize=True).to_dict()}")  # Balance de clases


**Explicaci√≥n del c√≥digo:**

- `drop(['target', 'diabetes_avanzada'], axis=1):` Elimina columnas no necesarias. **¬øPor qu√©?** 'target' es el original, 'diabetes_avanzada' es y.
- `stratify=y_diabetes:` Mantiene proporci√≥n de clases. **¬øPor qu√©?** Evita que un set tenga solo una clase.
- `StandardScaler:` Normaliza datos. **¬øPor qu√©?** SVM funciona mejor con escalas similares.
- **Consejo:** Verifica el balance de clases. Si desbalanceado, considera t√©cnicas como SMOTE.

**¬øQu√© sigue?** Entrenamos los modelos de clasificaci√≥n.

### 3.4 Modelo: √Årbol de Decisi√≥n para Clasificaci√≥n

Entrenamos un √Årbol de Decisi√≥n para clasificar diabetes avanzada. Usamos GridSearchCV para optimizar par√°metros y evaluamos con m√©tricas de clasificaci√≥n.

**Explicaci√≥n:**

- **DecisionTreeClassifier:** Modelo para clasificaci√≥n. Usa criterios como 'gini' o 'entropy' para dividir nodos.
- **GridSearchCV:** Prueba par√°metros para maximizar exactitud. **¬øPor qu√©?** Para evitar overfitting y mejorar generalizaci√≥n.
- **Par√°metros probados:** 'max_depth' limita complejidad; 'min_samples_split' y 'criterion' controlan splits y medida de impureza.
- **M√©tricas:** Exactitud (porcentaje correcto), Precisi√≥n (de positivos predichos, cu√°ntos son reales), Recall (de positivos reales, cu√°ntos predice), F1-Score (balance de precisi√≥n y recall).
- **Matriz de confusi√≥n:** Muestra verdaderos positivos, falsos positivos, etc. **¬øPor qu√©?** Para ver errores espec√≠ficos.


In [None]:
# √Årbol de Decisi√≥n para clasificaci√≥n

print("üå≥ ENTRENANDO √ÅRBOL DE DECISI√ìN (CLASIFICACI√ìN)")

# Definir par√°metros a probar
param_grid_tree_clf = {
    'max_depth': [3, 5, 7, 10],  # Profundidad m√°xima
    'min_samples_split': [2, 5, 10],  # M√≠nimo muestras para split
    'criterion': ['gini', 'entropy']  # Criterio de divisi√≥n: gini (default) o entropy
}

# Inicializar modelo
tree_clf = DecisionTreeClassifier(random_state=42)  # random_state para reproducibilidad

# Optimizar con GridSearchCV
grid_tree_clf = GridSearchCV(tree_clf, param_grid_tree_clf, cv=5, scoring='accuracy', n_jobs=-1)
grid_tree_clf.fit(X_diab_train, y_diab_train)  # Entrenar

# Mejor modelo y predicciones
best_tree_clf = grid_tree_clf.best_estimator_
y_pred_tree_clf = best_tree_clf.predict(X_diab_test)  # Predecir en test

# Calcular m√©tricas
accuracy_tree = accuracy_score(y_diab_test, y_pred_tree_clf)  # Exactitud
precision_tree = precision_score(y_diab_test, y_pred_tree_clf)  # Precisi√≥n
recall_tree = recall_score(y_diab_test, y_pred_tree_clf)  # Recall
f1_tree = f1_score(y_diab_test, y_pred_tree_clf)  # F1-Score

# Imprimir resultados
print(f"‚úÖ MEJORES PAR√ÅMETROS: {grid_tree_clf.best_params_}")
print(f"üìä RESULTADOS √ÅRBOL:")
print(f" Exactitud: {accuracy_tree:.3f}")
print(f" Precisi√≥n: {precision_tree:.3f}")
print(f" Recall: {recall_tree:.3f}")
print(f" F1-Score: {f1_tree:.3f}")

# Matriz de confusi√≥n
cm_tree = confusion_matrix(y_diab_test, y_pred_tree_clf)  # Calcular matriz
plt.figure(figsize=(8, 6))
sns.heatmap(cm_tree, annot=True, fmt='d', cmap='Blues',  # Heatmap con n√∫meros
            xticklabels=['No Avanzada', 'Avanzada'],
            yticklabels=['No Avanzada', 'Avanzada'])
plt.title('Matriz de Confusi√≥n - √Årbol de Decisi√≥n (Diabetes)')
plt.ylabel('Real')  # Etiqueta Y: valores reales
plt.xlabel('Predicci√≥n')  # Etiqueta X: valores predichos
plt.show()


**Explicaci√≥n del c√≥digo:**

- `param_grid_tree_clf:\*\* Prueba combinaciones (e.g., 4x3x2=24 modelos). cv=5 para validaci√≥n robusta.
- `DecisionTreeClassifier:** Usa 'gini' por defecto. **¬øPor qu√© criterion?\*\* 'gini' es m√°s r√°pido; 'entropy' es m√°s informativo.
- `grid_tree_clf.fit:\*\* Entrena con datos no escalados (√Årboles no lo necesitan).
- `predict:\*\* Clasifica en 0 o 1.
- `accuracy_score, etc.:** M√©tricas para clasificaci√≥n. **¬øPor qu√© m√∫ltiples?\*\* Exactitud es general; precisi√≥n/recall para clases desbalanceadas.
- `confusion_matrix:** Filas = real, columnas = predicho. **¬øPor qu√© visualizar?\*\* Para ver falsos positivos/negativos.
- **Consejo:** Si recall es bajo, el modelo pierde muchos positivos reales; ajusta par√°metros.

**¬øQu√© esperamos ver?** Exactitud >0.7, matriz con m√°s aciertos en diagonal. 'bmi' podr√≠a ser importante.

### 3.5 Modelo: SVM para Clasificaci√≥n

Entrenamos un SVM para clasificar diabetes avanzada. SVM es efectivo para datos num√©ricos limpios como este.

**Explicaci√≥n:**

- **SVC (Support Vector Classifier):** Versi√≥n de SVM para clasificaci√≥n. Encuentra el hiperplano que maximice el margen entre clases.
- **GridSearchCV:** Optimiza par√°metros para maximizar exactitud. **¬øPor qu√©?** Para encontrar el mejor modelo.
- **Par√°metros probados:** C (penalizaci√≥n por errores), gamma (influencia), kernel (forma de la funci√≥n).
- **M√©tricas:** Mismas que el √Årbol. SVM podr√≠a ser m√°s preciso en datos limpios.
- **Matriz de confusi√≥n:** Similar al √Årbol, pero con colores diferentes para distinguir.


In [None]:
# SVM para clasificaci√≥n

print("üéØ ENTRENANDO SVM (CLASIFICACI√ìN)")

# Definir par√°metros a probar
param_grid_svm_clf = {
    'C': [0.1, 1, 10, 100],  # Penalizaci√≥n por errores (m√°s alto = menos tolerancia)
    'gamma': ['scale', 'auto', 0.1, 0.01],  # Influencia de un punto
    'kernel': ['rbf', 'linear']  # Kernel: 'rbf' para no lineal, 'linear' para lineal
}

# Inicializar modelo
svm_clf = SVC(random_state=42)  # random_state para reproducibilidad

# Optimizar con GridSearchCV
grid_svm_clf = GridSearchCV(svm_clf, param_grid_svm_clf, cv=5, scoring='accuracy', n_jobs=-1)
grid_svm_clf.fit(X_diab_train_scaled, y_diab_train)  # Entrenar con datos escalados

# Mejor modelo y predicciones
best_svm_clf = grid_svm_clf.best_estimator_
y_pred_svm_clf = best_svm_clf.predict(X_diab_test_scaled)  # Predecir en test escalado

# Calcular m√©tricas
accuracy_svm = accuracy_score(y_diab_test, y_pred_svm_clf)  # Exactitud
precision_svm = precision_score(y_diab_test, y_pred_svm_clf)  # Precisi√≥n
recall_svm = recall_score(y_diab_test, y_pred_svm_clf)  # Recall
f1_svm = f1_score(y_diab_test, y_pred_svm_clf)  # F1-Score

# Imprimir resultados
print(f"‚úÖ MEJORES PAR√ÅMETROS: {grid_svm_clf.best_params_}")
print(f"üìä RESULTADOS SVM:")
print(f" Exactitud: {accuracy_svm:.3f}")
print(f" Precisi√≥n: {precision_svm:.3f}")
print(f" Recall: {recall_svm:.3f}")
print(f" F1-Score: {f1_svm:.3f}")

# Matriz de confusi√≥n
cm_svm = confusion_matrix(y_diab_test, y_pred_svm_clf)  # Calcular matriz
plt.figure(figsize=(8, 6))
sns.heatmap(cm_svm, annot=True, fmt='d', cmap='Reds',  # Heatmap con colores rojos
            xticklabels=['No Avanzada', 'Avanzada'],
            yticklabels=['No Avanzada', 'Avanzada'])
plt.title('Matriz de Confusi√≥n - SVM (Diabetes)')
plt.ylabel('Real')  # Etiqueta Y: valores reales
plt.xlabel('Predicci√≥n')  # Etiqueta X: valores predichos
plt.show()


**Explicaci√≥n del c√≥digo:**

- `param_grid_svm_clf:\*\* Prueba combinaciones (e.g., 4x4x2=32 modelos). cv=5 para validaci√≥n.
- `SVC:** Usa kernel 'rbf' por defecto. **¬øPor qu√© kernel?\*\* Para capturar relaciones no lineales.
- `fit con datos escalados:** SVM requiere escalado. **¬øPor qu√©?\*\* Para calcular m√°rgenes correctamente.
- `predict:\*\* Clasifica en 0 o 1.
- `accuracy_score, etc.:\*\* Mismas m√©tricas que el √Årbol.
- `confusion_matrix:\*\* Similar al √Årbol, pero cmap='Reds' para diferenciar.
- **Consejo:** Compara con el √Årbol. SVM podr√≠a tener mejor exactitud en datos num√©ricos.

**¬øQu√© esperamos ver?** Exactitud similar o mejor que el √Årbol, matriz con aciertos en diagonal.

### 3.6 Comparaci√≥n y An√°lisis

Comparamos los modelos para Diabetes usando m√∫ltiples m√©tricas de clasificaci√≥n.

**Explicaci√≥n:**

- **DataFrame de resultados:** Tabla con m√©tricas para ambos modelos.
- **Gr√°ficos de barras:** 2x2 grid para comparar Exactitud, Precisi√≥n, Recall y F1-Score. **¬øPor qu√© m√∫ltiples m√©tricas?** Para evaluar balance entre precisi√≥n y recall.
- **Textos en barras:** Valores exactos para claridad.
- **Conclusiones:** Basadas en exactitud, determinamos el mejor. **¬øPor qu√© exactitud?** Es la m√©trica principal para clasificaci√≥n balanceada.


In [None]:
# Comparaci√≥n de modelos diabetes

print("üìä COMPARACI√ìN FINAL - DIABETES")

# Crear DataFrame con m√©tricas
resultados_diabetes = pd.DataFrame({
    'Modelo': ['√Årbol de Decisi√≥n', 'SVM'],
    'Exactitud': [accuracy_tree, accuracy_svm],  # Porcentaje de predicciones correctas
    'Precisi√≥n': [precision_tree, precision_svm],  # De positivos predichos, cu√°ntos son reales
    'Recall': [recall_tree, recall_svm],  # De positivos reales, cu√°ntos predice
    'F1-Score': [f1_tree, f1_svm]  # Balance de precisi√≥n y recall
})

print(resultados_diabetes)  # Mostrar tabla

# Visualizaci√≥n comparativa
fig, axes = plt.subplots(2, 2, figsize=(15, 10))  # 2x2 grid de gr√°ficos
metricas = ['Exactitud', 'Precisi√≥n', 'Recall', 'F1-Score']  # M√©tricas a comparar

for i, metrica in enumerate(metricas):
    ax = axes[i//2, i%2]  # Seleccionar subplot
    valores = resultados_diabetes[metrica]  # Valores para la m√©trica
    bars = ax.bar(resultados_diabetes['Modelo'], valores,  # Gr√°fico de barras
                  color=['skyblue', 'lightcoral'])
    ax.set_ylabel(metrica)  # Etiqueta Y
    ax.set_title(f'Comparaci√≥n: {metrica}')  # T√≠tulo
    ax.set_ylim(0, 1)  # L√≠mite Y de 0 a 1
    ax.grid(True, alpha=0.3)  # Grid

    # A√±adir valores en las barras
    for bar, valor in zip(bars, valores):
        ax.text(bar.get_x() + bar.get_width()/2, valor + 0.01,
                f'{valor:.3f}', ha='center', va='bottom')  # Texto con valor

plt.tight_layout()
plt.show()

# Conclusiones
print("üí° CONCLUSIONES DIABETES:")
mejor_modelo_diab = '√Årbol de Decisi√≥n' if accuracy_tree > accuracy_svm else 'SVM'
print(f"‚Ä¢ Mejor modelo: {mejor_modelo_diab}")
print(f"‚Ä¢ Exactitud del mejor modelo: {max(accuracy_tree, accuracy_svm):.3f}")
print(f"‚Ä¢ El modelo puede ayudar a identificar pacientes con diabetes avanzada")


**Explicaci√≥n del c√≥digo:**

- `pd.DataFrame:** Crea tabla con m√©tricas. **¬øPor qu√©?\*\* Para comparar f√°cilmente.
- `plt.subplots(2, 2):** 4 gr√°ficos en grid. **¬øPor qu√©?\*\* Para ver todas las m√©tricas.
- `ax.bar:\*\* Gr√°fico para cada m√©trica. Colores para diferenciar modelos.
- `text:** A√±ade valores. **¬øPor qu√©?\*\* Para precisi√≥n sin leer tabla.
- **Conclusiones:** Usa exactitud para decidir. **¬øPor qu√©?** Es la m√°s intuitiva para clasificaci√≥n balanceada.
- **Consejo:** Si recall es importante (e.g., detectar diabetes), prior√≠zalo.

**¬øQu√© esperamos ver?** SVM podr√≠a tener mejor exactitud en datos num√©ricos. El modelo ayuda a identificar diabetes avanzada para intervenciones tempranas.

---

## 4. Ejercicio 3: Titanic - Predicci√≥n de Supervivencia

Este ejercicio es un problema de **clasificaci√≥n** con feature engineering: predecir supervivencia en el Titanic. Incluye manejo de valores faltantes y creaci√≥n de nuevas caracter√≠sticas.

**¬øPor qu√© este dataset?** Es un dataset cl√°sico con datos mixtos (num√©ricos y categ√≥ricos), valores faltantes y necesidad de feature engineering. Te ense√±a a preparar datos reales.

**Pasos generales:**

1. Cargar y explorar los datos.
2. Visualizar relaciones y crear insights.
3. Preprocesar (manejar faltantes, feature engineering, codificar).
4. Entrenar modelos (√Årbol y SVM).
5. Evaluar y comparar.

### 4.1 Carga y Exploraci√≥n de Datos

Cargamos el dataset Titanic y exploramos su estructura, incluyendo valores faltantes.

**Explicaci√≥n:**

- `sns.load_dataset('titanic'):` Carga desde seaborn. Si falla, usa URL alternativa.
- Mostramos forma, columnas, distribuci√≥n de supervivencia, valores faltantes y primeras filas.
- **¬øPor qu√© explorar?** Para ver desbalance de clases, variables categ√≥ricas y datos faltantes (e.g., 'age' y 'embarked').


In [None]:
# Cargar dataset Titanic

print("\n" + "="*60)
print("üö¢ EJERCICIO 3: TITANIC - PREDICCI√ìN DE SUPERVIVENCIA")

# Cargar datos desde seaborn (o URL si falla)
#try:
#    df_titanic = sns.load_dataset('titanic')  # Intentar cargar desde seaborn
#except:  # Si no funciona, cargar desde URL
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df_titanic = pd.read_csv(url)

# Mostrar informaci√≥n del dataset
print("üìä INFORMACI√ìN DEL DATASET:")
print(f"Forma del dataset: {df_titanic.shape}")  # Filas y columnas
print(f"Columnas: {list(df_titanic.columns)}")  # Nombres de columnas
print(f"\nDistribuci√≥n de supervivencia:")
print(df_titanic['Survived'].value_counts())  # Conteo de 0 (no sobrevivi√≥) y 1 (sobrevivi√≥)
print(f"\nValores faltantes:")
print(df_titanic.isnull().sum())  # N√∫mero de valores faltantes por columna

# Mostrar las primeras 5 filas
print("\nüîç PRIMERAS 5 FILAS:")
print(df_titanic.head())


**Explicaci√≥n del c√≥digo:**

- `try-except:` Para manejar si seaborn no est√° disponible. **¬øPor qu√©?** Para robustez.
- `df_titanic.shape:` Muestra (filas, columnas). **¬øPor qu√©?** Para ver tama√±o del dataset.
- `value_counts():` Conteo de clases. **¬øPor qu√©?** Para ver desbalance (e.g., m√°s no sobrevivieron).
- `isnull().sum():` Valores faltantes. **¬øPor qu√©?** Para planificar preprocesamiento.
- **Consejo:** Observa desbalance (e.g., 60% no sobrevivieron). Usa `stratify` en split.

**¬øQu√© esperamos ver?** Clases desbalanceadas, valores faltantes en 'age', 'embarked', 'deck'. Variables como 'sex' y 'pclass' influyen en supervivencia.

### 4.2 An√°lisis Exploratorio y Feature Engineering

Visualizamos relaciones clave y creamos insights iniciales para el Titanic.

**Explicaci√≥n:**

- **Gr√°ficos de barras:** Para variables categ√≥ricas como 'pclass', 'sex', 'embarked', 'sibsp' vs supervivencia.
- **Boxplots:** Para 'age' y 'fare' vs supervivencia, para ver distribuciones.
- **Insights:** Basados en gr√°ficos, notamos patrones como mujeres y clases altas con mayor supervivencia.
- **¬øPor qu√© estos gr√°ficos?** Para entender factores de supervivencia y planificar feature engineering.


In [None]:
# An√°lisis exploratorio Titanic

# Crear figura con subplots para visualizaciones
fig, axes = plt.subplots(2, 3, figsize=(18, 10))

# 1. Supervivencia por clase (Pclass)
survived_class = df_titanic.groupby(['Pclass', 'Survived']).size().unstack()  # Agrupar y contar
survived_class.plot(kind='bar', ax=axes[0, 0])  # Gr√°fico de barras
axes[0, 0].set_title('Supervivencia por Clase')
axes[0, 0].set_xlabel('Clase')
axes[0, 0].set_ylabel('Count')

# 2. Supervivencia por sexo
survived_sex = df_titanic.groupby(['Sex', 'Survived']).size().unstack()
survived_sex.plot(kind='bar', ax=axes[0, 1])
axes[0, 1].set_title('Supervivencia por Sexo')
axes[0, 1].set_xlabel('Sexo')

# 3. Edad vs Supervivencia
df_titanic.boxplot(column='Age', by='Survived', ax=axes[0, 2])  # Boxplot por supervivencia
axes[0, 2].set_title('Edad vs Supervivencia')

# 4. Tarifa vs Supervivencia
df_titanic.boxplot(column='Fare', by='Survived', ax=axes[1, 0])
axes[1, 0].set_title('Tarifa vs Supervivencia')

# 5. Supervivencia por puerto de embarque
if 'Embarked' in df_titanic.columns:
    survived_embarked = df_titanic.groupby(['Embarked', 'Survived']).size().unstack()
    survived_embarked.plot(kind='bar', ax=axes[1, 1])
    axes[1, 1].set_title('Supervivencia por Puerto de Embarque')

# 6. Supervivencia por n√∫mero de familiares (SibSp)
if 'SibSp' in df_titanic.columns:
    survived_sibsp = df_titanic.groupby(['SibSp', 'Survived']).size().unstack()
    survived_sibsp.plot(kind='bar', ax=axes[1, 2])
    axes[1, 2].set_title('Supervivencia por Hermanos/Esposos')

plt.tight_layout()
plt.show()

# Imprimir insights iniciales
print("üîç INSIGHTS INICIALES TITANIC:")
print("‚Ä¢ Las mujeres tuvieron mayor tasa de supervivencia")
print("‚Ä¢ La clase social influy√≥ significativamente")
print("‚Ä¢ Los ni√±os tuvieron prioridad en los botes salvavidas")


**Explicaci√≥n del c√≥digo:**

- `plt.subplots(2, 3):` Crea 6 gr√°ficos. **¬øPor qu√©?** Para analizar m√∫ltiples variables.
- `groupby(['pclass', 'survived']).size().unstack():` Cuenta por clase y supervivencia. **¬øPor qu√©?** Para ver tasas de supervivencia por categor√≠a.
- `boxplot(column='age', by='survived'):` Distribuciones de edad por supervivencia. **¬øPor qu√©?** Para ver si edad afecta supervivencia.
- **Consejo:** Observa patrones como mujeres y clases altas con mayor supervivencia. Usa esto para feature engineering.

**¬øQu√© esperamos ver?** Mujeres y clases altas con mayor supervivencia. Edad y tarifa podr√≠an diferir por supervivencia.

### 4.3 Preprocesamiento Avanzado

Preparamos los datos del Titanic con feature engineering: manejamos faltantes, creamos nuevas caracter√≠sticas y codificamos categ√≥ricas.

**Explicaci√≥n:**

- **Manejar faltantes:** Rellenamos 'age' con mediana, 'embarked' con moda, eliminamos 'deck' (muchos faltantes).
- **Feature engineering:** Creamos 'family_size' (tama√±o familia), 'is_alone' (si viaja solo), 'title' (t√≠tulo de nombre).
- **Codificar categ√≥ricas:** Usamos LabelEncoder para 'sex', 'embarked', 'title'.
- **Seleccionar features:** Elegimos variables relevantes.
- **Dividir y escalar:** Similar a antes, con estratificaci√≥n por desbalance.
- **¬øPor qu√© feature engineering?** Para mejorar el modelo con variables derivadas.


In [None]:
# Feature Engineering para Titanic

print("üîß PREPROCESAMIENTO AVANZADO - TITANIC")

# Crear copia para no modificar original
df_titanic_clean = df_titanic.copy()

# 1. Manejar valores faltantes
df_titanic_clean['Age'].fillna(df_titanic_clean['Age'].median(), inplace=True)  # Rellenar edad con mediana
df_titanic_clean['Embarked'].fillna(df_titanic_clean['Embarked'].mode()[0], inplace=True)  # Rellenar embarked con moda
df_titanic_clean.drop(columns=['Deck'], inplace=True, errors='ignore')  # Eliminar 'deck' (muchos faltantes)

# 2. Crear nuevas caracter√≠sticas
df_titanic_clean['Family_Size'] = df_titanic_clean['SibSp'] + df_titanic_clean['Parch'] + 1  # Tama√±o familia
df_titanic_clean['Is_Alone'] = (df_titanic_clean['Family_Size'] == 1).astype(int)  # 1 si solo, 0 si no
df_titanic_clean['Title'] = df_titanic_clean['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)  # Extraer t√≠tulo

# Simplificar t√≠tulos
title_mapping = {'Mr': 'Mr', 'Miss': 'Miss', 'Mrs': 'Mrs', 'Master': 'Master',
                 'Dr': 'Rare', 'Rev': 'Rare', 'Col': 'Rare', 'Major': 'Rare',
                 'Mlle': 'Miss', 'Countess': 'Rare', 'Ms': 'Miss', 'Lady': 'Rare',
                 'Jonkheer': 'Rare', 'Don': 'Rare', 'Dona': 'Rare', 'Mme': 'Mrs',
                 'Capt': 'Rare', 'Sir': 'Rare'}
df_titanic_clean['Title'] = df_titanic_clean['Title'].map(title_mapping)  # Mapear t√≠tulos

# 3. Codificar variables categ√≥ricas
label_encoders = {}
categorical_cols = ['Sex', 'Embarked', 'Title']

for col in categorical_cols:
    if col in df_titanic_clean.columns:
        le = LabelEncoder()  # Inicializar encoder
        df_titanic_clean[col] = le.fit_transform(df_titanic_clean[col].astype(str))  # Codificar
        label_encoders[col] = le  # Guardar encoder

# 4. Seleccionar caracter√≠sticas finales
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked',
            'Family_Size', 'Is_Alone', 'Title']
X_titanic = df_titanic_clean[features]  # X: features seleccionadas
y_titanic = df_titanic_clean['Survived']  # y: supervivencia

# 5. Dividir datos
X_titanic_train, X_titanic_test, y_titanic_train, y_titanic_test = train_test_split(
    X_titanic, y_titanic, test_size=0.3, random_state=42, stratify=y_titanic  # stratify por desbalance
)

# 6. Escalar para SVM
scaler_titanic = StandardScaler()  # Inicializar escalador
X_titanic_train_scaled = scaler_titanic.fit_transform(X_titanic_train)  # Ajustar y transformar train
X_titanic_test_scaled = scaler_titanic.transform(X_titanic_test)  # Solo transformar test

# Confirmar preparaci√≥n
print("‚úÖ DATOS TITANIC PREPARADOS:")
print(f"Caracter√≠sticas usadas: {features}")
print(f"Entrenamiento: {X_titanic_train.shape[0]} muestras")
print(f"Prueba: {X_titanic_test.shape[0]} muestras")
print(f"Proporci√≥n supervivencia: {y_titanic_train.value_counts(normalize=True).to_dict()}")


**Explicaci√≥n del c√≥digo:**

- `fillna con median/mode:` Para 'age' (num√©rica) y 'embarked' (categ√≥rica). **¬øPor qu√©?** Mediana para num√©rica, moda para categ√≥rica.
- `drop('deck'):` Elimina columna con muchos faltantes. **¬øPor qu√©?** Evita ruido.
- `family_size = sibsp + parch + 1:` Incluye al pasajero. **¬øPor qu√©?** Para capturar efecto de familia.
- `is_alone:` Binaria para si viaja solo. **¬øPor qu√©?** Podr√≠a afectar supervivencia.
- `title:` Extrae de 'name'. **¬øPor qu√©?** T√≠tulos como 'Mr' o 'Mrs' indican g√©nero/edad.
- `LabelEncoder:` Convierte categ√≥ricas a n√∫meros. **¬øPor qu√©?** Modelos necesitan n√∫meros.
- `features:` Lista de variables finales. **¬øPor qu√©?** Para enfocarse en relevantes.
- **Consejo:** Feature engineering mejora el modelo. Experimenta con m√°s variables.

**¬øQu√© sigue?** Entrenamos los modelos con estos datos preparados.

### 4.4 Modelo: √Årbol de Decisi√≥n para Titanic

Entrenamos un √Årbol de Decisi√≥n para predecir supervivencia en el Titanic, con par√°metros fijos para simplicidad.

**Explicaci√≥n:**

- **DecisionTreeClassifier:** Modelo para clasificaci√≥n con datos mixtos.
- **Par√°metros fijos:** max_depth=5, etc., para evitar overfitting en datos peque√±os.
- **M√©tricas:** Mismas que antes.
- **Visualizar √°rbol:** Muestra los primeros 3 niveles para interpretabilidad.
- **Importancia de caracter√≠sticas:** Muestra qu√© variables son m√°s importantes.


In [None]:
# √Årbol de Decisi√≥n para Titanic

print("üå≥ ENTRENANDO √ÅRBOL DE DECISI√ìN (TITANIC)")

# Inicializar modelo con par√°metros fijos
tree_titanic = DecisionTreeClassifier(
    max_depth=5,  # Profundidad m√°xima para evitar overfitting
    min_samples_split=10,  # M√≠nimo muestras para split
    min_samples_leaf=5,  # M√≠nimo muestras en hoja
    random_state=42  # Para reproducibilidad
)
tree_titanic.fit(X_titanic_train, y_titanic_train)  # Entrenar

# Predicciones
y_pred_tree_titanic = tree_titanic.predict(X_titanic_test)  # Predecir en test

# Calcular m√©tricas
accuracy_tree_titanic = accuracy_score(y_titanic_test, y_pred_tree_titanic)  # Exactitud
precision_tree_titanic = precision_score(y_titanic_test, y_pred_tree_titanic)  # Precisi√≥n
recall_tree_titanic = recall_score(y_titanic_test, y_pred_tree_titanic)  # Recall
f1_tree_titanic = f1_score(y_titanic_test, y_pred_tree_titanic)  # F1-Score

# Imprimir resultados
print(f"üìä RESULTADOS √ÅRBOL - TITANIC:")
print(f" Exactitud: {accuracy_tree_titanic:.3f}")
print(f" Precisi√≥n: {precision_tree_titanic:.3f}")
print(f" Recall: {recall_tree_titanic:.3f}")
print(f" F1-Score: {f1_tree_titanic:.3f}")

# Visualizar √°rbol (versi√≥n simplificada)
plt.figure(figsize=(20, 10))
plot_tree(tree_titanic,  # El modelo entrenado
          feature_names=features,  # Nombres de caracter√≠sticas
          class_names=['No Sobrevivi√≥', 'Sobrevivi√≥'],  # Nombres de clases
          filled=True,  # Colorear nodos por clase
          rounded=True,  # Bordes redondeados
          fontsize=10,  # Tama√±o de fuente
          max_depth=3)  # Mostrar solo primeros 3 niveles para claridad
plt.title('√Årbol de Decisi√≥n - Titanic (Primeros 3 niveles)', fontsize=16)
plt.show()

# Importancia de caracter√≠sticas
importancia_titanic = pd.DataFrame({
    'caracteristica': features,  # Nombres de features
    'importancia': tree_titanic.feature_importances_  # Importancia calculada
}).sort_values('importancia', ascending=False)  # Ordenar de mayor a menor

plt.figure(figsize=(10, 6))
plt.barh(importancia_titanic['caracteristica'], importancia_titanic['importancia'])  # Gr√°fico horizontal
plt.xlabel('Importancia')  # Etiqueta X
plt.title('Importancia de Caracter√≠sticas - Titanic')
plt.gca().invert_yaxis()  # Invertir Y para que la m√°s importante est√© arriba
plt.grid(True, alpha=0.3, axis='x')  # Grid
plt.show()


**Explicaci√≥n del c√≥digo:**

- `DecisionTreeClassifier con par√°metros fijos:** No usamos GridSearch para simplicidad. **¬øPor qu√©?\*\* Para enfocarnos en feature engineering.
- `fit y predict:\*\* Entrena y predice.
- `m√©tricas:\*\* Mismas que antes.
- `plot_tree:** Visualiza el √°rbol. **¬øPor qu√© max_depth=3?\*\* Para no sobrecargar el gr√°fico.
- `feature*importances*:** Importancia basada en reducci√≥n de error. **¬øPor qu√© visualizar?\*\* Para ver qu√© features son clave (e.g., 'sex' y 'pclass').
- **Consejo:** Interpreta el √°rbol: cada nodo es una decisi√≥n basada en una feature.

**¬øQu√© esperamos ver?** Exactitud >0.8, importancia alta en 'sex' y 'pclass'. El √°rbol muestra reglas como "Si es mujer, sobrevivi√≥".

### 4.5 Modelo: SVM para Titanic

Entrenamos un SVM para predecir supervivencia en el Titanic, con par√°metros fijos.

**Explicaci√≥n:**

- **SVC:** Modelo para clasificaci√≥n con datos mixtos y escalados.
- **Par√°metros fijos:** C=1.0, kernel='rbf', gamma='scale' para simplicidad.
- **M√©tricas:** Mismas que el √Årbol.
- **Matrices de confusi√≥n:** Comparativas con el √Årbol, colores diferentes para distinguir.


In [None]:
# SVM para Titanic

print("üéØ ENTRENANDO SVM (TITANIC)")

# Inicializar modelo con par√°metros fijos
svm_titanic = SVC(
    C=1.0,  # Penalizaci√≥n por errores
    kernel='rbf',  # Kernel no lineal
    gamma='scale',  # Influencia de puntos
    random_state=42  # Para reproducibilidad
)
svm_titanic.fit(X_titanic_train_scaled, y_titanic_train)  # Entrenar con datos escalados

# Predicciones
y_pred_svm_titanic = svm_titanic.predict(X_titanic_test_scaled)  # Predecir en test escalado

# Calcular m√©tricas
accuracy_svm_titanic = accuracy_score(y_titanic_test, y_pred_svm_titanic)  # Exactitud
precision_svm_titanic = precision_score(y_titanic_test, y_pred_svm_titanic)  # Precisi√≥n
recall_svm_titanic = recall_score(y_titanic_test, y_pred_svm_titanic)  # Recall
f1_svm_titanic = f1_score(y_titanic_test, y_pred_svm_titanic)  # F1-Score

# Imprimir resultados
print(f"üìä RESULTADOS SVM - TITANIC:")
print(f" Exactitud: {accuracy_svm_titanic:.3f}")
print(f" Precisi√≥n: {precision_svm_titanic:.3f}")
print(f" Recall: {recall_svm_titanic:.3f}")
print(f" F1-Score: {f1_svm_titanic:.3f}")

# Matrices de confusi√≥n comparativas
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Matriz para √Årbol
cm_tree_titanic = confusion_matrix(y_titanic_test, y_pred_tree_titanic)  # Calcular para √Årbol
sns.heatmap(cm_tree_titanic, annot=True, fmt='d', cmap='Blues', ax=axes[0],  # Colores azules
            xticklabels=['No Sobrevivi√≥', 'Sobrevivi√≥'],
            yticklabels=['No Sobrevivi√≥', 'Sobrevivi√≥'])
axes[0].set_title('Matriz Confusi√≥n - √Årbol de Decisi√≥n')
axes[0].set_ylabel('Real')
axes[0].set_xlabel('Predicci√≥n')

# Matriz para SVM
cm_svm_titanic = confusion_matrix(y_titanic_test, y_pred_svm_titanic)  # Calcular para SVM
sns.heatmap(cm_svm_titanic, annot=True, fmt='d', cmap='Reds', ax=axes[1],  # Colores rojos
            xticklabels=['No Sobrevivi√≥', 'Sobrevivi√≥'],
            yticklabels=['No Sobrevivi√≥', 'Sobrevivi√≥'])
axes[1].set_title('Matriz Confusi√≥n - SVM')
axes[1].set_ylabel('Real')
axes[1].set_xlabel('Predicci√≥n')

plt.tight_layout()
plt.show()


**Explicaci√≥n del c√≥digo:**

- `SVC con par√°metros fijos:** No usamos GridSearch para simplicidad. **¬øPor qu√©?\*\* Para comparar con el √Årbol r√°pidamente.
- `fit con datos escalados:** SVM requiere escalado. **¬øPor qu√©?\*\* Para m√°rgenes correctos.
- `predict:\*\* Clasifica en 0 o 1.
- `m√©tricas:\*\* Mismas que el √Årbol.
- `confusion_matrix:** Dos matrices lado a lado. **¬øPor qu√© cmap diferentes?\*\* Para distinguir modelos.
- **Consejo:** Compara matrices. SVM podr√≠a tener menos falsos positivos.

**¬øQu√© esperamos ver?** Exactitud similar al √Årbol, matrices con aciertos en diagonal.

### 4.6 Comparaci√≥n Final y An√°lisis

Comparamos los modelos para Titanic y resumimos todos los ejercicios.

**Explicaci√≥n:**

- **DataFrame de resultados:** Tabla con m√©tricas para Titanic.
- **Resumen final:** DataFrame con m√©tricas principales de todos los datasets.
- **Gr√°ficos de barras:** Uno por dataset para comparar modelos.
- **Conclusiones:** Basadas en resultados, destacamos ventajas y recomendaciones.


In [None]:
# Comparaci√≥n final todos los modelos

print("üìä COMPARACI√ìN FINAL - TITANIC")

# Crear DataFrame con m√©tricas para Titanic
resultados_titanic = pd.DataFrame({
    'Modelo': ['√Årbol de Decisi√≥n', 'SVM'],
    'Exactitud': [accuracy_tree_titanic, accuracy_svm_titanic],  # Exactitud
    'Precisi√≥n': [precision_tree_titanic, precision_svm_titanic],  # Precisi√≥n
    'Recall': [recall_tree_titanic, recall_svm_titanic],  # Recall
    'F1-Score': [f1_tree_titanic, f1_svm_titanic]  # F1-Score
})

print(resultados_titanic)  # Mostrar tabla

# Resumen de todos los ejercicios
print("\n" + "="*80)
print("üéØ RESUMEN FINAL DE TODOS LOS EJERCICIOS")
print("="*80)

# Crear DataFrame con m√©tricas principales de cada modelo y dataset
resumen_final = pd.DataFrame({
    'Dataset': ['California Housing', 'California Housing', 'Diabetes', 'Diabetes', 'Titanic', 'Titanic'],
    'Modelo': ['√Årbol', 'SVM', '√Årbol', 'SVM', '√Årbol', 'SVM'],
    'M√©trica Principal': [r2_tree, r2_svm, accuracy_tree, accuracy_svm, accuracy_tree_titanic, accuracy_svm_titanic],  # R¬≤ para regresi√≥n, Exactitud para clasificaci√≥n
    'Valor': [r2_tree, r2_svm, accuracy_tree, accuracy_svm, accuracy_tree_titanic, accuracy_svm_titanic]  # Valores num√©ricos
})

print(resumen_final)  # Mostrar resumen

# Visualizaci√≥n resumen final
fig, axes = plt.subplots(1, 3, figsize=(18, 6))  # 1 fila, 3 columnas

# California Housing (R¬≤)
axes[0].bar(['√Årbol', 'SVM'], [r2_tree, r2_svm], color=['skyblue', 'lightcoral'])
axes[0].set_title('California Housing\n(R¬≤ Score)')
axes[0].set_ylabel('R¬≤')
axes[0].grid(True, alpha=0.3)
for i, v in enumerate([r2_tree, r2_svm]):
    axes[0].text(i, v + 0.01, f'{v:.3f}', ha='center', va='bottom')  # Texto en barras

# Diabetes (Exactitud)
axes[1].bar(['√Årbol', 'SVM'], [accuracy_tree, accuracy_svm], color=['skyblue', 'lightcoral'])
axes[1].set_title('Diabetes\n(Exactitud)')
axes[1].set_ylabel('Exactitud')
axes[1].grid(True, alpha=0.3)
for i, v in enumerate([accuracy_tree, accuracy_svm]):
    axes[1].text(i, v + 0.01, f'{v:.3f}', ha='center', va='bottom')

# Titanic (Exactitud)
axes[2].bar(['√Årbol', 'SVM'], [accuracy_tree_titanic, accuracy_svm_titanic], color=['skyblue', 'lightcoral'])
axes[2].set_title('Titanic\n(Exactitud)')
axes[2].set_ylabel('Exactitud')
axes[2].grid(True, alpha=0.3)
for i, v in enumerate([accuracy_tree_titanic, accuracy_svm_titanic]):
    axes[2].text(i, v + 0.01, f'{v:.3f}', ha='center', va='bottom')

plt.tight_layout()
plt.show()

# Conclusiones generales
print("""
üí° CONCLUSIONES GENERALES:

üå≥ √ÅRBOLES DE DECISI√ìN:
‚Ä¢ Ventajas: Interpretables, no necesitan escalado, manejan caracter√≠sticas mixtas
‚Ä¢ Desventajas: Propensos a overfitting, inestables
‚Ä¢ Mejor en: Titanic (con feature engineering)

üéØ SVM:
‚Ä¢ Ventajas: Buen rendimiento con datos complejos, robustos a outliers
‚Ä¢ Desventajas: Necesitan escalado, lentos con muchos datos, dif√≠ciles de interpretar
‚Ä¢ Mejor en: Diabetes (datos num√©ricos limpios)

üìä POR DATASET:
‚Ä¢ California Housing: Ambos modelos similares, problema de regresi√≥n
‚Ä¢ Diabetes: SVM ligeramente mejor en clasificaci√≥n
‚Ä¢ Titanic: √Årbol mejor gracias a la interpretabilidad y feature engineering

üöÄ RECOMENDACIONES:
‚Ä¢ Usar √°rboles cuando necesites explicar las decisiones
‚Ä¢ Usar SVM cuando la precisi√≥n sea prioridad y tengas datos escalados
‚Ä¢ Siempre hacer feature engineering y preprocesamiento adecuado
""")


**Explicaci√≥n del c√≥digo:**

- `resultados_titanic:** DataFrame para Titanic. **¬øPor qu√©?\*\* Para comparar m√©tricas.
- `resumen_final:** DataFrame con todos los datasets. **¬øPor qu√©?\*\* Para ver overview.
- `plt.subplots(1, 3):** Tres gr√°ficos para cada dataset. **¬øPor qu√©?\*\* Para comparar visualmente.
- `axes[0].bar, etc.:** Gr√°fico por dataset. **¬øPor qu√© colores?\*\* Para consistencia.
- `text:** A√±ade valores. **¬øPor qu√©?\*\* Para precisi√≥n.
- **Conclusiones:** Texto con ventajas/desventajas. **¬øPor qu√©?** Para guiar al usuario.

**¬øQu√© esperamos ver?** √Årbol mejor en Titanic por interpretabilidad, SVM en Diabetes por precisi√≥n. Recomendaciones basadas en resultados.

üß™ EJERCICIOS ADICIONALES PARA PRACTICAR

üéØ EJERCICIO 4: OPTIMIZACI√ìN AVANZADA

1. Mejora el modelo de Titanic:

   - Prueba diferentes par√°metros para el √°rbol
   - Experimenta con otros kernels en SVM
   - A√±ade m√°s feature engineering (edad en categor√≠as, etc.)

2. Ensemble Methods:

   - Prueba Random Forest en lugar de un solo √°rbol
   - Compara con los resultados obtenidos

3. An√°lisis de Errores:
   - ¬øQu√© pasajeros clasifica mal el modelo?
   - ¬øHay patrones en los errores?

üîç EJERCICIO 5: INTERPRETACI√ìN DE MODELOS

1. Para el √°rbol de Titanic:

   - Explica 3 reglas de decisi√≥n importantes
   - ¬øQu√© caracter√≠sticas son m√°s importantes?

2. Para SVM:
   - ¬øPor qu√© crees que funcion√≥ mejor en Diabetes?
   - ¬øC√≥mo afecta el par√°metro C a los resultados?

üìà EJERCICIO 6: VALIDACI√ìN CRUZADA

1. Implementa k-fold cross validation en todos los modelos
2. Compara los resultados con la divisi√≥n simple train/test
3. Analiza la varianza de los resultados

üöÄ EJERCICIO 7: APLICACI√ìN A NUEVOS DATOS

1. Encuentra otro dataset de clasificaci√≥n (ej: Iris, Wine)
2. Aplica el mismo proceso completo
3. Compara tus resultados con los obtenidos aqu√≠
   """

üéâ ¬°FELICITACIONES POR COMPLETAR LOS EJERCICIOS!

Has aplicado exitosamente:
‚Ä¢ √Årboles de Decisi√≥n para regresi√≥n y clasificaci√≥n
‚Ä¢ SVM para regresi√≥n y clasificaci√≥n  
‚Ä¢ Preprocesamiento y feature engineering
‚Ä¢ Evaluaci√≥n y comparaci√≥n de modelos
‚Ä¢ Tres datasets del mundo real

¬°Sigue practicando y explorando! üöÄ

