# ✅ 03 - MODELADO (03_modelado.ipynb)


✔️ Objetivo:
Aplicar modelos predictivos o de segmentación según el problema.



| Tarea                               | Código de Ejemplo                                             | Consejo Profesional                                  |
| ----------------------------------- | ------------------------------------------------------------- | ---------------------------------------------------- |
| Cargar datos                        | `df = pd.read_csv('data/processed/datos_limpios.csv')`        | Asegura que no hay data leakage.                     |
| Definir variables                   | `X = df.drop('target', axis=1)`<br>`y = df['target']`         | `X` son predictores, `y` es lo que quieres predecir. |
| Dividir en train/test               | `train_test_split(X, y, test_size=0.2, random_state=42)`      | `random_state` da reproducibilidad.                  |
| Escalado (otra vez si es necesario) | `scaler.fit_transform(X_train)`<br>`scaler.transform(X_test)` | Nunca hagas `.fit()` sobre el conjunto de prueba.    |
| Entrenar modelo base                | `LogisticRegression().fit(X_train, y_train)`                  | Comienza simple antes de complicarte.                |
| Validación cruzada                  | `cross_val_score(model, X_train, y_train, cv=5)`              | Ayuda a medir estabilidad del modelo.                |
| Tuning de hiperparámetros           | `GridSearchCV` o `RandomizedSearchCV`                         | Mejora performance sin sobreajuste.                  |
| Guardar modelo entrenado            | `joblib.dump(model, 'models/model.pkl')`                      | Guarda también el escalador si lo usaste.            |


## 1. Importar datos procesados




In [None]:
df = pd.read_csv("data/processed/dataset_limpio.csv")

## [___] 2. Separar features y target

- [___] Identifiqué correctamente la variable objetivo (target)

- [___] Usé `.drop()` para separar las features (X)

- [___] Verifiqué que `X` y `y` tengan el mismo número de filas

- [___] Eliminé columnas innecesarias de `X` (como IDs o constantes)

- [___] Guardé `X` y `y` en variables separadas



Esta separación es la base sobre la cual se entrena y evalúa cualquier modelo supervisado.

* Features (Características o Variables Predictoras): Son las variables de entrada que el modelo de machine learning utilizará para hacer predicciones.

Target (Objetivo o Variable de Respuesta): Es la variable que intentamos predecir. 

In [None]:
import pandas as pd

# Ejemplo de dataset
df = pd.DataFrame({
    'edad': [25, 32, 47],
    'ingresos': [50000, 64000, 120000],
    'compra': [0, 1, 1]  # Esta es la variable target
})
# Separar features (X) y target (y)
X = df.drop('compra', axis=1)  # Eliminas la columna target para quedarte con las features
y = df['compra']               # Solo la columna target

# X
#    edad  ingresos
# 0    25     50000
# 1    32     64000
# 2    47    120000
# 
# y
# 0    0
# 1    1
# 2    1


## [___] 3. Dividir en entrenamiento y test

 ¿Qué significa?

En machine learning, dividir los datos en conjunto de entrenamiento y de prueba significa separar el dataset para:

    Entrenar el modelo (conjunto de entrenamiento - training set): Es con lo que el modelo “aprende”.

    Evaluar el modelo (conjunto de prueba - test set): Se usa para medir el rendimiento del modelo con datos nunca vistos por él.

Esto evita el sobreajuste (overfitting), donde un modelo se aprende de memoria los datos y no generaliza bien.

## [✅] 3. Dividir en entrenamiento y test
- [__] Importé `train_test_split` de `sklearn.model_selection`

- [__] Apliqué la función usando `X` e `y`

- [__] Usé un `test_size` adecuado (ej. 0.2 o 0.3)

- [__] Usé `random_state` para reproducibilidad

- [__] Verifiqué que las dimensiones coincidan con la división esperada

- [__] (Opcional) Usé `stratify=y` si era clasificación



In [None]:
from sklearn.model_selection import train_test_split

# Supongamos que ya tienes X (features) e y (target)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


| Parámetro      | Descripción                                                                                          |
| -------------- | ---------------------------------------------------------------------------------------------------- |
| `test_size`    | Proporción del conjunto de datos reservado para test. Ej: `0.2` → 20% test, 80% train                |
| `random_state` | Fija una “semilla” para que la división sea reproducible (útil para pruebas)                         |
| `shuffle`      | Por defecto `True`, baraja los datos antes de dividir. Puede ser `False` en series temporales        |
| `stratify=y`   | (Opcional pero recomendado en clasificación) mantiene proporciones de clases iguales en train y test |


## [___] 4. Entrenar modelos base

## [✅] 4. Entrenar modelos base
- [__] Seleccioné modelos simples como LogisticRegression o DecisionTree

- [__] Entrené cada modelo con `.fit(X_train, y_train)`

- [__] Hice predicciones con `.predict(X_test)`

- [__] Evalué con métricas básicas (accuracy, MAE, RMSE, etc.)

- [__] Usé un modelo dummy como referencia mínima

- [__] Guardé los resultados y los comparé entre sí



| Tarea             | Modelos sugeridos para empezar                                                         |
| ----------------- | -------------------------------------------------------------------------------------- |
| Clasificación     | `LogisticRegression`, `DecisionTreeClassifier`, `RandomForest`, `DummyClassifier`      |
| Regresión         | `LinearRegression`, `DecisionTreeRegressor`, `RandomForestRegressor`, `DummyRegressor` |
| Clustering        | `KMeans`, `DBSCAN`, `HierarchicalClustering`                                           |
| Series temporales | `ARIMA`, `Prophet`, `LSTM`                                                             |


| Modelo                                             | Tipo de tarea                                   | ¿Para qué se usa?                                                      | Características clave                                      |
| -------------------------------------------------- | ----------------------------------------------- | ---------------------------------------------------------------------- | ---------------------------------------------------------- |
| **Linear Regression**                              | Regresión                                       | Predecir valores numéricos continuos (precio, temperatura, etc.)       | Modelo simple, fácil de interpretar                        |
| **Logistic Regression**                            | Clasificación binaria                           | Clasificación entre dos clases (sí/no, 0/1, aprobado/no aprobado)      | Rápido, base para clasificación                            |
| **Decision Tree**                                  | Regresión/Clasificación                         | Tareas con decisiones basadas en condiciones (reglas tipo árbol)       | Fácil de visualizar, puede sobreajustar                    |
| **Random Forest**                                  | Regresión/Clasificación                         | Tareas generales, clasificación multiclase, regresión                  | Robusto, combina muchos árboles, reduce overfitting        |
| **Gradient Boosting (XGBoost, LightGBM, etc.)**    | Regresión/Clasificación                         | Problemas complejos con alto rendimiento                               | Muy potente, tuning delicado, puede tardar más en entrenar |
| **Support Vector Machines (SVM)**                  | Clasificación/Regresión                         | Clasificación con márgenes máximos, separación no lineal               | Bueno para datasets pequeños, puede ser lento en grandes   |
| **K-Nearest Neighbors (KNN)**                      | Clasificación/Regresión                         | Basado en vecinos más cercanos (proximidad)                            | Fácil de entender, costoso en predicción                   |
| **Naive Bayes**                                    | Clasificación                                   | Clasificación de textos, spam, sentimiento, etc.                       | Rápido, asume independencia entre variables                |
| **DummyClassifier / DummyRegressor**               | Baseline (referencia)                           | Comparar con modelos tontos (estrategias simples)                      | No aprende, útil como base de comparación                  |
| **Linear Discriminant Analysis (LDA)**             | Clasificación                                   | Clasificación con reducción de dimensionalidad                         | Bueno con datos linealmente separables                     |
| **Quadratic Discriminant Analysis (QDA)**          | Clasificación                                   | Igual que LDA, pero para datos con covarianzas diferentes entre clases | Más flexible, pero más complejo                            |
| **Stochastic Gradient Descent (SGD)**              | Clasificación/Regresión                         | Casos con grandes volúmenes de datos                                   | Ligero, útil en streaming y textos                         |
| **Multilayer Perceptron (MLP - Redes neuronales)** | Clasificación/Regresión                         | Problemas no lineales complejos                                        | Aprende patrones no lineales, requiere más datos           |
| **K-Means**                                        | Clustering (no supervisado)                     | Agrupar datos similares sin etiquetas                                  | Fácil de usar, no requiere etiquetas                       |
| **DBSCAN**                                         | Clustering (no supervisado)                     | Agrupar con formas arbitrarias y detectar outliers                     | Útil para detectar ruido, no requiere especificar K        |
| **Hierarchical Clustering**                        | Clustering (no supervisado)                     | Agrupación por jerarquía (árbol de similitud)                          | Visualización con dendrogramas                             |
| **PCA (Análisis de Componentes Principales)**      | Reducción de dimensionalidad                    | Visualización, eliminar ruido, acelerar algoritmos                     | Proyecta los datos a un nuevo espacio                      |
| **t-SNE / UMAP**                                   | Reducción de dimensionalidad                    | Visualización de datos en 2D o 3D                                      | Útiles en visualización de clusters                        |
| **ARIMA / SARIMA**                                 | Series temporales                               | Predicción de datos secuenciales con tendencias y estacionalidad       | Requiere datos ordenados temporalmente                     |
| **Facebook Prophet**                               | Series temporales                               | Predicción de series de tiempo con eventos y estacionalidad            | Fácil de usar, útil para negocios                          |
| **LSTM (Redes recurrentes)**                       | Series temporales / Secuencias                  | Modelado de secuencias complejas (texto, tiempo, audio)                | Potente, usado en deep learning                            |
| **Autoencoder**                                    | Reducción de dimensión / Detección de anomalías | Aprender representación comprimida de datos                            | Parte de redes neuronales                                  |


## [___] 5. Predecir

## [✅] 5. Predecir
- [__] Entrené el modelo con `.fit(X_train, y_train)`

- [__] Usé `.predict(X_test)` para obtener las predicciones

- [__] Guardé las predicciones en `y_pred`

- [__] Verifiqué que `y_pred` tenga la misma longitud que `y_test`

- [__] (Opcional) Usé `.predict_proba()` si quería probabilidades



In [None]:
# Comparar predicciones con valores reales
for real, pred in zip(y_test[:5], y_pred[:5]):
    print(f"Real: {real} - Predicho: {pred}")


## [___] 6. Comparar varios modelos

- [__] Elegí al menos dos modelos diferentes

- [__] Entrené cada modelo con `.fit()`

- [__] Predije los resultados con `.predict()`

- [__] Evalué cada modelo con métricas relevantes

- [__] Guardé los resultados en una estructura organizada

- [__] Comparé las métricas para decidir cuál modelo usar



💡 Consejos:
Empieza con modelos simples (baseline).

Prueba validación cruzada (cross_val_score).

Usa Pipeline para integrar transformaciones y modelo.