# ‚úÖ 03 - MODELADO (03_modelado.ipynb)


‚úîÔ∏è Objetivo:
Aplicar modelos predictivos o de segmentaci√≥n seg√∫n el problema.



| Tarea                               | C√≥digo de Ejemplo                                             | Consejo Profesional                                  |
| ----------------------------------- | ------------------------------------------------------------- | ---------------------------------------------------- |
| Cargar datos                        | `df = pd.read_csv('data/processed/datos_limpios.csv')`        | Asegura que no hay data leakage.                     |
| Definir variables                   | `X = df.drop('target', axis=1)`<br>`y = df['target']`         | `X` son predictores, `y` es lo que quieres predecir. |
| Dividir en train/test               | `train_test_split(X, y, test_size=0.2, random_state=42)`      | `random_state` da reproducibilidad.                  |
| Escalado (otra vez si es necesario) | `scaler.fit_transform(X_train)`<br>`scaler.transform(X_test)` | Nunca hagas `.fit()` sobre el conjunto de prueba.    |
| Entrenar modelo base                | `LogisticRegression().fit(X_train, y_train)`                  | Comienza simple antes de complicarte.                |
| Validaci√≥n cruzada                  | `cross_val_score(model, X_train, y_train, cv=5)`              | Ayuda a medir estabilidad del modelo.                |
| Tuning de hiperpar√°metros           | `GridSearchCV` o `RandomizedSearchCV`                         | Mejora performance sin sobreajuste.                  |
| Guardar modelo entrenado            | `joblib.dump(model, 'models/model.pkl')`                      | Guarda tambi√©n el escalador si lo usaste.            |


## 1. Importar datos procesados




In [None]:
df = pd.read_csv("data/processed/dataset_limpio.csv")

## [___] 2. Separar features y target

- [___] Identifiqu√© correctamente la variable objetivo (target)

- [___] Us√© `.drop()` para separar las features (X)

- [___] Verifiqu√© que `X` y `y` tengan el mismo n√∫mero de filas

- [___] Elimin√© columnas innecesarias de `X` (como IDs o constantes)

- [___] Guard√© `X` y `y` en variables separadas



Esta separaci√≥n es la base sobre la cual se entrena y eval√∫a cualquier modelo supervisado.

* Features (Caracter√≠sticas o Variables Predictoras): Son las variables de entrada que el modelo de machine learning utilizar√° para hacer predicciones.

Target (Objetivo o Variable de Respuesta): Es la variable que intentamos predecir. 

In [None]:
import pandas as pd

# Ejemplo de dataset
df = pd.DataFrame({
    'edad': [25, 32, 47],
    'ingresos': [50000, 64000, 120000],
    'compra': [0, 1, 1]  # Esta es la variable target
})
# Separar features (X) y target (y)
X = df.drop('compra', axis=1)  # Eliminas la columna target para quedarte con las features
y = df['compra']               # Solo la columna target

# X
#    edad  ingresos
# 0    25     50000
# 1    32     64000
# 2    47    120000
# 
# y
# 0    0
# 1    1
# 2    1


## [___] 3. Dividir en entrenamiento y test

 ¬øQu√© significa?

En machine learning, dividir los datos en conjunto de entrenamiento y de prueba significa separar el dataset para:

    Entrenar el modelo (conjunto de entrenamiento - training set): Es con lo que el modelo ‚Äúaprende‚Äù.

    Evaluar el modelo (conjunto de prueba - test set): Se usa para medir el rendimiento del modelo con datos nunca vistos por √©l.

Esto evita el sobreajuste (overfitting), donde un modelo se aprende de memoria los datos y no generaliza bien.

## [‚úÖ] 3. Dividir en entrenamiento y test
- [__] Import√© `train_test_split` de `sklearn.model_selection`

- [__] Apliqu√© la funci√≥n usando `X` e `y`

- [__] Us√© un `test_size` adecuado (ej. 0.2 o 0.3)

- [__] Us√© `random_state` para reproducibilidad

- [__] Verifiqu√© que las dimensiones coincidan con la divisi√≥n esperada

- [__] (Opcional) Us√© `stratify=y` si era clasificaci√≥n



In [None]:
from sklearn.model_selection import train_test_split

# Supongamos que ya tienes X (features) e y (target)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


| Par√°metro      | Descripci√≥n                                                                                          |
| -------------- | ---------------------------------------------------------------------------------------------------- |
| `test_size`    | Proporci√≥n del conjunto de datos reservado para test. Ej: `0.2` ‚Üí 20% test, 80% train                |
| `random_state` | Fija una ‚Äúsemilla‚Äù para que la divisi√≥n sea reproducible (√∫til para pruebas)                         |
| `shuffle`      | Por defecto `True`, baraja los datos antes de dividir. Puede ser `False` en series temporales        |
| `stratify=y`   | (Opcional pero recomendado en clasificaci√≥n) mantiene proporciones de clases iguales en train y test |


## [___] 4. Entrenar modelos base

## [‚úÖ] 4. Entrenar modelos base
- [__] Seleccion√© modelos simples como LogisticRegression o DecisionTree

- [__] Entren√© cada modelo con `.fit(X_train, y_train)`

- [__] Hice predicciones con `.predict(X_test)`

- [__] Evalu√© con m√©tricas b√°sicas (accuracy, MAE, RMSE, etc.)

- [__] Us√© un modelo dummy como referencia m√≠nima

- [__] Guard√© los resultados y los compar√© entre s√≠



| Tarea             | Modelos sugeridos para empezar                                                         |
| ----------------- | -------------------------------------------------------------------------------------- |
| Clasificaci√≥n     | `LogisticRegression`, `DecisionTreeClassifier`, `RandomForest`, `DummyClassifier`      |
| Regresi√≥n         | `LinearRegression`, `DecisionTreeRegressor`, `RandomForestRegressor`, `DummyRegressor` |
| Clustering        | `KMeans`, `DBSCAN`, `HierarchicalClustering`                                           |
| Series temporales | `ARIMA`, `Prophet`, `LSTM`                                                             |


| Modelo                                             | Tipo de tarea                                   | ¬øPara qu√© se usa?                                                      | Caracter√≠sticas clave                                      |
| -------------------------------------------------- | ----------------------------------------------- | ---------------------------------------------------------------------- | ---------------------------------------------------------- |
| **Linear Regression**                              | Regresi√≥n                                       | Predecir valores num√©ricos continuos (precio, temperatura, etc.)       | Modelo simple, f√°cil de interpretar                        |
| **Logistic Regression**                            | Clasificaci√≥n binaria                           | Clasificaci√≥n entre dos clases (s√≠/no, 0/1, aprobado/no aprobado)      | R√°pido, base para clasificaci√≥n                            |
| **Decision Tree**                                  | Regresi√≥n/Clasificaci√≥n                         | Tareas con decisiones basadas en condiciones (reglas tipo √°rbol)       | F√°cil de visualizar, puede sobreajustar                    |
| **Random Forest**                                  | Regresi√≥n/Clasificaci√≥n                         | Tareas generales, clasificaci√≥n multiclase, regresi√≥n                  | Robusto, combina muchos √°rboles, reduce overfitting        |
| **Gradient Boosting (XGBoost, LightGBM, etc.)**    | Regresi√≥n/Clasificaci√≥n                         | Problemas complejos con alto rendimiento                               | Muy potente, tuning delicado, puede tardar m√°s en entrenar |
| **Support Vector Machines (SVM)**                  | Clasificaci√≥n/Regresi√≥n                         | Clasificaci√≥n con m√°rgenes m√°ximos, separaci√≥n no lineal               | Bueno para datasets peque√±os, puede ser lento en grandes   |
| **K-Nearest Neighbors (KNN)**                      | Clasificaci√≥n/Regresi√≥n                         | Basado en vecinos m√°s cercanos (proximidad)                            | F√°cil de entender, costoso en predicci√≥n                   |
| **Naive Bayes**                                    | Clasificaci√≥n                                   | Clasificaci√≥n de textos, spam, sentimiento, etc.                       | R√°pido, asume independencia entre variables                |
| **DummyClassifier / DummyRegressor**               | Baseline (referencia)                           | Comparar con modelos tontos (estrategias simples)                      | No aprende, √∫til como base de comparaci√≥n                  |
| **Linear Discriminant Analysis (LDA)**             | Clasificaci√≥n                                   | Clasificaci√≥n con reducci√≥n de dimensionalidad                         | Bueno con datos linealmente separables                     |
| **Quadratic Discriminant Analysis (QDA)**          | Clasificaci√≥n                                   | Igual que LDA, pero para datos con covarianzas diferentes entre clases | M√°s flexible, pero m√°s complejo                            |
| **Stochastic Gradient Descent (SGD)**              | Clasificaci√≥n/Regresi√≥n                         | Casos con grandes vol√∫menes de datos                                   | Ligero, √∫til en streaming y textos                         |
| **Multilayer Perceptron (MLP - Redes neuronales)** | Clasificaci√≥n/Regresi√≥n                         | Problemas no lineales complejos                                        | Aprende patrones no lineales, requiere m√°s datos           |
| **K-Means**                                        | Clustering (no supervisado)                     | Agrupar datos similares sin etiquetas                                  | F√°cil de usar, no requiere etiquetas                       |
| **DBSCAN**                                         | Clustering (no supervisado)                     | Agrupar con formas arbitrarias y detectar outliers                     | √ötil para detectar ruido, no requiere especificar K        |
| **Hierarchical Clustering**                        | Clustering (no supervisado)                     | Agrupaci√≥n por jerarqu√≠a (√°rbol de similitud)                          | Visualizaci√≥n con dendrogramas                             |
| **PCA (An√°lisis de Componentes Principales)**      | Reducci√≥n de dimensionalidad                    | Visualizaci√≥n, eliminar ruido, acelerar algoritmos                     | Proyecta los datos a un nuevo espacio                      |
| **t-SNE / UMAP**                                   | Reducci√≥n de dimensionalidad                    | Visualizaci√≥n de datos en 2D o 3D                                      | √ötiles en visualizaci√≥n de clusters                        |
| **ARIMA / SARIMA**                                 | Series temporales                               | Predicci√≥n de datos secuenciales con tendencias y estacionalidad       | Requiere datos ordenados temporalmente                     |
| **Facebook Prophet**                               | Series temporales                               | Predicci√≥n de series de tiempo con eventos y estacionalidad            | F√°cil de usar, √∫til para negocios                          |
| **LSTM (Redes recurrentes)**                       | Series temporales / Secuencias                  | Modelado de secuencias complejas (texto, tiempo, audio)                | Potente, usado en deep learning                            |
| **Autoencoder**                                    | Reducci√≥n de dimensi√≥n / Detecci√≥n de anomal√≠as | Aprender representaci√≥n comprimida de datos                            | Parte de redes neuronales                                  |


## [___] 5. Predecir

## [‚úÖ] 5. Predecir
- [__] Entren√© el modelo con `.fit(X_train, y_train)`

- [__] Us√© `.predict(X_test)` para obtener las predicciones

- [__] Guard√© las predicciones en `y_pred`

- [__] Verifiqu√© que `y_pred` tenga la misma longitud que `y_test`

- [__] (Opcional) Us√© `.predict_proba()` si quer√≠a probabilidades



In [None]:
# Comparar predicciones con valores reales
for real, pred in zip(y_test[:5], y_pred[:5]):
    print(f"Real: {real} - Predicho: {pred}")


## [___] 6. Comparar varios modelos

- [__] Eleg√≠ al menos dos modelos diferentes

- [__] Entren√© cada modelo con `.fit()`

- [__] Predije los resultados con `.predict()`

- [__] Evalu√© cada modelo con m√©tricas relevantes

- [__] Guard√© los resultados en una estructura organizada

- [__] Compar√© las m√©tricas para decidir cu√°l modelo usar



üí° Consejos:
Empieza con modelos simples (baseline).

Prueba validaci√≥n cruzada (cross_val_score).

Usa Pipeline para integrar transformaciones y modelo.