# Creando modelos de regresión y clasificación

**Autor:** Jazna Meza Hidalgo

**Correo Electrónico:** ja.meza@profesor.duoc.cl

**Fecha de Creación:** Octubre de 2025  
**Versión:** 1.0  
  

---

## Descripción

Este notebook contiene el laboratorio para la  construcción de dos modelos predictivos, uno de para una variable discreta, es decir, un `modelo de clasificación` y otro para una variable continua, es decir, un `modelo de regresión`

Los algoritmos que se deben usar son: para clasificación es `Regresión logísitica` y para regresión es `Regresión lineal`

Se deben automatizar la fases de preparación y modelado a través del uso de `pipeline de scikit-learn`

---

## Requisitos de Software

Este notebook fue desarrollado con Python 3.12. A continuación se listan las bibliotecas necesarias:

- pandas (2.2.2)
- numpy (2.0.2)
- sklearn (1.6.1)
- matplotlib (3.10.0)

Para verificar si está instalado pandas, numpy o matplotlib ejecutar:

```bash
pip show pandas
```

```bash
pip show numpy
```

Para verificar las versiones, ejecutar:

```python
import sklearn
import matplotlib

print(f"pandas: {pd.__version__}")
print(f"numpy: {np.__version__}")
print(f"sklearn: {sklearn.__version__}")
print(f"matplotlib: {matplotlib.__version__}")
```

In [None]:
# Descargar el archivo y guardarlo en el entorno
!wget https://raw.githubusercontent.com/JaznaLaProfe/Fundamentos-de-Machine-Learning/master/data/data_suscripcion.csv

--2025-10-18 14:03:37--  https://raw.githubusercontent.com/JaznaLaProfe/Fundamentos-de-Machine-Learning/master/data/data_suscripcion.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 298181 (291K) [text/plain]
Saving to: ‘data_suscripcion.csv’


2025-10-18 14:03:37 (9.01 MB/s) - ‘data_suscripcion.csv’ saved [298181/298181]



In [None]:
# Descargar el archivo y guardarlo en el entorno
!wget https://raw.githubusercontent.com/JaznaLaProfe/Fundamentos-de-Machine-Learning/master/data/descripcion_data_suscripcion.json

--2025-10-18 14:03:40--  https://raw.githubusercontent.com/JaznaLaProfe/Fundamentos-de-Machine-Learning/master/data/descripcion_data_suscripcion.json
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1124 (1.1K) [text/plain]
Saving to: ‘descripcion_data_suscripcion.json’


2025-10-18 14:03:40 (77.7 MB/s) - ‘descripcion_data_suscripcion.json’ saved [1124/1124]



# Objetivo general

Aplicar el flujo completo de preparación y modelado de datos en `scikit-learn`, integrando las fases de preprocesamiento y entrenamiento mediante el uso de `Pipeline` y `ColumnTransformer`.

El propósito es que los estudiantes comprendan la importancia de encapsular el tratamiento de datos y el entrenamiento del modelo dentro de una misma estructura reproducible y ordenada.

# Contexto

A partir del dataset entregado en el notebook base, se deben desarrollar dos enfoques predictivos sobre los mismos datos:

+ Modelo de regresión: que permita estimar una variable numérica relevante.

+ Modelo de clasificación: que permita predecir una categoría de interés.

El estudiante deberá justificar brevemente qué variable o fenómeno resulta importante predecir para el negocio o contexto del dataset, explicando su elección antes de construir los modelos.

# Fases del trabajo

Fase 1. Análisis inicial del dataset

+ Explorar el contenido del dataset (estructura, tipos de variables, valores faltantes, duplicados, inconsistencias.).

+ Identificar las variables numéricas y categóricas.

+ Proponer qué variable puede ser el objetivo para: nn modelo de regresión y un modelo de clasificación.

---
**Nota:** Ambas tareas deben realizarse sobre el mismo dataset. Puedes seleccionar distintas variables objetivo según la naturaleza del problema.

---

Fase 2. Construcción del flujo de preprocesamiento

1. Implementar un `Pipeline` que incluya todas las fases necesarias para preparar y entrenar el modelo, evitando repetir pasos fuera de este flujo.

2. Debe incluir obligatoriamente:

+ Imputación de valores faltantes (SimpleImputer).

+ Estandarización o normalización de variables numéricas (StandardScaler, MinMaxScaler, etc.).

+ Codificación de variables categóricas (OneHotEncoder, por ejemplo).

+ Integración de transformaciones mediante ColumnTransformer.

+ Creación del modelo (regresor o clasificador).

---
**Importante**. No se permite aplicar transformaciones fuera del Pipeline, como usar fillna(), pd.get_dummies(), o escalar los datos manualmente.
El Pipeline debe contener todas las operaciones necesarias para garantizar la reproducibilidad del flujo.

---


Fase 3. Entrenamiento y evaluación

Dividir el dataset en conjuntos de entrenamiento y prueba (train_test_split).

Entrenar el modelo dentro del Pipeline.

Evaluar su rendimiento usando métricas adecuadas:

+ Regresión: $R^2$, MLSE y MAE.

+ Clasificación: accuracy, precision, recall, f1-score y matriz de confusión.

+ Comparar los resultados de ambos enfoques (regresión y clasificación) y comenta brevemente qué tipo de modelo resultaría más útil para el contexto planteado.

Fase 4. Aspectos opcionales

El tratamiento de valores atípicos (outliers) no es obligatorio en esta etapa.
Será discutido posteriormente en clase como complemento del proceso de preparación de datos.

# Entrega esperada

El notebook debe contener:

+ Justificación de las variables objetivo elegidas.

+ Pipeline correctamente implementado para cada modelo.

+ Resultados de evaluación con interpretación.

+ Conclusiones sobre la utilidad de los modelos y observaciones sobre el flujo automatizado.

In [1]:
import pandas as pd

In [None]:
data = pd.read_csv('data_suscripcion.csv')
data.head()

Unnamed: 0,ClienteID,Edad,Genero,Pais,Suscripcion_Meses,Plan,Horas_Semanales_Uso,Satisfaccion,Soporte_Contactos,Promocion_Usada,GastoMensual,Renuncia
0,1,31.0,Femenino,Chile,32,Básico,11.2,5.0,6,No,8260.0,0
1,2,42.0,Masculino,Perú,7,Estándar,15.8,3.0,3,No,21510.0,0
2,3,54.0,Masculino,Chile,25,Estándar,12.0,3.0,6,No,19020.0,0
3,4,14.0,Masculino,México,12,Básico,14.0,2.0,3,No,5600.0,1
4,5,42.0,Masculino,México,23,Básico,15.1,,3,No,16910.0,0


In [None]:
pd.set_option('display.max_colwidth', None)
descripcion = pd.read_json("descripcion_data_suscripcion.json")
descripcion

Unnamed: 0,nombre,descripcion
0,ClienteID,Identificador único del cliente
1,Edad,Edad del cliente expresada en años
2,Genero,"Géneto declarado (Femenino, Masculino, Otro)"
3,Pais,País de residencia
4,Suscripcion_Meses,Tiempo con suscripción activa
5,Plan,"Tipo de plan contratado (Básico, Estándar o Premium)"
6,Horas_Semanales_Uso,Promedio de horas de uso semanal
7,Satisfacción,Nivel de satisfacción declarado
8,Soporte_Contactos,Número de contactos al soporte en el último año
9,Promocion_Usada,Si utilizó o no una promoción de descuento al suscribirse
