# 2. Preprocesamiento de Datos

**Objetivo:**  
Construir un pipeline de preprocesamiento usando `sklearn` que transforme 
las variables del dataset para que sean aptas para el modelado de Machine Learning.

**Tareas realizadas:**
1. Separaci√≥n de variables predictoras (X) y variable objetivo (y)
2. Divisi√≥n de datos en conjunto de entrenamiento (80%) y test (20%)
3. Construcci√≥n de Pipeline con ColumnTransformer:
   - `OneHotEncoder` para variables categ√≥ricas
   - `StandardScaler` para variables num√©ricas
4. Serializaci√≥n del preprocesador entrenado

**Clasificaci√≥n de variables:**

| Variable | Tipo | Transformaci√≥n |
|----------|------|----------------|
| PetType | Categ√≥rica | OneHotEncoder |
| Breed | Categ√≥rica | OneHotEncoder |
| Color | Categ√≥rica | OneHotEncoder |
| Size | Categ√≥rica | OneHotEncoder |
| AgeMonths | Num√©rica | StandardScaler |
| WeightKg | Num√©rica | StandardScaler |
| AdoptionFee | Num√©rica | StandardScaler |
| Vaccinated | Binaria | Sin transformaci√≥n |
| HealthCondition | Binaria | Sin transformaci√≥n |
| PreviousOwner | Binaria | Sin transformaci√≥n |
| PetID | Identificador | Eliminada |
| AdoptionLikelihood | Otra variable objetivo | Eliminada |
| TimeInShelterDays | Variable objetivo (y) | Sin transformaci√≥n |

---

In [12]:
# ============================================
# Importaciones y Carga de Datos
# ============================================

import numpy as np
import pandas as pd
import joblib
import os
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline


#Cargamos nuesro dataset
df = pd.read_csv('../data/pet_adoption_data.csv')

print(f"Dataset cargado: {df.shape[0]} filas x {df.shape[1]} columnas")


Dataset cargado: 2007 filas x 13 columnas


## 2.1 Separaci√≥n de Variables: X e y

**Objetivo:**  
Separar el dataset en variables predictoras (X) y variable objetivo (y).

**Decisiones tomadas:**
- `TimeInShelterDays` ‚Üí Variable objetivo (y)
- `PetID` ‚Üí Eliminada (identificador sin valor predictivo)
- `AdoptionLikelihood` ‚Üí Eliminada (variable objetivo alternativa, no predictora)
- Resto de columnas ‚Üí Variables predictoras (X)

---

## 2.1 Separaci√≥n de Variables: X e y

**Objetivo:**  
Separar el dataset en variables predictoras (X) y variable objetivo (y).

**Decisiones tomadas:**
- `TimeInShelterDays` ‚Üí Variable objetivo (y)
- `PetID` ‚Üí Eliminada (identificador sin valor predictivo)
- `AdoptionLikelihood` ‚Üí Eliminada (variable objetivo alternativa, no predictora)
- Resto de columnas ‚Üí Variables predictoras (X)


In [13]:
# ============================================
# Separaci√≥n de Variables X e y
# ============================================

# Variable objetivo
y = df['TimeInShelterDays']

# Variables predictoras
# Eliminamos: PetID (identificador), 
#             TimeInShelterDays (es la y),
#             AdoptionLikelihood (otra variable objetivo)
X = df.drop(columns=['PetID', 'TimeInShelterDays', 'AdoptionLikelihood'])

# Verificar resultado
print("="*60)
print("SEPARACI√ìN X e y")
print("="*60)

print(f"\nüìä VARIABLE OBJETIVO (y):")
print(f"   Nombre:    TimeInShelterDays")
print(f"   Registros: {y.shape[0]}")
print(f"   Rango:     {y.min()} - {y.max()} d√≠as")

print(f"\nüìä VARIABLES PREDICTORAS (X):")
print(f"   Dimensiones: {X.shape[0]} filas x {X.shape[1]} columnas")
print(f"   Columnas: {list(X.columns)}")

SEPARACI√ìN X e y

üìä VARIABLE OBJETIVO (y):
   Nombre:    TimeInShelterDays
   Registros: 2007
   Rango:     1 - 89 d√≠as

üìä VARIABLES PREDICTORAS (X):
   Dimensiones: 2007 filas x 10 columnas
   Columnas: ['PetType', 'Breed', 'AgeMonths', 'Color', 'Size', 'WeightKg', 'Vaccinated', 'HealthCondition', 'AdoptionFee', 'PreviousOwner']


### Interpretaci√≥n

**Variable objetivo (y):**
- `TimeInShelterDays`: variable continua con rango [1, 89] d√≠as
- Es lo que el modelo aprender√° a predecir

**Variables predictoras (X):**
- Total: 10 columnas
- 4 categ√≥ricas: PetType, Breed, Color, Size
- 3 num√©ricas: AgeMonths, WeightKg, AdoptionFee
- 3 binarias: Vaccinated, HealthCondition, PreviousOwner

**Variables eliminadas:**
- `PetID`: identificador √∫nico sin valor predictivo
- `AdoptionLikelihood`: variable objetivo alternativa que 
  no debe usarse como predictor para evitar data leakage

---

## 2.2 Divisi√≥n Train/Test (80/20)

**Objetivo:**  
Dividir el dataset en dos conjuntos independientes para entrenamiento y evaluaci√≥n del modelo.

**Configuraci√≥n:**
- **80% (1605 registros)** ‚Üí Conjunto de entrenamiento (TRAIN)
  - El modelo aprende con estos datos
- **20% (402 registros)** ‚Üí Conjunto de prueba (TEST)
  - El modelo se eval√∫a con datos que nunca ha visto
- **random_state=42** ‚Üí Semilla aleatoria para reproducibilidad
  - Garantiza que la divisi√≥n sea siempre la misma

**¬øPor qu√© dividir?**

Sin divisi√≥n (usar todos los datos para entrenar):
- El modelo memoriza los datos (OVERFITTING)
- No sabemos si funcionar√° con datos nuevos

Con divisi√≥n:
- Evaluamos el modelo con datos que no ha visto
- Detectamos si realmente aprendi√≥ o solo memoriz√≥

---

In [14]:
# ============================================
# Divisi√≥n Train/Test (80/20)
# ============================================

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.2,       #20% para test
    random_state=42      #Semilla para reproducibilidad
)

#Verificar resultado
print("="*60)
print("DIVISI√ìN TRAIN/TEST")
print("="*60)

print(f"\nüìä CONJUNTO DE ENTRENAMIENTO:")
print(f"   X_train: {X_train.shape[0]} filas x {X_train.shape[1]} columnas")
print(f"   y_train: {y_train.shape[0]} valores")
print(f"   Porcentaje: {X_train.shape[0]/len(X)*100:.1f}%")

print(f"\nüìä CONJUNTO DE PRUEBA:")
print(f"   X_test: {X_test.shape[0]} filas x {X_test.shape[1]} columnas")
print(f"   y_test: {y_test.shape[0]} valores")
print(f"   Porcentaje: {X_test.shape[0]/len(X)*100:.1f}%")

print(f"\nüìä ESTAD√çSTICAS DE LA VARIABLE OBJETIVO:")
print(f"   y_train - Media: {y_train.mean():.2f} d√≠as, Std: {y_train.std():.2f}")
print(f"   y_test  - Media: {y_test.mean():.2f} d√≠as, Std: {y_test.std():.2f}")


DIVISI√ìN TRAIN/TEST

üìä CONJUNTO DE ENTRENAMIENTO:
   X_train: 1605 filas x 10 columnas
   y_train: 1605 valores
   Porcentaje: 80.0%

üìä CONJUNTO DE PRUEBA:
   X_test: 402 filas x 10 columnas
   y_test: 402 valores
   Porcentaje: 20.0%

üìä ESTAD√çSTICAS DE LA VARIABLE OBJETIVO:
   y_train - Media: 44.23 d√≠as, Std: 25.75
   y_test  - Media: 42.96 d√≠as, Std: 25.72


### Interpretaci√≥n

**Divisi√≥n realizada correctamente:**
- Train: 1605 registros (80%)
- Test: 402 registros (20%)

**Validaci√≥n de la divisi√≥n:**

La media y desviaci√≥n est√°ndar de `y_train` y `y_test` deben ser similares, 
lo que indica que la divisi√≥n fue aleatoria y representativa del dataset completo.

Si las estad√≠sticas fueran muy diferentes, indicar√≠a un sesgo en la divisi√≥n 
(ejemplo: todos los valores altos en train y los bajos en test).

**random_state=42:**

Al fijar la semilla aleatoria, garantizamos que:
- Cualquier persona que ejecute este notebook obtendr√° la misma divisi√≥n
- Los resultados son reproducibles
- Es esencial para la validaci√≥n cient√≠fica del modelo

---

## 2.3 Construcci√≥n del Pipeline de Preprocesamiento

**Objetivo:**  
Crear un `ColumnTransformer` que aplique transformaciones diferentes a diferentes tipos de columnas autom√°ticamente.

**Estrategia de transformaci√≥n:**

| Tipo de Variable | Columnas | Transformaci√≥n | Justificaci√≥n |
|------------------|----------|----------------|---------------|
| **Categ√≥ricas** | PetType, Breed, Color, Size | `OneHotEncoder` | Convierte texto en columnas binarias (0/1) |
| **Num√©ricas** | AgeMonths, WeightKg, AdoptionFee | `StandardScaler` | Estandariza a media=0, std=1 |
| **Binarias** | Vaccinated, HealthCondition, PreviousOwner | `passthrough` | Ya est√°n en escala 0/1, no requieren transformaci√≥n |

**Pipeline de sklearn:**

Un Pipeline encadena transformaciones de forma autom√°tica y ordenada:
1. Identifica qu√© columnas son de cada tipo
2. Aplica la transformaci√≥n correspondiente a cada grupo
3. Combina todo en una matriz lista para el modelo

**Ventajas:**
- Evita errores manuales
- Garantiza que train y test reciban las mismas transformaciones
- Facilita la serializaci√≥n para producci√≥n

---

In [15]:
# ============================================
# Definir Columnas por Tipo
# ============================================

# Categ√≥ricas (texto) ‚Üí OneHotEncoder
categorical_features = ['PetType', 'Breed', 'Color', 'Size']

# Num√©ricas (escalar) ‚Üí StandardScaler
numerical_features = ['AgeMonths', 'WeightKg', 'AdoptionFee']

# Binarias (0/1) ‚Üí Sin transformaci√≥n
binary_features = ['Vaccinated', 'HealthCondition', 'PreviousOwner']

print("="*60)
print("DEFINICI√ìN DE COLUMNAS POR TIPO")
print("="*60)
print(f"\nCateg√≥ricas ({len(categorical_features)}): {categorical_features}")
print(f"Num√©ricas ({len(numerical_features)}): {numerical_features}")
print(f"Binarias ({len(binary_features)}): {binary_features}")

# ============================================
# Construir ColumnTransformer
# ============================================

preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(drop='first', sparse_output=False, handle_unknown='ignore'), 
         categorical_features),
        ('num', StandardScaler(), 
         numerical_features),
        ('bin', 'passthrough', 
         binary_features)
    ],
    remainder='drop'  # Eliminar cualquier columna no especificada
)

print("\n" + "="*60)
print("PIPELINE CONSTRUIDO")
print("="*60)
print(f"\n‚úÖ ColumnTransformer creado con 3 transformadores:")
print(f"   1. OneHotEncoder   ‚Üí {len(categorical_features)} columnas categ√≥ricas")
print(f"   2. StandardScaler  ‚Üí {len(numerical_features)} columnas num√©ricas")
print(f"   3. Passthrough     ‚Üí {len(binary_features)} columnas binarias")

DEFINICI√ìN DE COLUMNAS POR TIPO

Categ√≥ricas (4): ['PetType', 'Breed', 'Color', 'Size']
Num√©ricas (3): ['AgeMonths', 'WeightKg', 'AdoptionFee']
Binarias (3): ['Vaccinated', 'HealthCondition', 'PreviousOwner']

PIPELINE CONSTRUIDO

‚úÖ ColumnTransformer creado con 3 transformadores:
   1. OneHotEncoder   ‚Üí 4 columnas categ√≥ricas
   2. StandardScaler  ‚Üí 3 columnas num√©ricas
   3. Passthrough     ‚Üí 3 columnas binarias


In [16]:
# ============================================
# Entrenar el Preprocesador (FIT)
# ============================================

preprocessor.fit(X_train)

print("="*60)
print("PREPROCESADOR ENTRENADO")
print("="*60)
print("\n‚úÖ Fit completado con X_train")
print(f"   Registros utilizados: {X_train.shape[0]}")

# Ver c√∫antas columnas se generaron despu√©s de OneHotEncoder
X_train_transformed = preprocessor.transform(X_train)
print(f"\nüìä RESULTADO DE LA TRANSFORMACI√ìN:")
print(f"   Columnas ANTES:   {X_train.shape[1]}")
print(f"   Columnas DESPU√âS: {X_train_transformed.shape[1]}")
print(f"\n   ¬øPor qu√© m√°s columnas?")
print(f"   ‚Üí OneHotEncoder convirti√≥ las 4 categ√≥ricas")
print(f"     en m√∫ltiples columnas binarias (una por categor√≠a)")


PREPROCESADOR ENTRENADO

‚úÖ Fit completado con X_train
   Registros utilizados: 1605

üìä RESULTADO DE LA TRANSFORMACI√ìN:
   Columnas ANTES:   10
   Columnas DESPU√âS: 21

   ¬øPor qu√© m√°s columnas?
   ‚Üí OneHotEncoder convirti√≥ las 4 categ√≥ricas
     en m√∫ltiples columnas binarias (una por categor√≠a)


In [17]:
X_train.head()

Unnamed: 0,PetType,Breed,AgeMonths,Color,Size,WeightKg,Vaccinated,HealthCondition,AdoptionFee,PreviousOwner
916,Dog,Golden Retriever,68,Black,Medium,15.083291,1,0,419,0
261,Cat,Siamese,172,Brown,Medium,24.471717,0,0,408,1
607,Rabbit,Rabbit,169,Orange,Large,10.89333,0,0,373,0
1331,Rabbit,Rabbit,135,Gray,Large,2.863329,0,1,342,0
240,Rabbit,Rabbit,169,Orange,Small,26.926209,1,0,55,0


### Interpretaci√≥n del Pipeline

**¬øQu√© hace `drop='first'` en OneHotEncoder?**

Evita redundancia eliminando una categor√≠a de referencia.

Ejemplo con PetType:
```
Sin drop='first':
PetType_Dog  PetType_Cat  PetType_Rabbit
     1            0            0         ‚Üê Dog
     0            1            0         ‚Üê Cat
     0            0            1         ‚Üê Rabbit

Con drop='first' (elimina Dog):
PetType_Cat  PetType_Rabbit
     0            0         ‚Üê Dog (se infiere: no es Cat ni Rabbit)
     1            0         ‚Üê Cat
     0            1         ‚Üê Rabbit
```

Esto evita multicolinealidad perfecta en modelos de regresi√≥n.

**¬øQu√© hace `handle_unknown='ignore'`?**

Si en producci√≥n llega una categor√≠a nueva que no exist√≠a en train 
(ejemplo: una raza nueva), en lugar de dar error, la ignora y 
asigna 0 a todas las columnas.

**¬øPor qu√© `fit` solo con X_train?**
```
‚ùå MAL: preprocessor.fit(X)  
   ‚Üí El preprocesador "ve" los datos de test
   ‚Üí Data leakage: informaci√≥n del futuro filtra al entrenamiento

‚úÖ BIEN: preprocessor.fit(X_train)
   ‚Üí El preprocesador solo "ve" los datos de train
   ‚Üí Simula condiciones reales donde el test es futuro desconocido
```

**Aumento de columnas:**

Las 10 columnas originales se expandieron a **21 columnas** 
debido a que OneHotEncoder convirti√≥ cada valor √∫nico de las categ√≥ricas 
en una columna binaria separada.

---

## 2.4 Serializaci√≥n del Preprocesador

**Objetivo:**  
Guardar el preprocesador entrenado en un archivo para poder reutilizarlo sin necesidad de reentrenarlo.

**¬øQu√© es serializar?**

Serializar = Convertir un objeto de Python (el preprocesador) en un archivo binario que se puede:
- Guardar en disco
- Cargar posteriormente
- Usar en producci√≥n (app Streamlit)

**¬øPor qu√© serializar?**
```
Sin serializaci√≥n:
‚Üí Cada vez que abres el notebook hay que ejecutar todo
‚Üí En producci√≥n tendr√≠as que reentrenar cada vez
‚Üí P√©rdida de tiempo y recursos

Con serializaci√≥n:
‚Üí Guardas el preprocesador una vez
‚Üí Lo cargas instant√°neamente cuando lo necesitas
‚Üí La app Streamlit lo usa directamente
```

**Librer√≠a utilizada:**

`joblib` es la librer√≠a recomendada por sklearn para serializar modelos y preprocesadores.
Es m√°s eficiente que `pickle` para objetos grandes con arrays de NumPy.

---

In [18]:
# ============================================
# Serializar el Preprocesador
# ============================================

# Crear carpeta models/ si no existe
os.makedirs('../models', exist_ok=True)

# Guardar el preprocesador
preprocessor_path = '../models/preprocessor.joblib'
joblib.dump(preprocessor, preprocessor_path)

print("="*60)
print("SERIALIZACI√ìN COMPLETADA")
print("="*60)
print(f"\n‚úÖ Preprocesador guardado en:")
print(f"   {preprocessor_path}")

# Verificar que se guard√≥ correctamente
file_size = os.path.getsize(preprocessor_path) / 1024  # Tama√±o en KB
print(f"\nüìä INFORMACI√ìN DEL ARCHIVO:")
print(f"   Tama√±o: {file_size:.2f} KB")
print(f"   Ruta absoluta: {os.path.abspath(preprocessor_path)}")

# ============================================
# Prueba de Carga (verificaci√≥n)
# ============================================

# Cargar el preprocesador para verificar que funciona
preprocessor_loaded = joblib.load(preprocessor_path)

# Probar transformaci√≥n con los primeros 5 registros de test
X_test_sample = X_test.head(5)
X_test_transformed = preprocessor_loaded.transform(X_test_sample)

print(f"\n‚úÖ VERIFICACI√ìN DE CARGA:")
print(f"   Preprocesador cargado correctamente")
print(f"   Prueba de transformaci√≥n: 5 registros ‚Üí {X_test_transformed.shape[1]} columnas")
print(f"\n   El preprocesador est√° listo para usar en producci√≥n.")

SERIALIZACI√ìN COMPLETADA

‚úÖ Preprocesador guardado en:
   ../models/preprocessor.joblib

üìä INFORMACI√ìN DEL ARCHIVO:
   Tama√±o: 4.31 KB
   Ruta absoluta: c:\Users\SONY VAIO\desktop\ia\practicas\Proyect_V_Regression_Team3\models\preprocessor.joblib

‚úÖ VERIFICACI√ìN DE CARGA:
   Preprocesador cargado correctamente
   Prueba de transformaci√≥n: 5 registros ‚Üí 21 columnas

   El preprocesador est√° listo para usar en producci√≥n.


### Resumen del Preprocesamiento

**Pipeline completado exitosamente:**

1. ‚úÖ **Separaci√≥n X e y**
   - Variable objetivo: `TimeInShelterDays` (2007 registros)
   - Variables predictoras: 10 columnas

2. ‚úÖ **Divisi√≥n Train/Test**
   - Train: 1605 registros (80%)
   - Test: 402 registros (20%)
   - Divisi√≥n balanceada (medias similares)

3. ‚úÖ **ColumnTransformer construido**
   - OneHotEncoder: 4 categ√≥ricas ‚Üí expandidas
   - StandardScaler: 3 num√©ricas ‚Üí estandarizadas
   - Passthrough: 3 binarias ‚Üí sin cambios
   - Resultado: 10 columnas ‚Üí 21 columnas

4. ‚úÖ **Preprocesador serializado**
   - Archivo: `models/preprocessor.joblib`
   - Listo para usar en notebooks posteriores
   - Listo para producci√≥n (Streamlit)

