# üß≠ **Template integral (1‚Üí2‚Üí3): Instalaci√≥n ‚Üí EDA ‚Üí Preprocesamiento**

**Fecha:** 2025-09-25  
**Autor:** _Tu nombre_  
**Proyecto:** _Nombre del proyecto_

Este notebook sigue la secuencia **(1) Instalaci√≥n y entorno**, **(2) An√°lisis Exploratorio**, **(3) Preprocesamiento**.
Usa cada secci√≥n como checklist reproducible. El flujo est√° alineado con pr√°cticas para **ciencia de datos/ML** en Python.

---

## √çndice
1. [Instalaci√≥n y Entorno](#instalacion)
2. [EDA (An√°lisis Exploratorio)](#eda)
3. [Preprocesamiento](#prepro)
4. [Ap√©ndices](#apendices)

---


# **1) Instalaci√≥n y Entorno <a id='instalacion'>**</a>

### **1.1 Opciones de entorno**
- **Local + VS Code** (recomendado para proyectos): instalar Python 3.x, VS Code y extensiones de *Python* y *Jupyter*.
- **PyCharm** (IDE completo) o **Google Colab** (nube).
- **Gestores de entornos**: `conda` (Anaconda/Miniconda) o `venv` + `pip`.

> Recomendaci√≥n: crea **un entorno por proyecto** para aislar dependencias.


### **1.2 Crear entorno (elige una opci√≥n)**

Antes de ejecutar el notebook, es necesario configurar un entorno aislado con las librer√≠as requeridas.  
Puedes hacerlo mediante **conda** o utilizando **venv + pip**.

**Opci√≥n A ‚Äì conda (Anaconda/Miniconda):**


```bash
# crear y activar
conda create -n mi_entorno python=3.11 -y
conda activate mi_entorno

# instalar librer√≠as base
conda install -y numpy pandas matplotlib scikit-learn scipy
# opcional (EDA automatizado)
pip install sweetviz pandas-profiling ydata-profiling
```

**Opci√≥n B ‚Äì venv + pip (ligero):**
```bash
python -m venv .venv
# Activar:  Windows: .venv\Scripts\activate    macOS/Linux: source .venv/bin/activate
pip install --upgrade pip
pip install numpy pandas matplotlib scikit-learn scipy sweetviz ydata-profiling
```


Este paso garantiza que todas las dependencias del proyecto se ejecuten de forma estable y reproducible.

**¬øQu√© hace pip install?**

pip install es el comando est√°ndar de Python para descargar e instalar paquetes desde el repositorio oficial Python Package Index (PyPI) u otras fuentes especificadas.

pip realiza las siguientes acciones:

**Busca los paquetes** en PyPI (o en un repositorio alterno si se especifica).

**Descarga la versi√≥n m√°s reciente** compatible con tu versi√≥n de Python y del sistema operativo.

**Resuelve dependencias**, es decir, instala autom√°ticamente cualquier paquete adicional que esos m√≥dulos necesiten.

**Instala los paquetes** dentro del entorno activo (conda, venv o entorno global).

**Registra la instalaci√≥n** para que pueda ser consultada o desinstalada posteriormente.

**En resumen:**
pip install prepara tu entorno con todas las librer√≠as necesarias para ejecutar el c√≥digo, garantizando que Python pueda importar esos m√≥dulos sin errores.

### **1.3 Verificar instalaci√≥n**
Corre las siguientes celdas para verificar versiones y entorno.

Ejecuta la siguiente celda para confirmar que el entorno est√° configurado correctamente y que las librer√≠as requeridas se instalaron en sus versiones esperadas.


In [None]:
import sys, platform, subprocess
import numpy as np, pandas as pd, matplotlib
import sklearn, scipy
print("Python:", sys.version.split()[0])
print("Platform:", platform.platform())
print("NumPy:", np.__version__)
print("Pandas:", pd.__version__)
print("Matplotlib:", matplotlib.__version__)
print("scikit-learn:", sklearn.__version__)
print("SciPy:", scipy.__version__)

Si todas las versiones se muestran sin errores, el entorno est√° listo para comenzar el an√°lisis.

**¬øQu√© hace este bloque de verificaci√≥n?**

Este c√≥digo confirma que tu entorno est√° correctamente configurado y que las librer√≠as esenciales est√°n instaladas. Para esto, realiza tres acciones:

1. Importa los m√≥dulos necesarios.

2. Consulta sus versiones internas.

3. Imprime la informaci√≥n del sistema y del entorno de Python.

A continuaci√≥n se explica cada elemento:

**sys** ‚Üí Permite acceder a informaci√≥n interna de Python (versi√≥n, rutas, etc.).

**platform** ‚Üí Proporciona informaci√≥n del sistema operativo.

**subprocess** ‚Üí Se usa para ejecutar comandos externos (no se utiliza en este bloque pero suele incluirse para verificaciones extendidas).

**numpy** as np ‚Üí Biblioteca para c√°lculo num√©rico.

**pandas** as pd ‚Üí Manejo de datos tabulares.

**matplotlib** ‚Üí Biblioteca base para gr√°ficos.

**sklearn** ‚Üí Conjunto de herramientas de machine learning.

**scipy** ‚Üí Funciones cient√≠ficas adicionales (estad√≠stica, optimizaci√≥n, etc.).

### **1.4 Estructura del proyecto (paths)**
Define carpetas de trabajo y activa semilla reproducible.

Este bloque define las rutas principales del proyecto y garantiza que todas las carpetas necesarias est√©n creadas.  
Adem√°s, establece una semilla global para asegurar reproducibilidad en cualquier proceso que involucre aleatoriedad.


In [None]:
from pathlib import Path
import numpy as np, random, warnings

**Importaci√≥n de m√≥dulos**

**Path:** facilita el manejo de rutas de archivos de forma segura y compatible con cualquier sistema operativo.

**numpy / random:** se emplean para establecer una semilla reproducible.

**warnings:** permite suprimir advertencias que no afectan al an√°lisis.

In [None]:
PROJ_DIR = Path.cwd()
DATA_DIR = PROJ_DIR / "data"
OUTPUT_DIR = PROJ_DIR / "outputs"
FIG_DIR = OUTPUT_DIR / "figs"

**Definici√≥n de rutas base del proyecto**

Este bloque define:

**PROJ_DIR** ‚Üí directorio principal del proyecto (la carpeta donde se ejecuta el notebook).

**DATA_DIR** ‚Üí carpeta donde se almacenar√°n datasets de entrada.

**OUTPUT_DIR** ‚Üí carpeta destinada a resultados procesados.

**FIG_DIR** ‚Üí subcarpeta dentro de outputs/ para guardar gr√°ficas generadas.

Esto ayuda a mantener una **estructura ordenada y estandarizada** en el repositorio.

**Crear directorios si no existen**

Crea autom√°ticamente las carpetas necesarias.

**exist_ok=True** evita errores si la carpeta ya existe.

**parents=True** crea cualquier carpeta intermedia que falte.

Esto garantiza que el **notebook nunca falle por ausencia de directorios**.

In [None]:
SEED = 42
random.seed(SEED); np.random.seed(SEED)

**Fijar semilla para reproducibilidad**

Asegura que cualquier operaci√≥n aleatoria en Python o NumPy g**enere los mismos resultados cada vez.**

Es esencial en an√°lisis estad√≠stico, machine learning, simulaciones, etc.

In [None]:
warnings.filterwarnings("ignore")

**Desactivar advertencias**

Oculta mensajes secundarios que podr√≠an saturar el output, sin afectar la ejecuci√≥n.

In [None]:
print("Proyecto:", PROJ_DIR)

**Confirmar configuraci√≥n**

Imprime la ruta del proyecto para verificar que es correcta.

# **2) EDA (An√°lisis Exploratorio) <a id='eda'>**</a>

El an√°lisis exploratorio es el primer paso para comprender la estructura del dataset, detectar posibles problemas (valores faltantes, tipos de datos incorrectos, outliers) y validar que la informaci√≥n est√° lista para su procesamiento.

### **2.1 Cargar datos**
Usa el lector apropiado (CSV/Excel/Parquet/SQL). Ajusta `encoding`, separador y valores nulos.

En esta secci√≥n se importa el dataset desde el directorio del proyecto.  
El lector adecuado depender√° del formato del archivo (CSV, Excel, Parquet o SQL).  
Es importante ajustar correctamente par√°metros como:

- `encoding`
- separador (`sep`)
- valores nulos (`na_values`)
- nombre de hoja en Excel (`sheet_name`)

El bloque tambi√©n incluye un generador de *dataset sint√©tico* para pruebas si a√∫n no se ha cargado un archivo real.


In [None]:
import pandas as pd
import numpy as np

# Ejemplos (descomenta y ajusta):
# df = pd.read_csv(DATA_DIR / "archivo.csv", encoding="utf-8", na_values=["", "NA", "NaN"])
# df = pd.read_excel(DATA_DIR / "archivo.xlsx", sheet_name=0)
# df = pd.read_parquet(DATA_DIR / "archivo.parquet")

# DEMO: dataset sint√©tico si no se carg√≥ nada
if 'df' not in globals():
    rng = np.random.default_rng(0)
    n = 400
    df = pd.DataFrame({
        "id": np.arange(n),
        "edad": rng.integers(30, 85, size=n),
        "sexo": rng.choice(["M","F"], size=n),
        "fecha_visita": pd.date_range("2024-01-01", periods=n, freq="D"),
        "mds_updrs": rng.normal(45, 12, size=n).round(1),
        "grupo": rng.choice(["control","caso"], size=n, p=[0.6, 0.4])
    })
df.head()

**¬øQu√© hace este bloque?**

**Carga los datos reales** si proporcionas un archivo en la carpeta data/.

Si no existe la variable df, **crea un dataset sint√©tico** para que el notebook pueda ejecutarse sin errores.

Genera un DataFrame con variables t√≠picas para an√°lisis:

identificador (id)

edad

sexo

fecha de visita

puntaje motor (mds_updrs)

grupo experimental

Muestra las primeras filas con df.head() para validar que la estructura es correcta.

### **2.2 Inspecci√≥n r√°pida**

Antes de realizar cualquier an√°lisis profundo, es fundamental revisar la estructura general del DataFrame.  
Comandos como `shape`, `dtypes`, `head`, `sample` y `describe` permiten identificar problemas tempranos como:

- valores faltantes,
- tipos de datos incorrectos,
- distribuciones inesperadas,
- duplicados,
- errores de carga.

`shape`, `dtypes`, `head`, `sample`, `describe` te dan un panorama de calidad de datos.

El siguiente bloque realiza una inspecci√≥n r√°pida y completa:

```python
print("Dimensiones:", df.shape)

display(df.head(5))                     # Primeras observaciones
display(df.sample(5, random_state=SEED))  # Muestra aleatoria reproducible

display(df.info())                      # Tipos de datos y conteo de valores no nulos
display(df.describe(include="all"))     # Estad√≠sticos descriptivos (num√©ricos y categ√≥ricos)


In [None]:
print("Dimensiones:", df.shape)
display(df.head(5))
display(df.sample(5, random_state=SEED))
display(df.info())
display(df.describe(include="all"))

**¬øPor qu√© es importante este paso?**

Permite verificar que el dataset se carg√≥ de forma correcta.

Facilita la detecci√≥n temprana de inconsistencias estructurales.

Ayuda a definir los pasos posteriores de limpieza y transformaci√≥n.

Es una **pr√°ctica est√°ndar en cualquier pipeline** de an√°lisis profesional y reproducible.

### **2.3 EDA visual b√°sico (Matplotlib/Seaborn)**
- Histogramas para distribuciones
- Boxplots para outliers
- Scatter para relaciones

El an√°lisis visual permite detectar patrones, distribuciones an√≥malas, sesgos y relaciones entre variables.  
En esta secci√≥n se emplean gr√°ficos fundamentales del EDA:

- **Histogramas** ‚Üí para inspeccionar distribuciones.  
- **Boxplots** ‚Üí para detectar outliers y comparar grupos.  
- **Scatterplots** ‚Üí para explorar relaciones entre variables (opcional).  

A continuaci√≥n, se presentan ejemplos b√°sicos utilizando Matplotlib (y Seaborn si se requiere).

```python
import matplotlib.pyplot as plt
# import seaborn as sns  # opcional

# Histograma de distribuci√≥n de la edad
plt.figure()
df['edad'].hist(bins=20)
plt.title('Distribuci√≥n de edad')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()

# Boxplot de MDS-UPDRS por grupo (caso vs control)
plt.figure()
df.boxplot(column='mds_updrs', by='grupo')
plt.title('MDS-UPDRS por grupo')
plt.suptitle('')   # elimina el t√≠tulo autom√°tico de pandas
plt.xlabel('Grupo')
plt.ylabel('MDS-UPDRS')
plt.show()


In [None]:
import matplotlib.pyplot as plt
# import seaborn as sns  # opcional

plt.figure()
df['edad'].hist(bins=20)
plt.title('Distribuci√≥n de edad'); plt.xlabel('Edad'); plt.ylabel('Frecuencia')
plt.show()

plt.figure()
df.boxplot(column='mds_updrs', by='grupo')
plt.title('MDS-UPDRS por grupo'); plt.suptitle(''); plt.xlabel('Grupo'); plt.ylabel('MDS-UPDRS')
plt.show()

**¬øQu√© aporta cada gr√°fico?**


**Histograma**

Permite ver si la edad est√° distribuida de manera uniforme, sesgada o multimodal.

Ayuda a detectar posibles errores (ej. valores fuera de rango).

**Boxplot**

Identifica outliers en mds_updrs.

Facilita comparar la distribuci√≥n entre grupos (control vs caso).

√ötil para an√°lisis preliminar de diferencias entre cohortes.

### **2.4 EDA automatizado (opcional)**
Genera reportes HTML con **Sweetviz** o **ydata-profiling** (antes *pandas-profiling*).

Adem√°s del an√°lisis manual, es posible generar reportes autom√°ticos en formato HTML que incluyen:

- estad√≠sticas descriptivas completas,
- an√°lisis de valores faltantes,
- distribuciones,
- correlaciones,
- detecci√≥n de outliers,
- perfiles de variables num√©ricas y categ√≥ricas.

Dos herramientas com√∫nmente usadas para este prop√≥sito son **Sweetviz** y **ydata-profiling** (antes *pandas-profiling*).

---

#### **Sweetviz**  
Herramienta orientada a comparar subconjuntos (train/test), explorar distribuciones y generar reportes visuales interactivos.

```python
# Sweetviz (requiere instalaci√≥n previa: pip install sweetviz)

# import sweetviz as sv
# reporte = sv.analyze(df)
# reporte.show_html(str(OUTPUT_DIR / "eda_sweetviz.html"))
```

El archivo generado puede abrirse en un navegador y ofrece un diagn√≥stico r√°pido y visual del dataset.

### **ydata-profiling (antes pandas-profiling)**
Genera un reporte m√°s exhaustivo: estad√≠sticas, an√°lisis de duplicados, correlaciones avanzadas, advertencias y profilers autom√°ticos.

```python
# ydata-profiling (requiere: pip install ydata-profiling)

# from ydata_profiling import ProfileReport
# profile = ProfileReport(df, title="Reporte EDA", explorative=True)
# profile.to_file(OUTPUT_DIR / "eda_ydata_profiling.html")
```

El resultado es un reporte completo que puede archivarse dentro del proyecto para auditor√≠a o revisi√≥n.


In [None]:
# Sweetviz (requiere: pip install sweetviz)
# import sweetviz as sv
# reporte = sv.analyze(df)
# reporte.show_html(str(OUTPUT_DIR / "eda_sweetviz.html"))

# ydata-profiling (antes pandas-profiling)
# from ydata_profiling import ProfileReport
# profile = ProfileReport(df, title="Reporte EDA", explorative=True)
# profile.to_file(OUTPUT_DIR / "eda_ydata_profiling.html")

**¬øCu√°ndo usar EDA automatizado?**

Para auditor√≠as r√°pidas de calidad de datos.

Para inspecci√≥n preliminar en proyectos grandes o colaborativos.

Para documentar el estado del dataset sin necesidad de crear gr√°ficos personalizados.

Para complementar el EDA manual (no lo reemplaza).

# **3) Preprocesamiento <a id='prepro'>**</a>

### **3.1 Limpieza: NA, duplicados, tipos y texto**

Esta etapa busca garantizar la integridad del dataset antes de realizar an√°lisis m√°s avanzados.  
Los pasos incluyen:

- identificaci√≥n y tratamiento de valores faltantes,
- eliminaci√≥n de filas duplicadas,
- conversi√≥n correcta de tipos (especialmente fechas),
- estandarizaci√≥n de variables categ√≥ricas y de texto.


**Conteo de valores faltantes (NA)**

In [None]:
# Conteo de NA por columna
na_counts = df.isna().sum().sort_values(ascending=False)

Calcula cu√°ntos valores faltantes hay por columna.

Ordena de mayor a menor para priorizar limpieza.

In [None]:
display(na_counts[na_counts>0])

Muestra solo las columnas que contienen valores faltantes.

Permite decidir estrategias posteriores (imputaci√≥n, eliminaci√≥n, correcci√≥n).

**Detecci√≥n y eliminaci√≥n de duplicados**

In [None]:
# Duplicados
dup = df.duplicated().sum()
print("Filas duplicadas:", dup)

Cuenta cu√°ntas filas est√°n repetidas completamente.

In [None]:
df = df.drop_duplicates()

Elimina duplicados si existen.

Es √∫til especialmente en datos cl√≠nicos donde podr√≠a haber registros replicados por error.

**Conversi√≥n autom√°tica de columnas tipo fecha**

In [None]:
# Tipos: fechas y categ√≥ricas
for c in df.columns:
    if 'fecha' in c.lower():
        try:
            df[c] = pd.to_datetime(df[c], errors='coerce')
        except Exception as e:
            print("No se pudo convertir a fecha:", c, e)

Busca columnas cuyo nombre contenga ‚Äúfecha‚Äù.

Intenta convertirlas al tipo datetime64.

errors='coerce' transforma valores inv√°lidos en NaT (fecha nula).

Evita errores cr√≠ticos en an√°lisis longitudinales.

**Estandarizaci√≥n de variables categ√≥ricas**

In [None]:
# Est√°ndar de texto (ejemplo)
if 'sexo' in df.columns:
    df['sexo'] = df['sexo'].astype(str).str.strip().str.lower().replace({'femenino':'f','masculino':'m'})

convierte a string,

elimina espacios,

convierte a min√∫sculas,

traduce valores textuales a categor√≠as est√°ndar (m, f):

### **3.2 Divisi√≥n Train/Test**
Para evitar *data leakage*, define **X/y** y divide el set.

La divisi√≥n del dataset en **train** y **test** es un paso fundamental para evitar *data leakage* y garantizar que la evaluaci√≥n de modelos sea confiable.  
En esta etapa se definen:

- **X** ‚Üí variables predictoras  
- **y** ‚Üí variable objetivo  
- partici√≥n en **conjunto de entrenamiento** (train) y **conjunto de prueba** (test)

Esto asegura que la informaci√≥n usada para entrenar un modelo no sea reutilizada al medir su desempe√±o.



**¬øQu√© es el data leakage?**

Es cuando informaci√≥n del conjunto de prueba se filtra, directa o indirectamente, en el conjunto de entrenamiento.
Esto provoca que un modelo ‚Äúaprenda‚Äù patrones que no tendr√≠a disponibles en un escenario real y, por lo tanto, produzca m√©tricas artificialmente optimistas.

**Ejemplos cl√°sicos:**

calcular estad√≠sticas globales (media, desviaci√≥n) antes de dividir,

normalizar usando todo el dataset,

filtrar o balancear despu√©s de dividir,

usar variables derivadas que incluyen datos del futuro.

Dividir antes de cualquier proceso evita estos errores.

**Importaci√≥n de la funci√≥n Train/Test Split**

In [None]:
from sklearn.model_selection import train_test_split

train_test_split es una funci√≥n de scikit-learn que divide un dataset en dos subconjuntos:

entrenamiento (train)

evaluaci√≥n (test)

**Definici√≥n de la variable objetivo**

In [None]:
TARGET = 'grupo'  # c√°mbialo seg√∫n tu caso

Aqu√≠ se especifica la columna que se desea predecir.

En este ejemplo, la variable es 'grupo' (p. ej., caso/control).

**Verificaci√≥n preventiva**

In [None]:
assert TARGET in df.columns, "Define TARGET correctamente"

Asegura que la columna existe en el DataFrame.

Si no existe, detiene la ejecuci√≥n con un mensaje claro.

Previene errores dif√≠ciles de rastrear m√°s adelante.

**Separaci√≥n de datos en X e y**

In [None]:
y = df[TARGET]
X = df.drop(columns=[TARGET])

y contiene solo la variable objetivo.

X contiene todas las dem√°s columnas (variables predictoras).

Esto evita data leakage, ya que el modelo no ver√° la variable que intenta predecir dentro de X.

**Divisi√≥n en Train y Test**

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=SEED, stratify=y if y.nunique()<=20 else None
)
X_train.shape, X_test.shape

Este bloque hace varias cosas importantes:

A. test_size=0.2

El 20% de los datos se reserva para test.

El 80% restante va a entrenamiento.

B. random_state=SEED

Garantiza reproducibilidad: misma divisi√≥n en cada ejecuci√≥n.

C. stratify=y if y.nunique() <= 20 else None

Si y tiene 20 categor√≠as o menos, se asume un problema de clasificaci√≥n ‚Üí estratifica.

Si y es continua (muchos valores √∫nicos), no estratifica.

¬øPor qu√© estratificar?
Para mantener la misma proporci√≥n de clases en Train y Test.
Ejemplo: si la cohorte es 60% control y 40% caso, ambas divisiones conservar√°n esa proporci√≥n.

**Ver tama√±os resultantes**

In [None]:
X_train.shape, X_test.shape

Muestra cu√°ntas observaciones quedaron en cada subconjunto.

Permite verificar r√°pidamente que la partici√≥n fue correcta.

### **3.3 Columnas num√©ricas/categ√≥ricas y plan de transformaci√≥n**

Antes de entrenar un modelo, es fundamental definir c√≥mo se transformar√°n las variables seg√∫n su tipo.  
Las estrategias de preprocesamiento deben ser **consistentes, reproducibles y libres de data leakage**, por lo que se aplican √∫nicamente sobre el conjunto de entrenamiento.

Las transformaciones recomendadas son:

- **Num√©ricas**: imputaci√≥n (mediana) + escalado (StandardScaler)
- **Categ√≥ricas**: imputaci√≥n (moda) + One-Hot (handle_unknown='ignore')


---

### **1. Variables num√©ricas**

Transformaciones t√≠picas en pipelines cl√≠nicos:

1. **Imputaci√≥n**
   - M√©todo: **mediana**
   - Raz√≥n: robusta ante outliers y adecuada cuando la distribuci√≥n no es normal.

2. **Escalado**
   - M√©todo: **StandardScaler**
   - Efecto: centra en media 0 y desviaci√≥n est√°ndar 1.
   - Necesario para modelos sensibles a escala (regresi√≥n lineal, SVM, redes neuronales).

---

### **2. Variables categ√≥ricas**

Transformaciones recomendadas:

1. **Imputaci√≥n**
   - M√©todo: **moda** (valor m√°s frecuente)
   - Adecuado para variables como sexo, grupo, estado civil, etc.

2. **Codificaci√≥n**
   - M√©todo: **One-Hot Encoding**
   - Par√°metro clave: `handle_unknown='ignore'`
     - Permite procesar valores nuevos no observados en train sin causar error.

Esto genera variables binarias para cada categor√≠a, permitiendo que los modelos trabajen con datos num√©ricos.

---

### **Resumen del flujo de transformaci√≥n**

| Tipo de variable | Imputaci√≥n | Transformaci√≥n posterior |
|------------------|------------|---------------------------|
| **Num√©rica**     | Mediana    | Escalado (StandardScaler) |
| **Categ√≥rica**   | Moda       | One-Hot Encoding          |

---

Este plan se implementar√° en un **ColumnTransformer**, que garantiza que cada tipo de variable reciba la transformaci√≥n adecuada dentro de un pipeline completamente reproducible.



In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
import numpy as np

**Identificaci√≥n autom√°tica de columnas num√©ricas y categ√≥ricas**

In [None]:
num_cols = X_train.select_dtypes(include=np.number).columns.tolist()
cat_cols = X_train.select_dtypes(exclude=np.number).columns.tolist()

num_cols: lista de columnas con datos num√©ricos.

cat_cols: lista de columnas categ√≥ricas o de texto.

Esto evita definir columnas manualmente y garantiza que el pipeline se adapte al dataset aunque cambien las columnas.

**Pipeline para variables num√©ricas**

In [None]:
numeric_pipe = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="median")),
    ("scaler", StandardScaler())
])


Este pipeline aplica dos transformaciones:

**Imputaci√≥n (SimpleImputer)**

estrategia: median

Rellena valores faltantes con la mediana de cada columna.

Robusta ante outliers, m√°s estable que la media.

**Escalado (StandardScaler)**


Centra los datos (media = 0)

Escala a varianza unitaria

Necesario para modelos que dependen de magnitudes (SVM, regresi√≥n, redes).

**Pipeline para variables categ√≥ricas**

In [None]:
categorical_pipe = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="most_frequent")),
    ("ohe", OneHotEncoder(handle_unknown="ignore", sparse_output=False))
])


Incluye dos pasos:

**Imputaci√≥n de la moda**

estrategia: most_frequent

Reemplaza valores faltantes con la categor√≠a m√°s com√∫n.

**Codificaci√≥n One-Hot (OneHotEncoder)**

par√°metros clave:

handle_unknown='ignore': evita errores si aparecen categor√≠as nuevas en test.

sparse_output=False: entrega una matriz densa para facilitar inspecci√≥n y compatibilidad.

El resultado es una expansi√≥n de columnas categ√≥ricas en variables binarias.

**Combinaci√≥n de ambos pipelines en un ColumnTransformer**

In [None]:
preprocess = ColumnTransformer([
    ("num", numeric_pipe, num_cols),
    ("cat", categorical_pipe, cat_cols)
])

Este objeto:

Aplica numeric_pipe SOLO a num_cols.

Aplica categorical_pipe SOLO a cat_cols.

Mantiene el orden de columnas y evita fugas de informaci√≥n.

Permite conectar toda la limpieza directamente a un modelo (Regresi√≥n, RandomForest, XGBoost, etc.).

preprocess se convierte en una capa previa al modelado, totalmente automatizada y reproducible.

**Resultado final**

In [None]:
preprocess


Imprime la estructura del preprocesador.

Verifica que todas las columnas est√°n asignadas correctamente.

### **3.4 Detecci√≥n de outliers (IQR) ‚Äî diagn√≥stico**
Decide si recodificar, winsorizar o excluir seg√∫n el contexto.

La identificaci√≥n de valores at√≠picos (*outliers*) es un paso esencial en el preprocesamiento, ya que pueden distorsionar:

- medidas de tendencia central (media, desviaci√≥n est√°ndar),
- modelos sensibles a escala (regresi√≥n lineal, SVM),
- an√°lisis cl√≠nicos donde valores extremos no corresponden a la fisiolog√≠a del paciente.

El m√©todo **IQR (Inter-Quartile Range)** es una t√©cnica robusta basada en cuartiles que permite detectar valores an√≥malos sin asumir distribuci√≥n normal.

Este paso NO elimina ni modifica datos autom√°ticamente; su prop√≥sito es **diagn√≥stico**, dejando la decisi√≥n final al analista seg√∫n el contexto cl√≠nico o estad√≠stico.



In [None]:
def iqr_outliers(s, k=1.5):
    q1, q3 = s.quantile([0.25, 0.75])
    iqr = q3 - q1
    lo, hi = q1 - k*iqr, q3 + k*iqr
    return (s < lo) | (s > hi)

outlier_counts = {}
for c in num_cols:
    mask = iqr_outliers(X_train[c])
    outlier_counts[c] = int(mask.sum())
pd.Series(outlier_counts).sort_values(ascending=False)

Para cada variable num√©rica:

Se calcula el Q1 (percentil 25) y Q3 (percentil 75).

Se obtiene el IQR = Q3 ‚àí Q1.

Se define un rango aceptable:

L√≠mite inferior=ùëÑ1‚àí1.5√óùêºùëÑùëÖ


L√≠mite superior=ùëÑ3+1.5√óùêºùëÑùëÖ


Cualquier observaci√≥n fuera de esos l√≠mites se considera outlier potencial.

Es una t√©cnica robusta que no se ve afectada por los valores extremos, a diferencia de la media y la desviaci√≥n est√°ndar.

**¬øQu√© decisiones se pueden tomar?**

Dependiendo del an√°lisis y del conocimiento cl√≠nico:

1. Recodificar
**texto en negrita**
Sustituir valores extremos por un valor aceptable (ej.: l√≠mites fisiol√≥gicos).
√ötil en datos biom√©dicos con rangos conocidos.

2. **Winsorizar**

Reemplazar valores extremos por los l√≠mites del IQR (capping).
Reduce el impacto de outliers sin eliminarlos.

3. **Excluir**

Aplicable cuando:

el valor no es posible fisiol√≥gicamente,

hay evidencia de error de captura,

la proporci√≥n de outliers es muy peque√±a.

En estudios cl√≠nicos, excluir debe justificarse y documentarse.

### **3.5 Pipeline + modelo de ejemplo (clasificaci√≥n/regresi√≥n)**
Sustituye el estimador por el que corresponda a tu tarea.

Este c√≥digo identifica si el problema es de **clasificaci√≥n** o **regresi√≥n** seg√∫n la variable objetivo (`y`) y construye un pipeline adecuado para cada caso.  
El objetivo es automatizar la elecci√≥n del modelo y asegurar que el preprocesamiento (`preprocess`) se aplique correctamente antes de entrenar.


**Importaci√≥n de modelos y m√©tricas**

In [None]:
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.metrics import classification_report, mean_squared_error

LogisticRegression: usado para clasificaci√≥n binaria o multiclase.

LinearRegression: usado para regresi√≥n continua.

classification_report: permite evaluar modelos clasificadores.

mean_squared_error: m√©trica t√≠pica para regresi√≥n.

**Identificaci√≥n autom√°tica del tipo de problema**

In [None]:
is_classification = y.nunique() <= 20

Cuenta cu√°ntos valores √∫nicos hay en y.

Si tiene 20 o menos, se asume que es un problema de clasificaci√≥n (p. ej. grupo, sexo, categor√≠a cl√≠nica).

Si tiene m√°s de 20 valores √∫nicos, se considera un problema continuo (regresi√≥n).

Esto permite que el notebook se adapte a distintos datasets sin cambiar c√≥digo.

**Construcci√≥n autom√°tica del pipeline seg√∫n el tipo de an√°lisis**

In [None]:
if is_classification:
    model = Pipeline([("preprocess", preprocess),
                      ("estimator", LogisticRegression(max_iter=500))])
else:
    model = Pipeline([("preprocess", preprocess),
                      ("estimator", LinearRegression())])

**Si es clasifiaci√≥n:**

Se integra el preprocesador (preprocess) con un modelo de regresi√≥n log√≠stica.

max_iter=500 asegura convergencia del modelo.

Es adecuado para clasificaci√≥n binaria o multiclase.

**Si es regresi√≥n:**

Se usa un modelo lineal para predecir una variable continua.

El pipeline garantiza que la transformaci√≥n de datos sea id√©ntica en entrenamiento y predicci√≥n.

**Resultado final**

In [None]:
model

Imprime la estructura final del pipeline.

Verifica que el modelo y preprocesador est√°n configurados correctamente.

**¬øPor qu√© usar un Pipeline?**

Ventajas clave:

Evita data leakage (todas las transformaciones se ajustan solo con training).

Permite reproducibilidad total.

Facilita validaci√≥n cruzada y grid search.

Aplica preprocesamiento y modelado en una sola llamada (model.fit()).

### **3.6 Entrenar y evaluar**


En esta etapa se entrena el modelo seleccionado (clasificaci√≥n o regresi√≥n) utilizando el conjunto de entrenamiento (*train*) y posteriormente se eval√∫a su desempe√±o sobre el conjunto de prueba (*test*).  
Este procedimiento permite medir la capacidad real del modelo para generalizar a datos nuevos.

**Entrenamiento del modelo**

In [None]:
model.fit(X_train, y_train)

Este comando:

Ajusta el pipeline completo (preprocesamiento + modelo).

Aprende los par√°metros del preprocesamiento (medianas, moda, escalado, codificaci√≥n) solo con los datos de entrenamiento ‚Üí evita data leakage.

Entrena el estimador final (LogisticRegression o LinearRegression) usando las variables transformadas.

Importante:
fit() ajusta todas las transformaciones internas del pipeline en el orden correcto.

**Generaci√≥n de predicciones**

In [None]:
preds = model.predict(X_test)

Aplica autom√°ticamente el preprocesamiento aprendido durante el entrenamiento.

Realiza la predicci√≥n:

clases (si es clasificaci√≥n),

valores num√©ricos continuos (si es regresi√≥n).

Este paso eval√∫a c√≥mo se comporta el modelo en datos nunca antes vistos.

In [None]:
if is_classification:
    print(classification_report(y_test, preds))
else:
    print("MSE:", mean_squared_error(y_test, preds))

**Si es clasificaci√≥n**

Genera un reporte con:

Precision: qu√© proporci√≥n de las predicciones positivas son correctas.

Recall (sensibilidad): qu√© proporci√≥n de las clases reales se detectaron correctamente.

F1-score: balance entre precision y recall.

Support: n√∫mero de casos por clase.

Es una evaluaci√≥n est√°ndar para problemas cl√≠nicos donde la clasificaci√≥n es importante (caso/control, severidad, etc.).


**Si es regresi√≥n**

Muestra el:

Mean Squared Error (MSE):

ùëÄùëÜùê∏=1ùëõ‚àë(ùë¶real‚àíùë¶predicho)2


Cuanto menor es el MSE, mejor es el desempe√±o del modelo.

### **3.7 Validaci√≥n cruzada (opcional)**


La validaci√≥n cruzada permite evaluar la estabilidad y capacidad de generalizaci√≥n del modelo m√°s all√° de una sola partici√≥n *train‚Äìtest*.  
Este procedimiento divide el dataset en varios pliegues (folds) y entrena/eval√∫a el modelo repetidamente, reduciendo el sesgo asociado a una √∫nica divisi√≥n.

El c√≥digo se adapta autom√°ticamente al tipo de problema (clasificaci√≥n o regresi√≥n).

**Selecci√≥n del esquema de validaci√≥n cruzada**

In [None]:
from sklearn.model_selection import cross_val_score, StratifiedKFold
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=SEED) if is_classification else 5
scoring = "accuracy" if is_classification else "neg_mean_squared_error"
scores = cross_val_score(model, X, y, cv=cv, scoring=scoring)
print("CV:", scores, "‚Üí mean:", scores.mean())

# **4) Ap√©ndices <a id='apendices'>**</a>

### A.1 Codificaci√≥n alternativa (Pandas vs Scikit-learn)
```python
# Pandas
# df_enc = pd.get_dummies(df, columns=['col_cat'], drop_first=True)

# Scikit-learn
# from sklearn.preprocessing import OneHotEncoder
# ohe = OneHotEncoder(drop='first', sparse_output=False)
# Z = ohe.fit_transform(df[['col_cat']])
```

### A.2 Exportar artefactos
```python
# Guardar reporte/figuras/modelos
# fig_path = FIG_DIR / "grafico.png"; plt.savefig(fig_path, bbox_inches="tight")
# from joblib import dump; dump(model, OUTPUT_DIR / "pipeline.joblib")
```
