# **Clase 1**: Preprocesamiento de Datos en el contexto de **Ciencia de Datos e Inteligencia Artificial**
- **Normas internacionales** (PEP 8, ISO/IEC 25010 para calidad del software, FAIR data principles),
- **Buenas prácticas** de programación (DRY, KISS, modularidad),
- **Cuerpos de conocimiento** relevantes (como el **DMM – Data Management Maturity** y el **DAS – Data Analytics Body of Knowledge**),
- **Código limpio** y comentado,
- Uso de **Scikit-learn Pipelines**.

---



## 🧠 Clase 1: Preprocesamiento de Datos (Duración: 3 horas)

### 🎯 Objetivo general:
El estudiante entenderá y aplicará técnicas fundamentales de preprocesamiento de datos para proyectos de Ciencia de Datos e IA, integrando prácticas de calidad de código y uso de librerías estándar de Python.

---


## 🧩 Estructura de la Clase

| Sección | Duración | Contenido |
|--------|----------|-----------|
| 1 | 30 min | Teoría del preprocesamiento y su rol en la calidad de los modelos |
| 2 | 40 min | Limpieza de datos: valores nulos, duplicados y outliers |
| 3 | 30 min | Transformación: normalización, estandarización y codificación |
| 4 | 40 min | Pipelines en Scikit-learn: construcción paso a paso |
| 5 | 40 min | Taller práctico completo con dataset real |
| 6 | 10 min | Cierre, discusión y evaluación rápida |

---


## 🧾 1. Introducción Teórica (30 min)

### 🔍 ¿Qué es el preprocesamiento de datos?
- Es una **etapa clave** antes de entrenar modelos de IA.
- Mejora la **calidad del input**, garantizando que el modelo **aprenda correctamente**.

### 📚 Principios y Estándares:
- **PEP 8**: guía de estilo para escribir código legible.
- **DRY/KISS**: mantener código simple y evitar redundancias.
- **ISO/IEC 25010**: calidad del software → mantenibilidad, portabilidad, eficiencia.
- **FAIR Principles**: datos deben ser encontrables, accesibles, interoperables y reutilizables.

---


## 🧼 2. Limpieza de Datos (40 min)

### 📌 a. Manejo de valores nulos

#### 🧠 Teoría:
- Técnicas:
  - Eliminación
  - Imputación (media, mediana, moda, KNN)

#### 🧪 Ejemplo práctico:


In [1]:
import pandas as pd
import numpy as np

# Dataset simulado
df = pd.DataFrame({
    'edad': [25, 30, np.nan, 40, 35],
    'ingresos': [50000, 60000, 55000, np.nan, 58000]
})


# 1. Detectar nulos

In [None]:
print(df.isnull().sum())

# 2. Imputar media

In [None]:
df['edad'].fillna(df['edad'].mean(), inplace=True)
df['ingresos'].fillna(df['ingresos'].mean(), inplace=True)


# Validar cambios

In [None]:
print(df)

### 📌 b. Duplicados

In [None]:
# Dataset con duplicado
df_dup = pd.DataFrame({
    'nombre': ['Ana', 'Luis', 'Luis'],
    'edad': [28, 35, 35]
})


# Eliminar duplicados

In [None]:
df_dup_clean = df_dup.drop_duplicates()

### 📌 c. Outliers (con IQR)

In [None]:
def eliminar_outliers(df, columna):
    Q1 = df[columna].quantile(0.25)
    Q3 = df[columna].quantile(0.75)
    IQR = Q3 - Q1
    return df[(df[columna] >= Q1 - 1.5*IQR) & (df[columna] <= Q3 + 1.5*IQR)]

df_sin_outliers = eliminar_outliers(df, 'ingresos')


---

## 🔄 3. Transformación de Datos (30 min)

### 📌 a. Normalización vs. Estandarización

#### Normalización (MinMaxScaler)


In [8]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df[['edad_norm']] = scaler.fit_transform(df[['edad']])


#### Estandarización (StandardScaler)

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df[['ingresos_std']] = scaler.fit_transform(df[['ingresos']])


### 📌 b. Codificación de variables categóricas

#### One-Hot Encoding

In [None]:
df_categ = pd.DataFrame({'color': ['rojo', 'azul', 'verde', 'azul']})
df_onehot = pd.get_dummies(df_categ, columns=['color'])


#### Label Encoding

In [None]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
df_categ['color_encoded'] = le.fit_transform(df_categ['color'])


---

## 🔗 4. Scikit-learn Pipelines (40 min)

### 🎯 Ventajas:
- Reproducibilidad
- Modularidad
- Integración con GridSearchCV



### 🧪 Ejemplo práctico completo:

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

# Dataset simulado
df = pd.DataFrame({
    'edad': [25, 30, np.nan, 40, 35],
    'ingresos': [50000, 60000, 55000, np.nan, 58000],
    'ciudad': ['Bogotá', 'Cali', 'Bogotá', 'Medellín', 'Cali']
})

# Separar variables
num_features = ['edad', 'ingresos']
cat_features = ['ciudad']

# Pipelines por tipo de dato
num_pipeline = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

cat_pipeline = Pipeline(steps=[
    ('encoder', OneHotEncoder(handle_unknown='ignore'))
])

# Composición
preprocessor = ColumnTransformer(transformers=[
    ('num', num_pipeline, num_features),
    ('cat', cat_pipeline, cat_features)
])

# Aplicar al dataset
X_transformed = preprocessor.fit_transform(df)

# Validar resultado
print(X_transformed.toarray() if hasattr(X_transformed, "toarray") else X_transformed)


## 🧪 5. Taller práctico completo (40 min)

### 🗂 Dataset: [Titanic Dataset](https://www.kaggle.com/c/titanic/data)
- Objetivo: preparar datos para modelo de clasificación de supervivencia.

#### Actividades:
1. Cargar dataset
2. Limpiar valores nulos
3. Codificar 'Sex', 'Embarked'
4. Eliminar columnas innecesarias ('Name', 'Ticket')
5. Normalizar edad y tarifa
6. Construir pipeline completa
7. Guardar dataset preprocesado

---
