# üßº Data Preprocessing Techniques

Este notebook explora t√©cnicas esenciales de **preprocesamiento de datos**, una etapa clave en cualquier proyecto de ciencia de datos o aprendizaje autom√°tico.

> El objetivo es preparar los datos para que los modelos de machine learning funcionen de forma eficiente y precisa.


# Datos de ejemplo

## 1. Importaci√≥n de librer√≠as

In [None]:
# Importaci√≥n de librerias
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, MinMaxScaler, OneHotEncoder
from sklearn.impute import SimpleImputer


## 2. Carga de datos de ejemplo

In [None]:
# Creamos un DataFrame
data = pd.DataFrame({
    'Edad': [25, 27, np.nan, 35, 29],
    'Salario': [50000, 54000, 58000, np.nan, 62000],
    'Ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Valencia', np.nan]
})

data


## 3. Manejo de valores faltantes

Los valores faltantes pueden sesgar resultados o hacer que los modelos no funcionen. Existen varias estrategias:
- Eliminar filas/columnas con muchos valores faltantes
- Imputar (rellenar) con la media, mediana, moda, o valores espec√≠ficos


In [None]:
imputer = SimpleImputer(strategy='mean')
data[['Edad', 'Salario']] = imputer.fit_transform(data[['Edad', 'Salario']])
data


## 4. Codificaci√≥n de variables categ√≥ricas

Los modelos no pueden trabajar con texto. Las variables categ√≥ricas deben transformarse en n√∫meros.
- Label Encoding
- One-Hot Encoding


In [None]:
encoder = OneHotEncoder(sparse=False, handle_unknown='ignore')
encoded = encoder.fit_transform(data[['Ciudad']])
encoded_df = pd.DataFrame(encoded, columns=encoder.get_feature_names_out(['Ciudad']))

# Unimos al dataset original
data = data.drop('Ciudad', axis=1)
data = pd.concat([data, encoded_df], axis=1)
data


## 5. Escalado de caracter√≠sticas num√©ricas

Muchas t√©cnicas de ML se ven afectadas por la escala de los datos. Por ejemplo, KNN o regresi√≥n log√≠stica.

- `StandardScaler`: media 0, varianza 1
- `MinMaxScaler`: valores entre 0 y 1


In [None]:
scaler = StandardScaler()
data[['Edad', 'Salario']] = scaler.fit_transform(data[['Edad', 'Salario']])
data


# Data Preprocessing Techniques with Real Data

A continuaci√≥n veremos paso a paso c√≥mo preparar datos reales para un modelo de machine learning. Usaremos el dataset de pasajeros del Titanic, que contiene datos como edad, clase social, g√©nero, etc.

> El objetivo es aplicar transformaciones necesarias para que los modelos puedan entender y procesar la informaci√≥n correctamente.


In [None]:
# Librer√≠as para manipulaci√≥n de datos y visualizaci√≥n
import pandas as pd
import numpy as np
import seaborn as sns  # para cargar dataset y visualizar
import matplotlib.pyplot as plt

# Librer√≠as para preprocesamiento
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline


In [None]:
# Cargar el dataset del Titanic desde seaborn
df = sns.load_dataset("titanic")
df.head()

In [None]:
# Dimensiones y tipos
print(df.shape)
print(df.dtypes)

# Ver cu√°ntos valores faltantes hay por columna
df.isnull().sum()

> Vemos que hay columnas con muchos valores faltantes, como `deck`, y otras con algunos, como `age` y `embarked`.


In [None]:
# A. Separar variables num√©ricas y categ√≥ricas

# Selecci√≥n b√°sica de columnas √∫tiles
df_model = df[['survived', 'pclass', 'sex', 'age', 'embarked']].copy()

# Identificamos variables num√©ricas y categ√≥ricas
numerical_features = ['age']
categorical_features = ['pclass', 'sex', 'embarked']

In [None]:
# B. Definir transformaciones para cada tipo de dato

# Imputaci√≥n de valores num√©ricos + escalado
numerical_pipeline = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),  # reemplaza nulos por mediana
    ('scaler', StandardScaler())                    # estandariza la escala
])

# Imputaci√≥n + one-hot encoding para categ√≥ricas
categorical_pipeline = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),   # modo (valor m√°s com√∫n)
    ('encoder', OneHotEncoder(handle_unknown='ignore'))     # one-hot para texto
])

In [None]:
# C. Combinar todo con ColumnTransformer

# Aplicamos transformaciones diferentes a cada tipo de columna
preprocessor = ColumnTransformer(transformers=[
    ('num', numerical_pipeline, numerical_features),
    ('cat', categorical_pipeline, categorical_features)
])

In [None]:
# Aplicamos el preprocesamiento al dataset
X = df_model.drop('survived', axis=1)
y = df_model['survived']

X_preprocessed = preprocessor.fit_transform(X)

# Convertimos el resultado a DataFrame para visualizar
X_preprocessed_df = pd.DataFrame(
    X_preprocessed.toarray() if hasattr(X_preprocessed, 'toarray') else X_preprocessed,
    columns=preprocessor.get_feature_names_out()
)

X_preprocessed_df.head()

### ‚úÖ Resumen:

- C√≥mo cargar datos reales con valores faltantes y tipos mixtos
- C√≥mo construir pipelines de preprocesamiento con `scikit-learn`
- La importancia de separar transformaciones para num√©ricos y categ√≥ricos
- Aplicar `ColumnTransformer` para organizar el flujo de limpieza

Este tipo de flujo es muy com√∫n en pipelines reales, sobre todo al trabajar con `sklearn`, `MLFlow` o producci√≥n.


# (ANEXO) Exploratory Data Analysis (EDA)

Antes de cualquier transformaci√≥n o modelado, es fundamental entender el dataset: su estructura, patrones, valores extremos, datos faltantes, y distribuciones.

Exploraremos:

1. Informaci√≥n general del dataset
2. An√°lisis de valores faltantes
3. Estad√≠sticas b√°sicas
4. Distribuci√≥n de variables
5. Correlaciones y relaciones clave


In [1]:
# 1. Info general del dataset

# N√∫mero de filas y columnas
print(f"Shape: {df.shape}")

# Tipos de datos y no nulos
df.info()

NameError: name 'df' is not defined

In [None]:
# 2. Valores faltantes visuales

import missingno as msno

# Visualizaci√≥n r√°pida de nulos
msno.matrix(df)

# Total de valores nulos por columna
df.isnull().sum().sort_values(ascending=False)

In [None]:
# 3. Estad√≠sticas b√°sicas por tipo de variable

# Variables num√©ricas
df.describe()

# Variables categ√≥ricas
df.describe(include='object')

In [None]:
# 4. Distribuciones importantes (dataset del Titanic)

# Distribuci√≥n de la edad
sns.histplot(df['age'], kde=True)
plt.title('Distribuci√≥n de Edad')
plt.show()

# Supervivencia por sexo
sns.countplot(data=df, x='sex', hue='survived')
plt.title('Supervivencia por Sexo')
plt.show()

# Distribuci√≥n de clases y supervivencia
sns.countplot(data=df, x='pclass', hue='survived')
plt.title('Supervivencia por Clase Social')
plt.show()

In [None]:
# 5. Correlaciones entre variables num√©ricas

# Matriz de correlaci√≥n
correlation = df.select_dtypes(include='number').corr()

sns.heatmap(correlation, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlaci√≥n')
plt.show()

In [None]:
# 6. Otras opciones son:
# Boxplots para ver outliers por grupo
# Pairplots para ver relaciones entre m√∫ltiples variables
# Violin plots si quieres distribuci√≥n + densidad
# pivot_table()	Cruce entre 2 variables
# value_counts()	Frecuencia de categor√≠as


# Boxplot: edad por clase
sns.boxplot(data=df, x='pclass', y='age')
plt.title('Distribuci√≥n de Edad por Clase')
plt.show()