# Técnicas de preprocesamiento de datos en modelado

##**Caso de uso:** Limpieza y transformación de datos para predicción de precios de casas.



In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Cargar datos
url = "https://raw.githubusercontent.com/restevesd/fuentes/main/AmesHousing.csv"
data = pd.read_csv(url)

data

Unnamed: 0,Order,PID,MS SubClass,MS Zoning,Lot Frontage,Lot Area,Street,Alley,Lot Shape,Land Contour,...,Pool Area,Pool QC,Fence,Misc Feature,Misc Val,Mo Sold,Yr Sold,Sale Type,Sale Condition,SalePrice
0,1,526301100,20,RL,141.0,31770,Pave,,IR1,Lvl,...,0,,,,0,5,2010,WD,Normal,215000
1,2,526350040,20,RH,80.0,11622,Pave,,Reg,Lvl,...,0,,MnPrv,,0,6,2010,WD,Normal,105000
2,3,526351010,20,RL,81.0,14267,Pave,,IR1,Lvl,...,0,,,Gar2,12500,6,2010,WD,Normal,172000
3,4,526353030,20,RL,93.0,11160,Pave,,Reg,Lvl,...,0,,,,0,4,2010,WD,Normal,244000
4,5,527105010,60,RL,74.0,13830,Pave,,IR1,Lvl,...,0,,MnPrv,,0,3,2010,WD,Normal,189900
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2925,2926,923275080,80,RL,37.0,7937,Pave,,IR1,Lvl,...,0,,GdPrv,,0,3,2006,WD,Normal,142500
2926,2927,923276100,20,RL,,8885,Pave,,IR1,Low,...,0,,MnPrv,,0,6,2006,WD,Normal,131000
2927,2928,923400125,85,RL,62.0,10441,Pave,,Reg,Lvl,...,0,,MnPrv,Shed,700,7,2006,WD,Normal,132000
2928,2929,924100070,20,RL,77.0,10010,Pave,,Reg,Lvl,...,0,,,,0,4,2006,WD,Normal,170000


In [None]:
data.columns

Index(['Order', 'PID', 'MS SubClass', 'MS Zoning', 'Lot Frontage', 'Lot Area',
       'Street', 'Alley', 'Lot Shape', 'Land Contour', 'Utilities',
       'Lot Config', 'Land Slope', 'Neighborhood', 'Condition 1',
       'Condition 2', 'Bldg Type', 'House Style', 'Overall Qual',
       'Overall Cond', 'Year Built', 'Year Remod/Add', 'Roof Style',
       'Roof Matl', 'Exterior 1st', 'Exterior 2nd', 'Mas Vnr Type',
       'Mas Vnr Area', 'Exter Qual', 'Exter Cond', 'Foundation', 'Bsmt Qual',
       'Bsmt Cond', 'Bsmt Exposure', 'BsmtFin Type 1', 'BsmtFin SF 1',
       'BsmtFin Type 2', 'BsmtFin SF 2', 'Bsmt Unf SF', 'Total Bsmt SF',
       'Heating', 'Heating QC', 'Central Air', 'Electrical', '1st Flr SF',
       '2nd Flr SF', 'Low Qual Fin SF', 'Gr Liv Area', 'Bsmt Full Bath',
       'Bsmt Half Bath', 'Full Bath', 'Half Bath', 'Bedroom AbvGr',
       'Kitchen AbvGr', 'Kitchen Qual', 'TotRms AbvGrd', 'Functional',
       'Fireplaces', 'Fireplace Qu', 'Garage Type', 'Garage Yr Blt',
      

In [None]:
# Identificación y manejo de valores nulos
imputer = SimpleImputer(strategy='mean')
data['Lot Frontage'] = imputer.fit_transform(data[['Lot Frontage']])

# Explicación:
###SimpleImputer(strategy='mean'):

* SimpleImputer es una clase de la biblioteca sklearn (Scikit-learn) que se utiliza para rellenar o "imputar" valores faltantes en un conjunto de datos.
* strategy='mean' especifica que el método que se utilizará para rellenar los valores faltantes será la media (mean) de la columna. Esto significa que, para cualquier valor nulo en la columna, el imputador calculará la media de todos los valores no nulos de esa columna y usará ese valor para reemplazar los valores nulos.
`imputer.fit_transform(data[['Lot Frontage']])` :

* fit_transform() es un método que primero ajusta (fit) el imputador a los datos, calculando la media de la columna Lot Frontage. Después, transforma la columna reemplazando los valores nulos con la media calculada.
data[['Lot Frontage']] selecciona la columna Lot Frontage del DataFrame data. Es importante notar que la columna se pasa como un DataFrame (por eso el doble par de corchetes [['Lot Frontage']]), ya que SimpleImputer espera recibir los datos en esta forma.
data['Lot Frontage'] = ...:

* Finalmente, la columna original Lot Frontage en el DataFrame data es reemplazada por la versión transformada, donde todos los valores nulos han sido sustituidos por la media de la columna.

##¿Qué Logra Este Código?
* Este código se utiliza para asegurar que la columna Lot Frontage no contenga valores nulos, lo cual es importante porque muchos algoritmos de aprendizaje automático no pueden manejar datos faltantes directamente.
* Al reemplazar los valores nulos con la media de la columna, estamos "imputando" esos valores faltantes de una manera que mantiene la integridad estadística de la columna sin introducir sesgos significativos.

In [None]:
# Escalado y codificación
numeric_features = ['Lot Frontage', 'Lot Area', 'Overall Qual']
numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler())])

## Explicación:
`numeric_features = ['Lot Frontage', 'Lot Area', 'Overall Qual']`:

* Esta línea define una lista de las características numéricas del conjunto de datos que se desea escalar. En este caso, son 'Lot Frontage', 'Lot Area', y 'Overall Qual'.
* Estas características son variables numéricas en el DataFrame que podrían tener diferentes escalas o rangos (por ejemplo, 'Lot Area' puede tener valores en miles, mientras que 'Overall Qual' podría estar en una escala de 1 a 10).
numeric_transformer = Pipeline(steps=[('scaler', StandardScaler()))]):

* Pipeline: Un Pipeline es una herramienta en sklearn que permite encadenar varias transformaciones secuenciales, asegurando que se apliquen en un orden específico.
* En este caso, estamos construyendo un pipeline simple que contiene solo un paso: el escalado.
* steps: Aquí es donde definimos las operaciones a realizar en las características. Cada operación es una tupla con un nombre (en este caso 'scaler') y una transformación (StandardScaler()).
* StandardScaler: Es una transformación que estandariza las características eliminando la media y escalando a una varianza unitaria.
* El resultado es que todas las características escaladas tendrán una media de 0 y una desviación estándar de 1.

## ¿Por Qué Utilizar Escalado?
* El escalado de características es un paso crucial en muchos modelos de machine learning, especialmente aquellos que se basan en distancias, como Support Vector Machines (SVM) o K-Nearest Neighbors (KNN). Aquí hay algunas razones clave para escalar las características:

## **Uniformidad de Escala:**

* Las diferentes características pueden tener diferentes unidades y rangos. Si no se escalan, las características con mayores magnitudes pueden dominar el cálculo de distancias y, en consecuencia, el rendimiento del modelo.
* Por ejemplo, sin escalado, una característica como 'Lot Area' (que podría tener valores grandes) podría dominar sobre 'Overall Qual' (que puede estar en una escala de 1 a 10), afectando la capacidad del modelo para aprender de manera equitativa de todas las características.

## **Necesario para Modelos Basados en Distancia:**

* **Modelos como SVM, KNN** y otros que dependen de la distancia entre puntos de datos requieren que todas las características estén en la misma escala para funcionar correctamente.
* Si no lo están, el modelo puede verse sesgado hacia las características con valores numéricos más grandes.

In [None]:
categorical_features = ['Neighborhood', 'Bldg Type']
categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore'))])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)])

#Explicación:
`categorical_features = ['Neighborhood', 'Bldg Type']:`

*Aquí se define una lista de características categóricas que se encuentran en el conjunto de datos. En este ejemplo, 'Neighborhood' y 'Bldg Type' son las características categóricas seleccionadas.
* Estas características son variables que no son numéricas y que tienen valores discretos, como nombres de vecindarios o tipos de edificios.
categorical_transformer = Pipeline(steps=[('onehot', OneHotEncoder(handle_unknown='ignore'))]):

* **Pipeline:** Similar al pipeline utilizado para las características numéricas, este pipeline es una secuencia de transformaciones que se aplicarán a las características categóricas.
* **OneHotEncoder:** OneHotEncoder es una transformación que convierte las variables categóricas en una representación numérica. Lo hace creando columnas binarias (0 o 1) para cada categoría posible en una característica. Por ejemplo, si 'Neighborhood' tiene 3 posibles valores, el OneHotEncoder creará 3 columnas adicionales, una para cada valor, donde solo una de las columnas tendrá un valor de 1 para cualquier fila dada.
* **handle_unknown='ignore':** Este argumento le dice al OneHotEncoder que ignore las categorías no vistas durante el ajuste del modelo, en lugar de generar un error. Esto es útil cuando se procesan datos de prueba que pueden tener valores categóricos no presentes en los datos de entrenamiento.


# Descomposición:
**ColumnTransformer:**

* ColumnTransformer es una herramienta que permite aplicar diferentes transformaciones a diferentes subconjuntos de columnas dentro de un DataFrame. Esto es útil cuando se tienen columnas de diferentes tipos (numéricas y categóricas) que requieren diferentes preprocesamientos.
En este caso, el ColumnTransformer aplica el escalado a las características numéricas y la codificación OneHotEncoder a las categóricas, todo en un solo paso.

* **transformers:**

* Este argumento toma una lista de tuplas, donde cada tupla especifica una transformación a aplicar. Cada tupla tiene tres elementos:
* Nombre del transformador: Aquí, 'num' para las características numéricas y 'cat' para las categóricas.
* Transformador: Especifica qué transformación se aplicará (por ejemplo, numeric_transformer o categorical_transformer).
* Columnas: Especifica a qué columnas del DataFrame se aplicará la transformación (por ejemplo, numeric_features o categorical_features).
Resultado del preprocessor:

El preprocessor es un objeto que puede ser utilizado para transformar un conjunto de datos aplicando todas las transformaciones necesarias a las columnas apropiadas. Cuando este preprocesador se ajusta y se transforma sobre un conjunto de datos, escalará las columnas numéricas y convertirá las categóricas en una forma que pueda ser utilizada por un modelo de machine learning.
Idea Detrás del Código
El objetivo de este código es preparar los datos para que puedan ser utilizados por un modelo de machine learning de manera eficiente y efectiva:

Escalado de Características Numéricas: Las características numéricas se escalan para tener una media de 0 y una desviación estándar de 1, lo que asegura que todas las características numéricas contribuyan de manera equilibrada al modelo.

Codificación de Características Categóricas: Las características categóricas se codifican mediante OneHotEncoder, lo que convierte estas categorías en una forma numérica que el modelo puede entender. Cada categoría única en una característica se convierte en una columna separada en el DataFrame, permitiendo al modelo manejar estas características adecuadamente.

Preprocesamiento Unificado: Al combinar estas transformaciones en un ColumnTransformer, se facilita el proceso de preprocesamiento, asegurando que todas las transformaciones necesarias se apliquen de manera consistente a las columnas correctas en el conjunto de datos. Esto es especialmente útil cuando se maneja un pipeline más grande de machine learning que incluye el preprocesamiento y el entrenamiento del modelo.

In [None]:
# División de datos
X = data.drop('SalePrice', axis=1)
y = data['SalePrice']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Aplicar preprocesamiento
X_train = preprocessor.fit_transform(X_train)
X_test = preprocessor.transform(X_test)
