# Pre-procesamiento de datos

El preprocesamiento se refiere a las transformaciones aplicadas a nuestros datos antes de alimentarlos al algoritmo. El preprocesamiento de datos es una técnica que se utiliza para convertir los datos sin procesar en un conjunto de datos limpio. En otras palabras, cada vez que los datos se recopilan de diferentes fuentes, se recopilan en formato sin procesar que no es factible para el análisis.

__Importancia del preprocesamiento__

* Para lograr mejores resultados del modelo de Machine Learning, el formato de los datos debe estar de manera adecuada.
* Algunos modelos específicos de Machine Learning necesitan información en un formato específico, por ejemplo, algunos de ellos no admiten valores nulos, por lo tanto, es necesario limpiarlos

<img align="center" width="800" height="300" src="https://www.geeksforgeeks.org/wp-content/uploads/ml.png">

In [None]:
import pandas as pd 
import numpy  as np
import seaborn as sns
sns.set_palette("GnBu_d")
sns.set_style('whitegrid')

## Estandarización

<img align="center" width="100" height="300" src="https://wikimedia.org/api/rest_v1/media/math/render/svg/87736c83415dcd9fdcff9b416a246e72bf83fff7">


In [None]:
from sklearn.preprocessing import StandardScaler 
titanic = pd.read_csv("data/samples/titanic.csv")
titanic.head()

In [None]:
scaler = StandardScaler() # Crear un objeto de escala
scaler.fit(titanic[["Age", "Fare"]])
titanic[['Age2', 'Fare2']]=pd.DataFrame(scaler.transform(titanic[["Age", "Fare"]]))
titanic.head()

In [None]:
titanic.describe()

## Escalamiento

<img align="center" width="300" height="300" src="https://qph.fs.quoracdn.net/main-qimg-0d692d88876aeb26b1f1a578d1c5a94e.webp">


In [None]:
from sklearn.preprocessing import MinMaxScaler 
titanic = pd.read_csv("data/samples/titanic.csv")
titanic.head()

In [None]:
scaler = MinMaxScaler() # Crear un objeto de escala
scaler.fit(titanic[["Age", "Fare"]])
titanic[['Age2', 'Fare2']]=pd.DataFrame(scaler.transform(titanic[["Age", "Fare"]]))
titanic.head()

In [None]:
titanic.describe()

## Transformaciones no Lineales

### Transformación Quantil

Convierte  la variable a una distribución deseada mediante la formula $$G^{-1}(F(X))$$ donde $F$ es la función acumulativa de la distribución de la variable a transformar y $G^{-1}$ es la función cuantil de la distribución necesaria

In [None]:
from sklearn.preprocessing import QuantileTransformer
titanic = pd.read_csv("data/samples/titanic.csv")
titanic.head()

In [None]:
scaler = QuantileTransformer(random_state= 101, n_quantiles=100, output_distribution='normal')
scaler.fit_transform(titanic[["Age", "Fare"]])
titanic[['Age2', 'Fare2']]=pd.DataFrame(scaler.transform(titanic[["Age", "Fare"]]))
titanic.head()

In [None]:
sns.jointplot(x='Age2',y='Age',data=titanic)

In [None]:
sns.jointplot(x='Fare2',y='Fare',data=titanic)

### Transformacion de Potencia

En muchos escenarios de modelado, es deseable la normalidad de las variables. Las transformaciones de potencia son una familia de transformaciones paramétricas y monotónicas que tienen como objetivo mapear datos de cualquier distribución lo más cerca posible de una distribución gaussiana para estabilizar la varianza y minimizar la asimetría. Se suele usar la transformacion de Yeo-Johnson

$$ \begin{split}x_i^{(\lambda)} =
\begin{cases}
 [(x_i + 1)^\lambda - 1] / \lambda & \text{if } \lambda \neq 0, x_i \geq 0, \\[8pt]
\ln{(x_i + 1)} & \text{if } \lambda = 0, x_i \geq 0 \\[8pt]
-[(-x_i + 1)^{2 - \lambda} - 1] / (2 - \lambda) & \text{if } \lambda \neq 2, x_i < 0, \\[8pt]
 - \ln (- x_i + 1) & \text{if } \lambda = 2, x_i < 0
\end{cases}\end{split}$$

O de Box-Cox

$$\begin{split}x_i^{(\lambda)} =
\begin{cases}
\dfrac{x_i^\lambda - 1}{\lambda} & \text{if } \lambda \neq 0, \\[8pt]
\ln{(x_i)} & \text{if } \lambda = 0,
\end{cases}\end{split}$$

Donde $\lambda$ es el parámetro de máxima verosimilitud

In [None]:
from sklearn.preprocessing import PowerTransformer
titanic = pd.read_csv("data/samples/titanic.csv")
titanic.head()

In [None]:
scaler = PowerTransformer(method='yeo-johnson', standardize=True)
scaler.fit_transform(titanic[["Age", "Fare"]])
titanic[['Age2', 'Fare2']]=pd.DataFrame(scaler.transform(titanic[["Age", "Fare"]]))
titanic.head()

In [None]:
sns.jointplot(x='Age2',y='Age',data=titanic)

In [None]:
sns.jointplot(x='Fare2',y='Fare',data=titanic)

## Codificación de datos Categóricos

Scikit learn no admite datos categóricos en sus algortimos, por esta razón es indispensable transformarlos mediante codificadores

### One Hot Encoder (Dummies)

Convertir las variables categóricas se logra mediante lo que se conoce como One Hot Encoding. Este tipo de codificación se puede obtener con OneHotEncoder, que transforma cada nivel de la variable categórica en variables binarias.

In [None]:
titanic = pd.read_csv("data/samples/titanic.csv")
titanic.head()

In [None]:
categ= ['Sex', 'Cabin']

In [None]:
titanic = pd.get_dummies(titanic,columns=categ,drop_first=True)
titanic.columns

In [None]:
titanic.head(3)

In [None]:
titanic.dtypes

## Imputación de Valores Ausentes

In [None]:
titanic = pd.read_csv("data/samples/titanic.csv")
titanic.head()

In [None]:
titanic.isna().sum()

### Imputación Univariada

In [None]:
titanic = pd.read_csv("data/samples/titanic.csv")
titanic.head()

In [None]:
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit(titanic[["Age"]])
titanic[['AgeImp']]=pd.DataFrame(imp.transform(titanic[["Age"]]))
titanic.head()

In [None]:
imp = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
imp.fit(titanic[["Cabin"]])
titanic[['CabinImp']]=pd.DataFrame(imp.transform(titanic[["Cabin"]]))
titanic.head()

In [None]:
titanic.isna().sum()

### Imputación Multivariada

Un enfoque más sofisticado es usar la clase IterativeImputer, que modela cada variable con valores faltantes en función de otras variables, y usa esa estimación para la imputación. Lo hace de forma iterativa: en cada paso, una columna de características se designa como salida y las otras columnas de características se tratan como entradas X. Se ajusta un regresor en (X, y) para y conocido. Luego, el regresor se usa para predecir los valores faltantes de y. Esto se hace para cada entidad de forma iterativa, y luego se repite para rondas de imputación max_iter. Se devuelven los resultados de la ronda final de imputación.

In [None]:
titanic = pd.read_csv("data/samples/titanic.csv")
titanic.head()

In [None]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
imp = IterativeImputer(max_iter=100, random_state=0)
imp.fit(titanic[["Age"]])
titanic[['AgeImp']]=pd.DataFrame(imp.transform(titanic[["Age"]]))
titanic.head()

Se basa en el paquete de R MICE (Multivariate Imputation by Chained Equations)

In [None]:
titanic.isna().sum()

### Imputación por KNN

Proporciona la imputación para completar los valores perdidos utilizando el enfoque k-Nearest Neighbours. Por defecto, se usa una métrica de distancia euclidiana. Cada valor faltante se imputa utilizando valores de los k vecinos más cercanos que tienen un valor para la variable.

In [None]:
titanic = pd.read_csv("data/samples/titanic.csv")
titanic.head()

In [None]:
from sklearn.impute import KNNImputer
imp = KNNImputer(n_neighbors=2, weights="uniform")
imp.fit(titanic[["Age"]])
titanic[['AgeImp']]=pd.DataFrame(imp.transform(titanic[["Age"]]))
titanic.head()

In [None]:
titanic.isna().sum()

# Reducción de Dimensiones

## Análisis de Componentes Prinicipales

Principal Component Analysis (PCA) es un método estadístico que permite simplificar la complejidad de espacios muestrales con muchas dimensiones a la vez que conserva su información. Supóngase que existe una muestra con $n$ individuos cada uno con $p$ variables $(X_1, X_2, …, X_p)$. PCA permite encontrar un número de factores subyacentes $(z<p)$ que explican aproximadamente lo mismo que las $p$ variables originales. Donde antes se necesitaban $p$ valores para caracterizar a cada individuo, ahora bastan $z$ valores. Cada una de estas z nuevas variables recibe el nombre de componente principal.

In [None]:
titanic = pd.read_csv("data/samples/titanic.csv")
titanic.head()

In [None]:
from sklearn.impute import KNNImputer
imp = KNNImputer(n_neighbors=2, weights="uniform")
imp.fit(titanic[["Age"]])
titanic[['Age']]=pd.DataFrame(imp.transform(titanic[["Age"]]))
titanic.head()

In [None]:
titanic.dtypes

In [None]:
X = titanic.select_dtypes(include=["number"]).drop("PassengerId", axis=1).drop("Survived", axis=1)

In [None]:
X.head(3)

In [None]:
n_comp=3

In [None]:
from sklearn.decomposition import PCA
pca = PCA(n_components=n_comp, svd_solver='randomized', whiten=True).fit(X)

In [None]:
X_pca= pd.DataFrame(pca.transform(X), columns=["PC%d" % k for k in range(1,n_comp + 1)])
X_pca.head()

In [None]:
for x in pca.explained_variance_ratio_:
  print("Varianza de la componente: "+"{:.2%}".format(x))

In [None]:
Sobrevive = pd.Series(titanic.Survived)

In [None]:
import matplotlib.pyplot as plt

color_list = [{0:"r",1:"g",2:"b"}[x] for x in Sobrevive]

fig, ax = plt.subplots()
ax.scatter(x=X_pca["PC1"], y=X_pca["PC2"], color=color_list)

El PCA implica distancias, por lo cual es necesario rescalar las variables. Si se rescalan las variables, como cambia el porcentaje de varianza explicado?