<img src='https://raw.githubusercontent.com/MRippe7/images/master/FEDE1.png' width=1100>

# ¿Qué es Scikit-Learn?
Es una herramienta simple y eficiente para el análisis de datos, está construido sobre `NumPy`, `SciPy` y `Matplotlib`. Tiene licencia BSD de código abierto disponible comercialmente (son un tipo de licencias de baja restricción para software de código abierto que no impone requisitos de redistribución).

En esta librería se pueden hacer, a grandes rasgos, tres tareas fundamentales:  
**Clasificar:**  
Identificar la categoría a la cual pertenece determinado objeto.  
**Predecir:**  
Emplear una regresión lineal para predecir una variable continua, basado en las variables independientes relevantes.  
**Agrupar:**  
Reunir elementos diferentes pero con características similares en diversos grupos.

Es para estas tareas, que se hace necesario un preprocesamiento de los datos ya que, queremos hacerlos aptos para ser ejecutados en un modelo con menor esfuerzo, para así mejorar la calidad del mismo.


Ya conocemos algunas herramientas para mejorar la calidad de los como por ejemplo datos, ajustar el tipo de dato, imputación de datos faltantes, entre otros. Los datos pueden ser ingresados así al modelo, pero es mucho mejor si se tratan con algunas técnicas adicionales, para las cuales utilizaremos la librería `Scikit-learn`:


In [None]:
pip install scikit-learn

In [None]:
from sklearn.preprocessing import StandardScaler 
import numpy as np







##¿Para qué sirve el `StandardScaler`?
Lo utilizaremos para estandarizar nuestros datos, es decir, a cada una de nuestras variables de entrenamiento  le calcula la media $\mu$ (o $0$ si se ajusta el parámetro `with_mean=False`) y la varianza $s$ (o $1$ si se ajusta el parámetro `with_std=False`), para así a cada dato extraerle la media y a tal resultado dividirlo en la varianza, así:
$$Z=\frac{x-\mu}{s}.$$
Es importante recalcar que el centrado y la escala se realiza en cada variable, de forma independiente, para esto se cada uno de los cálculos necesarios se almacenan para ser utilizado en las transformaciones que sean requeridas posteriormente.

La estandarización de los datos es un requisito común para muchos estimadores de aprendizaje automático, ya que es posible que no se comporten adecuadamente si las variables que se ingresan al modelo no se parecen a los datos estándar con una distribución normal (por ejemplo, a una gaussiana con media $0$ y varianza unitaria). Esto en gran medida se da, porque muchos elementos utilizados en la función objetivo de un algoritmo de aprendizaje, como lo son las MSV y los regularizadores L1 y L2, asumen que todas las variables están centradas alrededor de $0$ y tienen varianza en el mismo orden. Si alguna de las variables tiene una varianza mayor en magnitud que las otras, podría dominar la función objetivo y hacer que el estimador no pueda aprender de otras características correctamente como se esperaba.


In [None]:
scaler = StandardScaler().fit([[0,5,20],[1,2,3]])

In [None]:
scaler.transform([[0,5,20],[1,2,3],[2,7,30],[0.5,3,10]])

In [None]:
scaler.mean_

In [None]:
scaler.var_

In [None]:
scaler.n_features_in_

In [None]:
scaler.n_samples_seen_

In [None]:
#scaler.feature_names_in_

In [None]:
scaler2 = StandardScaler(with_mean=False,with_std=False).fit([[0,5,20],[1,2,3]])

In [None]:
scaler2.transform([[0,5,20],[1,2,3],[2,7,30],[0.5,3,10]])

In [None]:
scaler2.mean_

In [None]:
scaler2.var_

**Ejercicio:**  
Cree dos dataframe utilizando pandas, luego entrene un StandardScaler con uno y transforme los datos del otro dataframe con el escalador. Los dataframe deben ser de tres variables y todas numéricas.

In [None]:
import pandas as pd

# ¿Qué otros escaladores podríamos utilizar?
## MinMaxScaler
Cada una de las variables se transforma, de manera independiente, sobre un determinado rango de valores, lo más usual es que dicho rango sea $[0,1]$. Los datos se transforman así:
$$X_{std}=\frac{x-x_{mín}}{x_{máx}-x_{mín}}.$$

In [None]:
#X = pd.DataFrame({'a':[0,1],'b':[5,2],'c':[20,3]})
#Y = pd.DataFrame({'a':[0,1,2,0.5],'b':[5,2,7,3],'c':[20,3,30,10]})

In [None]:
X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))

In [None]:
X_std

In [None]:
## Para recuperar la información original
#X_scaled = X_std * (X.max(axis=0) - X.min(axis=0)) + X.min(axis=0)
#X_scaled

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
scaler = MinMaxScaler()

In [None]:
scaler.fit(X)

In [None]:
scaler.data_min_

In [None]:
scaler.data_max_

In [None]:
scaler.transform(Y)

In [None]:
# Si no desdeamos que el rango de los valores sea [0,1], hacemos lo siguiente:
scaler2 = MinMaxScaler((2,10))

In [None]:
scaler2.fit(X)

In [None]:
scaler2.transform(Y)

## MaxAbsScaler
Es muy parecido al MinMaxScaler, salvo que el rango que toman los valores depende de los signos que tengan los mismos, si únicamente hay valores negativos el rango es de $[-1,0]$, si únicamente hay valores positivos el rango es $[0,1]$ y si hay valores positivos y negativos el rango será $[-1,1]$.

In [None]:
from sklearn.preprocessing import MaxAbsScaler


In [None]:
### Negtivos
W = pd.DataFrame({'a':[-1,-10],'b':[-5,-3],'c':[-20,-3]})
W

In [None]:
tf1 = MaxAbsScaler().fit(W)

In [None]:
tf1.transform(W)

In [None]:
tf1.transform(Y)

In [None]:
### Positivos
X

In [None]:
tf2 = MaxAbsScaler().fit(X)

In [None]:
tf2.transform(X)

In [None]:
tf2.transform(Y)

In [None]:
### P y N
Z = pd.DataFrame({'a':[-1,1],'b':[5,-3],'c':[20,3]})
Z

In [None]:
tf3 = MaxAbsScaler().fit(Z)

In [None]:
tf3.transform(Z)

In [None]:
tf3.transform(Y)

Las formas que hemos visto de preprocesamiento de datos, hasta el momento, funcionan bastante bien, pero si se tienen matrices dispersas, lo mejor es emplear el `MaxAbsScaler`, ya que no mueve los datos ni hace que se pierda el esparcimiento que se tenga de los datos. 

Si en nuestros datos hay valores atípicos grandes, los tres presentan ligeros problemas, con el fin de solucionar esto, se emplea el siguiente escalador:

## RobustScaler
Éste método se basa en utilizar percentiles, por lo que no se ve tan afectado por los datos atípicos grandes, pero su rango es un poco más grande que los trabajados anteriormente.
  
    

**¿Cómo funciona?**  
Este método elimina la mediana y escala los datos en el rango entre el primer cuartil ($Q_1$) y el tercer cuartil ($Q_3$), es decir, entre el rango de los percentiles 25 y 75 (rango intercuartílico).
$$\frac{x-Q_1}{Q_3-Q_1}$$


In [None]:
from sklearn.preprocessing import RobustScaler

In [None]:
rscaler = RobustScaler().fit(X)

In [None]:
rscaler.transform(Y)

In [None]:
rscaler2 = RobustScaler(quantile_range=(10,90)).fit(X)

In [None]:
rscaler2.transform(Y)

# ¿Qué hacer con las variables categóricas?
Para las variables de ésta índole, por lo general suele utilizarse un tipo muy particular de codificación conocida como `OneHotEncoder`, la cual tiene como objetivo transfomar las categorías (que deben ser ingresadas como texto o como enteros), en columnas binarias (una por cada categoría) en las que se encontrará $1$ si el registro tenía ésa categoría como dato y $0$ en caso contrario.

In [None]:
OHE = pd.DataFrame({'C.C.':[123,456,789,741,963],'Semestre':[1,1,5,8,3],'Ciudad':['Bogotá','Cali','Medellín','Barranquilla','Cali']})
OHE

In [None]:
from sklearn.preprocessing import OneHotEncoder

In [None]:
encoder = OneHotEncoder()

In [None]:
encoder.fit(OHE.iloc[:,1:])

In [None]:
encoder.categories_

In [None]:
dum_df = pd.get_dummies(OHE, columns=["Semestre","Ciudad"], prefix=["Semestre es","Ciudad es"] )
dum_df

In [None]:
OY = pd.DataFrame({'C.C.':[1,2,3,4,5],'Semestre':[1,1,1,3,3],'Ciudad':['Bogotá','Bogotá','Bogotá','Cali','Cali']})
OY

In [None]:
encoder.transform(OY.iloc[:,1:]).toarray()

In [None]:
encoder.get_feature_names_out(['Semestre', 'Ciudad'])

In [None]:
transformed = encoder.transform(OY.iloc[:,1:])

In [None]:
ohe_df = pd.DataFrame(transformed.toarray(), columns=encoder.get_feature_names_out())
ohe_df

In [None]:
data = pd.concat([OY, ohe_df], axis=1)
data

In [None]:
data = pd.concat([OY, ohe_df], axis=1).drop(['Semestre','Ciudad'], axis=1)
data

In [None]:
## Puede ocurrir
#encoder.transform([[1,'Barranquilla'], [7, 'Bogotá']])

In [None]:
encoder2 = OneHotEncoder(handle_unknown='ignore').fit(OHE.iloc[:,1:])

In [None]:
encoder2.transform([[1,'Barranquilla'], [7, 'Bogotá']]).toarray()

In [None]:
encoder2 = OneHotEncoder(handle_unknown='ignore',drop='first').fit(OHE.iloc[:,1:])

In [None]:
encoder2.transform([[1,'Barranquilla'], [7, 'Bogotá']]).toarray()

Hasta el momento hemos visto las formas más comunes de alistar los datos para ser ingresados al modelo (`StandarScaler`, `MinMaxScaler`, `MaxAbsScaler`, `RobustScaler` y `OneHotEncoding`), pero éstas no son las únicas, ya que existen muchas otras transformaciones que se pueden realizar sobre los datos, esto teniendo en cuenta la naturaleza de los mismos, por ejemplo, `Binarizer`, `Normalizer` entre otros. Además, existen transformaciones que uno puede hacer sobre las etiquetas que se predecirán con `LabelEncoder` o con `LabelBinarizer`.

## Ejercicio
Realizar una transformación diferente sobre cada columna de la base de datos `iris`.

In [None]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
iris = pd.read_csv(url, names=['sepal length','sepal width','petal length','petal width','target'])
iris


# Análisis de Componentes Principales (ACP)

## Estandarizar los datos:
El ACP se realiza por escala, por lo que deben transformar las variables antes de aplicar PCA. Use el `StandardScaler` para ello. Si desea ver el efecto negativo que puede tener no escalar sus datos, `scikit-learn` tiene una sección sobre los [efectos de no estandarizar sus datos](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_scaling_importance.html#sphx-glr-auto-examples-preprocessing-plot-scaling-importance-py).

In [None]:
from sklearn.preprocessing import StandardScaler
variables = ['sepal length', 'sepal width', 'petal length', 'petal width']
# Tomamos las variables
x = iris.loc[:, variables].values
# Separamos la variable objetivo
y = iris.loc[:,['target']].values
# Estandarizamos las variables
x = StandardScaler().fit_transform(x)

In [None]:
pd.DataFrame(x)

##Reducir la dimensionalidad
Los datos originales tienen 4 columnas (longitud del sépalo, ancho del sépalo, longitud del pétalo y ancho del pétalo). Lo que haremos ahora esproyectar los datos originales que son de 4 dimensiones en 2 dimensiones. 

Cable aclarar que después de la reducción de la dimensionalidad, generalmente no se asigna un significado particular a cada componente principal. Los nuevos componentes son solo las dos dimensiones principales de la variación.

In [None]:
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
principalComponents = pca.fit_transform(x)
principalDf = pd.DataFrame(data = principalComponents, columns = ['CP 1', 'CP 2'])

In [None]:
principalDf

In [None]:
finalDf = pd.concat([principalDf, iris[['target']]], axis = 1)
finalDf

## Visualizar las componentes principales
El gráfico que realizamos es de las componentes principales, no de las variables originales

In [None]:
import matplotlib.pyplot as plt

In [None]:
fig = plt.figure(figsize = (8,8))
ax = fig.add_subplot(1,1,1) 
ax.set_xlabel('Componente 1', fontsize = 15)
ax.set_ylabel('Componente 2', fontsize = 15)
ax.set_title('ACP con 2 componentes', fontsize = 20)
targets = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']
colors = ['r', 'g', 'b']
for target, color in zip(targets,colors):
    indicesToKeep = finalDf['target'] == target
    ax.scatter(finalDf.loc[indicesToKeep, 'CP 1']
               , finalDf.loc[indicesToKeep, 'CP 2']
               , c = color
               , s = 50)
ax.legend(targets)
ax.grid()

##Varianza explicada
Indica cuánta información (varianza) se puede atribuir a cada uno de los componentes principales. Esto es importante ya que, si bien se puede "convertir" un espacio de 4 dimensiones en un espacio de 2 dimensiones, se pierde parte de la varianza (información) cuando se hace esto. 

Mediante el uso del atributo `explained_variance_ratio_`, podemos ver que el primer componente principal contiene el $72,77 \%$ de la varianza y el segundo componente principal contiene el $23,03 \%$ de la varianza. Juntos, los dos componentes contienen el $95,80\%$ de la información.

In [None]:
pca.explained_variance_ratio_

Además, podemos observar que la maypría de los coeficientes de la matriz

In [None]:
pca.singular_values_

Notemos que las componentes obtenidas no están correlacionadas

In [None]:
from scipy.stats import pearsonr

In [None]:
corr, _ = pearsonr(finalDf['CP 1'], finalDf['CP 2'])
print('La correlación de Pearson es: %.3f' % corr)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
finalDf.corr()

In [None]:
irisT = pd.DataFrame(x,columns=iris.columns[:-1])
irisT

In [None]:
irisTCP = irisT.copy()
irisTCP['CP 1'] = finalDf['CP 1']
irisTCP['CP 2'] = finalDf['CP 2']
irisTCP

In [None]:
corr = irisTCP.corr()
corr[['CP 1','CP 2']]

In [None]:
irisTCP.describe()

In [None]:
irisTCP[irisTCP['CP 1']>=3.3]

In [None]:
irisTCP[irisTCP['CP 2']>=2.7]

In [None]:
sns.heatmap(corr[['CP 1','CP 2']], annot=True)