# Preprocesado de datos

## Tratar con datos ausentes

Las bases de datos de fenomenos reales suelen presentar valores faltantes por diversas razones, como por ejemplo, datos dejados como vacios en encuestas, valores no medibles, errores al ingresar la informacion, entreo otros. Es bastante normal encontrar este tipo de valores, y sin embargo pueden representar un serio problema a la hora de ingresarlos a los algoritmos de prediccion o clasificacion. En python los valores faltantes se conocen y observan como `NaN`, y en bases de datos relacionales, se conocen como `NULL`.

In [None]:
# Creando un conjunto de datos de ejemplo
# ====================================================
import pandas as pd
from io import StringIO
import sys

csv_data = \
'''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''

df = pd.read_csv(StringIO(csv_data))
df

### Reconocer que hay valores NaN

In [None]:
df.isnull()

In [None]:
# Con el parametro axis se modifica sobre quien se hace la suma. Por defecto: axis = 0
df.isnull().sum()

In [None]:
df2 = pd.read_csv('train.csv')
df2.head()

In [None]:
df3 = pd.read_csv('titanic.csv')
df3.head()

https://www.kaggle.com/c/titanic/data?select=train.csv

In [None]:
df3.isnull().sum()

In [None]:
df3.info()

In [None]:
df3.describe()

### Tratar con los valores NaN

#### Eliminar las muestras

In [None]:
df.head()

In [None]:
df.dropna(axis = 0)

In [None]:
df.dropna(axis = 1)

In [None]:
df.dropna(how = 'all')

In [None]:
df.dropna(thresh = 4)

In [None]:
df.dropna(subset = ['C'])

#### Imputar las muestras

In [None]:
# imputacion por medias
# ========================================
dfN = df.copy()
from sklearn.impute import SimpleImputer
imr = SimpleImputer(missing_values = np.nan, strategy='mean')
imr.fit(dfN.values)
dfN = imr.transform(dfN)
dfN

Lo anterior solo funciona para caracteristicas numericas; para caracteristicas categoricas existe la opcion `strategy='most_frequent'`, la cyal tomara la caracteristica mas frecuente para reemplazar los valores NaN.

In [None]:
imr = SimpleImputer(strategy = 'most_frequent')
df3N = imr.fit_transform(df3.values)
df3N

## Trabajar con datos categoricos

Muchas bases de datos contienen tipos de datos categoricos referentes a cualidades, tallas, generos, etc. Este tipo de datos puede interferir en los algoritmos de aprendizaje automatico, y aunque varios de ellos tienen funciones implicitas para tratar con ellos, se considera buena practica el realizar su tratamiento previo a enviarlos a los algotirmos de aprendizaje.

Para esto, hemos de reconocer que existen dos tipos de datos categoricos:

**Ordinales**: Son aquellos que se pueden ordenar de mayor a menor, por ejemplo las tallas de la ropa.

**Nominales**: Son aquellos que no se pueden ordenar, ejemplo, los colores.

In [None]:
# Datos de ejemplo
# =====================================
import pandas as pd

df = pd.DataFrame([['green', 'M', 10.1, 'class1'],
                   ['red', 'L', 13.5, 'class2'],
                   ['blue', 'XL', 15.3, 'class1']])

df.columns = ['color', 'size', 'price', 'classlabel']
df

### Mapear caracteristicas ordinales

En el anterior ejemplo, debemos asegurarnos de que los datos de la columna `size` sean transformados a enteros, pero de tal forma que se reconozca el orden implicito en ellos. No existe una libreria o implementacion que reconozca dicho orden, pero es un tema relativamente facil de resolver

In [None]:
# Mapeando los valores categoricos a enteros
# ==================================================
size_mapping = {'XL': 3, 'L': 2, 'M': 1}

df['size'] = df['size'].map(size_mapping)
df

In [None]:
# Realizando un mapeo inverso
# =======================================================
inv_size_mapping = {v: k for k, v in size_mapping.items()}
#inv_size_mapping
#size_mapping.items()
df['size'].map(inv_size_mapping)

### Mapear etiquetas de clase

In [None]:
# Metodo 1: Asignar las etiquetas de clase "manualmente"
# =======================================================================
import numpy as np
class_mapping = {label: idx for idx, label in enumerate(np.unique(df['classlabel']))}
class_mapping

In [None]:
# Mapeando los valores categoricos a enteros
# ==================================================
df['classlabel'] = df['classlabel'].map(class_mapping)
df

In [None]:
# Realizando un mapeo inverso
# =======================================================
inv_class_mapping = {v: k for k, v in class_mapping.items()}
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
df

In [None]:
# Metodo 2: Usando una libreria dedicada a la codificacion
# ======================================================
from sklearn.preprocessing import LabelEncoder
class_le = LabelEncoder()
y = class_le.fit_transform(df['classlabel'].values)
y

In [None]:
# Realizando la transformacion inversa
# ======================================================
class_le.inverse_transform(y)

### Mapear caracteristicas nominales: "Codificacion en caliente"

En la seccion anterior, transformamos las etiquetas de clase nominales a enteros utilizando `LabelEncoder`; el resultado fue la asignacion de numeros enteros de 0 en adelante a las etiquetas de clase. Esto es aceptable ya que las etiquetas de clase no participan en la seleccion de caracteristicas para el modelo, ni en la actualizacion de los pesos, por lo tanto no es importante si una resulta ser calificada como mayor a las otras, aunque en realidad no lo sea.

Otro es el caso cuando se busca la codificacion de caracteristicas nominales, pues estas si participan en el proceso de seleccion de las etiquetas, y por lo tanto el que sean ordenables puede ser erronamente indicativo para el modelo, realizando una mala interpretacion de la relacion de los datos.

In [None]:
X = df[['color', 'size', 'price']].values
X

In [None]:
color_le = LabelEncoder()
X[:, 0] = color_le.fit_transform(X[:, 0])
X

In [None]:
# Codificacion en caliente
# Se crearan objetos del tipo (blue, green, red), de tal forma que blue sera: (1, 0, 0)
# ===================================
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import make_column_transformer

ohe = make_column_transformer((OneHotEncoder(), [0]), remainder = 'passthrough')
Xn = ohe.fit_transform(X)
Xn

Es importante tener en cuenta que las caracteristicas asi codificadas son redundantes, lo que implica la prescencia de colinealidad entre las caracteristicas. Lo adecuado, ademas de lo ya hecho, es incluir el parametro `drop = 'first` dentro de la declaracion del codificador : `OneHotEncoder(drop = 'first)`, y asi se eliminara la primera columna, previniendo entonces este posible error.

In [None]:
# Codificacion en caliente usando pandas :)
# ======================================================
pd.get_dummies(df[['price', 'color', 'size']])

In [None]:
pd.get_dummies(df[['price', 'color', 'size']], drop_first=True)

## Dividir el conjunto de datos en entrenamiento y test

## Ajustar las caracteristicas a las misma escala

Recordemos que el escalado se realiza para que las caracteristicas sean comparables, y por lo tanto que todas sean significativas para el modelo. Los algoritmos de arboles de decision y bosques aleatorios son invariantes frente al escalado, pero la gran mayoria de algorritmos si se ven beneficiados de esta practica.

Existen dos enfoques principales para escalar carateriticas:

**Escalado min-max**: Normaliza los datos, es decir, los lleva a valores entre 0 y 1.

$$x_{norm}^{(i)} = \frac{x^{(i)}-x_{min}}{x_{max}-x_{min}}$$

In [None]:
from sklearn.preprocessing import MinMaxScaler

mms = MinMaxScaler()
XN= mms.fit_transform(X[:, 1:])
XN

**Estandarizacion**: Transforma los datos a una distribucion normal estandar. Mas adecuado para los algoritmos de aprendizaje automatico.

$$x_{std}^{(i)} = \frac{x^{(i)}-\mu_x}{\sigma_x}$$

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
XN = sc.fit_transform(X[:, 1:])
XN

In [None]:
ex = np.array([0, 1, 2, 3, 4, 5])

standardized = (ex - ex.mean()) / ex.std()
normalized = (ex - ex.min()) / (ex.max() - ex.min())
index = np.arange(len(standardized))

pd.DataFrame({'standardized': standardized, 'normalized':normalized})

## Seleccionar las caracteristicas significativas

Recordemos que si el rendimiento en el conjunto de entrenamiento es mayor que el rendimiento en el conjunto de prueba, esto es un fuerte indicativo de sobreajuste; para tratar con esta situacion existen varias posibilidades:

* Recoger mas datos de entrenamiento.
* Introducir una penalizacion para la complejidad mediante la regularizacion.
* Elegir un modelo mas sencillo con menos parametros.
* Reducir la dimensionalidad de los datos. (Seleccionar caracteristicas significativas)

De todas ellas, la primera es usualmente la menos aplicable.

### Regularizaciones $L_1$ y $L_2$ como penalizacion contra la complejidad del modelo

En clases pasadas habiamos definido la regularizacion $L_2$ como penalizacion para reducir la complejidad de los modelos. La definicion matematica usada entonces fue:

$$L_2 = ||\textbf{w}||^2_2 = \sum_{j=1}^{m} w_j^2$$

La regularizacion $L_1$ se define como:

$$L_1 = ||\textbf{w}||_1 = \sum_{j=1}^{m} |w_j|$$

La regularizacion $L_1$ suele producir soluciones dispersas, es decir, con mayor prescencia de ceros que del resto de elementos. Esto puede ser util se tenemos muchas caracteristicas irrelevantes, y en ese sentido, la regularizacion $L_1$ puede ser util para la seleccion de caracteristicas significativas.

In [None]:
df_wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data', header=None)

df_wine.columns = ['Class label', 'Alcohol', 'Malic acid', 'Ash',
                   'Alcalinity of ash', 'Magnesium', 'Total phenols',
                   'Flavanoids', 'Nonflavanoid phenols', 'Proanthocyanins',
                   'Color intensity', 'Hue', 'OD280/OD315 of diluted wines',
                   'Proline']

print('Class labels', np.unique(df_wine['Class label']))
df_wine.head()

In [None]:
from sklearn.model_selection import train_test_split

X, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0, stratify=y)

In [None]:
from sklearn.preprocessing import StandardScaler

stdsc = StandardScaler()
X_train_std = stdsc.fit_transform(X_train)
X_test_std = stdsc.transform(X_test)

In [None]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression(penalty='l1', solver = 'liblinear', C=1.0)
lr.fit(X_train_std, y_train)
print('Training accuracy:', lr.score(X_train_std, y_train))
print('Test accuracy:', lr.score(X_test_std, y_test))

In [None]:
lr.intercept_

In [None]:
pd.DataFrame(lr.coef_)