# Preprocesado de datos

## Tratar con datos ausentes

Las bases de datos de fenomenos reales suelen presentar valores faltantes por diversas razones, como por ejemplo, datos dejados como vacios en encuestas, valores no medibles, errores al ingresar la informacion, entreo otros. Es bastante normal encontrar este tipo de valores, y sin embargo pueden representar un serio problema a la hora de ingresarlos a los algoritmos de prediccion o clasificacion. En python los valores faltantes se conocen y observan como `NaN`, y en bases de datos relacionales, se conocen como `NULL`.

In [1]:
# Creando un conjunto de datos de ejemplo (None)
# ====================================================
import pandas as pd
from io import StringIO

csv_data = \
'''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''

df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


### Reconocer que hay valores NaN

In [2]:
df.isnull()

Unnamed: 0,A,B,C,D
0,False,False,False,False
1,False,False,True,False
2,False,False,False,True


In [6]:
# Con el parametro axis se modifica sobre quien se hace la suma. Por defecto: axis = 0
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

In [7]:
df2 = pd.read_csv('train.csv')
df2.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


In [31]:
df3 = pd.read_csv('titanic.csv')
df3.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


https://www.kaggle.com/c/titanic/data?select=train.csv

In [9]:
df3.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [11]:
len(df3)

891

In [12]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [13]:
df3.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### Tratar con los valores NaN

#### Eliminar las muestras

In [14]:
df.head()

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [17]:
df.dropna(axis = 0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [16]:
df.dropna(axis = 1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [20]:
df.dropna(how = 'all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [24]:
df.dropna(thresh = 4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [28]:
df.dropna(subset = ['D'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0


#### Imputar las muestras

In [29]:
# imputacion por medias
# ===================================================
dfN = df.copy()
from sklearn.impute import SimpleImputer
imr = SimpleImputer(missing_values = np.nan, strategy='mean')
imr.fit(dfN.values)
dfN = imr.transform(dfN)
dfN

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

Lo anterior solo funciona para caracteristicas numericas; para caracteristicas categoricas existe la opcion `strategy='most_frequent'`, la cyal tomara la caracteristica mas frecuente para reemplazar los valores NaN.

In [34]:
imr = SimpleImputer(strategy = 'most_frequent')
df3N = imr.fit_transform(df3.values)
a = pd.DataFrame(df3N)
a.columns = df3.columns
a

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,B96 B98,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,B96 B98,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35,0,0,373450,8.05,B96 B98,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27,0,0,211536,13,B96 B98,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19,0,0,112053,30,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,24,1,2,W./C. 6607,23.45,B96 B98,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26,0,0,111369,30,C148,C


## Trabajar con datos categoricos

Muchas bases de datos contienen tipos de datos categoricos referentes a cualidades, tallas, generos, etc. Este tipo de datos puede interferir en los algoritmos de aprendizaje automatico, y aunque varios de ellos tienen funciones implicitas para tratar con ellos, se considera buena practica el realizar su tratamiento previo a enviarlos a los algotirmos de aprendizaje.

Para esto, hemos de reconocer que existen dos tipos de datos categoricos:

**Ordinales**: Son aquellos que se pueden ordenar de mayor a menor, por ejemplo las tallas de la ropa.

**Nominales**: Son aquellos que no se pueden ordenar, ejemplo, los colores.

In [35]:
# Datos de ejemplo
# =====================================
import pandas as pd

df = pd.DataFrame([['green', 'M', 10.1, 'class1'],
                   ['red', 'L', 13.5, 'class2'],
                   ['blue', 'XL', 15.3, 'class1']])

df.columns = ['color', 'size', 'price', 'classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


### Mapear caracteristicas ordinales

En el anterior ejemplo, debemos asegurarnos de que los datos de la columna `size` sean transformados a enteros, pero de tal forma que se reconozca el orden implicito en ellos. No existe una libreria o implementacion que reconozca dicho orden, pero es un tema relativamente facil de resolver

In [36]:
# Mapeando los valores categoricos a enteros
# ==================================================
size_mapping = {'XL': 3, 'L': 2, 'M': 1}

df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


In [39]:
# Realizando un mapeo inverso
# =======================================================
inv_size_mapping = {v: k for k, v in size_mapping.items()}
#inv_size_mapping
#size_mapping.items()
df['size'].map(inv_size_mapping)

0     M
1     L
2    XL
Name: size, dtype: object

### Mapear etiquetas de clase

In [40]:
# Metodo 1: Asignar las etiquetas de clase "manualmente"
# =======================================================================
import numpy as np
class_mapping = {label: idx for idx, label in enumerate(np.unique(df['classlabel']))}
class_mapping

{'class1': 0, 'class2': 1}

In [41]:
# Mapeando los valores categoricos a enteros
# ==================================================
df['classlabel'] = df['classlabel'].map(class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,0
1,red,2,13.5,1
2,blue,3,15.3,0


In [42]:
# Realizando un mapeo inverso
# =======================================================
inv_class_mapping = {v: k for k, v in class_mapping.items()}
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


In [43]:
# Metodo 2: Usando una libreria dedicada a la codificacion
# ======================================================
from sklearn.preprocessing import LabelEncoder
class_le = LabelEncoder()
y = class_le.fit_transform(df['classlabel'].values)
y

array([0, 1, 0])

In [44]:
# Realizando la transformacion inversa
# ======================================================
class_le.inverse_transform(y)

array(['class1', 'class2', 'class1'], dtype=object)

### Mapear caracteristicas nominales: "Codificacion en caliente"

En la seccion anterior, transformamos las etiquetas de clase nominales a enteros utilizando `LabelEncoder`; el resultado fue la asignacion de numeros enteros de 0 en adelante a las etiquetas de clase. Esto es aceptable ya que las etiquetas de clase no participan en la seleccion de caracteristicas para el modelo, ni en la actualizacion de los pesos, por lo tanto no es importante si una resulta ser calificada como mayor a las otras, aunque en realidad no lo sea.

Otro es el caso cuando se busca la codificacion de caracteristicas nominales, pues estas si participan en el proceso de seleccion de las etiquetas, y por lo tanto el que sean ordenables puede ser erronamente indicativo para el modelo, realizando una mala interpretacion de la relacion de los datos.

In [45]:
X = df[['color', 'size', 'price']].values
X

array([['green', 1, 10.1],
       ['red', 2, 13.5],
       ['blue', 3, 15.3]], dtype=object)

In [46]:
# No hacer esto
# ===================================================
color_le = LabelEncoder()
X[:, 0] = color_le.fit_transform(X[:, 0])
X

array([[1, 1, 10.1],
       [2, 2, 13.5],
       [0, 3, 15.3]], dtype=object)

In [48]:
# Codificacion en caliente
# Se crearan objetos del tipo (blue, green, red), de tal forma que blue sera: (1, 0, 0) : variable dummy
# ===================================
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import make_column_transformer

ohe = make_column_transformer((OneHotEncoder(drop = 'first'), [0]), remainder = 'passthrough')
Xn = ohe.fit_transform(X)
Xn

array([[1.0, 0.0, 1, 10.1],
       [0.0, 1.0, 2, 13.5],
       [0.0, 0.0, 3, 15.3]], dtype=object)

Es importante tener en cuenta que las caracteristicas asi codificadas son redundantes, lo que implica la prescencia de colinealidad entre las caracteristicas. Lo adecuado, ademas de lo ya hecho, es incluir el parametro `drop = 'first'` dentro de la declaracion del codificador : `OneHotEncoder(drop = 'first')`, y asi se eliminara la primera columna, previniendo entonces este posible error.

In [49]:
# Codificacion en caliente usando pandas :)
# ======================================================
pd.get_dummies(df[['price', 'color', 'size']])

Unnamed: 0,price,size,color_blue,color_green,color_red
0,10.1,1,0,1,0
1,13.5,2,0,0,1
2,15.3,3,1,0,0


In [50]:
pd.get_dummies(df[['price', 'color', 'size']], drop_first=True)

Unnamed: 0,price,size,color_green,color_red
0,10.1,1,1,0
1,13.5,2,0,1
2,15.3,3,0,0


## Dividir el conjunto de datos en entrenamiento y test

## Ajustar las caracteristicas a las misma escala

Recordemos que el escalado se realiza para que las caracteristicas sean comparables, y por lo tanto que todas sean significativas para el modelo. Los algoritmos de arboles de decision y bosques aleatorios son invariantes frente al escalado, pero la gran mayoria de algorritmos si se ven beneficiados de esta practica.

Existen dos enfoques principales para escalar carateriticas:

**Escalado min-max**: Normaliza los datos, es decir, los lleva a valores entre 0 y 1.

$$x_{norm}^{(i)} = \frac{x^{(i)}-x_{min}}{x_{max}-x_{min}}$$

In [51]:
from sklearn.preprocessing import MinMaxScaler

mms = MinMaxScaler()
XN= mms.fit_transform(X[:, 1:])
XN

array([[0.        , 0.        ],
       [0.5       , 0.65384615],
       [1.        , 1.        ]])

**Estandarizacion**: Transforma los datos a una distribucion normal estandar. Mas adecuado para los algoritmos de aprendizaje automatico.

$$x_{std}^{(i)} = \frac{x^{(i)}-\mu_x}{\sigma_x}$$

In [52]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
XN = sc.fit_transform(X[:, 1:])
XN

array([[-1.22474487, -1.32954369],
       [ 0.        ,  0.24735697],
       [ 1.22474487,  1.08218672]])

In [53]:
ex = np.array([0, 1, 2, 3, 4, 5])

standardized = (ex - ex.mean()) / ex.std()
normalized = (ex - ex.min()) / (ex.max() - ex.min())
index = np.arange(len(standardized))

pd.DataFrame({'standardized': standardized, 'normalized':normalized})

Unnamed: 0,standardized,normalized
0,-1.46385,0.0
1,-0.87831,0.2
2,-0.29277,0.4
3,0.29277,0.6
4,0.87831,0.8
5,1.46385,1.0


## Seleccionar las caracteristicas significativas

Recordemos que si el rendimiento en el conjunto de entrenamiento es mayor que el rendimiento en el conjunto de prueba, esto es un fuerte indicativo de sobreajuste; para tratar con esta situacion existen varias posibilidades:

* Recoger mas datos de entrenamiento.
* Introducir una penalizacion para la complejidad mediante la regularizacion.
* Elegir un modelo mas sencillo con menos parametros.
* Reducir la dimensionalidad de los datos. (Seleccionar caracteristicas significativas)

De todas ellas, la primera es usualmente la menos aplicable.

### Regularizaciones $L_1$ y $L_2$ como penalizacion contra la complejidad del modelo

En clases pasadas habiamos definido la regularizacion $L_2$ como penalizacion para reducir la complejidad de los modelos. La definicion matematica usada entonces fue:

$$L_2 = ||\textbf{w}||^2_2 = \sum_{j=1}^{m} w_j^2$$

La regularizacion $L_1$ se define como:

$$L_1 = ||\textbf{w}||_1 = \sum_{j=1}^{m} |w_j|$$

La regularizacion $L_1$ suele producir soluciones dispersas, es decir, con mayor prescencia de ceros que del resto de elementos. Esto puede ser util se tenemos muchas caracteristicas irrelevantes, y en ese sentido, la regularizacion $L_1$ puede ser util para la seleccion de caracteristicas significativas.

In [None]:
df_wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data', header=None)

df_wine.columns = ['Class label', 'Alcohol', 'Malic acid', 'Ash',
                   'Alcalinity of ash', 'Magnesium', 'Total phenols',
                   'Flavanoids', 'Nonflavanoid phenols', 'Proanthocyanins',
                   'Color intensity', 'Hue', 'OD280/OD315 of diluted wines',
                   'Proline']

print('Class labels', np.unique(df_wine['Class label']))
df_wine.head()

In [None]:
from sklearn.model_selection import train_test_split

X, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0, stratify=y)

In [None]:
from sklearn.preprocessing import StandardScaler

stdsc = StandardScaler()
X_train_std = stdsc.fit_transform(X_train)
X_test_std = stdsc.transform(X_test)

In [None]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression(penalty='l1', solver = 'liblinear', C=1.0)
lr.fit(X_train_std, y_train)
print('Training accuracy:', lr.score(X_train_std, y_train))
print('Test accuracy:', lr.score(X_test_std, y_test))

In [None]:
lr.intercept_

In [None]:
pd.DataFrame(lr.coef_)