## Procesado de variables


In [2]:
%matplotlib inline 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

ModuleNotFoundError: No module named 'matplotlib'

In [None]:
datos = pd.read_csv("data/datos_procesamiento.csv")
datos.head()

In [None]:
datos.dtypes

In [None]:
datos.shape

### Variables numéricas

#### Imputacion de datos

In [None]:
from sklearn import preprocessing

In [None]:
#Seleccionamos todas aquellas columnas que sean int o float, quitando asi las de string
var_numericas_df = datos.select_dtypes([int,float])
var_numericas_df.columns

In [None]:
#vamos a ver cuantos casos son NaN 
var_numericas_df[var_numericas_df.isnull().any(axis=1)].shape

In [None]:
var_numericas_df[var_numericas_df.isnull().any(axis=1)].head()

In [None]:
#mediante el imputador preprocesamos el dataset mediante una estrategia, en este caso la media.
imputador = preprocessing.Imputer(strategy="mean")

In [None]:
var_numericas_imputadas = imputador.fit_transform(var_numericas_df)

In [None]:
var_numericas_imputadas

In [None]:
#convertimos el array de numpy del imputador a un dataframe
var_numericas_imputadas_df = pd.DataFrame(
    var_numericas_imputadas,index=var_numericas_df.index,columns=var_numericas_df.columns
)
var_numericas_imputadas_df.head(10)

In [None]:
#Comprobamos que ahora ya no hay variables nulas
var_numericas_imputadas_df[var_numericas_imputadas_df.isnull().any(axis=1)].shape

### Estandarizacion
El proceso de estandarizacion es un proceso requerido en el que el objetivo es obtener una variable con media 0 y desviacion estandar 1

In [None]:
var_numericas_df.columns

In [None]:
#ibtenemos la media de cada una de las columnasabs
var_numericas_df.mean()

In [None]:
#obtenemos la desviacion estandar de cada una de las columnas
var_numericas_df.std()

Ahora procedemos a estandarizar el dataframe, para ello utilizaremos una herramienta de sklearn: **StandardScaler**

In [None]:
escalador = preprocessing.StandardScaler()
var_numericas_imputadas_escalado_standard = escalador.fit_transform(var_numericas_imputadas)

In [None]:
escalador.mean_

In [None]:
#Observamos la media despues de la estandarizacion, en la que sus campos son muy proximos a 0
var_numericas_imputadas_escalado_standard.mean(axis=0)

In [None]:
#Observamos la desviacion estandard y comprobamos que es 1 
var_numericas_imputadas_escalado_standard.std(axis=0)

In [None]:
#Observamos la primera observacion
var_numericas_imputadas_escalado_standard[0]

Para aquellos datasets con valores muy extremos, esta herramienta no sería la mas apropiada y sería más optimo usar estimadores mas robustos (menos sensibles a los Outliers). Para ello podemos emplear **RobustScaler** que funciona substrayendo la mediana y escalando mediante el rango intercuartil (IQR).
(Este escalador robusto funciona igual que el anterior, salvo por la diferencia de que en vez de la media utiliza la mediana y en ver de la desviacion estandard utiliza el rango intercuartil)

In [None]:
escalador_robusto = preprocessing.RobustScaler()
var_numericas_imputadas_escalado_robusto = escalador_robusto.fit_transform(var_numericas_imputadas)

In [None]:
var_numericas_imputadas_escalado_robusto.mean(axis=0)

In [None]:
var_numericas_imputadas_escalado_robusto.std(axis=0)

### Escalado a un rango especifico.
Hay casos en los que en vez de estandarizar el modelo nos interesa mas ajustar los datos a un rango especifico (generalmente -1,1 o 0,1). Para ello utilizamos la herramienta **MinMaxScaler** que hace escalado minmax.
Tambien podemos utilizar el MaxAbsScaler que simplemente divide cada valor de una variable por su valor maximo (y por tanto convierte el valor maximo a 1)

In [None]:
#comprobamos el valor minimo antes del escalado
var_numericas_imputadas.min()

In [None]:
#comprobamos el valor maximo antes del escalado
var_numericas_imputadas.max()

In [None]:
#escalamos con la libreria preprocessing y la herramienta MinMaxScaler
escalador_minmax = preprocessing.MinMaxScaler()
var_numericas_imputadas_escalado_minmax = escalador_minmax.fit_transform(var_numericas_imputadas)

In [None]:
#comprobamos el minimo despues de escalarlo
var_numericas_imputadas_escalado_minmax.min()

In [None]:
#comprobamos el maximo despues de escalarlo
var_numericas_imputadas_escalado_minmax.max()

In [None]:
#creamos ahora un escalador con la herramienta MaxAbsScaler
escalador_maxabs = preprocessing.MaxAbsScaler()
var_numericas_imputadas_escalado_maxabs = escalador_maxabs.fit_transform(var_numericas_imputadas)

In [None]:
#comprobamos los maximos tras aplicar el escalador MaxAbs
var_numericas_imputadas_escalado_maxabs.max()

In [None]:
#comprobamos los minimos tras aplicar el escalador MaxAbs y comprobamos que no se preocupa por el minimo y solo
#divide por el maximo
var_numericas_imputadas_escalado_maxabs.min()

Hay casos en los que es necesario tener observaciones con norma unitaria (norma L2 o euclidiana). Para estos casos se utilizará el método **normalizer**

In [None]:
normalizador = preprocessing.Normalizer()
var_numericas_imputadas_normal = normalizador.fit_transform(var_numericas_imputadas)