## Procesado de variables


In [1]:
%matplotlib inline 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
datos = pd.read_csv("data/datos_procesamiento.csv")
datos.head()

Unnamed: 0,col_inexistente1,col2,col3,col_outliers,col_outliers2,col_categorica,col_ordinal,col_texto
0,59.0,52.0,2.232832,-50,0.771666,ratón,muy bien,Tenía en su casa una ama que pasaba de los cua...
1,31.0,74.0,0.906147,-5,1.068558,elefante,regular,"El resto della concluían sayo de velarte, calz..."
2,81.0,28.0,0.62675,-32,0.846396,ratón,muy mal,"El resto della concluían sayo de velarte, calz..."
3,34.0,16.0,0.816738,-84,0.637381,gato,mal,"Una olla de algo más vaca que carnero, salpicó..."
4,32.0,28.0,0.571131,65,4.540614,gato,bien,Tenía en su casa una ama que pasaba de los cua...


In [5]:
datos.dtypes

col_inexistente1    float64
col2                float64
col3                float64
col_outliers          int64
col_outliers2       float64
col_categorica       object
col_ordinal          object
col_texto            object
dtype: object

In [4]:
datos.shape

(1000, 8)

### Variables numéricas

#### Imputacion de datos

In [6]:
from sklearn import preprocessing

In [10]:
#Seleccionamos todas aquellas columnas que sean int o float, quitando asi las de string
var_numericas_df = datos.select_dtypes([int,float])
var_numericas_df.columns

Index(['col_inexistente1', 'col2', 'col3', 'col_outliers', 'col_outliers2'], dtype='object')

In [11]:
#vamos a ver cuantos casos son NaN 
var_numericas_df[var_numericas_df.isnull().any(axis=1)].shape

(96, 5)

In [12]:
var_numericas_df[var_numericas_df.isnull().any(axis=1)].head()

Unnamed: 0,col_inexistente1,col2,col3,col_outliers,col_outliers2
9,,53.0,2.270999,62,1.06723
10,,99.0,1.394209,98,4.145716
16,,50.0,0.437365,59,20.549474
17,,73.0,0.324893,98,0.761684
23,,85.0,3.664671,-48,3.154153


In [13]:
#mediante el imputador preprocesamos el dataset mediante una estrategia, en este caso la media.
imputador = preprocessing.Imputer(strategy="mean")



In [14]:
var_numericas_imputadas = imputador.fit_transform(var_numericas_df)

In [15]:
var_numericas_imputadas

array([[ 59.        ,  52.        ,   2.23283208, -50.        ,
          0.77166646],
       [ 31.        ,  74.        ,   0.90614714,  -5.        ,
          1.06855838],
       [ 81.        ,  28.        ,   0.62675042, -32.        ,
          0.84639576],
       ...,
       [ 19.        ,  53.        ,   0.73723413,  73.        ,
          1.34525201],
       [ 88.        ,  94.        ,   0.76008706,  68.        ,
          1.3692463 ],
       [ 94.        ,  56.        ,   1.2299403 ,  61.        ,
          0.94395714]])

In [16]:
#convertimos el array de numpy del imputador a un dataframe
var_numericas_imputadas_df = pd.DataFrame(
    var_numericas_imputadas,index=var_numericas_df.index,columns=var_numericas_df.columns
)
var_numericas_imputadas_df.head(10)

Unnamed: 0,col_inexistente1,col2,col3,col_outliers,col_outliers2
0,59.0,52.0,2.232832,-50.0,0.771666
1,31.0,74.0,0.906147,-5.0,1.068558
2,81.0,28.0,0.62675,-32.0,0.846396
3,34.0,16.0,0.816738,-84.0,0.637381
4,32.0,28.0,0.571131,65.0,4.540614
5,81.0,4.0,1.618844,51.0,0.81294
6,57.0,31.0,0.16788,78.0,1.235137
7,34.0,20.0,20.229813,93.0,1.283176
8,37.0,96.0,2.407978,54.0,1.298613
9,48.382743,53.0,2.270999,62.0,1.06723


In [18]:
#Comprobamos que ahora ya no hay variables nulas
var_numericas_imputadas_df[var_numericas_imputadas_df.isnull().any(axis=1)].shape

(0, 5)

### Estandarizacion
El proceso de estandarizacion es un proceso requerido en el que el objetivo es obtener una variable con media 0 y desviacion estandar 1

In [19]:
var_numericas_df.columns

Index(['col_inexistente1', 'col2', 'col3', 'col_outliers', 'col_outliers2'], dtype='object')

In [21]:
#ibtenemos la media de cada una de las columnasabs
var_numericas_df.mean()

col_inexistente1     48.382743
col2                 49.660000
col3                  1.466095
col_outliers          4.253000
col_outliers2       131.193340
dtype: float64

In [22]:
#obtenemos la desviacion estandar de cada una de las columnas
var_numericas_df.std()

col_inexistente1      27.987174
col2                  28.272668
col3                   1.732358
col_outliers          78.145901
col_outliers2       3401.164776
dtype: float64

Ahora procedemos a estandarizar el dataframe, para ello utilizaremos una herramienta de sklearn: **StandardScaler**

In [24]:
escalador = preprocessing.StandardScaler()
var_numericas_imputadas_escalado_standard = escalador.fit_transform(var_numericas_imputadas)

In [25]:
escalador.mean_

array([ 48.38274336,  49.66      ,   1.46609489,   4.253     ,
       131.19333968])

In [27]:
#Observamos la media despues de la estandarizacion, en la que sus campos son muy proximos a 0
var_numericas_imputadas_escalado_standard.mean(axis=0)

array([-5.86197757e-17,  1.26121336e-16, -3.81916720e-17,  3.55271368e-18,
       -3.55271368e-18])

In [31]:
#Observamos la desviacion estandard y comprobamos que es 1 
var_numericas_imputadas_escalado_standard.std(axis=0)

array([1., 1., 1., 1., 1.])

In [32]:
#Observamos la primera observacion
var_numericas_imputadas_escalado_standard[0]

array([ 0.39921733,  0.08280686,  0.44281884, -0.69460006, -0.03836537])

Para aquellos datasets con valores muy extremos, esta herramienta no sería la mas apropiada y sería más optimo usar estimadores mas robustos (menos sensibles a los Outliers). Para ello podemos emplear **RobustScaler** que funciona substrayendo la mediana y escalando mediante el rango intercuartil (IQR).
(Este escalador robusto funciona igual que el anterior, salvo por la diferencia de que en vez de la media utiliza la mediana y en ver de la desviacion estandard utiliza el rango intercuartil)

In [33]:
escalador_robusto = preprocessing.RobustScaler()
var_numericas_imputadas_escalado_robusto = escalador_robusto.fit_transform(var_numericas_imputadas)

In [34]:
var_numericas_imputadas_escalado_robusto.mean(axis=0)

array([-3.81916720e-17, -2.85106383e-02,  4.01958704e-01,  3.04018692e-02,
        7.03130782e+01])

In [35]:
var_numericas_imputadas_escalado_robusto.std(axis=0)

array([6.33218559e-01, 6.01245275e-01, 1.38651621e+00, 7.29970260e-01,
       1.83690817e+03])

### Escalado a un rango especifico.
Hay casos en los que en vez de estandarizar el modelo nos interesa mas ajustar los datos a un rango especifico (generalmente -1,1 o 0,1). Para ello utilizamos la herramienta **MinMaxScaler** que hace escalado minmax.
Tambien podemos utilizar el MaxAbsScaler que simplemente divide cada valor de una variable por su valor maximo (y por tanto convierte el valor maximo a 1)

In [36]:
#comprobamos el valor minimo antes del escalado
var_numericas_imputadas.min()

-100.0

In [41]:
#comprobamos el valor maximo antes del escalado
var_numericas_imputadas.max()

107357.85777352

In [42]:
#escalamos con la libreria preprocessing y la herramienta MinMaxScaler
escalador_minmax = preprocessing.MinMaxScaler()
var_numericas_imputadas_escalado_minmax = escalador_minmax.fit_transform(var_numericas_imputadas)

In [43]:
#comprobamos el minimo despues de escalarlo
var_numericas_imputadas_escalado_minmax.min()

0.0

In [44]:
#comprobamos el maximo despues de escalarlo
var_numericas_imputadas_escalado_minmax.max()

1.0

In [46]:
#creamos ahora un escalador con la herramienta MaxAbsScaler
escalador_maxabs = preprocessing.MaxAbsScaler()
var_numericas_imputadas_escalado_maxabs = escalador_maxabs.fit_transform(var_numericas_imputadas)

In [47]:
#comprobamos los maximos tras aplicar el escalador MaxAbs
var_numericas_imputadas_escalado_maxabs.max()

1.0

In [49]:
#comprobamos los minimos tras aplicar el escalador MaxAbs y comprobamos que no se preocupa por el minimo y solo
#divide por el maximo
var_numericas_imputadas_escalado_maxabs.min()

-0.1122334455667789