# Práctica 5: transformación de datos categóricos (Defunciones fetales 2017)

## Transformación de variables numéricas
Es convertir una variable categórica en una variable numérica. La transformación de variables categóricas es casi obligatoria para la mayoría de los modelos de aprendizaje de máquinas porque sólo pueden manejar valores numéricos. También se denomina codificación (encoding), o en la minería de textos, la incrustación (embedding). (Tarea encoding y embedding)

Existen muchas técnicas de transformación de datos, entre ellas, hay muchas que utilizan parámetros, como la media y la desviación estándar de la normalización o una tabla de conversión en la codificación de categorías. Un error común en el uso de la transformación variable es transformar el conjunto de entrenamiento y el conjunto de pruebas por separado utilizando parámetros diferentes. La transformación de los datos de entrenamiento y los datos de prueba debe hacerse utilizando los mismos parámetros, y normalmente se obtienen del conjunto de entrenamiento; de lo contrario, no podemos comparar los resultados justamente.

![](tranformacion.png)

Algunos dirán más estrictamente que cuando se trabaje con validación cruzada, los parámetros de transformación se derivarán sólo del volúmen de entrenamiento (k-fold), entonces los datos del volúmen de validación se transformarán por esos parámetros, en lugar de transformar todos los datos de entrenamiento antes de la validación cruzada. Ese enfoque podría ser necesario cuando se prevé que hay enormes diferencias en la distribución de los datos entre los volúmen. La presencia de valores atípicos es una posible razón para dar parámetros diferentes, en particular en las técnicas de transformación sensibles a los valores atípicos, como la escala mín-máx.

In [1]:

conda install -c conda-forge category_encoders

Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... done

# All requested packages already installed.


Note: you may need to restart the kernel to use updated packages.


## Codificación de un paso (one-hot encoding)
La codificación de un paso es un enfoque para convertir una columna categórica en múltiples columnas binarias (0 o 1), tantas como el número de niveles o categorías distintas de la columna original. Por ejemplo, si hay cuatro niveles en la variable categórica, la codificación de un paso creará cuatro nuevas columnas, cada una de las cuales tiene 0 o 1 y representa si la columna original tiene el nivel.



![](onehot.png)

Una desventaja de la codificación de un paso es que el número de columnas se incrementa fácilmente con muchos niveles distintos. Una posible solución es agrupar algunos niveles sobre la base del conocimiento del dominio o agrupar los niveles poco frecuentes en "otro" nivel.

In [2]:
#Importamos librería y cargamos dataset
import pandas as pd
path = 'defunciones_fetales_2017.csv'
df = pd.read_csv(path, encoding='latin', error_bad_lines=False)
df.head()

Unnamed: 0,ent_regis,mun_regis,ent_resid,mun_resid,loc_rh,tloc_resid,ent_ocurr,mun_ocurr,loc_ocurr,tloc_ocurr,...,par_agre,lengua_ind,cond_act,nacionalid,nac_pais,paren_info,consultas,edo_piel,necropsia,dis_re_oax
0,7,101,7,101,9999,99,7,101,1,15,...,99,9,9,9,998,99,99,1,8,999
1,7,13,7,81,7777,1,7,13,1,6,...,99,1,1,1,998,1,0,1,8,999
2,7,101,7,27,1,10,7,101,1,15,...,88,2,1,1,998,1,8,1,8,999
3,7,21,7,21,7777,1,7,21,7777,1,...,88,2,2,1,998,14,5,1,8,999
4,7,78,7,76,7777,1,7,78,1,13,...,88,1,2,1,998,1,0,1,8,999


La codificación de un paso se puede hacer la función get_dummies de pandas o con el OneHotEncoder de scikit-learn.

In [3]:
pd.get_dummies(df,columns=['causa_def'])

Unnamed: 0,ent_regis,mun_regis,ent_resid,mun_resid,loc_rh,tloc_resid,ent_ocurr,mun_ocurr,loc_ocurr,tloc_ocurr,...,causa_def_Q909,causa_def_Q911,causa_def_Q913,causa_def_Q917,causa_def_Q929,causa_def_Q930,causa_def_Q961,causa_def_Q969,causa_def_Q998,causa_def_Q999
0,7,101,7,101,9999,99,7,101,1,15,...,0,0,0,0,0,0,0,0,0,0
1,7,13,7,81,7777,1,7,13,1,6,...,0,0,0,0,0,0,0,0,0,0
2,7,101,7,27,1,10,7,101,1,15,...,0,0,0,0,0,0,0,0,0,0
3,7,21,7,21,7777,1,7,21,7777,1,...,0,0,0,0,0,0,0,0,0,0
4,7,78,7,76,7777,1,7,78,1,13,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22331,6,7,6,7,1,13,6,7,1,13,...,0,0,0,0,0,0,0,0,0,0
22332,7,101,7,101,1,15,7,101,1,15,...,0,0,0,0,0,0,0,0,0,0
22333,7,57,7,70,7777,1,7,57,1,8,...,0,0,0,0,0,0,0,0,0,0
22334,7,101,7,12,1,8,7,101,1,15,...,0,0,0,0,0,0,0,0,0,0


## Codificación de etiquetas (label encoding)
La codificación de etiquetas es un enfoque para convertir los niveles en enteros. Este enfoque no es apropiado en la mayoría de los algoritmos de aprendizaje automático porque la cantidad de valor transformado en realidad no tiene nada que ver con la variable objetivo, excepto los modelos basados en el árbol de decisión que pueden ser capaces de dividir la columna numérica transformada varias veces con la estratificación del nodo del árbol. Además, en el caso de que la variable categórica tenga una naturaleza "ordinal", por ejemplo, Frío < Calor < Caliente < Muy caliente, la codificación de etiquetas puede funcionar potencialmente mejor que otras técnicas de codificación.

![](labelencoding.png)

Se puede implementar la codificación de etiquetas con la función LabelEncoder de scikit-learn.

In [4]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
df.head()

Unnamed: 0,ent_regis,mun_regis,ent_resid,mun_resid,loc_rh,tloc_resid,ent_ocurr,mun_ocurr,loc_ocurr,tloc_ocurr,...,par_agre,lengua_ind,cond_act,nacionalid,nac_pais,paren_info,consultas,edo_piel,necropsia,dis_re_oax
0,7,101,7,101,9999,99,7,101,1,15,...,99,9,9,9,998,99,99,1,8,999
1,7,13,7,81,7777,1,7,13,1,6,...,99,1,1,1,998,1,0,1,8,999
2,7,101,7,27,1,10,7,101,1,15,...,88,2,1,1,998,1,8,1,8,999
3,7,21,7,21,7777,1,7,21,7777,1,...,88,2,2,1,998,14,5,1,8,999
4,7,78,7,76,7777,1,7,78,1,13,...,88,1,2,1,998,1,0,1,8,999


In [5]:
le = LabelEncoder()
le.fit(df['causa_def'])
df['causa_def_le'] = le.transform(df['causa_def'])
df

Unnamed: 0,ent_regis,mun_regis,ent_resid,mun_resid,loc_rh,tloc_resid,ent_ocurr,mun_ocurr,loc_ocurr,tloc_ocurr,...,lengua_ind,cond_act,nacionalid,nac_pais,paren_info,consultas,edo_piel,necropsia,dis_re_oax,causa_def_le
0,7,101,7,101,9999,99,7,101,1,15,...,9,9,9,998,99,99,1,8,999,43
1,7,13,7,81,7777,1,7,13,1,6,...,1,1,1,998,1,0,1,8,999,29
2,7,101,7,27,1,10,7,101,1,15,...,2,1,1,998,1,8,1,8,999,173
3,7,21,7,21,7777,1,7,21,7777,1,...,2,2,1,998,14,5,1,8,999,29
4,7,78,7,76,7777,1,7,78,1,13,...,1,2,1,998,1,0,1,8,999,20
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22331,6,7,6,7,1,13,6,7,1,13,...,2,2,1,888,2,6,1,2,999,76
22332,7,101,7,101,1,15,7,101,1,15,...,2,1,1,998,1,3,1,8,999,0
22333,7,57,7,70,7777,1,7,57,1,8,...,2,2,1,888,1,5,1,2,999,81
22334,7,101,7,12,1,8,7,101,1,15,...,2,2,1,888,1,2,1,2,999,1


## Feature hash
Feature hash es un enfoque para convertir una columna categórica en múltiples columnas usando trucos de hashing. Puede definir el número de nuevas columnas a las que convierte, que puede ser menor que el número de niveles en las columnas categóricas. En lugar de asignar 0 o 1 como una codificación de un solo dígito, el hashing de características utiliza más de dos valores (-1, 0 o 1 en el caso que se indica a continuación).



![](futurehash.png)

Este etiquetado puede cubrir la deficiencia de la codificación de un solo paso que genera demasiadas columnas después de la transformación. Sin embargo, tener demasiadas columnas ya no es una cuestión fatal en las recientes técnicas avanzadas de modelado, por lo que el "hashing" de características no se utiliza ampliamente. Además, tener más de dos valores posibles en una nueva columna puede no ser bueno para algunos modelos.

In [6]:
from sklearn.feature_extraction import FeatureHasher
import pandas as pd
df.head()

Unnamed: 0,ent_regis,mun_regis,ent_resid,mun_resid,loc_rh,tloc_resid,ent_ocurr,mun_ocurr,loc_ocurr,tloc_ocurr,...,lengua_ind,cond_act,nacionalid,nac_pais,paren_info,consultas,edo_piel,necropsia,dis_re_oax,causa_def_le
0,7,101,7,101,9999,99,7,101,1,15,...,9,9,9,998,99,99,1,8,999,43
1,7,13,7,81,7777,1,7,13,1,6,...,1,1,1,998,1,0,1,8,999,29
2,7,101,7,27,1,10,7,101,1,15,...,2,1,1,998,1,8,1,8,999,173
3,7,21,7,21,7777,1,7,21,7777,1,...,2,2,1,998,14,5,1,8,999,29
4,7,78,7,76,7777,1,7,78,1,13,...,1,2,1,998,1,0,1,8,999,20


Se puede utilizar la función FeatureHasher de scikit-learn para realizar este método.

In [7]:
fh = FeatureHasher(n_features=10, input_type='string')
hashed = fh.transform(df[['causa_def']].astype(str).values)
hashed = pd.DataFrame(hashed.todense())
hashed

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
1,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...
22331,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
22332,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0
22333,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
22334,0.0,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0


In [8]:
hashed.columns = ['causa_def_fh' + str(i) for i in hashed.columns]
pd.concat([df, hashed], axis=1)

Unnamed: 0,ent_regis,mun_regis,ent_resid,mun_resid,loc_rh,tloc_resid,ent_ocurr,mun_ocurr,loc_ocurr,tloc_ocurr,...,causa_def_fh0,causa_def_fh1,causa_def_fh2,causa_def_fh3,causa_def_fh4,causa_def_fh5,causa_def_fh6,causa_def_fh7,causa_def_fh8,causa_def_fh9
0,7,101,7,101,9999,99,7,101,1,15,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
1,7,13,7,81,7777,1,7,13,1,6,...,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,7,101,7,27,1,10,7,101,1,15,...,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,7,21,7,21,7777,1,7,21,7777,1,...,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,7,78,7,76,7777,1,7,78,1,13,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22331,6,7,6,7,1,13,6,7,1,13,...,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
22332,7,101,7,101,1,15,7,101,1,15,...,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0
22333,7,57,7,70,7777,1,7,57,1,8,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
22334,7,101,7,12,1,8,7,101,1,15,...,0.0,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0


## Codificación binaria
La codificación binaria es un enfoque para convertir una columna categórica en múltiples columnas binarias, minimizando al mismo tiempo el número de nuevas columnas. En primer lugar, convertir el valor categórico en números enteros en algunos órdenes (por ejemplo, en orden alfabético o en orden de aparición para la fila superior). A continuación, se convierte en un dígito binario de tal manera que 1 a 1, 2 a 10, 5 a 101, etc. Finalmente, se diviode el dígito binario en columnas separadas, cada una de las cuales tiene un solo dígito (1 o 0).

![](binaria.png)

In [9]:
from category_encoders import BinaryEncoder
import pandas as pd
df_x = df
be = BinaryEncoder()
df_be = be.fit_transform(df_x['causa_def'])
pd.concat([df_x,df_be],axis=1)


Unnamed: 0,ent_regis,mun_regis,ent_resid,mun_resid,loc_rh,tloc_resid,ent_ocurr,mun_ocurr,loc_ocurr,tloc_ocurr,...,causa_def_le,causa_def_0,causa_def_1,causa_def_2,causa_def_3,causa_def_4,causa_def_5,causa_def_6,causa_def_7,causa_def_8
0,7,101,7,101,9999,99,7,101,1,15,...,43,0,0,0,0,0,0,0,0,1
1,7,13,7,81,7777,1,7,13,1,6,...,29,0,0,0,0,0,0,0,1,0
2,7,101,7,27,1,10,7,101,1,15,...,173,0,0,0,0,0,0,0,1,1
3,7,21,7,21,7777,1,7,21,7777,1,...,29,0,0,0,0,0,0,0,1,0
4,7,78,7,76,7777,1,7,78,1,13,...,20,0,0,0,0,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22331,6,7,6,7,1,13,6,7,1,13,...,76,0,0,0,0,1,1,1,0,0
22332,7,101,7,101,1,15,7,101,1,15,...,0,0,0,0,0,1,0,0,0,1
22333,7,57,7,70,7777,1,7,57,1,8,...,81,0,0,0,0,0,0,1,1,1
22334,7,101,7,12,1,8,7,101,1,15,...,1,0,0,0,0,1,1,0,0,1


## Codificación Base N
La codificación de Base N es la generalización de la codificación binaria en el sentido de que, en lugar de utilizar la base 2, BaseN utiliza un número arbitrario como base. A medida que N aumenta el número de nuevas columnas se reduce, pero también significa que hay más información superpuesta dentro de las nuevas columnas que la que vimos en el caso de la codificación binaria, lo que potencialmente empeora el modelo final. Si N es infinito, la codificación de la BaseN es exactamente la misma que la de la etiqueta. Como ya se ha dicho, la codificación de etiquetas es inapropiada para la mayoría de los modelos.

![](basen.png)

La función BaseNEncoder de la librería category_encoder puede ser útil para este método.

In [10]:
from category_encoders import BaseNEncoder
import pandas as pd

bne = BaseNEncoder(base=3)
df_bne = bne.fit_transform(df['causa_def'])
pd.concat([df, df_bne],axis=1)

Unnamed: 0,ent_regis,mun_regis,ent_resid,mun_resid,loc_rh,tloc_resid,ent_ocurr,mun_ocurr,loc_ocurr,tloc_ocurr,...,edo_piel,necropsia,dis_re_oax,causa_def_le,causa_def_0,causa_def_1,causa_def_2,causa_def_3,causa_def_4,causa_def_5
0,7,101,7,101,9999,99,7,101,1,15,...,1,8,999,43,0,0,0,0,0,1
1,7,13,7,81,7777,1,7,13,1,6,...,1,8,999,29,0,0,0,0,0,2
2,7,101,7,27,1,10,7,101,1,15,...,1,8,999,173,0,0,0,0,1,0
3,7,21,7,21,7777,1,7,21,7777,1,...,1,8,999,29,0,0,0,0,0,2
4,7,78,7,76,7777,1,7,78,1,13,...,1,8,999,20,0,0,0,0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22331,6,7,6,7,1,13,6,7,1,13,...,1,2,999,76,0,0,1,0,0,1
22332,7,101,7,101,1,15,7,101,1,15,...,1,8,999,0,0,0,0,1,2,2
22333,7,57,7,70,7777,1,7,57,1,8,...,1,2,999,81,0,0,0,0,2,1
22334,7,101,7,12,1,8,7,101,1,15,...,1,2,999,1,0,0,0,2,2,1


## Codificación de frecuencias
La codificación de frecuencias es un enfoque para transformar la columna categórica en una nueva columna con números enteros que representan las frecuencias de los niveles de la columna original. Esto puede funcionar bien cuando la frecuencia de los niveles es influyente para la variable objetivo.

![](frecuencias.png)

También se pueden convertir las frecuencias en rangos, al igual que la serialización de la codificación de frecuencias y la transformación de rangos. Tengan cuidado de que las frecuencias de los niveles tienen más probabilidades de causar empates que la clasificación de los datos originales.

In [11]:
import pandas as pd
df_train = df
df_test = df_train.iloc[0:3000,]
df_train

Unnamed: 0,ent_regis,mun_regis,ent_resid,mun_resid,loc_rh,tloc_resid,ent_ocurr,mun_ocurr,loc_ocurr,tloc_ocurr,...,lengua_ind,cond_act,nacionalid,nac_pais,paren_info,consultas,edo_piel,necropsia,dis_re_oax,causa_def_le
0,7,101,7,101,9999,99,7,101,1,15,...,9,9,9,998,99,99,1,8,999,43
1,7,13,7,81,7777,1,7,13,1,6,...,1,1,1,998,1,0,1,8,999,29
2,7,101,7,27,1,10,7,101,1,15,...,2,1,1,998,1,8,1,8,999,173
3,7,21,7,21,7777,1,7,21,7777,1,...,2,2,1,998,14,5,1,8,999,29
4,7,78,7,76,7777,1,7,78,1,13,...,1,2,1,998,1,0,1,8,999,20
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22331,6,7,6,7,1,13,6,7,1,13,...,2,2,1,888,2,6,1,2,999,76
22332,7,101,7,101,1,15,7,101,1,15,...,2,1,1,998,1,3,1,8,999,0
22333,7,57,7,70,7777,1,7,57,1,8,...,2,2,1,888,1,5,1,2,999,81
22334,7,101,7,12,1,8,7,101,1,15,...,2,2,1,888,1,2,1,2,999,1


No hay ninguna biblioteca (aún) que soporte esta codificación en python pero puede ser fácilmente implementada por la función nativa value_counts() de pandas.

In [12]:
var='causa_def'
df_train=df.copy()
freq = df_train[var].value_counts()
df_train[var+'_fre'] = df_train[var].map(freq)

In [13]:
df_train

Unnamed: 0,ent_regis,mun_regis,ent_resid,mun_resid,loc_rh,tloc_resid,ent_ocurr,mun_ocurr,loc_ocurr,tloc_ocurr,...,cond_act,nacionalid,nac_pais,paren_info,consultas,edo_piel,necropsia,dis_re_oax,causa_def_le,causa_def_fre
0,7,101,7,101,9999,99,7,101,1,15,...,9,9,998,99,99,1,8,999,43,302
1,7,13,7,81,7777,1,7,13,1,6,...,1,1,998,1,0,1,8,999,29,15
2,7,101,7,27,1,10,7,101,1,15,...,1,1,998,1,8,1,8,999,173,470
3,7,21,7,21,7777,1,7,21,7777,1,...,2,1,998,14,5,1,8,999,29,15
4,7,78,7,76,7777,1,7,78,1,13,...,2,1,998,1,0,1,8,999,20,785
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
22331,6,7,6,7,1,13,6,7,1,13,...,2,1,888,2,6,1,2,999,76,226
22332,7,101,7,101,1,15,7,101,1,15,...,1,1,998,1,3,1,8,999,0,559
22333,7,57,7,70,7777,1,7,57,1,8,...,2,1,888,1,5,1,2,999,81,7304
22334,7,101,7,12,1,8,7,101,1,15,...,2,1,888,1,2,1,2,999,1,211


In [14]:
df_test

Unnamed: 0,ent_regis,mun_regis,ent_resid,mun_resid,loc_rh,tloc_resid,ent_ocurr,mun_ocurr,loc_ocurr,tloc_ocurr,...,lengua_ind,cond_act,nacionalid,nac_pais,paren_info,consultas,edo_piel,necropsia,dis_re_oax,causa_def_le
0,7,101,7,101,9999,99,7,101,1,15,...,9,9,9,998,99,99,1,8,999,43
1,7,13,7,81,7777,1,7,13,1,6,...,1,1,1,998,1,0,1,8,999,29
2,7,101,7,27,1,10,7,101,1,15,...,2,1,1,998,1,8,1,8,999,173
3,7,21,7,21,7777,1,7,21,7777,1,...,2,2,1,998,14,5,1,8,999,29
4,7,78,7,76,7777,1,7,78,1,13,...,1,2,1,998,1,0,1,8,999,20
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2995,30,87,30,87,1,14,30,87,1,14,...,9,2,1,888,1,7,1,9,999,81
2996,30,87,30,87,1,14,30,87,1,14,...,2,2,1,888,1,8,1,9,999,21
2997,30,118,30,174,1,10,30,118,1,13,...,2,2,1,888,1,10,1,2,999,81
2998,30,39,30,39,1,13,30,39,1,13,...,2,1,1,998,99,3,1,8,999,20
