# Feature Engineering on Categorical Data

Hay dos tipos de variables categóricas:

**1. Nominales: **Las nominales son aquellas que no tiene un orden, por ejmplo estaciones de clima, colores, nombre de paises, etc.

**2. Ordinales: ** Son aquellas que si se pueden ordenar.

In [53]:
# Para su estudio vamos a importar las siguientes librerías principales:

import pandas as pd
import numpy as np

## Transforming nominal features.

Por lo general variables categoricas nominales vienen en formato texto y por ello los algortimos de Machine Learning no son buenos en leerlos, por ello se deben transformar en valore numéricos para su mejor procesamiento.

In [54]:
# Importar data sets de videojuegos.

url = 'https://raw.githubusercontent.com/dipanjanS/practical-machine-learning-with-python/master/notebooks/Ch04_Feature_Engineering_and_Selection/datasets/vgsales.csv'

vg_df = pd.read_csv(url)

vg_df.head()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37


In [55]:
# Inciamos proceso de transformación de Genre variable.

genres = np.unique(vg_df['Genre'])

genres

array(['Action', 'Adventure', 'Fighting', 'Misc', 'Platform', 'Puzzle',
       'Racing', 'Role-Playing', 'Shooter', 'Simulation', 'Sports',
       'Strategy'], dtype=object)

In [56]:
# Importaremos LabelEncoder desde Sklearn para categorizar Genre

from sklearn.preprocessing import LabelEncoder

gle = LabelEncoder() # Creamos el objeto Label Encoder
genre_labels = gle.fit_transform(vg_df['Genre']) # fit the data para la conversión, aquí es donde se hace la magia
genre_mappings = {index: label for index, label in enumerate(gle.classes_)} # Se asigna el número de la categoria
genre_mappings

{0: 'Action',
 1: 'Adventure',
 2: 'Fighting',
 3: 'Misc',
 4: 'Platform',
 5: 'Puzzle',
 6: 'Racing',
 7: 'Role-Playing',
 8: 'Shooter',
 9: 'Simulation',
 10: 'Sports',
 11: 'Strategy'}

Como el tipo de variable categorica es nominal el orden no importa por lo tanto da igual si a la categoria Sports le corresponde el 9 en este caso o el 1 o el 2, da igual cualquier número que se le asigne.

In [57]:
vg_df['GenreLabel'] = genre_labels

vg_df.head()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales,GenreLabel
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74,10
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24,4
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82,6
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0,10
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37,7


## Transforming ordinal features

Recordemos que las variables categoricas ordinales son aquellas que si se pueden ordenar.

Para ejemplizar la transformación de variables categóricas ordinales usaremos el data set de pokemon:

In [58]:
# importar el data set.
url = 'https://raw.githubusercontent.com/dipanjanS/practical-machine-learning-with-python/master/notebooks/Ch04_Feature_Engineering_and_Selection/datasets/Pokemon.csv'

poke_df = pd.read_csv(url, encoding = 'utf-8')

poke_df.head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,Gen 1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,Gen 1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,Gen 1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,Gen 1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,Gen 1,False


In [59]:
# Se realiza un sample, es decir, se altera el orden del data set para que nos mezcle la columna Generation
poke_df = poke_df.sample(random_state=1, frac = 1).reset_index(drop = True)

In [60]:
np.unique(poke_df['Generation'])

array(['Gen 1', 'Gen 2', 'Gen 3', 'Gen 4', 'Gen 5', 'Gen 6'], dtype=object)

La variable Generation al ser una variable categorica ordinal si es importante su orden, obviamente Gen 1 es primero que Gen 2 y así sucesivamente. Para este tipo de conversión de Texto a categorica númerica es necesario hacer la conversión manualmente.

**OJO OJO OJO OJO OJO: En variables categoricas ordinales es importante el orden pero no ese orden quiere decir que Gen 6 es mayor que Gen 5 y que esta a su vez es mayor que Gen 4 y así.... hay una predecesión pero no una magnitud, si al modelo se introduce erroneamente que en este caso 6 > 5 > 4 y asi sucesivamente se estará alimentando erroneamente el modelo.**

In [61]:
# Creamos diccionario manualmente 
gen_ord_map = {'Gen 1':1, 'Gen 2':2, 'Gen 3':3, 'Gen 4':4, 'Gen 5':5, 'Gen 6':6}

# Aplicamos map para asignar el valor categórico correspondiente
poke_df['GenerationLabel'] = poke_df['Generation'].map(gen_ord_map)

poke_df.head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,GenerationLabel
0,6,CharizardMega Charizard Y,Fire,Flying,634,78,104,78,159,115,100,Gen 1,False,1
1,460,Abomasnow,Grass,Ice,494,90,92,75,92,85,60,Gen 4,False,4
2,161,Sentret,Normal,,215,35,46,34,35,45,20,Gen 2,False,2
3,667,Litleo,Fire,Normal,369,62,50,58,73,54,72,Gen 6,False,6
4,224,Octillery,Water,,480,75,105,75,105,75,45,Gen 2,False,2


# Encodig Categorical Features

En las secciones anteriores se realizó la conversión de variables categoricas ordinales y nominales a variables categoricas numéricas, aún estamos a mitad de camino ya que en este momento esas variables categoricas dejaron de ser texto y pasaron a ser números pero aún hay un sentido de magnitid en esos números. Para eliminar esa magnitud se debe codificar las variables.

### One hot encoding


One hot encoding transforma una variable categorica numérica en una variable categorica binaria, es decir, la variable tomará unicamente los valores 1 ó 0 eliminando la magnitud en la asignación.


In [62]:
# Se trasnformarán la variables categoricas:
# 1. Generation que es una variable categorica ordinal.
# 2. Legendary ue es una variable categorica nominal.
poke_df[['Name', 'Generation','Legendary']].head()

Unnamed: 0,Name,Generation,Legendary
0,CharizardMega Charizard Y,Gen 1,False
1,Abomasnow,Gen 4,False
2,Sentret,Gen 2,False
3,Litleo,Gen 6,False
4,Octillery,Gen 2,False


In [63]:
# Importar las librerías para la conversión de variable categoricas en texto a variables categóricas numéricas.

# LabelEncoder transforma las variables de texto a numéricas, todo en una misma colunma.
# OneHotEncoder transforma las variables de texto a numpericas pero a binarias y separa cada categoria por columnas.
from sklearn.preprocessing import OneHotEncoder, LabelEncoder

### PASO 1: Convertir variables categóricas texto a variables catedogicas numéricas. (LabelEncoder)

In [64]:
# Transformar y mapear la variable Generation

# Generamos el transformador de sklearn
gen_le = LabelEncoder()

# Aplicamos el fit_tansform y aquí es donde se generan la transformación de texto a numero.
gen_labels = gen_le.fit_transform(poke_df['Generation'])

print(gen_le.classes_)
print(gen_labels)
print(type(gen_labels))


# Adicionamos la columna Gen_Label al Data Frame
poke_df['Gen_Label'] = gen_labels

# Convirtió cada label de Generation en un código númerico

['Gen 1' 'Gen 2' 'Gen 3' 'Gen 4' 'Gen 5' 'Gen 6']
[0 3 1 5 1 5 3 2 0 4 1 0 2 2 4 3 3 4 1 2 2 3 2 0 4 0 4 0 5 0 2 2 0 4 0 0 4
 4 5 5 1 4 5 0 3 4 4 2 4 5 3 3 4 4 2 2 2 1 5 0 3 3 0 3 1 1 1 1 5 4 0 3 2 3
 5 0 4 0 2 0 3 0 1 2 2 4 3 4 0 5 5 5 2 5 0 3 0 1 4 4 1 3 4 4 4 1 2 3 0 1 2
 2 0 1 1 4 0 3 4 0 1 5 5 3 4 3 2 2 3 0 1 5 2 5 3 4 0 2 0 3 0 5 3 2 3 2 4 4
 4 2 0 3 1 4 0 2 5 4 4 0 5 2 0 2 4 0 4 2 0 5 4 2 3 1 4 4 0 4 0 4 2 4 5 0 3
 3 2 4 0 0 0 4 4 3 4 5 1 5 1 4 0 2 1 2 3 3 3 0 0 2 5 0 0 1 0 1 0 4 2 0 3 1
 5 3 0 0 3 4 5 5 0 5 2 0 1 0 0 2 4 4 0 0 0 4 1 2 5 0 3 2 3 2 5 0 2 4 2 4 4
 0 1 4 0 4 5 4 4 1 2 1 0 4 5 3 2 5 0 2 0 2 2 2 2 2 2 0 3 3 1 0 5 3 4 0 0 2
 2 5 0 3 3 4 4 2 0 3 0 3 1 0 3 2 4 1 0 4 2 2 0 1 4 4 3 1 2 3 3 0 4 2 2 0 0
 0 0 0 0 2 4 2 2 5 0 4 4 1 2 3 2 2 4 3 2 2 3 5 0 1 3 4 5 1 3 2 0 3 2 1 5 4
 0 2 5 4 0 0 4 3 4 1 4 3 2 1 1 3 3 4 0 4 3 0 4 2 5 3 2 3 4 0 0 0 3 2 4 0 3
 0 2 1 2 0 4 2 1 3 2 4 0 5 0 3 1 4 1 5 2 2 0 4 1 5 4 1 4 2 3 0 5 3 1 2 0 5
 2 1 0 1 1 2 2 5 2 1 4 4 2 2 5 4 4 3 0 1 1 2 2 2 3

In [65]:
# Transformar y mapear la variable Legendary

# Se crea el transformador OneHotEndoder
leg_le = LabelEncoder()

# Aplicamos el fit_tansform y aquí es donde se generan la transformación de texto a numero.
leg_labels = leg_le.fit_transform(poke_df['Legendary'])

print(leg_labels)
print(type(leg_labels))

# Adicionamos la columna Gen_Label al Data Frame
poke_df['Lgnd_Label'] = leg_labels

# Convirtió cada label de Generation en un código númerico

[0 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0
 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 

In [66]:
# Creamos un Data Frame sub para ver claramente las transformaciones de las variables.

poke_df_sub = poke_df[['Name', 'Generation', 'Gen_Label', 'Legendary', 'Lgnd_Label']]

poke_df_sub.iloc[4:10]

Unnamed: 0,Name,Generation,Gen_Label,Legendary,Lgnd_Label
4,Octillery,Gen 2,1,False,0
5,Helioptile,Gen 6,5,False,0
6,Dialga,Gen 4,3,True,1
7,DeoxysDefense Forme,Gen 3,2,True,1
8,Rapidash,Gen 1,0,False,0
9,Swanna,Gen 5,4,False,0


#### PASO 2: Convertir variables categóricas numéricas a variables categóricas binarias. (OneHotEncoder)

In [67]:
# Se crea el transformador
gen_ohe = OneHotEncoder()

# Se crea un array como una lista de listas, cada lista contiene 6 elementos, 5 de ellos 0 y uno es 1 que 
# corresponde a la Generación que identifica la variable.
gen_feature_arr = gen_ohe.fit_transform(poke_df[['Gen_Label']]).toarray()

gen_feature_arr

array([[1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       ...,
       [1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0.]])

In [68]:
# Se obtienen las clases o nombre de columnas de cada variable
gen_feature_labels = list(gen_le.classes_)

gen_feature_labels

['Gen 1', 'Gen 2', 'Gen 3', 'Gen 4', 'Gen 5', 'Gen 6']

In [69]:
# Se genera un Data Frame con la codificación lista

gen_features = pd.DataFrame(gen_feature_arr, columns = gen_feature_labels)

gen_features.head()

Unnamed: 0,Gen 1,Gen 2,Gen 3,Gen 4,Gen 5,Gen 6
0,1.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,1.0,0.0,0.0
2,0.0,1.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,1.0
4,0.0,1.0,0.0,0.0,0.0,0.0


In [70]:
# Hacemos lo mismoo para Legendary

leg_ohe = OneHotEncoder()
leg_feature_arr = leg_ohe.fit_transform(poke_df[['Lgnd_Label']]).toarray()
leg_feature_labels = ['Legendary_'+str(cls_label) for cls_label in leg_le.classes_]
leg_features = pd.DataFrame(leg_feature_arr, columns = leg_feature_labels)
leg_features.head()

Unnamed: 0,Legendary_False,Legendary_True
0,1.0,0.0
1,1.0,0.0
2,1.0,0.0
3,1.0,0.0
4,1.0,0.0


In [71]:
# Ahora vamos a concatenar ambos Data Frames con poke_df_sub

poke_df_ohe = pd.concat([poke_df_sub, gen_features, leg_fearures], axis=1)
poke_df_ohe.iloc[4:10]

Unnamed: 0,Name,Generation,Gen_Label,Legendary,Lgnd_Label,Gen 1,Gen 2,Gen 3,Gen 4,Gen 5,Gen 6,Legendary_False,Legendary_True
4,Octillery,Gen 2,1,False,0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0
5,Helioptile,Gen 6,5,False,0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0
6,Dialga,Gen 4,3,True,1,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0
7,DeoxysDefense Forme,Gen 3,2,True,1,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0
8,Rapidash,Gen 1,0,False,0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
9,Swanna,Gen 5,4,False,0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0


#### Dummy encondig - Otra forma en Pandas de realizar OneHotEncoding

In [72]:
gen_onehot_features = pd.get_dummies(poke_df['Generation'])
gen_onehot_features.head()

Unnamed: 0,Gen 1,Gen 2,Gen 3,Gen 4,Gen 5,Gen 6
0,1,0,0,0,0,0
1,0,0,0,1,0,0
2,0,1,0,0,0,0
3,0,0,0,0,0,1
4,0,1,0,0,0,0


In [73]:
pd.concat([poke_df[['Name', 'Generation']], gen_onehot_features], axis=1).iloc[4:10]

Unnamed: 0,Name,Generation,Gen 1,Gen 2,Gen 3,Gen 4,Gen 5,Gen 6
4,Octillery,Gen 2,0,1,0,0,0,0
5,Helioptile,Gen 6,0,0,0,0,0,1
6,Dialga,Gen 4,0,0,0,1,0,0
7,DeoxysDefense Forme,Gen 3,0,0,1,0,0,0
8,Rapidash,Gen 1,1,0,0,0,0,0
9,Swanna,Gen 5,0,0,0,0,1,0


### Feature hashing scheme

Hashing feature scheme es una alternativa muy útil para tratar con variables categóricas que tienen un número muy grande de categorias, el algoritmo o hash function basicamente lo que hace es que mediante matrices reduce el número decategorias de n a m, siendo m un número dado con anterioridad.

Es muy usado en clasificación de texto.

En nuestro ejemplo, codificaremos la variable que tiene 12 categorias a 6 categorias.

In [77]:
# Vamos a realizar el ejemplo sobre el Video games data frame, especificamente sobre la variable Genre.

vg_df.head()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales,GenreLabel
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74,10
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24,4
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82,6
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0,10
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37,7


In [78]:
# Extraemos las diferentes categorías en Genre
unique_genres = np.unique(vg_df[['Genre']])
print("Total game genres: ", len(unique_genres))
print(unique_genres)

Total game genres:  12
['Action' 'Adventure' 'Fighting' 'Misc' 'Platform' 'Puzzle' 'Racing'
 'Role-Playing' 'Shooter' 'Simulation' 'Sports' 'Strategy']


In [79]:
# Importamos la función hasher
from sklearn.feature_extraction import FeatureHasher

In [81]:
# Creamos el elemento que convierte
fh = FeatureHasher(n_features = 6, input_type = 'string')

# Aplicamos el método fit_transform()
hashed_features = fh.fit_transform(vg_df['Genre'])
hashed_features = hashed_features.toarray()
hashed_features

array([[-2.,  2.,  0., -2.,  0.,  0.],
       [ 0.,  2.,  2., -1.,  1.,  0.],
       [-1.,  0.,  0.,  0.,  0., -1.],
       ...,
       [-1.,  0.,  0.,  0.,  0., -1.],
       [ 0.,  1.,  1., -2.,  1., -1.],
       [ 0.,  2.,  2., -1.,  1.,  0.]])

In [84]:
 pd.concat([vg_df[['Name', 'Genre']],pd.DataFrame(hashed_features)], axis = 1).iloc[1:15]

Unnamed: 0,Name,Genre,0,1,2,3,4,5
1,Super Mario Bros.,Platform,0.0,2.0,2.0,-1.0,1.0,0.0
2,Mario Kart Wii,Racing,-1.0,0.0,0.0,0.0,0.0,-1.0
3,Wii Sports Resort,Sports,-2.0,2.0,0.0,-2.0,0.0,0.0
4,Pokemon Red/Pokemon Blue,Role-Playing,-1.0,1.0,2.0,0.0,1.0,-1.0
5,Tetris,Puzzle,0.0,1.0,1.0,-2.0,1.0,-1.0
6,New Super Mario Bros.,Platform,0.0,2.0,2.0,-1.0,1.0,0.0
7,Wii Play,Misc,0.0,0.0,0.0,-2.0,1.0,-1.0
8,New Super Mario Bros. Wii,Platform,0.0,2.0,2.0,-1.0,1.0,0.0
9,Duck Hunt,Shooter,-1.0,4.0,0.0,-1.0,0.0,-1.0
10,Nintendogs,Simulation,-2.0,1.0,2.0,-3.0,2.0,0.0


# RESÚMEN

1. Las variables categóricas se clasifican en dos clases:
    * Ordinales: Son aquellas en donde el orden de las clases importa, tiene un orden, por ejemplo los meses del año o los días de la semana, la edad.
    
    * Nominales: Son aquellas en donde no existe un orden establecido, por ejemplo el genero, homnbre o mujer, los colores, etc.
    
2. Hay maneras de transformar "manualmente" dichas variables de texto a númericas, pero existe el peligro de crear una dimensión entre categorias lo que altera el desempeño del algoritmo de Machine Learning.

3. La forma correcta de convertir variables categóricas a númericas eliminando su dimensionalidad es creando una variable por cada categoría y binarizar el resultado:

    * Paso 1: Convertir la variable de texto a numérica mediante LabelEncoder.
    * Paso 2: Crar una variable por cada categoria posible.
        * Mediante OneHotEncoding.
        * Mediante get_dummy
        
4. Cuando el número de variables es muy alto se recomienda usar una función hash que consiste en reducir en número de variables a crear y codificar dichas variables. En sklearn mediante FeatureHasher.