# Comenzamos importando todo aquello que necesitemos

In [1]:
import pandas as pd
import numpy as np

# Transformación de variables nominales

Los atributos nominales consisten en valores categóricos discretos sin noción o sentido de orden entre ellos. La idea aquí es transformar estos atributos en un formato numérico más representativo que se pueda entender fácilmente mediante el código y las canalizaciones descendentes. Veamos un nuevo conjunto de datos relacionados con las ventas de videojuegos.

In [132]:
vg_df = pd.read_csv('../../data/vgsales.csv', encoding='utf-8')
vg_df[['Name', 'Platform', 'Year', 'Genre', 'Publisher']].iloc[0:7]

Unnamed: 0,Name,Platform,Year,Genre,Publisher
0,Wii Sports,Wii,2006.0,Sports,Nintendo
1,Super Mario Bros.,NES,1985.0,Platform,Nintendo
2,Mario Kart Wii,Wii,2008.0,Racing,Nintendo
3,Wii Sports Resort,Wii,2009.0,Sports,Nintendo
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo
5,Tetris,GB,1989.0,Puzzle,Nintendo
6,New Super Mario Bros.,DS,2006.0,Platform,Nintendo


### EJERCICIO

Obtén la lista de videojuegos únicos. ¿Cuántos son? ¿Cuántos registros tenemos en total en nuestro dataset? 

### Label Encoder

Una vez hemos identificado los valores de la variable categórica, tendremos que convertir esos datos a algo interpretable por el algoritmo, es decir, datos numéricos. Para ello, podemos utiliza el LabelEncoder, que lo que hara será convertir variables categóricas en numéricas, asignándole un número entero que se corresponda con un mapeo que ha creado entre la categoría y un número entero (que dependerá del orden de columna que tenga).

La interfaz será similar a lo que hemos visto con el resto de objetos de ``scikit-learn``:

In [133]:
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit(generos)

LabelEncoder()

In [134]:
# Podemos acceder a ciertos atributos, como las categorías que está evaluando:
le.classes_

array(['Action', 'Adventure', 'Fighting', 'Misc', 'Platform', 'Puzzle',
       'Racing', 'Role-Playing', 'Shooter', 'Simulation', 'Sports',
       'Strategy'], dtype=object)

In [135]:
# Y lo que nos devuelve si transformamos:
le.transform(le.classes_)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

### EJERCICIO

Utiliza lo que acabas de ver para crearte una nueva columna "Genre_LE" que represente la columna "Genre" pero en formato numérico:

In [18]:
vg_df['Genre_LE'] = le.transform(vg_df.Genre)
vg_df.loc[:,['Genre', 'Genre_LE']].head(10)

Unnamed: 0,Genre,Genre_LE
0,Sports,10
1,Platform,4
2,Racing,6
3,Sports,10
4,Role-Playing,7
5,Puzzle,5
6,Platform,4
7,Misc,3
8,Platform,4
9,Shooter,8


### EJERCICIO

Como has visto, esta forma de etiquetar los datos establece cierto orden de relación entre los datos, lo que puede que no nos guste (la mayoría de veces será algo negativo, pues las variables categóricas no tienen relación medible directamente entre sí). Hay alguna forma de codificar estos valores sin que nos imponga este orden, ¿se te ocurre cómo hacerlo? Impleméntalo.

# Transformando variables Ordinales

Los atributos ordinales son atributos categóricos con un sentido de orden entre los valores. Consideremos el conjunto de datos de Pokémon. Centrémonos más específicamente en el atributo Tipo 1. Para este ejemplo, imaginaremos que cada Tipo 1 tiene una potencia diferente que podemos ordenar.


In [136]:
poke_df = pd.read_csv('../../data/Pokemon.csv', encoding='latin1', index_col=0)
poke_df.head()

Unnamed: 0_level_0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Stage,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,2,False
3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,3,False
4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
5,Charmeleon,Fire,,405,58,64,58,80,65,80,2,False


In [137]:
poke_df.columns

Index(['Name', 'Type 1', 'Type 2', 'Total', 'HP', 'Attack', 'Defense',
       'Sp. Atk', 'Sp. Def', 'Speed', 'Stage', 'Legendary'],
      dtype='object')

## EJERCICIO

Imprime por pantalla una lista ordenada (o Series o lo que sea) que identifique cada valor de "Type 1" con el número de veces que aparece.

## Estableciendo un orden personalizado

En general, no existe un módulo o función genérica para mapear y transformar estas variables en representaciones numéricas basadas en el orden automáticamente. Por lo tanto, podemos usar un mapa de codificación personalizado basado en un diccionario, tal como se muestra a continuación:

In [138]:
type_1_map = {'Bug': 1, 'Water': 2, 'Rock': 3, 'Normal': 4, 'Fighting': 5, 'Grass': 6, 'Poison': 7,
       'Fire': 8, 'Ghost': 9, 'Fairy': 10, 'Electric': 11, 'Dragon':12, 'Ground':13,
       'Psychic':14, 'Ice':15}

# map the values to the dataframe

poke_df['type_1_num'] = poke_df['Type 1'].map(type_1_map)
poke_df.head()

Unnamed: 0_level_0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Stage,Legendary,type_1_num
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False,6
2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,2,False,6
3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,3,False,6
4,Charmander,Fire,,309,39,52,43,60,50,65,1,False,8
5,Charmeleon,Fire,,405,58,64,58,80,65,80,2,False,8


De este modo, por ejemplo, somos capaces de asignar la relación que nosotros queramos en función de su valor.

## EJERCICIO

Créate una nueva columna "type_2_num" que traduzca los tipos de "Type 2" a números entendibles por los futuros algoritmos. En este caso, a diferencia del caso anterior, el mapeo tendrá que hacer referencia a algo tangible que realmente exprese algo que asigne un valor coherente al tipo. Este mapeo deberá asignar los valores 1, 2, 3... a cada tipo en función de su ordenación por las características de ataque. Es decir, aquel tipo cuya suma de "Attack", "Sp. Atk" y "Speed" sea mayor, se mapeará como 1, el siguiente se mapeará como 2, y asi hasta el último tipo. Piensa además cómo mapearás aquellos tipos no informados, ya que no todos los Pokémon tienen "Type 2".

# Transformado variables Categóricas

En el ejemplo anterior, estábamos poniéndonos en el supuesto de que las variables de tipo tenían un significado tal que podíamos establecer un orden de relacion (aunque en la realidad no fuese así). Ahora realizaremos los tratamientos pertinentes para aquellas varaibles categóricas puras, es decir, que no tienen una relación entre sí.

## One-Hot Encoder

## EJERCICIO

Antes hemos supuesto que "Type 1" y "Type 2" seguían cierta lógica. Sin embargo, esto no es así. Al hacer un mapeo ya sea a mano a un número o mediante LabelEncoder, se está asignando una relación de forma indirecta. Por ello, en el notebook anterior habíamos visto cómo podíamos luchar contra esto. Realiza las operaciones necesarias para transformar nuestro dataset de modo que se muestre la información de "Type 1", "Type 2" y "Legendary" adaptada para ser usada con un algoritmo pero sin establecer ningún orden de preferencia entre los valores de los mismos.

Termina juntando tanto las nuevas columnas como el resto de datos del dataset original en un nuevo dataset.

In [140]:
poke_df[["Name", "Stage", "Type 1", "Type 2", "Legendary"]].iloc[4:10]

Unnamed: 0_level_0,Name,Stage,Type 1,Type 2,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
5,Charmeleon,2,Fire,,False
6,Charizard,3,Fire,Flying,False
7,Squirtle,1,Water,,False
8,Wartortle,2,Water,,False
9,Blastoise,3,Water,,False
10,Caterpie,1,Bug,,False


Ahora, si nos diesen 2 nuevas entradas y nos pidieran que las categorizáramos como hemos hecho las anteriores, estaríamos perdidos, porque tendríamos que rehacer el mapeo que hemos hecho para tenerlo en cuenta. Sin embargo, en este punto nos puede ayudar nuestro amigo LabelEncoder, ya que tenemos un objeto de scikit-learn que nos devuelve un número en función de la entrada y opera como hemos visto con otros objetos de esta librería: creamos el objeto, entrenamos para unos valores concretos y transformamos.

Veamos cómo lo podemos hacer:

In [141]:
from sklearn.preprocessing import OneHotEncoder

poke_df2 = poke_df.copy().fillna('')

# Creamos los LabelEncoders:
le_type_1 = preprocessing.LabelEncoder()
le_type_2 = preprocessing.LabelEncoder()
le_legendary = preprocessing.LabelEncoder()

# Ajustamos a nuestros datos:
le_type_1.fit(poke_df2['Type 1'])
le_type_2.fit(poke_df2['Type 2'])
le_legendary.fit(poke_df2['Legendary'])

# Transformamos nuestros datos:
poke_df2['LE_Type 1'] = le_type_1.transform(poke_df2['Type 1'])
poke_df2['LE_Type 2'] = le_type_2.transform(poke_df2['Type 2'])
poke_df2['LE_Legendary'] = le_legendary.transform(poke_df2['Legendary'])

# Terminamos nuestra transformación haciendo el One-Hot Encoding:
one_hot_df_type_1 = pd.get_dummies(poke_df['Type 1'], prefix='Type_1')
one_hot_df_type_2 = pd.get_dummies(poke_df['Type 2'], prefix='Type_2')
one_hot_df_legendary = pd.get_dummies(poke_df['Legendary'], prefix='Legendary')

# Juntamos todo en un nuevo DataFrame:
poke_df_ohe = poke_df2.join(one_hot_df_type_1).join(one_hot_df_type_2).join(one_hot_df_legendary)
poke_df_ohe

Unnamed: 0_level_0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,...,Type_2_Grass,Type_2_Ground,Type_2_Ice,Type_2_Poison,Type_2_Psychic,Type_2_Rock,Type_2_Steel,Type_2_Water,Legendary_False,Legendary_True
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,...,0,0,0,1,0,0,0,0,1,0
2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,...,0,0,0,1,0,0,0,0,1,0
3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,...,0,0,0,1,0,0,0,0,1,0
4,Charmander,Fire,,309,39,52,43,60,50,65,...,0,0,0,0,0,0,0,0,1,0
5,Charmeleon,Fire,,405,58,64,58,80,65,80,...,0,0,0,0,0,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
147,Dratini,Dragon,,300,41,64,45,50,50,50,...,0,0,0,0,0,0,0,0,1,0
148,Dragonair,Dragon,,420,61,84,65,70,70,70,...,0,0,0,0,0,0,0,0,1,0
149,Dragonite,Dragon,Flying,600,91,134,95,100,100,80,...,0,0,0,0,0,0,0,0,1,0
150,Mewtwo,Psychic,,680,106,110,90,154,90,130,...,0,0,0,0,0,0,0,0,0,1


### EJERCICIO

Ahora considera que tienes 2 nuevas entradas y tienes que mapearlas a lo anterior. Realiza este mapeo en función de los objetos que te acabas de crear:

In [142]:
new_poke_df = pd.DataFrame([['PikaZoom', 'Bug', '', True], 
                           ['CharMyToast', 'Water', 'Poison', False]],
                           columns=['Name', 'Type 1', 'Type 2', 'Legendary'])
new_poke_df

Unnamed: 0,Name,Type 1,Type 2,Legendary
0,PikaZoom,Bug,,True
1,CharMyToast,Water,Poison,False


## Codificación Dummy

### EJERCICIO

Ahora, vamos a replicar lo que hemos hecho en el primer ejercicio de One-Hot Encoder, pero con la codificación Dummy. ¿Cómo lo hacíamos? ¿Podemos repetir lo mismo en este caso? Inténtalo.

## Función Hash

Volvamos ahora al dataset de ventas de juegos. 

In [143]:
df_videojuegos =  pd.read_csv('../../data/vgsales.csv')
df_videojuegos.head()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37


In [144]:
print('Nº Total de Géneros: ' + str(len(df_videojuegos.Genre.unique())))
print(df_videojuegos.Genre.sort_values().unique())

Nº Total de Géneros: 12
['Action' 'Adventure' 'Fighting' 'Misc' 'Platform' 'Puzzle' 'Racing'
 'Role-Playing' 'Shooter' 'Simulation' 'Sports' 'Strategy']


Podemos ver que hay un total de 12 géneros de videojuegos. Si usáramos un esquema de codificación One-Hot Encoding con la variable "Genre", terminaríamos teniendo 12 columnas binarias. En su lugar, ahora usaremos la codificación Hash, que ya hemos visto con anterioridad.

### EJERCICIO

Utiliza la función de _hasheo_ para codificar los valores del género (variable "Genre"). ¿Cuánto ocupa la variable original? ¿Y el objeto