# Import necessary dependencies and settings

In [1]:
# importa pandas y numpy


# Transforming Nominal Features

Nominal attributes consist of discrete categorical values with no notion or sense of order amongst them. The idea here is to transform these attributes into a more representative numerical format which can be easily understood by downstream code and pipelines. Let’s look at a new dataset pertaining to video game sales.

In [1]:
# lee 'vgsales.csv'
# muestra las primeras 6 filas de las columnas 'Name', 'Platform', 'Year', 'Genre', 'Publisher'



### Get the list of unique video game genres 

This tells us that we have 12 distinct video game genres. 

### We can now generate a label encoding scheme for mapping each category to a numeric value by leveraging scikit-learn LabelEncoder

In [2]:
# usando LabelEncoder muestra los géneros y las categorías asociadas a cada género




### Show the transformed labels values and the dataframe

In [3]:
# primero muestra solo los géneros del DataFrame


In [4]:
# muestra en el DataFrame los géneros y sus categorías asociadas 




# Transforming Ordinal Features

Ordinal attributes are categorical attributes with a sense of order amongst the values. Let’s consider the Pokémon dataset. Let’s focus more specifically on the Type 1 attribute. We will think that each Type 1 has a different power that we can order.


In [5]:
# lee Pokemon.csv y muestra un head()


In [6]:
# usa un sample() con semilla 1 y toma todo el DataFrame para desordenarlo aleatoriamente
# resetea los índices y haz un head()




In [7]:
# muestra las columnas del DataFrame

### Show the different type 1 present in the dataset

In general, there is no generic module or function to map and transform these features into numeric representations based on order automatically. Hence we can use a custom encoding\mapping scheme based on a dictionary.

In [8]:
# escribe un diccionario que mapee el Type 1 con un número asociado a cómo es de bueno el Type 1.
# Es decir, presupón que se pueden ordenar esas etiquetas.
# Usa DataFrame['Type 1'].unique() para seleccionar esos valores en ese orden y asignarles 1,2,3...
# Por ejemplo: 'Bug' se corresponde con 1, 'Water' se corresponde con 2...

#poke_df['Type 1'].unique()



# mapea los valores en el DataFrame en una columna que se llame 'type_1_num'
# haz un head()



# Encoding Categorical Features

## One-hot Encoding Scheme

In [9]:
# poke_df[['Name', 'Stage', 'Legendary']].iloc[4:10]

In [10]:
# usa LabelEncoder


# transform and map pokemon Type 1 with LabelEncoder
# el método zip te puede ayudar





# transform and map pokemon legendary status with Label Encoder



In [14]:
# Otra forma más sencilla utilizando transform
# ¡Para esto vale fit y transform!
# Muchas transformaciones se dividen en fit (ajusta los parámetros de la transformación)
# y en transform (aplica los cambios)



In [11]:
#haz un head()

In [12]:
# comprobamos que la codificación del método es alfabética


In [13]:
# haz un head()

The features Type 1 zip and Legendary_zip now depict the numeric representations of our categorical features. Let’s now apply the one-hot encoding scheme on these features. Apply the get_dummies() method.

In [14]:
# encode Type 1 labels using one-hot encoding scheme


# encode legendary status labels using one-hot encoding scheme


In [15]:

# compruebo que solo hay 4 pokemon legendarios

In [16]:
# concatena el DataFrame original con la codificación de Type 1 y de Legendary 




Consider you built this encoding scheme on your training data and built some model and now you have some new data which has to be engineered for features before predictions as follows.

In [17]:
'''

new_poke_df = pd.DataFrame([['PikaZoom', 'Bug', True], 
                           ['CharMyToast', 'Water', False]],
                           columns=['Name', 'Type 1', 'Legendary'])
new_poke_df
'''

"\n\nnew_poke_df = pd.DataFrame([['PikaZoom', 'Bug', True], \n                           ['CharMyToast', 'Water', False]],\n                           columns=['Name', 'Type 1', 'Legendary'])\nnew_poke_df\n"

In [18]:
# usando fit() y transform(), añade Type1_Label y Lgnd_Label en el DataFrame



You can leverage scikit-learn’s excellent API here by calling the transform(…) function of the previously build LabeLEncoder objects on the new data.

## Dummy Coding Scheme

Let’s try applying dummy coding scheme on Pokémon Type 1 by dropping the first level binary encoded feature (Type 1 = Bug).


In [19]:
# haz un get_dummies para una codificación dummy
# muestra las filas desde la 4 hasta la 9 (incluida)




If you want, you can also choose to drop the last level binary encoded feature

In [20]:
# haz un fit() de Type 1 y mira las clases que aparecen



In [21]:
# haz un dummies sin eliminar ninguna columna que se obtenga solo de Type 1
# haz un head()



In [22]:
# comprueba en la codificación con la columna eliminada (dummy)
# pista: isin te puede ayudar



In [23]:
# comprueba qué hace el signo ~



In [24]:
# haz una lectura en el DataFrame con la última sentencia que emplea ~



In [25]:
# asígnalo a una variable y muestra un head




## Feature Hashing scheme

Find the number of different 'Genre' in the dataset.

In [26]:
# Usa vgsales.csv, léelo y haz un head()




In [27]:
# print('Total game genres: ' + str(len(df_videojuegos.Genre.unique())))
# print(df_videojuegos.Genre.sort_values().unique())

### We can see that there are a total of 12 genres of video games. If we used a one-hot encoding scheme on the Genre feature, we would end up having 12 binary features. Instead, we will now use a feature hashing scheme by leveraging scikit-learn’s FeatureHasher class, which uses a signed 32-bit version of the Murmurhash3 hash function. We will pre-define the final feature vector size to be 6 in this case.