![IES21](img/logo_ies.png)

# Situación Profesional 4: Dummy Variables
# Codificación de Variables Categóricas: Dummy Variables o One Hot Encoder con Scikit-Learn
# Ejercicios por Resolver
## Fundamentos

La mayoría de los algoritmos de Machine Learning, están basados en operaciones matemáticas por lo cual trabajan esencialmente con números.  
Sin embargo muchas veces tenemos entre nuestras features o variables algunas cuyos valores **no** son números, generalmente están cargadas como texto: son las variables que llamamos **categóricas**, por ejemplo veamos el siguiente DataFrame que ha sido **limpiado previamente de missing values**:

In [1]:
import numpy as np
import pandas as pd

In [2]:
df=pd.DataFrame([[1,'Lunes'],[5,'Martes'],[2,'Miércoles'],[4,'Jueves'],[4,'Viernes'],
                 [3,'Sábado'], [2,'Domingo'],[8,'Miércoles'], [5,'Lunes'],[2,'Jueves'] ])
df.columns=['x1','dia']
df

Unnamed: 0,x1,dia
0,1,Lunes
1,5,Martes
2,2,Miércoles
3,4,Jueves
4,4,Viernes
5,3,Sábado
6,2,Domingo
7,8,Miércoles
8,5,Lunes
9,2,Jueves


Como podemos ver la variable x<sub>1</sub> es numérica y no nos dedicaremos a ella, pero tenemos una variable que es categórica: día.   
Así como está **no** sería procesada más que por unos pocos algoritmos de Scikit-Learn (Orange3, en cambio, hacía gran parte de este trabajo por nosotros, aunque con menos flexibilidad, pero igualmente los algoritmos de los modelos eran puramente matemáticos y numéricos).

No perdamos de vista que a los algoritmos de sklearn **debemos pasarle sólo números** en las variables X, la variable predictiva puede no serlo en muchos algoritmos de Clasificación.

### Variables Categóricas Nominales y Ordinales

Las variables categóricas generalmente asumen valores representadas por textos (pero no siempre, cuidado!) con una cantidad discreta de valores.   

Las hay de dos tipos:  

- nominales 
- ordinales 

Por ejemplo una variable **categórica nominal** podría ser una variable "género" que asumiera valores de  'Masculino' y 'Femenino', son sólo denominaciones. No hay ninguna relación de orden entre sus valores Masculino y Femenino ya que no es posible decir que uno de ellos **sea mayor o menor** que el otro. 


Una variable **categórica ordinal**, también asume una cantidad discreta de valores, generalmente representados como texto (pero no siempre!), pero a diferencia de las nominales, en éstas **sí es posible establecer algún tipo de relación de orden entre los valores**; por ejemplo, las alturas de las personas se podrían haber etiquetado como "Alto" y "Bajo" y en este caso sí se puede decir que una es mayor que la otra. 

Las variables categóricas no pueden sumarse ni restarse (aunque sus valores estuvieran codificado como números). 


Si bien en el contexto de ML muchos las consideran a ambas como nominales **perderíamos cierta información** si consideramos a las ordinales como simples nominales.

### Variable categórica nominal:  Dummy variables o One Hot Encoder

Fijémonos en la variable **día**, dado que sklearn necesita números, podríamos pensar en cambiar cada día por un número, por ejemplo:   

- Lunes lo podríamos cambiar por un 1,  
- Martes -> 2
...
- Domingo -> 7

Y el algoritmo de sklearn, no daría error, pero ...funcionaría?.   
Desde el punto de vista del algoritmo, un Martes "valdría" el doble que un Lunes!  Y la verdad es que en general esa información es falsa y por lo tanto estaríamos cargando al modelo con información incorrecta.   

Cómo podemos hacer para que el modelo de alguna forma tenga la información de que un Lunes es distinto de un Martes, pero no que es menor o mayor que aquél?  

La forma de hacerlo se denomina: **"Dummy Variables"** o  **"One Hot Encoder"**.   

- En este método se descarta la variable original y se crea una nueva variable para cada una de las etiquetas que tenga la variable original. En nuestro caso se descarataría la variable **día** y se crearían 7 variables: Lunes, Martes,..., Domingo. 

- Cada nueva variable sólo puede tener valores 0 o 1 (por eso se llaman variables **dummy** o tontas).  

- En una de las nuevas variables, por ejemplo Martes, se asigna un 1 cuando la variable original tenía ese valor es decir cuando **día** era justamente Martes, en cualquier otro caso se le asigna 0.   

Es más fácil verlo que decirlo, fíjese en los siguientes dos DataFrames a la izquierda el original y a la derecha luego de la transformación de la variable **día** en **dummy variables**:

In [31]:
# Ignore este código, es sólo para mostrar los resultados de las dos tablas 
df_dummy_1=pd.get_dummies(df,columns=['dia'])


# este código es sólo para mostrar las tablas en paralelo en Jupyter. No valor la pena leerlo. 
from IPython.display import display_html
def display_side_by_side(*args):
    html_str=''
    for df in args:
        html_str+=df.to_html()
    display_html(html_str.replace('table','table style="display:inline"'),raw=True)

display_side_by_side(df,df_dummy_1)

Unnamed: 0,x1,dia
0,1,Lunes
1,5,Martes
2,2,Miércoles
3,4,Jueves
4,4,Viernes
5,3,Sábado
6,2,Domingo
7,8,Miércoles
8,5,Lunes
9,2,Jueves

Unnamed: 0,x1,dia_Domingo,dia_Jueves,dia_Lunes,dia_Martes,dia_Miércoles,dia_Sábado,dia_Viernes
0,1,0,0,1,0,0,0,0
1,5,0,0,0,1,0,0,0
2,2,0,0,0,0,1,0,0
3,4,0,1,0,0,0,0,0
4,4,0,0,0,0,0,0,1
5,3,0,0,0,0,0,1,0
6,2,1,0,0,0,0,0,0
7,8,0,0,0,0,1,0,0
8,5,0,0,1,0,0,0,0
9,2,0,1,0,0,0,0,0


Podemos ver que la columna día desapareció y en su lugar se crearon 7 columnas, una para cada día (además Pandas, gentilmente creó los nombres de cada variable dummy en forma muy adecuada: dia_Lunes, etc, aunque es posible cambiar este comportamiento), y las ordenó alfabéticamente.  

Ahora fijémonos en la codificación que se hizo, por ejemplo en la primer observación, el valor de día era Lunes, entonces en las variables dummy, todas las columnas valen 0, excepto la que corresponde a dia_Lunes.  
Al transformar en dummy variables habrá un único 1 en cada fila (en la parte correspondiente a las dummy variables por supuesto, el resto de las variables no se modifica).  

De esta manera solucionamos el problema de que un "Martes valga el doble que un Lunes", y podemos mantener lo relevante de la información que era que un Lunes y un Martes eran algo diferente.  

> **Es cierto también que al crear dummy variables agregamos más variables a nuestro dataframe (más que nada cuando tenemos variables nominales con muchos valores posibles), lo cual sabemos, puede traer problemas con la dimensionalidad!**.


**Importante**:  

Hay una cierta relación entre los valores de las dummy variables de cada observación, digamos que:  si no es ni Lunes, ni Martes, ni Miércoles, ni .. ni Sábado; entonces debe ser Domingo! No hay otra posibilidad. En realidad es como que "sobrara" una de las columnas.   

Para **Pronosticar ésto no nos traerá problemas** (y es preferible mantenerlas todas), pero sí trae problemas  cuando analizamos datos, ya esta relación que se da entre los valores de las Dummy Variables hará que estén fuertemente **correlacionadas**, lo cual traerá problemas de interpretación por ejemplo para Regresión Lineal / Logística, SVM y otros modelos, en ese caso se deberia quitar una columna. 

### Cómo crear dummy variables con Scikit- Learn para Pronosticar?

Existen dos maneras de crear las Dummy Variables, con Pandas y con Scikit Learn. Ambas tienen sus defectos y virtudes y ninguno está aún totalmente completo (pero están trabajando en ello).  

Pandas es más adecuado si nuestro interés es describir el conjunto de datos, para mostrar, etc, también es más fácil de usar; y **Scikit-Learn es más útil para pronosticar**.  

Nosotros estamos más interesados en pronosticar, así que **seguiremos el camino de Scikit-Learn** pero si está interesado en hacerlo con Pandas puede encontrar la documentación oficial en: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html).  

Scikit-Learn nos ofrece un transformador llamado **OneHotEncoder()** que nos servirá para tratar las **variables nominales que debemos transformar en Dummy Variables** para poder llevarlas luego a algún modelo de MAchine Learning para pronosticar. 




#### Sintaxis de OneHotEncoder de Scikit-Learn

La documentación oficial se encuentra aquí: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

La sintaxis es la siguiente:  

~~~
sklearn.preprocessing.OneHotEncoder(*, categories='auto', drop=None, sparse=True, dtype=<class 'numpy.float64'>, handle_unknown='error')
~~~

Generalmente utilizaremos las opciones por defecto, excepto la opción **sparse** que preferiremos establecerla el **False** pero comentamos brevemente lo más utilizado:  

- **categories** ='auto'. En **auto** significa que creará tantas variables dummies o columnas como valores distintos encuentre entre los datos. Se el podría pasar un array con los valores posibles, lo cual es útil cuando tenemos pleno conocimiento de los valores de los datos de entrada, por ejemplo cuando nosotros los establecemos.  

- **drop**=None. Cuando está como None creará una variable dummy o columna para cada uno de los valores que asume la variable original. Si se establece su valor en **first** entonces usará una columna menos (la primera) y evitará el problema de correlación indicado con anterioridad, se usa más que nada en casos de estadística, pero algún algoritmo de ML podría pedirnos que no hubiera correlación. 

- **sparse** = True. Como habrá observado después de aplicar transformar en dummy variables nos quedará una matriz **con muchos ceros**, a ese tipo de matrices se las denomina "sparse matrix" (poco densas). Para ocupar menos espacio en memoria se las pueded comprimir (guardando sólo los valores distintos de 0). No todos los algoritmos de ML están preparados para recibir como dato de entrada una matriz así comprimida, así que a no ser que sea necesario, preferiremos que no la guarde como comprimida: establecer su valor a **False**

Veamos un ejemplo de su uso, partiremos siempre desde un DataFrame que ya esté limpio de missing values, más adelante veremos cómo armar un flujo de trabajo con los dos preprocesamientos juntos.

#### EJEMPLO 1

In [4]:
df2=pd.DataFrame([['A'],['B'],['C'],['A'],['C'],['B'],['B'],['A']], columns=['x1'])
df2

Unnamed: 0,x1
0,A
1,B
2,C
3,A
4,C
5,B
6,B
7,A


Para ser procesable con los distintos algorimos de ML, debemos transformarla en dummy variables. Como la variable x1 asume 3 valores posibles, se crearán 3 columnas que **reemplazarán** a x1.  

Nosotros estamos interesados en ubicar este trabajo en un flujo, para lo cual será muy conveniente ubicarlo dentro de un **Transformador de Columnas** (ésto luego nos facilitará enormemente el trabajo!), de esta forma trabajaremos de manera **uniforme** junto con la limpieza hecha anteriormente. 

In [5]:
from sklearn.compose import ColumnTransformer 
from sklearn.preprocessing import OneHotEncoder

# Definimos el transformador para OneHotEncoder de foma muy similar a como trabajamos SimpleImputer o kNNImputer
tdummy_2=("onehot",OneHotEncoder(sparse=False), ['x1'])

# Creamos el transformador de columnas
transformador_columnas_dummy2 = ColumnTransformer(transformers=[tdummy_2],remainder='passthrough')
# Lo entrenamos con fit en df2
transformador_columnas_dummy2.fit(df2)
# Lo aplicamos al df2 
dummy_2=transformador_columnas_dummy2.transform(df2)
dummy_2

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 1., 0.],
       [1., 0., 0.]])

- Vemos que se han creado las 3 columnas que esperábamos, pero debemos admitir que el resultado es un poco escueto,  y ésta es una de las cosas que diferencia a Pandas de Scikit-Learn. Por ejemplo, Pandas nos hubiera dado por resultado un DataFrame y cada columna con su nuevo nombre (asignado automáticamente). Pero en este tema Pandas tiene sus defectos ...  

- Ahora bien, **si nuestro interés es pronosticar**, realmente **no necesitamos conocer los nombres de estas columnas**, por otro lado, los algorimos de ML se **alimentan** también con arrays de numpy como el que nos ofrece sklearn ...  

- Si realmente necesita conocer los nombres de las nuevas columnas o variables dummy, sklearn nos permite conocerlos:  


In [34]:
transformador_columnas_dummy2.get_feature_names()

['onehot__x0_A', 'onehot__x0_B', 'onehot__x0_C']

Fíjese que sklearn ha hecho su esfuerzo, inventó un nombre para la variable "vieja" y la llamó onehot_X0 (el nombre real era x1) y le agregó el valor que le corresponde a cada columna.  
No está tan mal, pero **acostúmbrese a manejarse sin los nombres de estas columnas, porque no se pueden obtener bajo algunas circunstancias**, es algo en lo que la gente de Scikit-Learn dice que está trabajando.


#### EJEMPLO 2:

Supongamos que en nuestro dataframe, ya limpio, tenemos **otras columas** además de las que queremos transformar en dummies, por ejemplo el siguiente caso donde la columna x1 no es nominal y por lo tanto no la queremos transformar:

In [7]:
df3=pd.DataFrame([[1,'A'],[5,'B'],[3,'C'],[2,'A'],[1,'C'],[3,'B'],[4,'B'],[2,'A']], columns=['x1','x2'])
df3

Unnamed: 0,x1,x2
0,1,A
1,5,B
2,3,C
3,2,A
4,1,C
5,3,B
6,4,B
7,2,A


Sólo deberemos tener cuidado con lo siguiente:  
    
> Por defecto OneHotEncoder transformará en dummy **todas** las variables! 

Como en nuestro caso **no** queremos transformar a x1, le deberemos indicar que sólo queremos que transforme a x2

In [8]:
# Definimos el transformador para OneHotEncoder de foma muy similar a como trabajamos SimpleImputer o kNNImputer
# Esta vez le indicamos que sólo queremos transformar en dummy a x2
tdummy_3=("onehot",OneHotEncoder(sparse=False), ['x2'])

# Creamos el transformador de columnas
transformador_columnas_dummy3 = ColumnTransformer(transformers=[tdummy_3],remainder='passthrough')
# Lo entrenamos con fit en df3
transformador_columnas_dummy3.fit(df3)
# Lo aplicamos al df3 
dummy_3=transformador_columnas_dummy3.transform(df3)
dummy_3

array([[1., 0., 0., 1.],
       [0., 1., 0., 5.],
       [0., 0., 1., 3.],
       [1., 0., 0., 2.],
       [0., 0., 1., 1.],
       [0., 1., 0., 3.],
       [0., 1., 0., 4.],
       [1., 0., 0., 2.]])

- Ok, obtuvimos 4 columnas, lo cual era esperable ya que teníamos a x1 y luego x2 fue transformada en 3, así que 4 está bien. 
- La ubicación de las columnas cambió, evidentemente x1 no está donde estaba! En realidad lo que pasó es que ubicó las variables dummy al principio (esto puede ser un poco molesto!)  

Entonces decimos, no importa, porque igual podemos conocer el nombre de las columnas y darnos una idea de quién es quién ... entonces le pedimos los nombres y ...

In [9]:
transformador_columnas_dummy3.get_feature_names()

['onehot__x0_A', 'onehot__x0_B', 'onehot__x0_C', 'x1']

Al ejecutar el código anterior, hágalo, nos dará un error!!!  

~~~
NotImplementedError: get_feature_names is not yet supported when using a 'passthrough' transformer.
~~~

Dice que no está implementado todavía, cuando en el OneHotEncoder se utiliza la opción 'passthrough', que nosotros usamos al crear el transformador de columnas.  
Ocurre que dicha opción le indica que nos de en el resultado **todas** las columnas, si no lo ponemos sólo nos devolvería las columnas dummy! Irritante!!!  

Por eso le decía: 

> **por un tiempo acostúmbrese a trabajar si en el nombre de las variables, en esta parte del trabajo**  

Es cierto que para pronosticar **no necesitamos saber qué nombre tienen ni en qué orden están**.

Ahora le toca a usted crear sus propias dummy variables!

#### Ejercicio 1

Cree las dummy variables para la columna genero, en el resultado deben figurar **todas** las columnas

In [11]:
df4=pd.DataFrame([['m',30],['f',25],['f',48],['m',38]], columns=[ 'genero', 'x2'])
df4

Unnamed: 0,genero,x2
0,m,30
1,f,25
2,f,48
3,m,38


In [12]:
# Escriba aquí su código
# Definimos el transformador para OneHotEncoder de foma muy similar a como trabajamos SimpleImputer o kNNImputer

tdummy_4=("onehot",OneHotEncoder(sparse=False), ['genero'])

# Creamos el transformador de columnas
transformador_columnas_dummy4 = ColumnTransformer(transformers=[tdummy_4],remainder='passthrough')
# Lo entrenamos con fit en df3
transformador_columnas_dummy4.fit(df4)
# Lo aplicamos al df3 
dummy_4=transformador_columnas_dummy4.transform(df4)
dummy_4


array([[ 0.,  1., 30.],
       [ 1.,  0., 25.],
       [ 1.,  0., 48.],
       [ 0.,  1., 38.]])

In [13]:
transformador_columnas_dummy4.get_feature_names()

['onehot__x0_f', 'onehot__x0_m', 'x2']

#### Ejercicio 2
Cree las dummy variables para las columnas genero y altura, en el resultado deben figurar todas las columnas

In [14]:
df5=pd.DataFrame([['m',30,'alto'],['f',25,'medio'],['f',48,'bajo'],['m',38,'alto'],
                 ['m',25,'medio'],['m',58,'medio'],['m',23,'bajo']], columns=[ 'genero', 'edad','altura'])
df5

Unnamed: 0,genero,edad,altura
0,m,30,alto
1,f,25,medio
2,f,48,bajo
3,m,38,alto
4,m,25,medio
5,m,58,medio
6,m,23,bajo


In [16]:
# Escriba aquí su código
t_dummy5=('onehot', OneHotEncoder(sparse=False),['genero','altura'])

trans_col_dummy5=ColumnTransformer(transformers=[t_dummy5],remainder='passthrough')

trans_col_dummy5.fit(df5)

# Lo aplicamos al df5 
dummy_5=trans_col_dummy5.transform(df5)
dummy_5


array([[ 0.,  1.,  1.,  0.,  0., 30.],
       [ 1.,  0.,  0.,  0.,  1., 25.],
       [ 1.,  0.,  0.,  1.,  0., 48.],
       [ 0.,  1.,  1.,  0.,  0., 38.],
       [ 0.,  1.,  0.,  0.,  1., 25.],
       [ 0.,  1.,  0.,  0.,  1., 58.],
       [ 0.,  1.,  0.,  1.,  0., 23.]])

In [17]:
trans_col_dummy5.get_feature_names()

['onehot__x0_f',
 'onehot__x0_m',
 'onehot__x1_alto',
 'onehot__x1_bajo',
 'onehot__x1_medio',
 'edad']

## Aplicación de OneHotEncoder al flujo de Machine Learning

Ya hemos visto qué es y cómo se hace OneHotEncoder, ahora vamos a pensar cómo ubicarlo dentro del flujo de datos de nuestros problemas de Machine Learning.  

En los ejemplos anteriores hemos creado el transformador y luego lo hemos entrenado con fit en todos los datos y luego lo hemos aplicado también a todos los datos.   

Pero cuando pensamos en nuestro flujo de datos de ML debemos tener en cuenta que:  

> Como la limpieza de missing values fue hecha con anterioridad nuestro DataSet original ya estará dividido en Train y Test (recuerda que para imputar los missing values entrenábamos sólo en el Train y luego aplicábamos al Train y al Test?), cuando nos llegue la hora de crear las dummy variables. 

Entonces podríamos seguir la misma lógica con la creación de variables dummy, entrenarlo en el Train y luego aplicarlo tanto al Train como al Test, de la siguiente forma: 

Tomemos el dataframe del Ejemplo 2 (que era df3) y para evitarnos trabajo podríamos suponer que df3 era el X_train3 que nos llegó después de la limpieza (sin nulos) efectuada en el paso previo de nuestro flujo de trabajo.  

Ya habíamos creado al Transformador de Columnas, llamado 

~~~
transformador_columnas_dummy3
~~~

lo habíamos entrenado en df3, es decir en el X_train3 cuando hicimos: 

~~~
transformador_columnas_dummy3.fit(df3)
~~~

y ya lo habíámos aplicado al mismo X_train3 cuando hicimos 

~~~
dummy_3=transformador_columnas_dummy3.transform(df3)
~~~

Sólo nos faltaría aplicarlo al X_test3 que supongamos fuera el siguiente DataFrame: 

In [18]:
X_test3=pd.DataFrame([[4,'A'],[2,'B'],[1,'C'],[3,'A']], columns=['x1','x2'])
X_test3


Unnamed: 0,x1,x2
0,4,A
1,2,B
2,1,C
3,3,A


fácilmente podemos aplicarle el transformador de columnas y obtener sus dummy variables: 

In [43]:
dummy_3test=transformador_columnas_dummy3.transform(X_test3)
dummy_3test

array([[1., 0., 0., 4.],
       [0., 1., 0., 2.],
       [0., 0., 1., 1.],
       [1., 0., 0., 3.]])

Como podemos observar, todo funcionó de maravillas, no dio error, tenemos la misma cantidad de columnas como resultado de las transformaciones dummy que hicimos al X_train3 (la habíamos llamado dummy_3 en el Ejemplo 2) y al X_test3 (lo llamamos dummy_3test) , y ya tendríamos un X_Train y X_Test listos para pasar al modelo de ML de nuestra preferencia.   

Sin embargo hay un problema.  

Supongamos que el X_test3 hubiera sido ligeramente diferente, que hubiera sido:  

In [20]:
X_test3=pd.DataFrame([[4,'A'],[2,'D'],[1,'C'],[3,'A']], columns=['x1','x2'])
X_test3


Unnamed: 0,x1,x2
0,4,A
1,2,D
2,1,C
3,3,A


Al aplicarle el transformador de columnas

In [22]:
#dummy_3test=transformador_columnas_dummy3.transform(X_test3)
#dummy_3test

**Nos daría un ERROR** (pruébelo)

**Qué pasó?**  

- Lo que pasó es que en último X_test3 había un valor de la variable nominal x3 que **no estaba** en el X_train y como el transformador fue entrenado en el X_train no pudo **aprender** que había una variable dummy más para crear. Es decir que en el X_train había 3 valores posibles para x2 (A, B y C), pero en el X_test había otro distinto (D) y que no lo pudo "encajar" en ninguna de las 3 columnas dummy creadas.   

**Puede pasar ésto en la realidad?**  

- Si, porque al dividir en Train y Test (desde cuando hicimos la limpieza) lo hacemos por azar y de casualidad podría ocurrir que justo en el Train faltara algún valor de una variable nominal.  

- Suponemos siempre que antes de empezar el trabajo nos hemos fijado que en el dataSet completo estén representados todos los casos posibles, así que esto no debería ser fuente de error. 

**Cómo lo solucionamos?**  

> Para el caso de las variables categóricas vamos a usar para entrenar al Transformador de columna con fit al DataFrame completo, con Train y Test.  

**La pregunta inmediata sería, pero ésto no nos causará un sesgo ya que no debemos aprender del Test Set?**  

- La respuesta, por suerte, es que **no**, porque al entrenar un OneHotEncoder con fit lo único que está haciendo es fijarse qué columnas tiene el dataframe y qué valores asumen las columnas que le pedimos que luego transforme en dummies, que es información que en realidad siempre tuvimos al hacer un análisis previo. Por otro lado si el dataSet es generado en un sistema informático, posiblemente estén limitados los valores que se pueden cargar, y si es fruto de una investigación que no hicimos nosotros, tienen que brindarnos el "diccionario" donde se indica qué significa cada variable y qué valores puede asumir.

Ésto lo haremos sólo para entrenar, a la hora de aplicar, lo seguiremos haciendo por separado para el X_train y para el X_test.


Particularmente agregaremos (append) transitoriamente el X_test al X_train y le diremos que ahi se fije cuáles son las etiquetas que tienen las variables nominales que tenemos que transformar.


### Uso adaptado al flujo de  Machine Learning  

Voy a tomar los mismos dataframes que antes, pero lo voy a denominar con menos números, seguiremos los mismos pasos hechos en el Ejemplo2 excepto al momento del entrenar: 

In [23]:
X_train=pd.DataFrame([[1,'A'],[5,'B'],[3,'C'],[2,'A'],[1,'C'],[3,'B'],[4,'B'],[2,'A']], columns=['x1','x2'])
X_train

Unnamed: 0,x1,x2
0,1,A
1,5,B
2,3,C
3,2,A
4,1,C
5,3,B
6,4,B
7,2,A


In [24]:
X_test=pd.DataFrame([[4,'A'],[2,'D'],[1,'C'],[3,'A']], columns=['x1','x2'])
X_test

Unnamed: 0,x1,x2
0,4,A
1,2,D
2,1,C
3,3,A


In [48]:
tdummy=("onehot",OneHotEncoder(sparse=False), ['x2'])

# Creamos el transformador de columnas
transformador_columnas_dummy = ColumnTransformer(transformers=[tdummy],remainder='passthrough')

Aquí es donde creamos un dataframe con todas las observaciones del X_train y del X_test

In [49]:
X_todos=X_train.append(X_test,ignore_index=True)
X_todos

Unnamed: 0,x1,x2
0,1,A
1,5,B
2,3,C
3,2,A
4,1,C
5,3,B
6,4,B
7,2,A
8,4,A
9,2,D


Entrenaremos en este dataFrame

In [50]:
# Lo entrenamos con fit en X_todos
transformador_columnas_dummy.fit(X_todos)

ColumnTransformer(n_jobs=None, remainder='passthrough', sparse_threshold=0.3,
                  transformer_weights=None,
                  transformers=[('onehot',
                                 OneHotEncoder(categories='auto', drop=None,
                                               dtype=<class 'numpy.float64'>,
                                               handle_unknown='error',
                                               sparse=False),
                                 ['x2'])],
                  verbose=False)

Para aplicarlo al X_train y al X_test respecticamente

In [56]:
# Lo aplicamos al X_train
X_train_dummy=transformador_columnas_dummy.transform(X_train)
X_train_dummy

array([[1., 0., 0., 0., 1.],
       [0., 1., 0., 0., 5.],
       [0., 0., 1., 0., 3.],
       [1., 0., 0., 0., 2.],
       [0., 0., 1., 0., 1.],
       [0., 1., 0., 0., 3.],
       [0., 1., 0., 0., 4.],
       [1., 0., 0., 0., 2.]])

Lo aplicamos al X_test

In [61]:
X_test_dummy=transformador_columnas_dummy.transform(X_test)
X_test_dummy

array([[1., 0., 0., 0., 4.],
       [0., 0., 0., 1., 2.],
       [0., 0., 1., 0., 1.],
       [1., 0., 0., 0., 3.]])

#### Ejercicio 3

Supongamos que tenemos un problema de Machine Learning al que aplicaremos luego algún modelo.  Supongamos también que la etapa de limpieza de missing values ya se ha efectuado, por lo cual contamos con nuestros datos "completos".  
Pero tenemos algunas variables Categóricas que debemos transformar en numéricas para luego pasarla al modelo de ML.  
Contamos con el siguiente X_train_5 y X_test_5, déjelos listos para seguir su rumbo!


In [27]:
X_train5=pd.DataFrame([[1,'Lunes','0-15'],[5,'Martes','16-30'],[2,'Miércoles','16-30'],
                       [4,'Miércoles','51_o_mas'],[4,'Viernes','51_o_mas'],
                       [3,'Sábado','16-30'], [2,'Domingo','0-15'],[8,'Miércoles','51_o_mas'], 
                       [5,'Lunes','16-30'],[2,'Sábado','51_o_mas'] ])
X_train5.columns=['x1','dia','edad']
X_train5

Unnamed: 0,x1,dia,edad
0,1,Lunes,0-15
1,5,Martes,16-30
2,2,Miércoles,16-30
3,4,Miércoles,51_o_mas
4,4,Viernes,51_o_mas
5,3,Sábado,16-30
6,2,Domingo,0-15
7,8,Miércoles,51_o_mas
8,5,Lunes,16-30
9,2,Sábado,51_o_mas


In [26]:
X_test5=pd.DataFrame([[2,'Lunes','31-50'],[2,'Martes','51_o_mas'],[2,'Miércoles','0-15'],[4,'Jueves','16-30']])
X_test5.columns=['x1','dia','edad']
X_test5                      
                      
                      

Unnamed: 0,x1,dia,edad
0,2,Lunes,31-50
1,2,Martes,51_o_mas
2,2,Miércoles,0-15
3,4,Jueves,16-30


In [28]:
# Escriba aquí su código
tdummy5=("onehot",OneHotEncoder(sparse=False), ['dia'])

# Creamos el transformador de columnas
transformador_columnas_dummy = ColumnTransformer(transformers=[tdummy5],remainder='passthrough')

In [31]:
X_todos=X_train5.append(X_test5,ignore_index=True)


In [30]:
# Lo entrenamos con fit en X_todos
transformador_columnas_dummy.fit(X_todos)

ColumnTransformer(remainder='passthrough',
                  transformers=[('onehot', OneHotEncoder(sparse=False),
                                 ['dia'])])

In [32]:
# Lo aplicamos al X_train
X_train_dummy=transformador_columnas_dummy.transform(X_train5)
X_train_dummy

array([[0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1, '0-15'],
       [0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 5, '16-30'],
       [0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 2, '16-30'],
       [0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 4, '51_o_mas'],
       [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 4, '51_o_mas'],
       [0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 3, '16-30'],
       [1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 2, '0-15'],
       [0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 8, '51_o_mas'],
       [0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 5, '16-30'],
       [0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 2, '51_o_mas']], dtype=object)

In [33]:
# Lo aplicamos al X_train
X_test_dummy=transformador_columnas_dummy.transform(X_test5)
X_test_dummy

array([[0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 2, '31-50'],
       [0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 2, '51_o_mas'],
       [0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 2, '0-15'],
       [0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 4, '16-30']], dtype=object)