<center>
<p><img src="https://mcd.unison.mx/wp-content/themes/awaken/img/logo_mcd.png" width="150">
</p>
    
<h3>Curso Ingeniería de Características</h3>

<h2>Codificación de variables cualitativas en R</h2>

<h4> Alumna: Diana Laura Ballesteros Valenzuela</h4>

<p>
<img src="https://identidadbuho.unison.mx/wp-content/uploads/2019/06/letragrama-cmyk-72.jpg" width="150">
</p>
    
</center>

# One hot encoding

> **¿Qué es una codificación one-hot?**

> Los datos categóricos se refieren a variables que están formadas por valores de etiquetas, por ejemplo, una variable "color" podría tener los valores "rojo", "azul" y "verde". Piense en los valores como en diferentes categorías que a veces tienen un orden natural.

>Algunos algoritmos de aprendizaje automático pueden trabajar directamente con datos categóricos dependiendo de la implementación, como un árbol de decisión, pero la mayoría requiere que cualquier variable de entrada o salida sea un número, o de valor numérico. Esto significa que cualquier dato categórico debe ser mapeado a números enteros.

> La codificación en un momento dado es un método de conversión de datos para prepararlos para un algoritmo y obtener una mejor predicción. Con one-hot, convertimos cada valor categórico en una nueva columna categórica y asignamos un valor binario de 1 o 0 a esas columnas. Cada valor entero se representa como un vector binario. Todos los valores son cero, y el índice se marca con un 1.


Importamos librerias necesarias

In [1]:
library(tidyverse)

Registered S3 methods overwritten by 'ggplot2':
  method         from 
  [.quosures     rlang
  c.quosures     rlang
  print.quosures rlang
Registered S3 method overwritten by 'rvest':
  method            from
  read_xml.response xml2
-- Attaching packages --------------------------------------- tidyverse 1.2.1 --
v ggplot2 3.1.1       v purrr   0.3.4  
v tibble  2.1.1       v dplyr   0.8.0.1
v tidyr   0.8.3       v stringr 1.4.0  
v readr   1.3.1       v forcats 0.4.0  
"package 'purrr' was built under R version 3.6.3"-- Conflicts ------------------------------------------ tidyverse_conflicts() --
x dplyr::filter() masks stats::filter()
x dplyr::lag()    masks stats::lag()


## Create the Data

Poblaremos un dataframe con datos de 
- id, 
- peso, 
- altura, 
- raza y 
- vacuna 

aplicada a 15 perros de una veterinaria hipotética para ejemplificar una codificacion one-hot.

In [2]:
set.seed(1986)
perros <- 
  data.frame(
    id = 1:15,
    peso = round(rnorm(n = 15, mean = 2000, sd = 250), 1),
    altura  = round(rnorm(n = 15, mean = 30, sd = 10), 1), 
    raza = sample(x = c("Chihuahua", "bulldog", "Husky"), size = 15, 
                     replace = TRUE),
    vacuna = sample(x = c("alfa", "beta"), size = 15, replace = TRUE)
  )
perros

id,peso,altura,raza,vacuna
1,1988.4,24.5,bulldog,beta
2,2070.0,54.9,Husky,beta
3,2063.3,43.5,Husky,beta
4,1759.0,51.4,Husky,alfa
5,2123.1,20.8,Husky,beta
6,1825.3,24.0,Chihuahua,beta
7,2205.3,37.2,Chihuahua,alfa
8,1822.6,13.9,Chihuahua,beta
9,1608.1,23.5,Husky,alfa
10,1717.8,22.7,Husky,beta


Nuestro objetivo será transformar la información de dos variables, raza, y vacuna a variables dummy (one-hot encoding).

In [3]:
perros %>% 
  mutate(raza = paste("raza", raza, sep = "_"))

id,peso,altura,raza,vacuna
1,1988.4,24.5,raza_bulldog,beta
2,2070.0,54.9,raza_Husky,beta
3,2063.3,43.5,raza_Husky,beta
4,1759.0,51.4,raza_Husky,alfa
5,2123.1,20.8,raza_Husky,beta
6,1825.3,24.0,raza_Chihuahua,beta
7,2205.3,37.2,raza_Chihuahua,alfa
8,1822.6,13.9,raza_Chihuahua,beta
9,1608.1,23.5,raza_Husky,alfa
10,1717.8,22.7,raza_Husky,beta


Ahora creamos una columna llamada valor_raza, que llenamos con unos. De este modo indicaremos la presencia de esta variable al convertir la columna raza en varias dummy. Hacemos lo mismo con la columna vac.

In [4]:
perros %>% 
  mutate(raza = paste("raza", raza, sep = "_"),
         valor_raza = 1,
         vacuna = paste("vac", vacuna, sep = "_"),
         valor_vac = 1
         )

id,peso,altura,raza,vacuna,valor_raza,valor_vac
1,1988.4,24.5,raza_bulldog,vac_beta,1,1
2,2070.0,54.9,raza_Husky,vac_beta,1,1
3,2063.3,43.5,raza_Husky,vac_beta,1,1
4,1759.0,51.4,raza_Husky,vac_alfa,1,1
5,2123.1,20.8,raza_Husky,vac_beta,1,1
6,1825.3,24.0,raza_Chihuahua,vac_beta,1,1
7,2205.3,37.2,raza_Chihuahua,vac_alfa,1,1
8,1822.6,13.9,raza_Chihuahua,vac_beta,1,1
9,1608.1,23.5,raza_Husky,vac_alfa,1,1
10,1717.8,22.7,raza_Husky,vac_beta,1,1


Finalmente usamos la función spread para convertir las columnas raza y vacuna en múltiples columnas. Esta función hace una transposición, convirtiendo datos altos a datos anchos.

spread nos pide dos argumentos, 
- **key**: es el nombre de la columna que se usará para nombrar a las nuevas columnas,
- **value**: es el valor que estas tendrán.

In [5]:
perros %>% 
  mutate(raza = paste("raza", raza, sep = "_"),
         valor_raza = 1,
         vacuna = paste("vac", vacuna, sep = "_"),
         valor_vac = 1
         ) %>% 
  spread(key = raza, value = valor_raza)

id,peso,altura,vacuna,valor_vac,raza_bulldog,raza_Chihuahua,raza_Husky
1,1988.4,24.5,vac_beta,1,1.0,,
2,2070.0,54.9,vac_beta,1,,,1.0
3,2063.3,43.5,vac_beta,1,,,1.0
4,1759.0,51.4,vac_alfa,1,,,1.0
5,2123.1,20.8,vac_beta,1,,,1.0
6,1825.3,24.0,vac_beta,1,,1.0,
7,2205.3,37.2,vac_alfa,1,,1.0,
8,1822.6,13.9,vac_beta,1,,1.0,
9,1608.1,23.5,vac_alfa,1,,,1.0
10,1717.8,22.7,vac_beta,1,,,1.0


Hacemos los mismo con vacuna

In [6]:
perros %>% 
  mutate(raza = paste("raza", raza, sep = "_"),
         valor_raza = 1,
         vacuna = paste("vac", vacuna, sep = "_"),
         valor_vac = 1
         ) %>% 
  spread(key = raza, value = valor_raza) %>% 
  spread(key = vacuna, value = valor_vac)

id,peso,altura,raza_bulldog,raza_Chihuahua,raza_Husky,vac_alfa,vac_beta
1,1988.4,24.5,1.0,,,,1.0
2,2070.0,54.9,,,1.0,,1.0
3,2063.3,43.5,,,1.0,,1.0
4,1759.0,51.4,,,1.0,1.0,
5,2123.1,20.8,,,1.0,,1.0
6,1825.3,24.0,,1.0,,,1.0
7,2205.3,37.2,,1.0,,1.0,
8,1822.6,13.9,,1.0,,,1.0
9,1608.1,23.5,,,1.0,1.0,
10,1717.8,22.7,,,1.0,,1.0


Nuestras variables están casi listas. Tenemos que cambiar los NA por 0.

In [7]:
perros %>% 
  mutate(raza = paste("raza", raza, sep = "_"),
         valor_raza = 1,
         vacuna = paste("vac", vacuna, sep = "_"),
         valor_vac = 1
         ) %>% 
  spread(key = raza, value = valor_raza, fill = 0) %>% 
  spread(key = vacuna, value = valor_vac, fill = 0)

id,peso,altura,raza_bulldog,raza_Chihuahua,raza_Husky,vac_alfa,vac_beta
1,1988.4,24.5,1,0,0,0,1
2,2070.0,54.9,0,0,1,0,1
3,2063.3,43.5,0,0,1,0,1
4,1759.0,51.4,0,0,1,1,0
5,2123.1,20.8,0,0,1,0,1
6,1825.3,24.0,0,1,0,0,1
7,2205.3,37.2,0,1,0,1,0
8,1822.6,13.9,0,1,0,0,1
9,1608.1,23.5,0,0,1,1,0
10,1717.8,22.7,0,0,1,0,1


El resultado anterior está bien si queremos transformar en dummy una variable a la vez, pero es poco práctica para realizar múltiples transformaciones.

A continuación, utilicemos la función dummyVars() del paquete caret para realizar una codificación de una sola vez en todo nuestro dataframe:

Importamos libreria necesaria

In [8]:
library(caret)

Loading required package: lattice

Attaching package: 'caret'

The following object is masked from 'package:purrr':

    lift



In [9]:
dummy <- dummyVars(" ~ .", data=perros) #Definimos la funcion de codificacion one-hot

final_df <- data.frame(predict(dummy, newdata=perros)) # Realizamos la codificacion de un solo paso en todo el dataframe

final_df

id,peso,altura,raza.bulldog,raza.Chihuahua,raza.Husky,vacuna.alfa,vacuna.beta
1,1988.4,24.5,1,0,0,0,1
2,2070.0,54.9,0,0,1,0,1
3,2063.3,43.5,0,0,1,0,1
4,1759.0,51.4,0,0,1,1,0
5,2123.1,20.8,0,0,1,0,1
6,1825.3,24.0,0,1,0,0,1
7,2205.3,37.2,0,1,0,1,0
8,1822.6,13.9,0,1,0,0,1
9,1608.1,23.5,0,0,1,1,0
10,1717.8,22.7,0,0,1,0,1


Podemos observar que se han añadido 5 nuevas columnas al marco de datos, ya que la columna original "vacuna" y "raza" contenían 2 y 3 valores únicos respectivamente.

Observe también que la columna original "vacuna" y "raza" se ha eliminado del dataframe porque ya no son necesaria.

La codificación en un solo paso está completa y ahora podemos introducir este conjunto de datos en cualquier algoritmo de aprendizaje automático que queramos.

## Método de contraste Helmert

> Un metodo de contraste un contraste es una combinación lineal de variables que permite comparar diferentes atributos del tratamiento.

> Diferentes contrastes pueden ayudar a responder a diferentes preguntas de investigación. Por ejemplo, a veces no es muy informativo comparar los grupos con un nivel de referencia. Tal vez quiera hacer una comparación entre los grupos y la tendencia general de sus datos. Con los datos ordinales, la distancia entre los grupos podría no ser la misma entre los grupos siguientes. Por lo tanto, tendría más sentido hacer comparaciones por pasos.

> La codificación de Helmert compara cada nivel de una variable categórica con la media de los niveles siguientes.  
 Así, el primer contraste compara la media de la variable dependiente del nivel 1 con la media de todos los niveles posteriores (niveles 2, 3 y 4), el segundo contraste compara la media de la variable dependiente del nivel 2 con la media de todos los niveles posteriores (niveles 3 y 4), y el tercer contraste compara la media de la variable dependiente del nivel 3 con la media de todos los niveles posteriores (nivel 4).

In [18]:
helmert<-function(x=NULL,n=NULL){
  
  if(is.null(x)&is.null(n)){  # ensures that atleast one Argument is provided
    error<-"Error:Provide atleast one urgument"
    return(error)
  }else if(!is.null(x)){  # evaluates whether it is n or x provided
    if(!is.factor(x)){
      error<-"Error:x should be a factor or ordered factor"
      return(error)
    } else{
     levels<-length(levels(x)) 
    }
  } else{
levels<-n 
}
row<-NULL

for(i in 0:(levels-2)){
  row<-cbind(row,c(rep(0,i),((levels-(i+1))/(levels-i)),rep(-1/(levels-i),levels-((i+1)))))
}

if(!is.null(x)){
rownames(row)<-levels(x)
} else{
  rownames(row)<-levels(x) 
}
row
}

In [25]:
hsb2 = read.table('https://stats.idre.ucla.edu/stat/data/hsb2.csv', header=T, sep=",")

#creating the factor variable race.f
hsb2$race.f = factor(hsb2$race, labels=c("Hispanic", "Asian", "African-Am", "Caucasian"))

In [26]:
my.helmert = matrix(c(3/4, -1/4, -1/4, -1/4, 0, 2/3, -1/3, -1/3, 0, 0, 1/2, -1/2), ncol = 3)
my.helmert

0,1,2
0.75,0.0,0.0
-0.25,0.6666667,0.0
-0.25,-0.3333333,0.5
-0.25,-0.3333333,-0.5


In [27]:
contrasts(hsb2$race.f) = my.helmert

In [28]:
summary(lm(write ~ race.f, hsb2))


Call:
lm(formula = write ~ race.f, data = hsb2)

Residuals:
     Min       1Q   Median       3Q      Max 
-23.0552  -5.4583   0.9724   7.0000  18.8000 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  51.6784     0.9821  52.619  < 2e-16 ***
race.f1      -6.9601     2.1752  -3.200  0.00160 ** 
race.f2       6.8724     2.9263   2.348  0.01985 *  
race.f3      -5.8552     2.1528  -2.720  0.00712 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.025 on 196 degrees of freedom
Multiple R-squared:  0.1071,	Adjusted R-squared:  0.0934 
F-statistic: 7.833 on 3 and 196 DF,  p-value: 5.785e-05


La estimación del contraste para la comparación entre el nivel 1 y los restantes niveles se calcula tomando la media de la variable dependiente para el nivel 1 y restando la media de la variable dependiente para los niveles 2, 3 y 4: 46,4583 - [(58 + 48,2 + 54,0552) / 3] = -6,960, que es estadísticamente significativa.  Esto significa que la media de escritura para el nivel 1 de la carrera es estadísticamente significativa y diferente de la media de escritura para los niveles 2 a 4. Para calcular el coeficiente de contraste para la comparación entre el nivel 2 y los niveles posteriores, se resta la media de la variable dependiente para los niveles 3 y 4 de la media de la variable dependiente para el nivel 2: 58 - [(48,2 + 54,0552) / 2] = 6,872, que es estadísticamente significativo.  La estimación del contraste para la comparación entre el nivel 3 y el nivel 4 es la diferencia entre la media de la variable dependiente para los dos niveles: 48,2 - 54,0552 = -5,855, que también es estadísticamente significativa

# Método de codificación bayesiano: Leave one out

Los codificadores bayesianos utilizan la información de las variables dependientes/objetivo para codificar los datos categóricos.

Reutilizaremos nuestra dataframe llamado "perros" pero le haremos unas pequeñas modificaciones para poder aplicarle el metodo de Helmet

In [None]:
nuevo_df <- perros %>% 
  mutate(vacuna = paste("vac", vacuna, sep = "_"),
         valor_vac = 1
         ) %>% 
  spread(key = vacuna, value = valor_vac, fill = 0)

drop <- names(nuevo_df) %in% c("peso", "altura", "vac_beta") #eliminaremos columnas que no nos sirven para ejemplificar
nuevo_df <- nuevo_df[,!drop]
nuevo_df

Codificamos con el metodo leave one out

In [None]:
nuevo_df[["leaveOneOut_encoded"]] <- encode_leave_one_out(nuevo_df[["raza"]], nuevo_df[["vac_alfa"]])
nuevo_df

El cálculo consta de: para cada fila excluimos esa fila al calcular la media del objetivo.  

En la implementación de arriba, esto se hace iterando sobre cada fila y eliminándola antes de calcular la media del objetivo. En el caso de los objetivos binarios, la implementación puede optimizarse significativamente si observamos que podemos precalcular los totales por cada valor único y el objetivo. Eliminar esa fila es entonces sólo restar del total para esa combinación de valor y objetivo. 


**Nota**: Se puede añadir algo de ruido al valor codificado especificando el argumento sigma.