# A. TRANSFORMACIÓN DE VARIABLES CATEGÓRICAS

En nuestro contexto, la transformación de variables categóricas es un conjunto de técnicas que se utilizan para convertir las variables categóricas en variables numéricas ya que la mayoría de algoritmos de ML necesitan o son capaces de trabajar sólo con variables numéricas.

Recordemos que una variable categórica es aquella variable que no representa cantidades o valores numéricos sinó que representa categorías. En estadística, como seguro recordáis, podíamos distinguir entre categóricas ordinales donde las categorías tienen orden (como el nivel de estudios) y las categórcias nominales (como el color de los ojos) donde las categorías no tiene orden. Hay que vigilar porque, a veces, las categorías están codificadas con números aunque no indiquen ni cantidades ni medidas. Por ejmplo, el color de ojos puede estar ya codificado en nuestros datos como 1-azul, 2-marrón, etc.. Hay que tener mucho cuidado en estos casos porque aunque esta variable ya esté codificada cómo numérica, puede estar mal codificada de cara a ser usada por un algoritmo de ML.

Estudiaremos estos dos casos de tranformación de variables categórcias a numércias que recogen prácticamente todas las codificaciones correctas en ML. Habría otros casos más complejos que no consideraremos en este curso, cómo las variables de texto o imágenes.

## 1.Variables categóricas nominales (Transformación One-Hot Encoding)

En los casos donde las categorías de nuestra variable no tengan orden, los algoritmos necesitan recoger el efecto que tiene ser de cada categoría respecto a no serlo. Por eso, necesitan una variable para cada categoría de forma que la información de cada categoría esté en una única variable.

La transformación One-Hot Encoding realiza esta operación creando una variable para cada categoría donde si la observación es de esa categoría tiene el valor 1 y sinó el valor 0

Fijaos en el siguiente ejemmplo. Pensad en una variable llamada Sector con tres posibles categorías, sector editorial,sector servicios y sector turismo. Crearemos tres nuevas variables: variable Editorial, variable Servicios y variable Turismo donde en cada una de ellas y para cada observación, si la observación pertenece al sector de esa variable, tendrá un 1 y 0 en las otras dos variables, como indica la siguiente tabla:


| Sector | Editorial | Servicios | Turismo |
| --- | --- | --- | --- |
| Servicios | 0 | 1 | 0 |
| Turismo | 0 | 0 | 1 |
| Turismo | 0 | 0 | 1 |
| Editorial | 1 | 0 | 0 |
| Servicios | 0 | 1 | 0 |


En esta tabla, la variable original es la variable Sector y la transformación One-Hot encoding es la creación de las tres nuevas variables Editorial, Servicios y Turismo.

Una vez creadas estas tres variables se eliminaría la variable sector que no se usará para los algoritmos usando, en su lugar, las tres variables creadas.

### 1.1. Ejemplo con librerías de Python

Veamos cómo resolvemos la transformación One-Hot encoding con python

* Utilizamos el método get_dummies de Pandas
* Fijaos que este método crea un nuevo data frame donde añade las variables dicotómicas (0/1) a nuestro data frame eliminando la variable original pero respetando las demás que pudieran haber (en nuestro caso las que hemos creado a mano)
* Este método creará tantas variables como categorías posea la variable original y necesita que le digamos un prefijo que añadirá a cada categoría para poderlas nombrar.

In [2]:
# Creamos los datos
import pandas as pd

data = {'Sector': ['Servicios', 'Turismo','Turismo','Editorial','Servicios'],
        'Ingresos':[1200,2400,900,21300,18700],'Gastos':[900,2100,780,17800,15100],'Trabajadores':['Muchos','Muchos','Pocos','Muchos','Pocos']}
df = pd.DataFrame(data)
print("Datos originales:")
df

Datos originales:


Unnamed: 0,Sector,Ingresos,Gastos,Trabajadores
0,Servicios,1200,900,Muchos
1,Turismo,2400,2100,Muchos
2,Turismo,900,780,Pocos
3,Editorial,21300,17800,Muchos
4,Servicios,18700,15100,Pocos


In [7]:
# Aplicamos One-Hot encoding a cada variable una detrás de la otra y mostramos el df resultante
# Como se puede apreciar, las variables que no hemos transformado se han quedado igual (Ingresos y Gastos)
df = pd.get_dummies(df, columns=['Sector'], prefix = ['sec_'])
df = pd.get_dummies(df, columns=['Trabajadores'], prefix = ['trab_'])
df

Unnamed: 0,Ingresos,Gastos,sec__Editorial,sec__Servicios,sec__Turismo,trab__Muchos,trab__Pocos
0,1200,900,0,1,0,1,0
1,2400,2100,0,0,1,1,0
2,900,780,0,0,1,0,1
3,21300,17800,1,0,0,1,0
4,18700,15100,0,1,0,0,1


## 2.Variables categóricas ordinales (Transformación Ordinal Encoding)

En los casos donde las categorías de nuestra variable tienen orden natural, en ciertas situaciones, podemos usar la codificación ordinal.

Podríamos pensar en utilizar la codificación anterior (One-Hot encoding) para recoger el efecto que tiene ser de cada categoría en lugar de no serlo.
Pero, puede ser más potente (de cara a los algoritmos de ML), detectar el efecto que tiene pasar de una categoría a la siguiente siguiendo el orden natural.

Consideremos la variable nivel de estudios con las categorías ESO, BATX, GRADO, DOCTORADO.

El ordinal encoding transforma las diferentes categorías en valores numéricos consecutivos, por ejemplo, en el caso anterior, podríamos codificar nuestra variable de la siguiente forma: 0-ESO, 1-BATX, 2-GRADO, 3-DOCTORADO.


OJO. Pero esta idea, es correcta SIMEPRE QUE CONSIDEREMOS QUE EL EFECTO DE PASAR DE UNA CATEGORÍA A LA SIGUIENTE PERMANECE CONSTANTE.

Si consideramos que de cara a predecir, por ejemplo, el primer sueldo, tiene el miso impacto pasar de tener un nivel de estudios de ESO a BATX que de BATX a GRADO y que de GRADO a DOCTORADO, podremos usar el ordinal encoding, si no es así, deberemos usar el One-Hot encoding visto antes.

Veamos en esta tabla un ejemplo de la transformación Ordinal encoding. La variable original, sin codificar, es el nivel de estudios y la variable nivel_estudios_encoded es la variable transformada con el método de ordinal encoding. Es importante notar que la numeración consecutiva respeta el orden, lógicamente.

| nivel_estudios | nivel_estudios_encoded|
| --- | --- |
| BATX | 1 |
| GRADO | 2 |
| ESO | 0 |
| ESO | 0 |
| BATX | 1 |
| DOCTORADO | 3 |
| GRADO | 2 |
| GRADO | 2 |
| BATX | 1 |


### 2.1. Ejemplo con librerías de Python

Veamos cómo resolvemos la transformación ORDINAL encoding con python


* Importamos la librería correspondiente (from sklearn.preprocessing import OrdinalEncoder)
* Creamos el objeto que podrá realizar esta operación dándole la opción de 'categories' para indicarle el orden de las categorías (MUY IMPORTAMTE, sinó lo hace en orden alfabético)(enc = OrdinalEncoder(categories=[[....]])). Ojo doble corchete. También es conveniente indicar que el tipo de datos de salida sea entero (dtype='int')
* Particularizamos este objeto con datos concretos (enc.fit(df[['nivel_estudios']])). Ojo doble corchete
* Aplicamos este objeto que ya está particularizado a los datos sobre los que lo queremos aplicar (enc.transform(df[['nivel_estudios']]). Ojo, doble corchete
* Añadimos la nueva variable como nueva columna en nuestros datos df())

In [1]:
# Creamos los datos
import pandas as pd

data = {'nivel_estudios': ['BATX','GRADO','ESO','ESO','BATX','DOCTORADO','GRADO','GRADO','BATX']}
df = pd.DataFrame(data)
print("Datos originales:")
df

Datos originales:


Unnamed: 0,nivel_estudios
0,BATX
1,GRADO
2,ESO
3,ESO
4,BATX
5,DOCTORADO
6,GRADO
7,GRADO
8,BATX


In [2]:
# Importamos la librería
from sklearn.preprocessing import OrdinalEncoder
# Creamos el objeto que realizará la transformación dándole el orden en una lista con doble corchete
enc=OrdinalEncoder(categories=[['ESO', 'BATX','GRADO', 'DOCTORADO']],dtype='int')
# Particularizamos el codificador en nuestros datos
enc.fit(df[['nivel_estudios']])
# Aplicamos el codificador ya particularizado a nuestros datos y lo guardamos en la nueva variable
df['nivel_estudios_encoded_PYTHON']=enc.transform(df[['nivel_estudios']])

df

Unnamed: 0,nivel_estudios,nivel_estudios_encoded_PYTHON
0,BATX,1
1,GRADO,2
2,ESO,0
3,ESO,0
4,BATX,1
5,DOCTORADO,3
6,GRADO,2
7,GRADO,2
8,BATX,1


In [4]:
# También podríamos haber hecho de golpe el fit y el transform (dando el mksmo resultado)
df['nivel_estudios_encoded_PYTHON_2']=enc.fit_transform(df[['nivel_estudios']])
df

Unnamed: 0,nivel_estudios,nivel_estudios_encoded_PYTHON,nivel_estudios_encoded_PYTHON_2
0,BATX,1,1
1,GRADO,2,2
2,ESO,0,0
3,ESO,0,0
4,BATX,1,1
5,DOCTORADO,3,3
6,GRADO,2,2
7,GRADO,2,2
8,BATX,1,1


# NORMALIZACIÓN

La normalización es una técnica que se utiliza para transformar variables a una escala común, manteniendo las diferencias en los rangos de valores. Se utiliza en el aprendizaje automático porque acostumbra a mejorar el rendimiento de los modelos.

En el aprendizaje automático, a menudo se normalizan las características (o variables de entrada) para asegurarse de que todas ellas sean evaluadas en una escala similar. Si no se realiza este paso, las características con rangos de valores más grandes pueden influir desproporcionadamente en el modelo en comparación con las características con rangos de valores más pequeños.

Hay diversas técnicas para normalizar las variables de un conjunto de datos. Nos centraremos en las dos más utilizadas. La estandarización y el escalado entre 0 y 1

## 1.Estandarización o tipificación

Como sabéis, en estadística, es muy usual estandarizar o tipificar las variables para que todas estén en escala estandarizada y así sean comparables.
La estandarización o tipificación es una técnica de normalización que tranforma la variable original en la variable estandarizada restando, a cada valor, la media de esa variable y dividiendo, luego, por la desviación estándar.

La fórmula sería la siguiente:

$Z=\frac{X-\bar{X}}{S_{X}}$

Donde $Z$ es la varible tipificada, $X$ es la variable original, $\bar{X}$ es la media de la variable original y $S_{X}$ es la desviación estándar de la variable original



### 1.1. Ejemplo con librerías de Python

Veamos cómo resolvemos la estandarización con la librería más típica de python (preprocessing) que forma parte de las librerías de Machine Learning (ScikitLearn)

* Importamos la librería correspondiente (from sklearn import preprocessing)
* Creamos el objeto que podrá realizar esta operación (scaler = preprocessing.StandardScaler())
* Particularizamos este objeto con datos concretos (esto lo único que realiza y guarda es el cálculo de lo que necesita esta transformación, es decir, la media y la desviación estándar con los datos concretos que le damos)(scaler.fit(df['Ingreso']))
* Aplicamos este objeto que ya está particularizado a los datos sobre los que lo queremos aplicar (scaler.transform(df['Ingreso'])
* Añadimos la nueva variable como nueva columna en nuestros datos df



In [5]:
# Creamos los datos
import pandas as pd

data = {'Ingreso': [40000, 20000, 80000, 50000, 100000]}
df = pd.DataFrame(data)
print("Datos originales:")
df

Datos originales:


Unnamed: 0,Ingreso
0,40000
1,20000
2,80000
3,50000
4,100000


In [6]:
# Importamos la librería
from sklearn import preprocessing
# Creamos el objeto genérico
estandarizador = preprocessing.StandardScaler()
# Lo parrticularizamos con unos datos concretos
estandarizador.fit(df[['Ingreso']])
print("La media del estandarizador es ",estandarizador.mean_," y la desviación estándar es ",estandarizador.scale_)

La media del estandarizador es  [58000.]  y la desviación estándar es  [28565.71371417]


In [7]:
# Aplicamos el scaler particularizado a nuestra variable Ingreso y guardamos la variable resultado en la variable aux_var
aux_var=estandarizador.transform(df[['Ingreso']])
# Creamos la nueva variable estandarizada en df
df['Ingreso_std_lib']=aux_var
# Vemos el df final
df

Unnamed: 0,Ingreso,Ingreso_std_lib
0,40000,-0.630126
1,20000,-1.330266
2,80000,0.770154
3,50000,-0.280056
4,100000,1.470294


Podemos realizar ambas operaciones a la vez, particularizar nuestro estandarizador y aplicarlo a unos datos. Para ello utilizaremos la operación fit y transform juntas con la opción fit_transform. Esta vez creamos la variable z_python2 en una sola instrucción sin guardarnos el resultado del tranform en una variable auxiliar a parte. Como veis la nueva variable es idéntica a las anteriores

In [8]:
estandarizador2 = preprocessing.StandardScaler()
df['Ingresi_std_lib_compacto']=estandarizador2.fit_transform(df[['Ingreso']])
df

Unnamed: 0,Ingreso,Ingreso_std_lib,Ingresi_std_lib_compacto
0,40000,-0.630126,-0.630126
1,20000,-1.330266,-1.330266
2,80000,0.770154,0.770154
3,50000,-0.280056,-0.280056
4,100000,1.470294,1.470294


### 1.2. Estandarización de varias variables a la vez (esto es lo que se usa habitualmente)

En este código crearemos tres variables numéricas y las estandarizaremos de golpe creando otro data frame estandarizado.

Veréis que usamos la opción compacta de hacerlo todo a la vez.

Por eso, al fit_transform le pasamos todo el df

In [9]:
# Creamos los datos
data = {'Edad': [20, 30, 40, 50, 60], 'Ingreso': [40000, 20000, 80000, 50000, 100000], 'TieneCoche':[0,0,1,1,0]}
df = pd.DataFrame(data)
df

Unnamed: 0,Edad,Ingreso,TieneCoche
0,20,40000,0
1,30,20000,0
2,40,80000,1
3,50,50000,1
4,60,100000,0


In [10]:
# Creamos el estandarizador
estandarizador_full = preprocessing.StandardScaler()
# Lo fitamos para todas las variables y lo aplicamos
df_std=pd.DataFrame(estandarizador_full.fit_transform(df),columns=[df.columns])
df_std

Unnamed: 0,Edad,Ingreso,TieneCoche
0,-1.414214,-0.630126,-0.816497
1,-0.707107,-1.330266,-0.816497
2,0.0,0.770154,1.224745
3,0.707107,-0.280056,1.224745
4,1.414214,1.470294,-0.816497


## 2.Escalado

Escalar una variable acostumbra a ser convertir los valores de una variable a valores entre 0 y 1. Al realizar esta operación, se mantiene el orden y los ratios entre valores pero se consigue definir el rango de forma que el máximo sea 1 y el mínimo 0.

La fórmula sería la siguiente:

$S=\frac{X-X_{min}}{X_{max}-X_{min}}$

Donde $S$ es la varible escalada, $X$ es la variable original, $X_{max}$ es el valor máximo de la variable original y  $X_{min}$ es el valor mínimo de la variable original

Veréis que todo el proceso es idéntico al de la estandarización. Por eso solo mostraremos algunos de los apartados para que se entienda.

### 2.1. Ejemplo con librerías de Python

Veamos cómo resolvemos la estandarización con la librería más típica de python (preprocessing) que forma parte de las librerías de Machine Learning (ScikitLearn)

* Importamos la librería correspondiente (from sklearn import preprocessing)
* Creamos el objeto que podrá realizar esta operación (scaler = preprocessing.MinMaxScaler())
* Particularizamos este objeto con datos concretos (esto lo único que realiza y guarda es el cálculo de lo que necesita esta transformación, es decir, el mínimo y el máximo con los datos concretos que le damos)(scaler.fit(df['IngresoAnual']))
* Aplicamos este objeto que ya está particularizado a los datos sobre los que lo queremos aplicar (scaler.transform(df['IngresoAnual'])
* Añadimos la nueva variable como nueva columna en nuestros datos df



In [11]:
from sklearn import preprocessing
escalador = preprocessing.MinMaxScaler()
escalador.fit(df[['Ingreso']])
print("El mínimo es ",escalador.data_min_," y el máximo es ",escalador.data_max_)

El mínimo es  [20000.]  y el máximo es  [100000.]


In [25]:
# Aplicamos el scaler particularizado a nuestra variable IngresoAnual y guradamos la variable resultado en la variable aux_var
aux_var=escalador.transform(df[['Ingreso']])
# Creamos la nueva variable Ingreso_scal en df
df['Ingreso_sc']=aux_var
# Vemos ambas variables creadas a mano y con la librería y comprobamos que son idénticas
df

Unnamed: 0,Edad,Ingreso,TieneCoche,Ingreso_sc
0,20,40000,0,0.25
1,30,20000,0,0.0
2,40,80000,1,0.75
3,50,50000,1,0.375
4,60,100000,0,1.0


### 2.2. Escalado entre 0 y 1 de varias variables a la vez (esto es lo que se usa habitualmente)

En este código crearemos tres variables numéricas y las escalaremos entre 0 y 1 de golpe creando otro data frame.

In [26]:
# Creamos los datos
data = {'Edad': [20, 30, 40, 50, 60], 'Ingreso': [40000, 20000, 80000, 50000, 100000], 'TieneCoche':[0,0,1,1,0]}
df = pd.DataFrame(data)
print("Datos originales:")
df

Datos originales:


Unnamed: 0,Edad,Ingreso,TieneCoche
0,20,40000,0
1,30,20000,0
2,40,80000,1
3,50,50000,1
4,60,100000,0


In [27]:
# Creamos el escalador
escalador_full = preprocessing.MinMaxScaler()
# Lo fitamos para todas las variables y lo aplicamos
df_esc=pd.DataFrame(escalador_full.fit_transform(df),columns=[df.columns])
df_esc

Unnamed: 0,Edad,Ingreso,TieneCoche
0,0.0,0.25,0.0
1,0.25,0.0,0.0
2,0.5,0.75,1.0
3,0.75,0.375,1.0
4,1.0,1.0,0.0


In [13]:
# Guardar el estandarizador
from joblib import dump
dump(escalador,"escalador_entrega.esc")

['escalador_entrega.esc']

In [14]:
# Cargamos el archivo
from joblib import load
esc_recuperado = load("escalador_entrega.esc")

In [23]:
# Lo aplicamos
datos = pd.DataFrame([100000,20000,60000],columns = ["Ingreso"])
datos

Unnamed: 0,Ingreso
0,100000
1,20000
2,60000


In [24]:
a = esc_recuperado.transform(datos[["Ingreso"]])
a

array([[1. ],
       [0. ],
       [0.5]])