# 2.5.3 Codificación (ordinal, one-hot, conteo o frecuencia)
Un algoritmo de aprendizaje automático debe poder **comprender** los datos que recibe. Por ejemplo, categorías como "pequeño", "mediano" y "grande" deben convertirse en números. Para resolver eso, podemos, por ejemplo, convertirlos en etiquetas numéricas con
* "1" para pequeños
* "2" para medianos
* "3" para grandes

¿Pero es realmente la mejor manera?
Hay muchos métodos para **codificar variables categóricas en numéricas** y cada método tiene sus propias ventajas y desventajas.

1.  *One-hot/dummy encoding* $←$
2.  *Label / Ordinal encoding* $←$
3.  *Target encoding*
4.  *Frequency / count encoding* $←$
5.  *Binary encoding*
6.  *Feature Hashing*

Ilustraremos los conceptos con un *dataframe* muy simple: un conjunto de datos con los salarios de Data Scientists entre los años 2020 y 2022.

Antes de profundizar, necesitamos aclarar algunos conceptos:

* Las **variables nominales** son variables que no tienen un orden inherente. Son simplemente **categorías** que se pueden distinguir entre sí.
* Las variables **ordinales** tienen un **orden** inherente. Se pueden clasificar de mayor a menor o viceversa.
* Los métodos de codificación no supervisados (**Unsupervised encoding methods**) NO utilizan la variable *target* para codificar variables categóricas.
* Los métodos de codificación supervisados (**Supervised encoding methods**) emplean la variable objetivo (*target*) para codificar variables categóricas.
* La “**cardinalidad**” de una variable categórica representa el número de categorías representadas por esta variable.

In [None]:
!head ds_salaries.csv

,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S
2,2020,SE,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M
3,2020,MI,FT,Product Data Analyst,20000,USD,20000,HN,0,HN,S
4,2020,SE,FT,Machine Learning Engineer,150000,USD,150000,US,50,US,L
5,2020,EN,FT,Data Analyst,72000,USD,72000,US,100,US,L
6,2020,SE,FT,Lead Data Scientist,190000,USD,190000,US,100,US,S
7,2020,MI,FT,Data Scientist,11000000,HUF,35735,HU,50,HU,L
8,2020,MI,FT,Business Data Analyst,135000,USD,135000,US,100,US,L


In [1]:
import pandas as pd
df = pd.read_csv('ds_salaries.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 607 entries, 0 to 606
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Unnamed: 0          607 non-null    int64 
 1   work_year           607 non-null    int64 
 2   experience_level    607 non-null    object
 3   employment_type     607 non-null    object
 4   job_title           607 non-null    object
 5   salary              607 non-null    int64 
 6   salary_currency     607 non-null    object
 7   salary_in_usd       607 non-null    int64 
 8   employee_residence  607 non-null    object
 9   remote_ratio        607 non-null    int64 
 10  company_location    607 non-null    object
 11  company_size        607 non-null    object
dtypes: int64(5), object(7)
memory usage: 57.0+ KB


In [2]:
df.head()

Unnamed: 0.1,Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S
2,2,2020,SE,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M
3,3,2020,MI,FT,Product Data Analyst,20000,USD,20000,HN,0,HN,S
4,4,2020,SE,FT,Machine Learning Engineer,150000,USD,150000,US,50,US,L


In [3]:
# Cardinalidad: 4
df.experience_level.unique()
# EN: Entry level / recien egresado
# MI: Medium to Intermediate
# EX: Experienced
# SE: Senior

array(['MI', 'SE', 'EN', 'EX'], dtype=object)

## Label / Ordinal Encoding
Esta es probablemente la forma más sencilla de codificar variables. En este método, los datos categóricos se convierten en datos numéricos. A cada categoría se le asigna un valor numérico.

Con nuestro conjunto de datos, podemos asignar números al azar según el tamaño de la compañía como "1" para "S", "2" para "M" y "3" para "L".

Pero, ¿y si necesitamos codificar variables ordinales?

En ese caso, podemos definir manualmente el mapeo para valor único. Digamos que consideramos un orden para *experience level* como *EN* < *MI* < *EX* < *SE*, la codificación ordinal se verá de la siguiente manera.

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html

In [4]:
df.head(10)

Unnamed: 0.1,Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S
2,2,2020,SE,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M
3,3,2020,MI,FT,Product Data Analyst,20000,USD,20000,HN,0,HN,S
4,4,2020,SE,FT,Machine Learning Engineer,150000,USD,150000,US,50,US,L
5,5,2020,EN,FT,Data Analyst,72000,USD,72000,US,100,US,L
6,6,2020,SE,FT,Lead Data Scientist,190000,USD,190000,US,100,US,S
7,7,2020,MI,FT,Data Scientist,11000000,HUF,35735,HU,50,HU,L
8,8,2020,MI,FT,Business Data Analyst,135000,USD,135000,US,100,US,L
9,9,2020,SE,FT,Lead Data Engineer,125000,USD,125000,NZ,50,NZ,S


In [5]:
df['experience_level'].unique() # cardinalidad es 4

array(['MI', 'SE', 'EN', 'EX'], dtype=object)

In [6]:
from sklearn.preprocessing import OrdinalEncoder
# Imputer
exp_cat = df[['experience_level']]

enc = OrdinalEncoder() # instanciamos el codificador
ex_level = enc.fit_transform(exp_cat) # ajustar los parametros de ese codificador
ex_level[:10]

array([[2.],
       [3.],
       [3.],
       [2.],
       [3.],
       [0.],
       [3.],
       [2.],
       [2.],
       [3.]])

In [7]:
df['exp_lvl_oe'] = ex_level # pasar valores del Numpy Array al DF
df[['experience_level','exp_lvl_oe']].sample(8) # muestreo aleatorio

Unnamed: 0,experience_level,exp_lvl_oe
552,SE,3.0
424,SE,3.0
38,EN,0.0
185,MI,2.0
594,SE,3.0
270,EN,0.0
600,EN,0.0
156,MI,2.0


Puedes ahora revisar la lista de categorias usando la variable de instancia `categories_`. Es una lista con las categorias para cada atributo categórico.

In [8]:
# EN < MI < EX < SE
enc.categories_

[array(['EN', 'EX', 'MI', 'SE'], dtype=object)]

Por defecto, los números son asociados automaticamente lo cual puede traer problemas (distancia entre números ordinales puede ser contraintuitiva).

In [None]:
!pip install category_encoders

Collecting category_encoders
  Downloading category_encoders-2.8.1-py3-none-any.whl.metadata (7.9 kB)
Collecting scikit-learn>=1.6.0 (from category_encoders)
  Downloading scikit_learn-1.6.1-cp312-cp312-win_amd64.whl.metadata (15 kB)
Downloading category_encoders-2.8.1-py3-none-any.whl (85 kB)
Downloading scikit_learn-1.6.1-cp312-cp312-win_amd64.whl (11.1 MB)
   ---------------------------------------- 0.0/11.1 MB ? eta -:--:--
   ----- ---------------------------------- 1.6/11.1 MB 10.5 MB/s eta 0:00:01
   ---------------------- ----------------- 6.3/11.1 MB 17.5 MB/s eta 0:00:01
   -------------------------------------- - 10.7/11.1 MB 19.7 MB/s eta 0:00:01
   ---------------------------------------- 11.1/11.1 MB 16.9 MB/s eta 0:00:00
Installing collected packages: scikit-learn, category_encoders
  Attempting uninstall: scikit-learn
    Found existing installation: scikit-learn 1.5.1
    Uninstalling scikit-learn-1.5.1:
      Successfully uninstalled scikit-learn-1.5.1
Successfully in

  You can safely remove it manually.


In [14]:
del df['Unnamed: 0']

KeyError: 'Unnamed: 0'

In [None]:
df.head() # original

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size,exp_lvl_oe
0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L,2.0
1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S,3.0
2,2020,SE,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M,3.0
3,2020,MI,FT,Product Data Analyst,20000,USD,20000,HN,0,HN,S,2.0
4,2020,SE,FT,Machine Learning Engineer,150000,USD,150000,US,50,US,L,3.0


Ahora probemos con otra libreria, `category_encoders` con la cual, especificaremos el mapeo a utilizar.

In [12]:
# No scikitlearn
from category_encoders import OrdinalEncoder

# EN < MI < EX < SE
# EN entry level
# MI Medium
# EX Experienced
# SE Senior level
mapping = [{'col': 'experience_level', 'mapping': {"EN": 1,  "MI": 2, "EX": 3, "SE": 4}}]
df['ex_lvl_oenc'] = OrdinalEncoder(cols=['experience_level'], mapping=mapping).fit(df).transform(df)['experience_level']
df.sample(3)

ImportError: cannot import name 'Tags' from 'sklearn.utils' (c:\Users\pomar\anaconda3\Lib\site-packages\sklearn\utils\__init__.py)

In [None]:
mapping

[{'col': 'experience_level',
  'mapping': EN    1
  MI    2
  EX    3
  SE    4
  dtype: int64,
  'data_type': dtype('O')}]

## One-Hot (Dummy Encoding)
En la codificación **one-hot**, los datos categóricos se representan como **vectores** de ceros y unos. Esto se hace usando una variable *dummy* para cada categoría y estableciendo el valor de la variable *dummy* en 1 (*hot*) si la observación pertenece a esa categoría y 0 (*cold*) en caso contrario.

Por ejemplo, si hay tres categorías, cada categoría se puede representar como un vector de ceros con uno solo en la posición correspondiente a la categoría.

In [None]:
from sklearn.preprocessing import OneHotEncoder # 1st importar modulo

cat_encoder = OneHotEncoder() # 2nd instanciar el modulo
#cat_encoder.fit(exp_cat)
#cat_encoder.transform(exp_cat)
df_cat_1hot = cat_encoder.fit_transform(exp_cat) # devuelve una sparse matrix
df_cat_1hot

<607x4 sparse matrix of type '<class 'numpy.float64'>'
	with 607 stored elements in Compressed Sparse Row format>

Nota que la salida es un objeto *SciPy sparse matrix* (no un arreglo de Numpy), esta representación es muy útil al trabajar con muchas categorias pues optimiza recursos en memoria al solamente almacenar la ubicación de los elementos *non-zero*.

Si por alguna razón, deseas visualizar/convertir a un arreglo Numpy 2D, solamente llama al método `toarray()`.

In [None]:
df_cat_1hot.toarray()

array([[0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 1.],
       ...,
       [0., 0., 0., 1.],
       [0., 0., 0., 1.],
       [0., 0., 1., 0.]])

De igual forma, puedes obtener la lista de categorías:

In [None]:
cat_encoder.categories_

[array(['EN', 'EX', 'MI', 'SE'], dtype=object)]

Así mismo, usando la librería `category_encoders` podemos generar nuestras codificaciones *One-hot*.

In [None]:
from category_encoders import OneHotEncoder

OneHotEncoder(cols=['experience_level']).fit(df).transform(df)

Unnamed: 0,work_year,experience_level_1,experience_level_2,experience_level_3,experience_level_4,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size,exp_lvl_oe,ex_lvl_oenc
0,2020,1,0,0,0,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L,2.0,2
1,2020,0,1,0,0,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S,3.0,4
2,2020,0,1,0,0,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M,3.0,4
3,2020,1,0,0,0,FT,Product Data Analyst,20000,USD,20000,HN,0,HN,S,2.0,2
4,2020,0,1,0,0,FT,Machine Learning Engineer,150000,USD,150000,US,50,US,L,3.0,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
602,2022,0,1,0,0,FT,Data Engineer,154000,USD,154000,US,100,US,M,3.0,4
603,2022,0,1,0,0,FT,Data Engineer,126000,USD,126000,US,100,US,M,3.0,4
604,2022,0,1,0,0,FT,Data Analyst,129000,USD,129000,US,0,US,M,3.0,4
605,2022,0,1,0,0,FT,Data Analyst,150000,USD,150000,US,100,US,M,3.0,4


## Frequency / Count Encoding
La codificación por **conteo** es una forma de representar datos categóricos utilizando el recuento de las categorías. La codificación por **frecuencia** es simplemente una versión normalizada de la codificación por conteo.

In [None]:
df['experience_level'].value_counts()

SE    280
MI    213
EN     88
EX     26
Name: experience_level, dtype: int64

In [None]:
from category_encoders import CountEncoder

CountEncoder(cols=['experience_level']).fit(df).transform(df)

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size,exp_lvl_oe,ex_lvl_oenc
0,2020,213,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L,2.0,2
1,2020,280,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S,3.0,4
2,2020,280,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M,3.0,4
3,2020,213,FT,Product Data Analyst,20000,USD,20000,HN,0,HN,S,2.0,2
4,2020,280,FT,Machine Learning Engineer,150000,USD,150000,US,50,US,L,3.0,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...
602,2022,280,FT,Data Engineer,154000,USD,154000,US,100,US,M,3.0,4
603,2022,280,FT,Data Engineer,126000,USD,126000,US,100,US,M,3.0,4
604,2022,280,FT,Data Analyst,129000,USD,129000,US,0,US,M,3.0,4
605,2022,280,FT,Data Analyst,150000,USD,150000,US,100,US,M,3.0,4


Para computar la codificación por **frecuencia** solo necesitamos indicar que deseamos el resultado "normalizado".

In [None]:
from category_encoders import CountEncoder

CountEncoder(cols=['experience_level'], normalize=True).fit(df).transform(df)

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size,exp_lvl_oe,ex_lvl_oenc
0,2020,0.350906,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L,2.0,2
1,2020,0.461285,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S,3.0,4
2,2020,0.461285,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M,3.0,4
3,2020,0.350906,FT,Product Data Analyst,20000,USD,20000,HN,0,HN,S,2.0,2
4,2020,0.461285,FT,Machine Learning Engineer,150000,USD,150000,US,50,US,L,3.0,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...
602,2022,0.461285,FT,Data Engineer,154000,USD,154000,US,100,US,M,3.0,4
603,2022,0.461285,FT,Data Engineer,126000,USD,126000,US,100,US,M,3.0,4
604,2022,0.461285,FT,Data Analyst,129000,USD,129000,US,0,US,M,3.0,4
605,2022,0.461285,FT,Data Analyst,150000,USD,150000,US,100,US,M,3.0,4


### Conclusiones
* ¿Cuál deberías usar? Depende del conjunto de datos, el modelo y la métrica de rendimiento que intenta optimizar.

* Codificación **one-hot** es el método más utilizado para variables nominales. Es fácil de entender e implementar, y funciona bien con la mayoría de los modelos de ML. Sin embargo, puede aumentar demasiado la dimensionalidad.

* La codificación **ordinal** es una buena opción si importa el orden de las variables categóricas ademas de que no aumenta la dimensionalidad de los datos.

* Las codificaciones por **frecuencia** y **conteo** son métodos ​​que no aumentan la dimensionalidad del espacio de características. Sin embargo, estos métodos pueden implicar problemas si 2 o más categorías tienen la misma cardinalidad.