# **¿Cómo manipular preprocesar datos categóricos antes de entrenar un modelo?**

## **Categorias nominales**

En el caso que no importe el orden usamos la técnica de `One-Hot-Encoding`

# Usando `.get_dummies` de `pandas`

Nuestra primera alternativa la trae la librería pandas por defecto con el método `get_dummies` si las categorías son nominales

In [34]:
import pandas as pd

# Crear listas de datos
edades = [25, 30, 35, 28, 40, 22, 32, 37, 26, 33, 29, 42, 31, 27, 38]
salarios = [45000, 60000, 55000, 48000, 70000, 40000, 58000, 62000, 47000, 55000, 51000, 72000, 59000, 46000, 63000]
experiencia = ['Principiante', 'Intermedio', 'Experto', 'Principiante', 'Intermedio', 'Experto', 'Principiante',
               'Intermedio', 'Experto', 'Principiante', 'Intermedio', 'Experto', 'Principiante', 'Intermedio', 'Experto']

# Crear el DataFrame
df = pd.DataFrame({'edad': edades, 'salario': salarios, 'experiencia': experiencia})

# Mostrar el DataFrame
df

Unnamed: 0,edad,salario,experiencia
0,25,45000,Principiante
1,30,60000,Intermedio
2,35,55000,Experto
3,28,48000,Principiante
4,40,70000,Intermedio
5,22,40000,Experto
6,32,58000,Principiante
7,37,62000,Intermedio
8,26,47000,Experto
9,33,55000,Principiante


Veamos los tipos de las columnas

In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   edad         15 non-null     int64 
 1   salario      15 non-null     int64 
 2   experiencia  15 non-null     object
dtypes: int64(2), object(1)
memory usage: 488.0+ bytes


### Usando `.get_dummies` de pandas

In [36]:
data_num = df.select_dtypes(exclude=['object'])
data_str = df.select_dtypes(include=['object'])

In [37]:
data_num.head(), data_str.head()

(   edad  salario
 0    25    45000
 1    30    60000
 2    35    55000
 3    28    48000
 4    40    70000,
     experiencia
 0  Principiante
 1    Intermedio
 2       Experto
 3  Principiante
 4    Intermedio)

In [38]:
data_encode = pd.get_dummies(data_str)

In [39]:
data_encode

Unnamed: 0,experiencia_Experto,experiencia_Intermedio,experiencia_Principiante
0,0,0,1
1,0,1,0
2,1,0,0
3,0,0,1
4,0,1,0
5,1,0,0
6,0,0,1
7,0,1,0
8,1,0,0
9,0,0,1


In [40]:
df_listo = pd.concat([data_num,data_encode],axis=1)

In [41]:
df_listo

Unnamed: 0,edad,salario,experiencia_Experto,experiencia_Intermedio,experiencia_Principiante
0,25,45000,0,0,1
1,30,60000,0,1,0
2,35,55000,1,0,0
3,28,48000,0,0,1
4,40,70000,0,1,0
5,22,40000,1,0,0
6,32,58000,0,0,1
7,37,62000,0,1,0
8,26,47000,1,0,0
9,33,55000,0,0,1


Como vemos, ahora tenemos categorías numéricas para los datos nominales, pero debemos tener en cuenta cómo aumenta la dimensión de nuestro conjunto de datos

# Usando `One_Hot_Encoder` de `sklearn`

In [42]:
import pandas as pd

# Crear listas de datos
edades = [25, 30, 35, 28, 40, 22, 32, 37, 26, 33, 29, 42, 31, 27, 38]
salarios = [45000, 60000, 55000, 48000, 70000, 40000, 58000, 62000, 47000, 55000, 51000, 72000, 59000, 46000, 63000]
experiencia = ['Principiante', 'Intermedio', 'Experto', 'Principiante', 'Intermedio', 'Experto', 'Principiante',
               'Intermedio', 'Experto', 'Principiante', 'Intermedio', 'Experto', 'Principiante', 'Intermedio', 'Experto']

# Crear el DataFrame
df = pd.DataFrame({'edad': edades, 'salario': salarios, 'experiencia': experiencia})

# Mostrar el DataFrame
df

Unnamed: 0,edad,salario,experiencia
0,25,45000,Principiante
1,30,60000,Intermedio
2,35,55000,Experto
3,28,48000,Principiante
4,40,70000,Intermedio
5,22,40000,Experto
6,32,58000,Principiante
7,37,62000,Intermedio
8,26,47000,Experto
9,33,55000,Principiante


In [43]:
from sklearn.preprocessing import OneHotEncoder

codificador = OneHotEncoder()

codificacion = codificador.fit_transform(df[["experiencia"]])

In [44]:
print(type(codificacion))
print(codificacion)

<class 'scipy.sparse._csr.csr_matrix'>
  (0, 2)	1.0
  (1, 1)	1.0
  (2, 0)	1.0
  (3, 2)	1.0
  (4, 1)	1.0
  (5, 0)	1.0
  (6, 2)	1.0
  (7, 1)	1.0
  (8, 0)	1.0
  (9, 2)	1.0
  (10, 1)	1.0
  (11, 0)	1.0
  (12, 2)	1.0
  (13, 1)	1.0
  (14, 0)	1.0


Vemos que `codificacion` es una matriz con elementos de `1` en cada registro donde coincide el valor de la categoría y `0` en los demás, convertimos esta matriz en un dataframe para ver esto de una manera más visual

In [45]:
nuevas_cols = pd.DataFrame(codificacion.toarray(),
                           columns=codificador.categories_)
print(nuevas_cols)

datos = pd.concat([df, nuevas_cols], axis="columns")
datos

   Experto Intermedio Principiante
0      0.0        0.0          1.0
1      0.0        1.0          0.0
2      1.0        0.0          0.0
3      0.0        0.0          1.0
4      0.0        1.0          0.0
5      1.0        0.0          0.0
6      0.0        0.0          1.0
7      0.0        1.0          0.0
8      1.0        0.0          0.0
9      0.0        0.0          1.0
10     0.0        1.0          0.0
11     1.0        0.0          0.0
12     0.0        0.0          1.0
13     0.0        1.0          0.0
14     1.0        0.0          0.0


Unnamed: 0,edad,salario,experiencia,"(Experto,)","(Intermedio,)","(Principiante,)"
0,25,45000,Principiante,0.0,0.0,1.0
1,30,60000,Intermedio,0.0,1.0,0.0
2,35,55000,Experto,1.0,0.0,0.0
3,28,48000,Principiante,0.0,0.0,1.0
4,40,70000,Intermedio,0.0,1.0,0.0
5,22,40000,Experto,1.0,0.0,0.0
6,32,58000,Principiante,0.0,0.0,1.0
7,37,62000,Intermedio,0.0,1.0,0.0
8,26,47000,Experto,1.0,0.0,0.0
9,33,55000,Principiante,0.0,0.0,1.0


La columna experiencia puede ser eliminada ya que no sirve para entrenar un modelo de Machine Learning

In [46]:
datos.drop('experiencia', axis=1, inplace=True)

In [47]:
datos

Unnamed: 0,edad,salario,"(Experto,)","(Intermedio,)","(Principiante,)"
0,25,45000,0.0,0.0,1.0
1,30,60000,0.0,1.0,0.0
2,35,55000,1.0,0.0,0.0
3,28,48000,0.0,0.0,1.0
4,40,70000,0.0,1.0,0.0
5,22,40000,1.0,0.0,0.0
6,32,58000,0.0,0.0,1.0
7,37,62000,0.0,1.0,0.0
8,26,47000,1.0,0.0,0.0
9,33,55000,0.0,0.0,1.0


## **Categorias ordinales**

En este caso el orden es importante, podemos usar la técnica de  `Label-Encoder` de `sklearn`

In [51]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Crear listas de datos
edades = [25, 30, 35, 28, 40, 22, 32, 37, 26, 33, 29, 42, 31, 27, 38]
salarios = [45000, 60000, 55000, 48000, 70000, 40000, 58000, 62000, 47000, 55000, 51000, 72000, 59000, 46000, 63000]
experiencia = ['Principiante', 'Intermedio', 'Experto', 'Principiante', 'Intermedio', 'Experto', 'Principiante',
               'Intermedio', 'Experto', 'Principiante', 'Intermedio', 'Experto', 'Principiante', 'Intermedio', 'Experto']

# Crear el DataFrame
df = pd.DataFrame({'edad': edades, 'salario': salarios, 'experiencia': experiencia})

# Inicializar el codificador LabelEncoder
le = LabelEncoder()

# Codificar la columna "experiencia"
df['experiencia_codificada'] = le.fit_transform(df['experiencia'])

# Mostrar el DataFrame con la columna codificada
print(df)


    edad  salario   experiencia  experiencia_codificada
0     25    45000  Principiante                       2
1     30    60000    Intermedio                       1
2     35    55000       Experto                       0
3     28    48000  Principiante                       2
4     40    70000    Intermedio                       1
5     22    40000       Experto                       0
6     32    58000  Principiante                       2
7     37    62000    Intermedio                       1
8     26    47000       Experto                       0
9     33    55000  Principiante                       2
10    29    51000    Intermedio                       1
11    42    72000       Experto                       0
12    31    59000  Principiante                       2
13    27    46000    Intermedio                       1
14    38    63000       Experto                       0


`LabelEncoder` asigna números a las etiquetas en orden alfabético, lo que en este y otros casos nos puede resultar incómodo, podemos hacer una codificación manual de la siguiente manera

In [49]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Crear listas de datos
edades = [25, 30, 35, 28, 40, 22, 32, 37, 26, 33, 29, 42, 31, 27, 38]
salarios = [45000, 60000, 55000, 48000, 70000, 40000, 58000, 62000, 47000, 55000, 51000, 72000, 59000, 46000, 63000]
experiencia = ['Principiante', 'Intermedio', 'Experto', 'Principiante', 'Intermedio', 'Experto', 'Principiante',
               'Intermedio', 'Experto', 'Principiante', 'Intermedio', 'Experto', 'Principiante', 'Intermedio', 'Experto']

# Crear el DataFrame
df = pd.DataFrame({'edad': edades, 'salario': salarios, 'experiencia': experiencia})

# Asignar valores numéricos a las categorías
mapeo = {'Principiante': 0, 'Intermedio': 1, 'Experto': 2}
df['experiencia_codificada'] = df['experiencia'].map(mapeo)

# Mostrar el DataFrame con la columna codificada
print(df)


    edad  salario   experiencia  experiencia_codificada
0     25    45000  Principiante                       0
1     30    60000    Intermedio                       1
2     35    55000       Experto                       2
3     28    48000  Principiante                       0
4     40    70000    Intermedio                       1
5     22    40000       Experto                       2
6     32    58000  Principiante                       0
7     37    62000    Intermedio                       1
8     26    47000       Experto                       2
9     33    55000  Principiante                       0
10    29    51000    Intermedio                       1
11    42    72000       Experto                       2
12    31    59000  Principiante                       0
13    27    46000    Intermedio                       1
14    38    63000       Experto                       2


Como alternativa para datos ordinales también podemos usar `Ordinal-Encoder` de `sklearn`

In [52]:
import pandas as pd
import numpy as np

categorias_servicio = ["Muy insatisfecho", "Insatisfecho",
                       "Neutral", "Satisfecho", "Muy satisfecho"]

categorias_calidad = ["Mala", "Buena", "Muy buena", "Excelente"]

encuesta = {"servicio" : ["Muy insatisfecho", "Insatisfecho",
                          "Neutral", "Satisfecho", "Muy satisfecho",
                          "Muy insatisfecho"],

            "alimentos" : ["Mala", "Buena", "Muy buena",
                           "Excelente", "Mala", "Buena"]}

# 0: cliente esporádico       1: cliente frecuente
tipo_cliente = [0, 0, 1, 1, 0, 1]

pd.DataFrame(encuesta)

Unnamed: 0,servicio,alimentos
0,Muy insatisfecho,Mala
1,Insatisfecho,Buena
2,Neutral,Muy buena
3,Satisfecho,Excelente
4,Muy satisfecho,Mala
5,Muy insatisfecho,Buena


In [53]:
from sklearn.preprocessing import OrdinalEncoder

datos_ord = pd.DataFrame(encuesta)

codificador = OrdinalEncoder(categories=[categorias_servicio,
                                        categorias_calidad])

datos_ord = pd.DataFrame(codificador.fit_transform(datos_ord),
                         columns=["servicio", "alimentacion"])

print(datos_ord)
print(codificador.categories_)

   servicio  alimentacion
0       0.0           0.0
1       1.0           1.0
2       2.0           2.0
3       3.0           3.0
4       4.0           0.0
5       0.0           1.0
[array(['Muy insatisfecho', 'Insatisfecho', 'Neutral', 'Satisfecho',
       'Muy satisfecho'], dtype=object), array(['Mala', 'Buena', 'Muy buena', 'Excelente'], dtype=object)]


Ahora podemos comparar un clasificador entrenado con categorías codificadas como ordinales y con categorías codificadas como nominales con One Hot Encoder y ver cuál obtiene mejor desempeño

In [55]:
# Con One Hot Encoder quedaría entonces
from sklearn.preprocessing import OneHotEncoder

datos_one = pd.DataFrame(encuesta)

codificador = OneHotEncoder()

datos_one = pd.DataFrame(codificador.fit_transform(datos_one).toarray(),
                         columns=np.concatenate(codificador.categories_))

datos_one

Unnamed: 0,Insatisfecho,Muy insatisfecho,Muy satisfecho,Neutral,Satisfecho,Buena,Excelente,Mala,Muy buena
0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
1,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
2,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0
3,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0
4,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0
5,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0


Debemos recordar que con `One Hot Encoder` tenemos una maldición y es que nos aumenta demasiado la dimensión

# **Clasificador**

In [56]:
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import MinMaxScaler

print("\n*** Datos Escalados de la Codificación Ordinal")
escalador = MinMaxScaler()
print(datos_ord)
datos_ord = escalador.fit_transform(datos_ord)
print(datos_ord)

print("\n*** Clasificación con Datos codificados con OrdinalEncoder")
modelo = LogisticRegression().fit(datos_ord, tipo_cliente)
print("Predicciones:", modelo.predict(datos_ord))
print("Clases correctas:", tipo_cliente)
print(modelo.predict_proba(datos_ord))

print("\n*** Clasificación con Datos codificados con OneHotEncoder")
modelo = LogisticRegression().fit(datos_one, tipo_cliente)
print("Predicciones:", modelo.predict(datos_one))
print("Clases correctas:", tipo_cliente)
print(modelo.predict_proba(datos_one))


*** Datos Escalados de la Codificación Ordinal
   servicio  alimentacion
0       0.0           0.0
1       1.0           1.0
2       2.0           2.0
3       3.0           3.0
4       4.0           0.0
5       0.0           1.0
[[0.         0.        ]
 [0.25       0.33333333]
 [0.5        0.66666667]
 [0.75       1.        ]
 [1.         0.        ]
 [0.         0.33333333]]

*** Clasificación con Datos codificados con OrdinalEncoder
Predicciones: [0 0 1 1 0 0]
Clases correctas: [0, 0, 1, 1, 0, 1]
[[0.56489598 0.43510402]
 [0.50845928 0.49154072]
 [0.45180614 0.54819386]
 [0.39637512 0.60362488]
 [0.57175647 0.42824353]
 [0.50671189 0.49328811]]

*** Clasificación con Datos codificados con OneHotEncoder
Predicciones: [0 0 1 1 0 1]
Clases correctas: [0, 0, 1, 1, 0, 1]
[[0.62301432 0.37698568]
 [0.57519021 0.42480979]
 [0.32279763 0.67720237]
 [0.32279763 0.67720237]
 [0.70505958 0.29494042]
 [0.45116842 0.54883158]]


Parece en este caso que con `One Hot Encoder` hay mejor desempeño que con `Ordinal Encoder`, pero esto no es cierto realmente, puede que este modelo esté cayendo incluso en sobre ajuste lo cual es malo y el clasificador con datos ordinales esté mejor entrenado para predecir con nuevos datos. En resumen, no es mejor uno que el otro, debemos experimentar mucho antes de decidir, también debemosde recordar que tenemos en este caso datos de juguete, es decir, muy poquitos datos para entrenar este modelo.

Otra nota que debemos tener en cuenta es que con datos ordinales aunque no caemos en la maldición de la dimensionalidad, estamos en este caso suponiendo que dos categorías consecutivas son equidistandes, esto también es otra consideración importante a la hora de trabajar con este tipo de categorías