# **Codifica datos categóricos nominales para Machine Learning**

![tipos de datos](../img/tipos-de-variables.webp "tipos de datos")

![tipos de datos](../img/categorical_data.jpg "tipos de datos")

Los datos categóricos nominales son aquellos que no tienen un orden o jerarquía natural, y se pueden clasificar en distintas categorías de manera arbitraria. Por ejemplo, el color de ojos o el tipo de animal son datos categóricos nominales.

Aquí hay un ejemplo de cómo trabajar con datos categóricos nominales en Python utilizando la biblioteca Pandas:

In [3]:
import pandas as pd

# Crear un conjunto de datos de ejemplo
df = pd.DataFrame({'animal': ['gato', 'perro', 'perro', 'ratón', 'gato'],
                   'edad': [3, 5, 2, 1, 4],
                   'peso': [4.2, 6.3, 7.1, 0.9, 3.5]})

# Convertir la columna 'animal' a una variable categórica nominal
df['animal'] = pd.Categorical(df['animal'], categories=['gato', 'perro', 'ratón'])

# Codificar la variable categórica nominal como variables dummy
dummy_df = pd.get_dummies(df['animal'], prefix='animal')
df = pd.concat([df, dummy_df], axis=1)
df.drop('animal', axis=1, inplace=True)

# Mostrar el conjunto de datos resultante
print(df)


   edad  peso  animal_gato  animal_perro  animal_ratón
0     3   4.2            1             0             0
1     5   6.3            0             1             0
2     2   7.1            0             1             0
3     1   0.9            0             0             1
4     4   3.5            1             0             0


Este código crea un conjunto de datos de ejemplo con tres variables: 'animal', 'edad' y 'peso'. La columna 'animal' es una variable categórica nominal que puede tomar los valores 'gato', 'perro' o 'ratón'. Luego, se convierte la columna 'animal' a una variable categórica nominal utilizando la función ```pd.Categorical```, que especifica las categorías permitidas. A continuación, se codifica la variable categórica nominal como variables dummy utilizando la función ```pd.get_dummies```, que crea una columna para cada categoría con valores binarios que indican si la muestra pertenece a esa categoría o no. Finalmente, se concatenan las variables dummy con el conjunto de datos original y se elimina la columna original 'animal'.

El resultado es un conjunto de datos con dos variables dummy ('animal_gato' y 'animal_perro') que indican si la muestra pertenece a esa categoría o no, y dos variables numéricas ('edad' y 'peso') que se pueden utilizar en un modelo de aprendizaje automático.

## **1. Problemática de las categorías**

Para ilustrar la problemática de las categorías, podemos crear un conjunto de datos de ejemplo y aplicar un modelo de clasificación. Luego, podemos comparar los resultados de clasificación utilizando diferentes categorizaciones.

Aquí está el código en Python para crear los datos de ejemplo y aplicar un modelo de clasificación:

In [1]:
import numpy as np
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Crear datos de ejemplo
np.random.seed(42)
X, y = make_classification(n_samples=1000, n_features=5, n_classes=3, n_informative=3, n_redundant=1)

# Dividir los datos en entrenamiento y prueba
n_train = 800
X_train, y_train = X[:n_train], y[:n_train]
X_test, y_test = X[n_train:], y[n_train:]

# Entrenar un modelo de clasificación
clf = LogisticRegression(multi_class='auto', solver='lbfgs')
clf.fit(X_train, y_train)

# Evaluar la precisión del modelo en los datos de prueba
y_pred = clf.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f'Precisión del modelo en datos de prueba: {acc:.2f}')


Precisión del modelo en datos de prueba: 0.67


Este código crea un conjunto de datos de clasificación de ejemplo con 1000 muestras, 5 características, 3 clases y 3 características informativas. Luego, divide los datos en un conjunto de entrenamiento de 800 muestras y un conjunto de prueba de 200 muestras, y entrena un modelo de regresión logística para clasificar los datos.

A continuación, podemos comparar los resultados de clasificación utilizando diferentes categorizaciones. Por ejemplo, podemos considerar las categorías "Bajo", "Medio" y "Alto" para la variable objetivo, y aplicar diferentes estrategias de categorización, como el punto de corte de la media, los cuartiles, etc.

Aquí está el código en Python para aplicar diferentes categorizaciones y evaluar la precisión del modelo:

In [2]:
# Categorizar los datos utilizando diferentes estrategias
y_mean = np.where(y_test >= np.mean(y_train), 2, np.where(y_test >= np.median(y_train), 1, 0))
y_q1 = np.where(y_test >= np.percentile(y_train, 25), 2, np.where(y_test >= np.percentile(y_train, 50), 1, 0))
y_q3 = np.where(y_test >= np.percentile(y_train, 75), 2, np.where(y_test >= np.percentile(y_train, 50), 1, 0))

# Evaluar la precisión del modelo en los datos de prueba con diferentes categorizaciones
acc_mean = accuracy_score(y_mean, y_pred)
acc_q1 = accuracy_score(y_q1, y_pred)
acc_q3 = accuracy_score(y_q3, y_pred)
print(f'Precisión del modelo en datos de prueba con categorización de la media: {acc_mean:.2f}')
print(f'Precisión del modelo en datos de prueba con categorización del cuartil 1: {acc_q1:.2f}')
print(f'Precisión del modelo en datos de prueba con categorización del cuartil 3: {acc_q3:.2f}')


Precisión del modelo en datos de prueba con categorización de la media: 0.58
Precisión del modelo en datos de prueba con categorización del cuartil 1: 0.37
Precisión del modelo en datos de prueba con categorización del cuartil 3: 0.67


## **2. Datos categóricos y Contexto**

Los datos categóricos pueden ser influenciados por el contexto en el que se recopilan. Por ejemplo, la percepción de un color puede variar según el contexto en el que se presente. Aquí hay un ejemplo de cómo trabajar con datos categóricos y contexto en Python utilizando la biblioteca Pandas:

In [4]:
import pandas as pd

# Crear un conjunto de datos de ejemplo
df = pd.DataFrame({'color': ['azul', 'verde', 'rojo', 'verde', 'azul', 'rojo'],
                   'contexto': ['día soleado', 'día nublado', 'día nublado', 'día nublado', 'día soleado', 'día nublado']})

# Convertir la columna 'color' a una variable categórica nominal
df['color'] = pd.Categorical(df['color'], categories=['rojo', 'verde', 'azul'])

# Crear una tabla de contingencia que muestre la frecuencia de cada color en cada contexto
tabla_contingencia = pd.crosstab(df['color'], df['contexto'])

# Calcular las proporciones de cada color en cada contexto
proporciones = tabla_contingencia.div(tabla_contingencia.sum(axis=0), axis=1)

# Mostrar la tabla de contingencia y las proporciones resultantes
print('Tabla de contingencia:')
print(tabla_contingencia)
print('\nProporciones:')
print(proporciones)


Tabla de contingencia:
contexto  día nublado  día soleado
color                             
rojo                2            0
verde               2            0
azul                0            2

Proporciones:
contexto  día nublado  día soleado
color                             
rojo              0.5          0.0
verde             0.5          0.0
azul              0.0          1.0


Este código crea un conjunto de datos de ejemplo con dos variables: 'color' y 'contexto'. La columna 'color' es una variable categórica que puede tomar los valores 'rojo', 'verde' o 'azul', y la columna 'contexto' describe el contexto en el que se presenta cada muestra. Luego, se convierte la columna 'color' a una variable categórica nominal utilizando la función ```pd.Categorical```, que especifica las categorías permitidas. A continuación, se crea una tabla de contingencia que muestra la frecuencia de cada color en cada contexto utilizando la función ```pd.crosstab```. Finalmente, se calculan las proporciones de cada color en cada contexto dividiendo cada valor en la tabla de contingencia por el total de la columna correspondiente utilizando el método ```.div()```.

El resultado es una tabla de contingencia que muestra la frecuencia de cada color en cada contexto y un conjunto de proporciones que muestran cómo varía la distribución de colores según el contexto. Estos resultados pueden ayudar a comprender cómo el contexto puede influir en la percepción de un color y cómo se pueden ajustar los análisis en consecuencia.

## **3. Conversión de object a category**

En Pandas, a menudo se almacenan variables categóricas como objetos. Sin embargo, es más eficiente en términos de memoria y velocidad de procesamiento almacenarlas como variables categóricas. Aquí hay un ejemplo de cómo convertir una columna de objeto a una columna de categoría en Pandas:

In [5]:
import pandas as pd

# Crear un DataFrame de ejemplo
df = pd.DataFrame({'color': ['azul', 'verde', 'rojo', 'verde', 'azul', 'rojo']})

# Convertir la columna 'color' de objeto a categoría
df['color'] = df['color'].astype('category')

# Mostrar la información del DataFrame
print(df.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   color   6 non-null      category
dtypes: category(1)
memory usage: 266.0 bytes
None


En este ejemplo, se crea un DataFrame de ejemplo con una columna 'color' que contiene valores de tipo objeto. Para convertir esta columna en una variable categórica, se utiliza el método ```astype``` y se especifica el tipo de datos "category". Después de la conversión, se muestra la información del DataFrame utilizando el método ```info()```, que muestra el tipo de datos de cada columna.

Aquí, se puede observar que la columna 'color' ahora se ha convertido en una variable categórica, lo que se indica mediante el tipo de datos "category". Además, el uso de memoria del DataFrame se ha reducido significativamente a solo 278.0 bytes.

## **4. Qué no hacer con datos categóricos**

Es importante tener en cuenta ciertos errores comunes que deben evitarse al trabajar con datos categóricos. Aquí hay un ejemplo de lo que no se debe hacer con datos categóricos utilizando la biblioteca Pandas:

In [7]:
import pandas as pd

# Crear un DataFrame de ejemplo
df = pd.DataFrame({'color': ['azul', 'verde', 'rojo', 'verde', 'azul', 'rojo'],
                   'animal': ['perro', 'gato', 'perro', 'perro', 'gato', 'perro']})

# Crear una tabla de contingencia utilizando groupby
tabla_contingencia = df.groupby(['color', 'animal']).size().unstack()

# Normalizar la tabla de contingencia
tabla_contingencia_normalizada = tabla_contingencia.div(tabla_contingencia.sum(axis=1), axis=0)

# Mostrar la tabla de contingencia y la tabla de contingencia normalizada
print('Tabla de contingencia:')
print(tabla_contingencia)
print('\nTabla de contingencia normalizada:')
print(tabla_contingencia_normalizada)


Tabla de contingencia:
animal  gato  perro
color              
azul     1.0    1.0
rojo     NaN    2.0
verde    1.0    1.0

Tabla de contingencia normalizada:
animal  gato  perro
color              
azul     0.5    0.5
rojo     NaN    1.0
verde    0.5    0.5


En este ejemplo, se crea un DataFrame de ejemplo con dos variables categóricas: 'color' y 'animal'. Luego, se crea una tabla de contingencia utilizando el método ```groupby``` de Pandas. Sin embargo, este método no es adecuado para crear tablas de contingencia ya que no muestra los valores faltantes y puede dar lugar a resultados incorrectos. A continuación, se normaliza la tabla de contingencia dividiendo cada fila por la suma de los valores de la fila. Esta normalización también es incorrecta, ya que no tiene en cuenta los valores faltantes en la tabla de contingencia.

## **5. Codificación One-Hot**

La Codificación One-Hot es una técnica utilizada en el análisis de datos para convertir variables categóricas en variables numéricas que puedan ser utilizadas por algoritmos de aprendizaje automático. La idea básica detrás de la codificación One-Hot es crear una columna separada para cada valor único en una variable categórica y asignar un valor binario (0 o 1) a cada columna según si ese valor único está presente o no en cada fila de datos.

Aquí te dejo un ejemplo de cómo implementar la codificación One-Hot en Python utilizando la biblioteca Pandas:

In [9]:
import pandas as pd

# Crear un dataframe de ejemplo
df = pd.DataFrame({'Color': ['Rojo', 'Azul', 'Verde', 'Rojo', 'Amarillo']})

# Utilizar la función "get_dummies" de Pandas para codificar la columna "Color"
encoded = pd.get_dummies(df['Color'])

# Unir las columnas codificadas al dataframe original
df = pd.concat([df, encoded], axis=1)

# Imprimir el dataframe resultante
print(df)


      Color  Amarillo  Azul  Rojo  Verde
0      Rojo         0     0     1      0
1      Azul         0     1     0      0
2     Verde         0     0     0      1
3      Rojo         0     0     1      0
4  Amarillo         1     0     0      0


En este ejemplo, se crea un dataframe con una columna llamada "Color" que contiene cinco valores categóricos diferentes. Se utiliza la función ```get_dummies``` de Pandas para transformar esta columna en variables dummy codificadas en formato One-Hot. Luego, se unen estas columnas codificadas al dataframe original mediante la función ```concat```. Como se puede ver en el resultado, cada valor único de la columna "Color" se convierte en una columna propia en el dataframe codificado, donde el valor 1 indica que la fila pertenece a esa categoría y 0 indica que no.