# Datos categóricos

En el contexto de análisis de datos, hay dos grandes grupos de tipos de datos que podemos distinguir: 
* Los **numéricos**, que como su nombre lo indica, son aquellos que poseen un valor cuantitativo, o una representación mediante un número
* Los **categóricos**, que son aquellos que en cierta forma clasifican nuestro datos en clases, tipos, categorías (expresadas o representadas para nosotros, los seres humanos, con palabras). Por ejemplo, un caso de dato categórico es el país de origen de una persona. Algunos individuos tendrán su nacionalidad en un país y otros en otro.

Teniendo en cuenta que nuestro algoritmos de análisis de datos y de aprendizaje de máquina se manejan con conjuntos que no son otra cosa que arrays o vectores, y específicamente vectores con valores numéricos, se hace necesario para trabajar con este tipo de datos, que están representados con palabras, realizar una transformación de los mismos a un tipo de objeto categórico que internamente los algoritmos tratarán como si fueran números.

## Datos Categóricos: Nominales y Ordinales

Fuente del siguiente texto: ChatGPT

Los **datos categóricos** son aquellos que se refieren a categorías o grupos y no tienen un valor numérico que se pueda medir en una escala continua. Se dividen en dos tipos: **nominales** y **ordinales**.

### 1. Datos Categóricos Nominales

Los **datos nominales** representan categorías sin un orden o jerarquía específica. Los valores simplemente se etiquetan, pero no se puede hacer ningún tipo de comparación de magnitud o clasificación entre ellos. Las categorías son mutuamente excluyentes, y los datos no tienen un "orden lógico" entre sí.

#### Ejemplos:
- Género (masculino, femenino, otro)
- Color de ojos (azul, verde, marrón, negro)
- Nacionalidad (español, francés, japonés)

En resumen, los datos **nominales** solo sirven para identificar y clasificar elementos en grupos sin ningún tipo de jerarquía.

---

### 2. Datos Categóricos Ordinales

Los **datos ordinales** tienen un orden o jerarquía inherente entre las categorías, pero la diferencia entre las categorías no es necesariamente igual o medible.

#### Ejemplos:
- Nivel educativo (primaria, secundaria, terciaria, universitaria)
- Clasificación en una competencia (1er lugar, 2do lugar, 3er lugar)
- Escala de satisfacción (muy insatisfecho, insatisfecho, neutral, satisfecho, muy satisfecho)

En los datos **ordinales**, existe un orden claro, pero no se puede medir la distancia exacta entre las categorías. Por ejemplo, la diferencia entre "satisfecho" y "muy satisfecho" no es necesariamente igual a la diferencia entre "neutral" y "insatisfecho".

---

### Resumen

- **Nominales**: Categorías sin orden (ej., colores, géneros).
- **Ordinales**: Categorías con un orden o jerarquía (ej., niveles educativos, clasificaciones).
  
Ambos tipos de datos son **cualitativos**, pero la diferencia principal radica en si existe o no un orden entre las categorías.


## Datos Categóricos Nominales

In [20]:
import pandas as pd

In [21]:
# Contexto bancario
datos = {"nombre" : ["Mariana", "Ana", "Elsa", "Gustavo",
                     "Pedro", "Raúl", "Carlos", "José", "Luis"],
         
         "saldo" : [10000.00, 8000.00, 9000.00, 2000.00,
                    2100.00, 12000.00, 5000.00, 10000.00, 200.00],
         
         "pais" : ["Argentina", "Bolivia", "Chile", "Colombia",
                   "Costa Rica", "Ecuador", "México", "Perú", "Perú"]}

datos = pd.DataFrame(datos)
datos

Unnamed: 0,nombre,saldo,pais
0,Mariana,10000.0,Argentina
1,Ana,8000.0,Bolivia
2,Elsa,9000.0,Chile
3,Gustavo,2000.0,Colombia
4,Pedro,2100.0,Costa Rica
5,Raúl,12000.0,Ecuador
6,Carlos,5000.0,México
7,José,10000.0,Perú
8,Luis,200.0,Perú


Si nosotros revisamos la información de las columnas de nuestro dataframe de ejemplo, veremos que la columna `pais`, que vendría a ser de tipo categórico para nosotros, es de tipo `object` es decir texto. 

In [22]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   nombre  9 non-null      object 
 1   saldo   9 non-null      float64
 2   pais    9 non-null      object 
dtypes: float64(1), object(2)
memory usage: 348.0+ bytes


Para que `pandas` trabaje esta columna como datos categóricos, realizamos el pasaje pertinente:

In [23]:
datos["pais"] = datos["pais"].astype("category")
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   nombre  9 non-null      object  
 1   saldo   9 non-null      float64 
 2   pais    9 non-null      category
dtypes: category(1), float64(1), object(1)
memory usage: 649.0+ bytes


Otra forma de hacer lo mismo:

In [24]:
datos["pais"] = pd.Categorical(datos["pais"])
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   nombre  9 non-null      object  
 1   saldo   9 non-null      float64 
 2   pais    9 non-null      category
dtypes: category(1), float64(1), object(1)
memory usage: 649.0+ bytes


## INAPROPIADA codificación con reemplazo

El siguiente es un ejemplo de cómo NO debemos realizar la transformación de nuestros datos a un tipo categórico. En este caso, al introducir nosotros mismos un valor numérico, tal vez azaroso, a cada valor de texto de nuestros datos categóricos, estaríamos agregando información que puede estar errónea o *sesgada*.
Si analizamos el caso de Argentina con valor 1 y Bolivia con valor 2, nuestros algoritmos estarían interpretando que Argentina y Bolivia por cercanía están próximas entre sí y son similares, lo cual no necesariamente es así. Lo mismo ocurriría con el caso de México y Perú, y así sucesivamente. Claramente, se está incurriendo en falacias e información equivocada.

In [25]:
datos_sesgados = datos.copy()

reemplazos = {"Argentina" : 1,
             "Bolivia" : 2, 
             "Chile" : 3, 
             "Colombia" : 4,                        
             "Costa Rica" : 5,
             "Ecuador" : 6, 
             "México" : 7, 
             "Perú" : 8}

datos_sesgados["pais"].replace(reemplazos, inplace=True)
datos_sesgados

Unnamed: 0,nombre,saldo,pais
0,Mariana,10000.0,1
1,Ana,8000.0,2
2,Elsa,9000.0,3
3,Gustavo,2000.0,4
4,Pedro,2100.0,5
5,Raúl,12000.0,6
6,Carlos,5000.0,7
7,José,10000.0,8
8,Luis,200.0,8


Siendo así, hay formas mejores de codificar nuestros datos para realizar la transformación necesaria hacia tipos categóricos, que se analizarán a continuación.

## Codificación de Categorías One-Hot

### Un poco de teoría...

Fuente del siguiente texto: ChatGPT

#### Codificación de Categorías mediante One-Hot Encoding

La **codificación One-Hot** es un método común utilizado para transformar datos categóricos en un formato numérico, lo cual es esencial cuando trabajamos con algoritmos de aprendizaje automático que no pueden procesar directamente variables categóricas. Esta técnica crea una nueva columna para cada categoría única de una variable y asigna un valor binario (0 o 1) dependiendo de si esa categoría está presente o no en la observación.

##### ¿Cómo funciona la codificación One-Hot?

Supongamos que tienes una variable categórica llamada "Color" con tres categorías posibles: "Rojo", "Verde" y "Azul". La codificación One-Hot creará tres nuevas columnas, una para cada categoría, y asignará un valor de 1 a la columna que corresponda con el color presente en cada observación, y 0 en las demás.

###### Ejemplo:

| Color  | Rojo | Verde | Azul |
|--------|------|-------|------|
| Rojo   | 1    | 0     | 0    |
| Verde  | 0    | 1     | 0    |
| Azul   | 0    | 0     | 1    |
| Rojo   | 1    | 0     | 0    |
| Verde  | 0    | 1     | 0    |

##### ¿Por qué usar One-Hot Encoding?

1. **Compatibilidad con modelos de ML**: Muchos algoritmos de aprendizaje automático (como los árboles de decisión, redes neuronales y regresión logística) requieren que las variables categóricas se conviertan en valores numéricos, ya que no pueden procesar directamente texto o categorías.
  
2. **No asume orden**: One-Hot encoding es útil para variables **categóricas nominales** (que no tienen un orden específico), ya que no introduce ningún tipo de relación jerárquica entre las categorías.

3. **Simplicidad y eficiencia**: Es una técnica sencilla y directa que transforma los datos categóricos de forma efectiva para que los modelos puedan trabajar con ellos.

##### Ventajas y Desventajas

###### Ventajas:
- **Simboliza categorías sin relación implícita**: No crea suposiciones sobre el orden o las distancias entre categorías.
- **Facilidad de implementación**: Es una técnica ampliamente soportada por herramientas de análisis de datos, como `pandas` en Python.

###### Desventajas:
- **Aumento de dimensionalidad**: Si tienes una variable categórica con muchas categorías, One-Hot Encoding puede generar un número elevado de columnas, lo que puede hacer que tu conjunto de datos se vuelva muy grande (esto se conoce como el problema de la "explosión de dimensionalidad").
- **Pérdida de información**: No captura ninguna relación entre las categorías. Por ejemplo, si las categorías tienen algún tipo de orden o cercanía semántica, One-Hot Encoding no lo refleja.

##### Alternativas a One-Hot Encoding

1. **Label Encoding**: Convierte cada categoría en un número entero. Sin embargo, este método puede introducir un orden artificial (por ejemplo, 0 < 1 < 2), lo cual no es adecuado para categorías sin un orden implícito.
  
2. **Embeddings**: En modelos complejos como redes neuronales, se pueden usar representaciones densas (embeddings) para codificar categorías, lo cual reduce la dimensionalidad y captura relaciones semánticas entre las categorías.

##### Resumen

- **One-Hot Encoding** transforma categorías en columnas binarias.
- Es útil para **datos categóricos nominales**.
- Es fácil de usar y ampliamente soportado, pero puede ser ineficiente cuando hay muchas categorías.
  
Esta técnica es una de las más comunes en el preprocesamiento de datos para aprendizaje automático.


### Ejemplo práctico con scikit-learn

In [26]:
from sklearn.preprocessing import OneHotEncoder

In [27]:
codificador = OneHotEncoder()
codificacion = codificador.fit_transform(datos[["pais"]]) # se pasa doble corchetes porque este metodo trabaja con Dataframes, no con Series

print(type(codificacion))
print(codificacion)
print(codificacion.toarray())

<class 'scipy.sparse._csr.csr_matrix'>
  (0, 0)	1.0
  (1, 1)	1.0
  (2, 2)	1.0
  (3, 3)	1.0
  (4, 4)	1.0
  (5, 5)	1.0
  (6, 6)	1.0
  (7, 7)	1.0
  (8, 7)	1.0
[[1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


In [28]:
nuevas_columnas = pd.DataFrame(codificacion.toarray(), columns=codificador.categories_)
nuevas_columnas

Unnamed: 0,Argentina,Bolivia,Chile,Colombia,Costa Rica,Ecuador,México,Perú
0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
5,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
6,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
7,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
8,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0


In [29]:
datos = pd.concat([datos, nuevas_columnas], axis="columns")
datos

Unnamed: 0,nombre,saldo,pais,"(Argentina,)","(Bolivia,)","(Chile,)","(Colombia,)","(Costa Rica,)","(Ecuador,)","(México,)","(Perú,)"
0,Mariana,10000.0,Argentina,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,Ana,8000.0,Bolivia,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
2,Elsa,9000.0,Chile,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
3,Gustavo,2000.0,Colombia,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
4,Pedro,2100.0,Costa Rica,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
5,Raúl,12000.0,Ecuador,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
6,Carlos,5000.0,México,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
7,José,10000.0,Perú,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
8,Luis,200.0,Perú,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0


In [30]:
datos.drop("pais", axis="columns", inplace=True)
datos

Unnamed: 0,nombre,saldo,"(Argentina,)","(Bolivia,)","(Chile,)","(Colombia,)","(Costa Rica,)","(Ecuador,)","(México,)","(Perú,)"
0,Mariana,10000.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,Ana,8000.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
2,Elsa,9000.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
3,Gustavo,2000.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
4,Pedro,2100.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
5,Raúl,12000.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
6,Carlos,5000.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
7,José,10000.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
8,Luis,200.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
