[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Datos categóricos.

In [None]:
import pandas as pd
import numpy as np

## El tipo de dato ```category```.

A diferencia del tipo ```object```, que almacena cadenas de caracteres de forma genérica, el tipo ```category``` asigna un conjunto limitado de categorías a los valores de una columna, lo que reduce el espacio de almacenamiento necesario y acelera las operaciones de comparación y agrupamiento.

El tipo de dato ```category``` es un tipo especial de *Pandas* correspondiente la clase `pd.Categorical`, que permite almacenar datos que contienen una cantidad finita de valores posibles. Este tipo de dato es útil para optimizar el uso de memoria y mejorar el rendimiento en operaciones de análisis de datos cuando se trabaja con variables 
categóricas.


```
<serie> = pd.Categorical(<datos>, categories=<categorías>, ordered=<booleano>)
```

Donde:

* `<serie>` es la variable que almacenará la serie categórica resultante.
* `<datos>` es una lista o un array de valores que se desea convertir a tipo categórico.
* `<categorías>` es una lista de categorías únicas que se asignarán a los valores de la serie. Si no se especifica, se generarán automáticamente a partir de los datos.
* `<booleano>` es un valor booleano que indica si las categorías tienen un orden específico (`True`) o no (`False `). Por defecto, es `False.

Cada valor de una serie categórica es mapeado a un número entero que representa su categoría, lo que facilita la manipulación de los datos y mejora el rendimiento en análisis de datos.

**Ejemplo:**

* La siguiente celda creará el *dataframe* `pigmentos` con una columna llamada ```colores``` que contiene datos categóricos.

In [None]:
pigmentos = pd.DataFrame({'colores': pd.Categorical(['rojo', 'azul', 'verde', 'azul', 'rojo', 'verde', 'rojo'])})

In [None]:
pigmentos

* La siguiente celda convertirá la columna ```datos['colores']``` al tipo de dato ```category``` usando el método ```astype()```.

In [None]:
pigmentos['colores'] = pigmentos['colores'].astype('category')
pigmentos['colores'].dtype

### El atributo `pd.cat.categories`.
Este atributo devuelve un objeto de tipo `pd.Index` que contiene las categorías únicas presentes en una serie categórica.




**Ejemplo:**

* La siguiente celda mostrará las categorías actuales de la columna ```pigmentos['colores']```.

In [None]:
pigmentos['colores'].cat.categories

# El atributo `pd.cat.codes`.

Este atributo devuelve una serie de enteros que representan las categorías codificadas de una serie categórica. Cada categoría se asigna a un número entero único, comenzando desde 0 en el orden en que aparecen las categorías.

El orden de las categorías se determina por el orden en que aparecen en la serie original, a menos que se especifique un orden diferente al crear la serie categórica.

Las series categóricas también pueden contener valores faltantes, que se representan como `NaN`. Estos valores no se asignan a ninguna categoría y se codifican como `-1` en la serie de códigos.

**Ejemplo:**

* La columna ```pigmentos['colores']``` contiene una categoría que mapea a cada cadena de caracteres a un número enteros de tal forma que:
 * ```azul``` se mapea a `0`.
 * ```rojo``` se mapea a `1`.
 * ```verde``` se mapea a `2`.

* La siguiente celda mostrará el contenido de la columna ```pigmentos['colores']```.

In [None]:
pigmentos["colores"]

* La siguiente celda mostrará los códigos de las categorías correspondientes en la columna ```pigmentos['colores']```.

In [None]:
pigmentos["colores"].cat.codes   

* La siguiente celda le asignará el valor `np.nan` al elemento con índice `2` en la columna ```pigmentos['colores']```.

In [None]:
pigmentos.loc[2, 'colores'] = np.nan

In [None]:
pigmentos['colores']

In [None]:
pigmentos['colores'].cat.codes

### Asignación de valores distintos a las categorías definidas.

Intentar asignar un nuevo valor a una categoría que no existe en la columna de tipo `'category'` generará un error de tipo `TypeError`. Esto se debe a que el tipo de dato 'category' tiene un conjunto fijo de categorías, y no permite la adición de nuevas categorías de forma implícita.

**Ejemplo:**

* La siguiente celda tratará de asignar el valor ```amarillo``` a la posición con índice `2` en la columna ```pigmentos['colores']```, lo que generará un error de tipo `TypeError` porque la categoría ```amarillo``` no existe en la columna.

In [None]:
pigmentos.loc[2, 'colores'] = 'amarillo'  # Asignación errónea: 'amarillo' no es una categoría válida

## Gestión de categorías.

Existen varias formas de gestionar las categorías en una serie categórica, como agregar nuevas categorías, eliminar categorías existentes o cambiar el orden de las categorías.

### Agregar nuevas categorías.
Para agregar nuevas categorías a una serie categórica, se puede utilizar el método `add_categories()`. 
Este método regresa una nueva serie categórica con las categorías adicionales, pero no modifica la serie original.
```
<serie>.cat.add_categories(<nueva_categoria>)
```
Donde:
* `<serie>` es la serie categórica a la que se le agregarán las nuevas categorías.
* `<nueva_categoria>` es la categoría o categorías que se desean agregar. Puede ser una cadena de caracteres o una lista de cadenas de caracteres.

**Ejemplo:**

* La siguiente creará un objeto Index que añadirá la categoría ```amarillo``` a la columna ```pigmentos['colores']``` mediante el método `add_categories()`.

In [None]:
pigmentos['colores'].cat.add_categories('amarillo')  # Agregar 'amarillo' como una categoría válida

* La siguiente celda asignará el nuevo índice a la variable `nueva_categoria`.

In [None]:
nueva_categoria = pigmentos['colores'].cat.add_categories('amarillo')

* La columna ```pigmentos['colores']``` no se modificará, pero el nuevo objeto Index contendrá la categoría adicional ```amarillo```.

* Para aplicar este nuevo índice, es necesario reasignar el resultado a la columna 'colores' después de agregar la nueva categoría:

In [None]:
pigmentos['colores'] = pigmentos['colores'].cat.add_categories('amarillo')

In [None]:
pigmentos['colores'].cat.categories

* Ahora es posible asignar la categoría ```amarillo``` a la posición con índice `2`:

In [None]:
pigmentos.loc[2, 'colores'] = 'amarillo'
pigmentos

### Eliminar categorías.

Para eliminar categorías de una serie categórica, se utiliza el método `remove_categories()`. Este método regresa una nueva serie categórica sin las categorías especificadas.

```
<serie>.cat.remove_categories(<categoria>)
```

Donde:

* `<serie>` es la serie categórica de la que se eliminarán categorías.
* `<categoria>` es la categoría o categorías a eliminar. Puede ser una cadena de caracteres o una lista de cadenas de caracteres.

**Ejemplo:**

* La siguiente celda eliminará la categoría ```verde``` de la columna ```pigmentos['colores']```:

In [None]:
pigmentos['colores'] = pigmentos['colores'].cat.remove_categories(['verde'])
pigmentos['colores'].cat.categories

### Renombrar categorías.

Para renombrar categorías de una serie categórica, se utiliza el método `rename_categories()`. Este método regresa una nueva serie categórica con las categorías renombradas.

```
<serie>.cat.rename_categories(<diccionario>)
```

Donde:

* `<serie>` es la serie categórica cuyas categorías serán renombradas.
* `<diccionario>` es un diccionario con los nombres actuales como claves y los nuevos nombres como valores.

**Ejemplo:**

* La siguiente celda renombrará las categorías de la columna ```pigmentos['colores']``` usando un diccionario:

In [None]:
pigmentos['colores'] = pigmentos['colores'].cat.rename_categories({'rojo': 'color_rojo', 'azul': 'color_azul', 'amarillo': 'color_amarillo'})
pigmentos['colores'].cat.categories

### Categorías ordenadas.

Es posible especificar que las categorías de una serie categórica tengan un orden específico usando el parámetro ```ordered=True``` al crear la serie categórica. Las categorías ordenadas permiten realizar comparaciones entre valores categóricos.

```
pd.Categorical(<datos>, categories=<categorías>, ordered=True)
```

Donde:

* `<datos>` son los valores de la serie.
* `<categorías>` es una lista ordenada de las categorías.
* `ordered=True` indica que las categorías tienen un orden específico.

**Ejemplo:**

* Se creará una nueva serie categórica con categorías ordenadas que representan niveles de calificación:

In [None]:
calificaciones = pd.Series(pd.Categorical(['bajo', 'medio', 'alto', 'bajo', 'alto'],
                                          categories=['bajo', 'medio', 'alto'],
                                          ordered=True))
calificaciones

* El atributo `ordered` devuelve `True` si la serie categórica tiene un orden especificado:

In [None]:
calificaciones.cat.ordered

* Las categorías ordenadas permiten realizar comparaciones entre valores categóricos:

In [None]:
calificaciones[0] < calificaciones[1]

In [None]:
calificaciones[2] > calificaciones[1]

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2017-2026.</p>