# Operaciones sobre datos categóricos

Las operaciones sobre datos categóricos en Pandas son esenciales para la manipulación y análisis eficiente de datos que representan categorías o etiquetas.  
Los datos categóricos se almacenan internamente como enteros, lo que proporciona una ventaja significativa en términos de eficiencia de almacenamiento y rendimiento de las operaciones.

* **Creación de datos categóricos**: Los datos categóricos se pueden crear directamente al definir una Serie o al convertir una Serie existente de otro tipo de datos.

In [4]:
import pandas as pd

# Crear una Serie categórica desde cero
serie_categorica = pd.Series(['rojo', 'verde', 'azul'], dtype='category')
print(serie_categorica)

# Convertir una Serie de texto a categórica
serie_texto = pd.Series(['bajo', 'medio', 'alto', 'medio'])
serie_texto = serie_texto.astype('category')
print(serie_texto)

0     rojo
1    verde
2     azul
dtype: category
Categories (3, object): ['azul', 'rojo', 'verde']
0     bajo
1    medio
2     alto
3    medio
dtype: category
Categories (3, object): ['alto', 'bajo', 'medio']


* **Reordenación de categorías**: Es posible reordenar las categorías utilizando el método ``.reorder_categories()``. Esto es útil cuando se necesita un orden específico para el análisis o la visualización de datos.

In [7]:
# Reordenar categorías
serie_categorica = serie_categorica.cat.reorder_categories(['verde', 'rojo', 'azul'], ordered=True)
print(serie_categorica)


0     rojo
1    verde
2     azul
dtype: category
Categories (3, object): ['verde' < 'rojo' < 'azul']


* **Añadir y eliminar categorías**: Se pueden añadir nuevas categorías a una Serie categórica existente utilizando ``.add_categories()``, y eliminar categorías con ``.remove_categories()``.

In [10]:
# Añadir una nueva categoría
serie_categorica = serie_categorica.cat.add_categories(['amarillo'])
print(serie_categorica)

# Eliminar una categoría
serie_categorica = serie_categorica.cat.remove_categories(['amarillo'])
print(serie_categorica)

0     rojo
1    verde
2     azul
dtype: category
Categories (4, object): ['verde' < 'rojo' < 'azul' < 'amarillo']
0     rojo
1    verde
2     azul
dtype: category
Categories (3, object): ['verde' < 'rojo' < 'azul']


* **Renombrar categorías**: Las categorías pueden ser renombradas utilizando el método ``.rename_categories()``. Este método es útil para ajustar los nombres de las categorías a convenciones específicas o para mejorar la legibilidad.

In [13]:
# Renombrar categorías
serie_categorica = serie_categorica.cat.rename_categories({'rojo': 'Red', 'verde': 'Green', 'azul': 'Blue'})
print(serie_categorica)

0      Red
1    Green
2     Blue
dtype: category
Categories (3, object): ['Green' < 'Red' < 'Blue']


* **Ordenación y Comparación**: Las Series categóricas pueden ser ordenadas fácilmente. Las categorías ordenadas permiten realizar comparaciones lógicas entre los elementos. Por ejemplo, cuando las categorías tienen un orden implícito (como "bajo", "medio", "alto"), es posible comparar los elementos directamente para determinar su relación.

In [16]:
# Ordenar una Serie categórica
serie_ordenada = serie_texto.sort_values()
print(serie_ordenada)

# Crear una Serie categórica con un orden específico
serie_texto_ordenado = serie_texto.astype(pd.CategoricalDtype(categories=['bajo', 'medio', 'alto'], ordered=True))
print(serie_texto_ordenado > 'bajo')  # Esto devolverá True para categorías superiores a 'bajo'

2     alto
0     bajo
1    medio
3    medio
dtype: category
Categories (3, object): ['alto', 'bajo', 'medio']
0    False
1     True
2     True
3     True
dtype: bool


* **Agrupamiento y agregación**: Los datos categóricos son extremadamente útiles para operaciones de agrupamiento y agregación, ya que permiten segmentar los datos de manera eficiente según las categorías.

In [19]:
# Crear un DataFrame con datos categóricos
df = pd.DataFrame({
    'grupo': pd.Series(['A', 'B', 'A', 'B', 'A'], dtype='category'),
    'valor': [10, 20, 30, 40, 50]
})

# Agrupar por la columna categórica y calcular la media
agrupado = df.groupby('grupo', observed=False).mean()
print(agrupado)


       valor
grupo       
A       30.0
B       30.0


* **Conversión a otro tipo de datos**: En caso de ser necesario, se puede convertir una Serie categórica a otro tipo de datos, como texto o numérico, utilizando el método ``.astype()``.