# Categorical Data
Los datos categóricos son variables que toman un número limitado de valores posibles, como géneros, categorías de productos, colores, etc. pandas proporciona herramientas poderosas para representar y manejar eficientemente estos tipos de datos.
En pandas, puedes usar el tipo *Categorical* para representar datos categóricos, lo que mejora el rendimiento y la claridad del código

## Crear Datos Categóricos

| Función | Descripción | Ejemplo de uso |
|---------|-------------|----------------|
| `pd.Categorical()` | Convierte una Serie o lista en un tipo de dato categórico | `pd.Categorical(['apple','banana', 'apple'])` |
| `astype('category')` |  Convierte una columna en categórica | `df['col'].astype('category')` |

In [11]:
import pandas as pd

In [12]:
# Convierte una Serie o lista en un tipo de dato categórico
categories = pd.Categorical(['apple', 'banana', 'apple', 'orange'])

In [13]:
# Convertir una columna de DataFrame en categórica
df = pd.DataFrame({
    'fruit': ['apple', 'banana', 'apple', 'orange', 'banana']
})

df['fruit_cat'] = df['fruit'].astype('category')

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype   
---  ------     --------------  -----   
 0   fruit      5 non-null      object  
 1   fruit_cat  5 non-null      category
dtypes: category(1), object(1)
memory usage: 309.0+ bytes


## Ordenar Categorías

| Función | Descripción | Ejemplo de uso |
|---------|-------------|----------------|
| `CategoricalDtype()` | Define un tipo categórico ordenado | `pd.Categorical(df['col'],categories=..., ordered=True)` |

In [15]:
# Crear categorías ordenadas
categories_ordered = pd.Categorical(['low', 'medium', 'high', 'medium'], categories=['low', 'medium', 'high'], ordered=True)
categories_ordered

['low', 'medium', 'high', 'medium']
Categories (3, object): ['low' < 'medium' < 'high']

## Codificación de Datos Categóricos

| Función | Descripción | Ejemplo de uso |
|---------|-------------|----------------|
| `cat.codes` | Devuelve los códigos numéricos de las categorías | `df['fruit_cat'].cat.codes` |

In [16]:
# Obtener los códigos numéricos de las categorías
df['fruit_codes'] = df['fruit_cat'].cat.codes
df

Unnamed: 0,fruit,fruit_cat,fruit_codes
0,apple,apple,0
1,banana,banana,1
2,apple,apple,0
3,orange,orange,2
4,banana,banana,1



`df['fruit_code'] = df['fruit'].cat.codes`
<br> No funciona porque fruit no es categórica


## Operaciones con Datos Categóricos

| Función | Descripción | Ejemplo de uso |
|---------|-------------|----------------|
| `cat.add_categories()` | Agrega nuevas categorías | `df['fruit_cat'].cat.add_categories(['grape'])` |
| `cat.remove_categories()` | Elimina categorías | `df['fruit_cat'].cat.remove_categories(['orange'])` | 
| `cat.rename_categories()` | Renombra categorías | `df['fruit_cat'].cat.rename_categories({'apple':'APPLE'})` |
| `cat.set_categories()` | Establece un nuevo conjunto de categorías | `df['fruit_cat'].cat.set_categories(['banana','apple', 'orange'])` |

In [17]:
# Renombrar una categoría
df['fruit_cat'] = df['fruit_cat'].cat.rename_categories({'apple': 'APPLE'})
df

Unnamed: 0,fruit,fruit_cat,fruit_codes
0,apple,APPLE,0
1,banana,banana,1
2,apple,APPLE,0
3,orange,orange,2
4,banana,banana,1


## Verificar si una Columna es Categórica

| Función | Descripción | Ejemplo de uso |
|---------|-------------|----------------|
| `df.dtypes` | Devuelve los tipos de datos de las columnas del DataFrame | `df.dtypes` |
| `df['col'].dtype == 'category'` | Verifica si una columna es de tipo categórico | `df['fruit_cat'].dtype =='category'` |

In [18]:
# Verificar si una columna es categórica
df['fruit_cat'].dtype == 'category'

True

## Filtrar y Agrupar por Categorías

| Función | Descripción | Ejemplo de uso |
|---------|-------------|----------------|
| `groupby()` | Agrupa datos por categorías | `df.groupby('fruit_cat').sum()` |

Actualmente, el valor por defecto de observed es False, lo que significa que cuando agrupas datos utilizando categorías, se muestran todas las combinaciones posibles de categorías, incluso si no hay datos para algunas combinaciones. Sin embargo, en futuras versiones, este valor predeterminado cambiará a True, lo que significa que solo se mostrarán las combinaciones de categorías que efectivamente están presentes en los datos.


In [19]:
df.groupby('fruit_cat', observed=True).sum()

Unnamed: 0_level_0,fruit,fruit_codes
fruit_cat,Unnamed: 1_level_1,Unnamed: 2_level_1
APPLE,appleapple,0
banana,bananabanana,2
orange,orange,2


In [20]:
grouped = df.groupby('fruit_cat', observed=False).size()
grouped

fruit_cat
APPLE     2
banana    2
orange    1
dtype: int64