In [1]:
import numpy as np
import pandas as pd

# Definición

Los categóricos son un tipo de datos de pandas correspondientes a variables categóricas en estadísticas. Una variable categórica toma un número limitado, y generalmente fijo, de valores posibles (categorías; niveles en R). Algunos ejemplos son el sexo, la clase social, el tipo de sangre, el país de pertenencia, el tiempo de observación o la calificación a través de escalas de Likert. A diferencia de las variables categóricas estadísticas, los datos categóricos pueden tener un orden (por ejemplo, "muy de acuerdo" frente a "de acuerdo" o "primera observación" frente a "segunda observación"), pero **las operaciones numéricas (sumas, divisiones, etc.) no son posibles**.

## Creación de objetos

## 1. Series

In [2]:
# Las series o columnas categóricas en un DataFrame se pueden crear de varias maneras:
# Especificando dtype="category" al construir una Serie
s = pd.Series(["a", "b", "c", "a"], dtype="category")

In [3]:
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [4]:
# Al convertir una serie o columna existente en un tipo de categoría
df = pd.DataFrame({"A": ["a", "b", "c", "a"]})

In [5]:
df["B"] = df["A"].astype("category")

In [6]:
df

Unnamed: 0,A,B
0,a,a
1,b,b
2,c,c
3,a,a


In [7]:
df.dtypes

A      object
B    category
dtype: object

In [8]:
# Mediante el uso de funciones especiales, como cut(), que agrupa los datos en contenedores discretos.
df = pd.DataFrame({"value": np.random.randint(0, 100, 20)})

In [9]:
labels = ["{0} - {1}".format(i, i + 9) for i in range(0, 100, 10)]

In [10]:
df["group"] = pd.cut(df.value, range(0, 105, 10), right=False, labels=labels)

In [11]:
df.head(10)

Unnamed: 0,value,group
0,93,90 - 99
1,24,20 - 29
2,8,0 - 9
3,90,90 - 99
4,94,90 - 99
5,86,80 - 89
6,64,60 - 69
7,77,70 - 79
8,49,40 - 49
9,71,70 - 79


In [12]:
# Pasando un objeto pandas.Categorical a una Serie o asignándolo a un DataFrame.
raw_cat = pd.Categorical(
    ["a", "b", "c", "a"], categories=["b", "c", "d"], ordered=False
)

In [13]:
s = pd.Series(raw_cat)

In [14]:
s

0    NaN
1      b
2      c
3    NaN
dtype: category
Categories (3, object): ['b', 'c', 'd']

In [15]:
df = pd.DataFrame({"A": ["a", "b", "c", "a"]})

In [16]:
df["B"] = raw_cat

In [17]:
df

Unnamed: 0,A,B
0,a,
1,b,b
2,c,c
3,a,


In [18]:
df.dtypes

A      object
B    category
dtype: object

## 2. Data Frames

In [19]:
# Al igual que en la sección anterior, donde una sola columna se convirtió en categórica, todas las columnas en un DataFrame 
# se pueden convertir por lotes en categóricas durante o después de la construcción.

# Esto se puede hacer durante la construcción especificando dtype="category" en el constructor de DataFrame

df = pd.DataFrame({"A": list("abca"), "B": list("bccd")}, dtype="category")

In [20]:
df

Unnamed: 0,A,B
0,a,b
1,b,c
2,c,c
3,a,d


In [21]:
# Podemos comprobar, que se crearon dos columnas de categorias
df.dtypes

A    category
B    category
dtype: object

In [22]:
df["A"]

0    a
1    b
2    c
3    a
Name: A, dtype: category
Categories (3, object): ['a', 'b', 'c']

In [23]:
df["B"]

0    b
1    c
2    c
3    d
Name: B, dtype: category
Categories (3, object): ['b', 'c', 'd']

In [24]:
# De manera análoga, todas las columnas en un DataFrame existente se pueden convertir por lotes usando DataFrame.astype()
df = pd.DataFrame({"A": list("abca"), "B": list("bccd")})

In [25]:
df_cat = df.astype("category")

In [26]:
df_cat.dtypes

A    category
B    category
dtype: object

In [27]:
df_cat["A"]

0    a
1    b
2    c
3    a
Name: A, dtype: category
Categories (3, object): ['a', 'b', 'c']

In [28]:
df_cat["B"]

0    b
1    c
2    c
3    d
Name: B, dtype: category
Categories (3, object): ['b', 'c', 'd']

## 3. Controlar el comportamiento de las categorías

#### En los ejemplos anteriores donde pasamos dtype='category', usamos el comportamiento predeterminado:

##### 1. Las categorías se infieren de los datos.
##### 2. Las categorías están desordenadas.

#### Para controlar esos comportamientos, en lugar de pasar 'categoría', use una instancia de CategoricalDtype.

In [29]:
from pandas.api.types import CategoricalDtype

In [30]:
s = pd.Series(["a", "b", "c", "a"])

In [31]:
cat_type = CategoricalDtype(categories=["b", "c", "d"], ordered=True)

In [32]:
s_cat = s.astype(cat_type)

In [33]:
s_cat

0    NaN
1      b
2      c
3    NaN
dtype: category
Categories (3, object): ['b' < 'c' < 'd']

In [34]:
# De manera similar, un CategoricalDtype se puede usar con un DataFrame para garantizar 
# que las categorías sean consistentes entre todas las columnas.
from pandas.api.types import CategoricalDtype

In [35]:
df = pd.DataFrame({"A": list("abca"), "B": list("bccd")})

In [36]:
cat_type = CategoricalDtype(categories=list("abcd"), ordered=True)

In [37]:
df_cat = df.astype(cat_type)

In [38]:
df_cat["A"]

0    a
1    b
2    c
3    a
Name: A, dtype: category
Categories (4, object): ['a' < 'b' < 'c' < 'd']

In [39]:
df_cat["B"]

0    b
1    c
2    c
3    d
Name: B, dtype: category
Categories (4, object): ['a' < 'b' < 'c' < 'd']

## Tipos de datos categóricos

#### El tipo de dato categórico se describe completamente por
##### 1. categories: una secuencia de valores únicos y sin valores perdidos
##### 2. ordered: un booleano

In [40]:
from pandas.api.types import CategoricalDtype

In [41]:
CategoricalDtype(["a", "b", "c"])

CategoricalDtype(categories=['a', 'b', 'c'], ordered=False)

In [42]:
CategoricalDtype(["a", "b", "c"], ordered=True)

CategoricalDtype(categories=['a', 'b', 'c'], ordered=True)

In [43]:
CategoricalDtype()

CategoricalDtype(categories=None, ordered=False)

In [44]:
# Un CategoricalDtype se puede usar en cualquier lugar donde pandas espere un dtype. 
# Por ejemplo, pandas.read_csv(), pandas.DataFrame.astype(), o en el constructor Series.

## Descripción - describe()

#### El uso de describe() en datos categóricos producirá un resultado similar a una serie o marco de datos de tipo cadena.

In [45]:
cat = pd.Categorical(["a", "c", "c", np.nan], categories=["b", "a", "c"])

In [46]:
df = pd.DataFrame({"cat": cat, "s": ["a", "c", "c", np.nan]})

In [47]:
df.describe()

Unnamed: 0,cat,s
count,3,3
unique,2,2
top,c,c
freq,2,2


In [48]:
# Podemos seleccionar solo una columna
df["cat"].describe()

count     3
unique    2
top       c
freq      2
Name: cat, dtype: object

## Trabajar con categorías

Los datos categóricos tienen categorías y una propiedad ordenada, que enumeran sus posibles valores y si el orden es importante o no. Estas propiedades se exponen como **s.cat.categories y s.cat.ordered**. Si no especifica manualmente las categorías y el orden, se deducen de los argumentos pasados.

In [49]:
s = pd.Series(["a", "b", "c", "a"], dtype="category")

In [50]:
s.cat.categories

Index(['a', 'b', 'c'], dtype='object')

In [51]:
s.cat.ordered

False

In [52]:
# Es posible definir las categorias antes de cargar los datos
s = pd.Series(pd.Categorical(["a", "b", "c", "a"], categories=["c", "b", "a"]))

In [53]:
s.cat.categories

Index(['c', 'b', 'a'], dtype='object')

In [54]:
s.cat.ordered

False

### 1. Renombrar categorias - rename_categories()

In [55]:
s = pd.Series(["a", "b", "c", "a"], dtype="category")

In [56]:
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [57]:
new_categories = ["Group %s" % g for g in s.cat.categories]

In [58]:
s = s.cat.rename_categories(new_categories)

In [59]:
s

0    Group a
1    Group b
2    Group c
3    Group a
dtype: category
Categories (3, object): ['Group a', 'Group b', 'Group c']

In [60]:
# También podemos pasar un diccionario para aplicar la misma operación
s = s.cat.rename_categories({1: "x", 2: "y", 3: "z"})

In [61]:
s

0    Group a
1    Group b
2    Group c
3    Group a
dtype: category
Categories (3, object): ['Group a', 'Group b', 'Group c']

### 2. Agregar nuevas categorías - add_categories()

#### Se pueden agregar categorías usando el método add_categories()

In [62]:
s = s.cat.add_categories([4])

In [63]:
s.cat.categories

Index(['Group a', 'Group b', 'Group c', 4], dtype='object')

In [64]:
s

0    Group a
1    Group b
2    Group c
3    Group a
dtype: category
Categories (4, object): ['Group a', 'Group b', 'Group c', 4]

### 3. Remover categorías - remove_categories()

#### La eliminación de categorías se puede hacer usando el método remove_categories(). Los valores que se eliminan se reemplazan por np.nan

In [65]:
s = s.cat.remove_categories([4])

In [66]:
s

0    Group a
1    Group b
2    Group c
3    Group a
dtype: category
Categories (3, object): ['Group a', 'Group b', 'Group c']

### 4. Eliminación de categorías no utilizadas

In [67]:
s = pd.Series(pd.Categorical(["a", "b", "a"], categories=["a", "b", "c", "d"]))

In [68]:
s

0    a
1    b
2    a
dtype: category
Categories (4, object): ['a', 'b', 'c', 'd']

In [69]:
s.cat.remove_unused_categories()

0    a
1    b
2    a
dtype: category
Categories (2, object): ['a', 'b']

### 5. Configuración de categorías - set_categories()

Si desea eliminar y agregar nuevas categorías en un solo paso (lo que tiene cierta ventaja de velocidad), o simplemente establecer las categorías en una escala predefinida, use set_categories().

In [70]:
s = pd.Series(["one", "two", "four", "-"], dtype="category")

In [71]:
s

0     one
1     two
2    four
3       -
dtype: category
Categories (4, object): ['-', 'four', 'one', 'two']

In [72]:
s = s.cat.set_categories(["one", "two", "three", "four"])

In [73]:
s

0     one
1     two
2    four
3     NaN
dtype: category
Categories (4, object): ['one', 'two', 'three', 'four']

## Clasificación y orden

#### Si los datos categóricos están ordenados (s.cat.ordered == True), entonces el orden de las categorías tiene un significado y ciertas operaciones son posibles. Si el categórico no está ordenado, .min()/.max() generará un TypeError.

In [74]:
s = pd.Series(pd.Categorical(["a", "b", "c", "a"], ordered=False))

In [75]:
s.sort_values(inplace=True)

In [76]:
s = pd.Series(["a", "b", "c", "a"]).astype(CategoricalDtype(ordered=True))

In [77]:
s.sort_values(inplace=True)

In [78]:
s

0    a
3    a
1    b
2    c
dtype: category
Categories (3, object): ['a' < 'b' < 'c']

Puede configurar los datos categóricos para que **se ordenen usando as_ordered() o desordenados usando as_unordered()**. Estos devolverán por defecto un nuevo objeto.

In [79]:
s.cat.as_ordered()

0    a
3    a
1    b
2    c
dtype: category
Categories (3, object): ['a' < 'b' < 'c']

In [80]:
s.cat.as_unordered()

0    a
3    a
1    b
2    c
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [81]:
s = pd.Series([1, 2, 3, 1], dtype="category")

In [82]:
s = s.cat.set_categories([2, 3, 1], ordered=True)

In [83]:
s

0    1
1    2
2    3
3    1
dtype: category
Categories (3, int64): [2 < 3 < 1]

In [84]:
s.sort_values(inplace=True)

In [85]:
s

1    2
2    3
0    1
3    1
dtype: category
Categories (3, int64): [2 < 3 < 1]

### 1. Reordenar

Es posible **reordenar las categorías a través de los métodos Categorical.reorder_categories() y Categorical.set_categories()**. Para Categorical.reorder_categories(), todas las categorías antiguas deben incluirse en las categorías nuevas y no se permiten categorías nuevas. Esto necesariamente hará que el orden de clasificación sea el mismo que el orden de las categorías.

In [86]:
s = pd.Series([1, 2, 3, 1], dtype="category")

In [87]:
s = s.cat.reorder_categories([2, 3, 1], ordered=True)

In [88]:
s

0    1
1    2
2    3
3    1
dtype: category
Categories (3, int64): [2 < 3 < 1]

In [89]:
s.sort_values(inplace=True)

In [90]:
s

1    2
2    3
0    1
3    1
dtype: category
Categories (3, int64): [2 < 3 < 1]

### 2. Clasificación de varias columnas 

Una columna categórica con dtype participará en una ordenación de varias columnas de manera similar a otras columnas. El orden de los categóricos está determinado por las categorías de esa columna.

In [91]:
dfs = pd.DataFrame(
    {
        "A": pd.Categorical(
            list("bbeebbaa"),
            categories=["e", "a", "b"],
            ordered=True,
        ),
        "B": [1, 2, 1, 2, 2, 1, 2, 1],
    }
)

In [92]:
dfs

Unnamed: 0,A,B
0,b,1
1,b,2
2,e,1
3,e,2
4,b,2
5,b,1
6,a,2
7,a,1


In [93]:
dfs.sort_values(by=["A", "B"])

Unnamed: 0,A,B
2,e,1
3,e,2
7,a,1
6,a,2
0,b,1
5,b,1
1,b,2
4,b,2


In [94]:
# Ahora vamos a reordenar las categorías
dfs["A"] = dfs["A"].cat.reorder_categories(["a", "b", "e"])

In [95]:
dfs.sort_values(by=["A", "B"])

Unnamed: 0,A,B
7,a,1
6,a,2
0,b,1
5,b,1
1,b,2
4,b,2
2,e,1
3,e,2


## Operaciones 

#### Aparte de Series.min(), Series.max() y Series.mode(), las siguientes operaciones son posibles con datos categóricos: Los métodos de serie como Series.value_counts() usarán todas las categorías, incluso si algunas categorías no están presentes en los datos

In [96]:
s = pd.Series(pd.Categorical(["a", "b", "c", "c"], categories=["c", "a", "b", "d"]))

In [97]:
s.value_counts()

c    2
a    1
b    1
d    0
dtype: int64

In [98]:
columns = pd.Categorical(
    ["One", "One", "Two"], categories=["One", "Two", "Three"], ordered=True
)

In [99]:
df = pd.DataFrame(
    data=[[1, 2, 3], [4, 5, 6]],
    columns=pd.MultiIndex.from_arrays([["A", "B", "B"], columns]),
)

In [100]:
df.groupby(axis=1, level=1).sum()

Unnamed: 0,One,Two,Three
0,3,3,0
1,9,6,0


In [101]:
# Group by
cats = pd.Categorical(
    ["a", "b", "b", "b", "c", "c", "c"], categories=["a", "b", "c", "d"]
)

In [102]:
df = pd.DataFrame({"cats": cats, "values": [1, 2, 2, 2, 3, 4, 5]})

In [103]:
df.groupby("cats").mean()

Unnamed: 0_level_0,values
cats,Unnamed: 1_level_1
a,1.0
b,2.0
c,4.0
d,


In [104]:
cats2 = pd.Categorical(["a", "a", "b", "b"], categories=["a", "b", "c"])

In [105]:
df2 = pd.DataFrame(
    {
        "cats": cats2,
        "B": ["c", "d", "c", "d"],
        "values": [1, 2, 3, 4],
    })

In [106]:
df2.groupby(["cats", "B"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,values
cats,B,Unnamed: 2_level_1
a,c,1.0
a,d,2.0
b,c,3.0
b,d,4.0
c,c,
c,d,


In [107]:
# Pivot tables
raw_cat = pd.Categorical(["a", "a", "b", "b"], categories=["a", "b", "c"])

In [108]:
df = pd.DataFrame({"A": raw_cat, "B": ["c", "d", "c", "d"], "values": [1, 2, 3, 4]})

In [109]:
pd.pivot_table(df, values="values", index=["A", "B"])

Unnamed: 0_level_0,Unnamed: 1_level_0,values
A,B,Unnamed: 2_level_1
a,c,1
a,d,2
b,c,3
b,d,4


## Transmisión de datos

#### Los métodos de acceso a datos de pandas optimizados .loc, .iloc, .at y .iat funcionan con normalidad. La única diferencia es el tipo de devolución (para obtener) y que solo se pueden asignar valores que ya están en categorías.

### 1. Getting

In [110]:
# Slicing
idx = pd.Index(["h", "i", "j", "k", "l", "m", "n"])

In [111]:
cats = pd.Series(["a", "b", "b", "b", "c", "c", "c"], dtype="category", index=idx)

In [112]:
values = [1, 2, 2, 2, 3, 4, 5]

In [113]:
df = pd.DataFrame({"cats": cats, "values": values}, index=idx)

In [114]:
df

Unnamed: 0,cats,values
h,a,1
i,b,2
j,b,2
k,b,2
l,c,3
m,c,4
n,c,5


In [115]:
df.iloc[2:4, :]

Unnamed: 0,cats,values
j,b,2
k,b,2


In [116]:
df.iloc[2:4, :].dtypes

cats      category
values       int64
dtype: object

In [117]:
df.loc["h":"j", "cats"]

h    a
i    b
j    b
Name: cats, dtype: category
Categories (3, object): ['a', 'b', 'c']

In [118]:
df[df["cats"] == "b"]

Unnamed: 0,cats,values
i,b,2
j,b,2
k,b,2


In [119]:
# obtener la fila "h" completa como una serie
df.loc["h", :]

cats      a
values    1
Name: h, dtype: object

In [120]:
df.iat[0, 0]

'a'

In [121]:
df["cats"] = df["cats"].cat.rename_categories(["x", "y", "z"])

In [122]:
df.at["h", "cats"]

'x'

In [123]:
df.loc[["h"], "cats"]

h    x
Name: cats, dtype: category
Categories (3, object): ['x', 'y', 'z']

### 2. Accesores de cadena y fecha y hora

#### Los accesores .dt y .str funcionarán si las categorías s.cat.son de un tipo apropiado

In [124]:
str_s = pd.Series(list("aabb"))

In [125]:
str_cat = str_s.astype("category")

In [126]:
str_cat

0    a
1    a
2    b
3    b
dtype: category
Categories (2, object): ['a', 'b']

In [127]:
filt = str_cat.str.contains("a")

In [128]:
str_cat[filt]

0    a
1    a
dtype: category
Categories (2, object): ['a', 'b']

In [129]:
# Para Series de fecha
date_s = pd.Series(pd.date_range("1/1/2015", periods=5))

In [130]:
date_cat = date_s.astype("category")

In [131]:
date_cat

0   2015-01-01
1   2015-01-02
2   2015-01-03
3   2015-01-04
4   2015-01-05
dtype: category
Categories (5, datetime64[ns]): [2015-01-01, 2015-01-02, 2015-01-03, 2015-01-04, 2015-01-05]

In [132]:
date_cat.dt.day

0    1
1    2
2    3
3    4
4    5
dtype: int64

### 3. Setting (Establecer valores)

#### Establecer valores en una columna categórica (o serie) funciona siempre que el valor esté incluido en las categorías

In [133]:
idx = pd.Index(["h", "i", "j", "k", "l", "m", "n"])

In [134]:
cats = pd.Categorical(["a", "a", "a", "a", "a", "a", "a"], categories=["a", "b"])

In [135]:
values = [1, 1, 1, 1, 1, 1, 1]

In [136]:
df = pd.DataFrame({"cats": cats, "values": values}, index=idx)

In [137]:
df.iloc[2:4, :] = [["b", 2], ["b", 2]]

In [138]:
df

Unnamed: 0,cats,values
h,a,1
i,a,1
j,b,2
k,b,2
l,a,1
m,a,1
n,a,1


#### Establecer valores mediante la asignación de datos categóricos también verificará que las categorías coincidan

In [139]:
df.loc["j":"k", "cats"] = pd.Categorical(["a", "a"], categories=["a", "b"])

In [140]:
df

Unnamed: 0,cats,values
h,a,1
i,a,1
j,a,2
k,a,2
l,a,1
m,a,1
n,a,1


#### Asignar un Categórico a partes de una columna de otros tipos utilizará los valores

In [141]:
df = pd.DataFrame({"a": [1, 1, 1, 1, 1], "b": ["a", "a", "a", "a", "a"]})

In [142]:
df

Unnamed: 0,a,b
0,1,a
1,1,a
2,1,a
3,1,a
4,1,a


In [143]:
df.loc[1:2, "a"] = pd.Categorical(["b", "b"], categories=["a", "b"])

In [144]:
df.loc[2:3, "b"] = pd.Categorical(["b", "b"], categories=["a", "b"])

In [145]:
df

Unnamed: 0,a,b
0,1,a
1,b,a
2,b,b
3,1,b
4,1,a


### 4. Merging / concatenation (unir y concatenar)

De forma predeterminada, la combinación de Series o DataFrames que contienen las mismas categorías da como resultado el tipo de categoría; de lo contrario, los resultados dependerán del tipo de las categorías subyacentes. Las fusiones que dan como resultado dtypes no categóricos probablemente tendrán un mayor uso de memoria. **Utilice .astype o union_categoricals para garantizar los resultados de la categoría**.

In [146]:
from pandas.api.types import union_categoricals

In [147]:
s1 = pd.Series(["a", "b"], dtype="category")

In [148]:
s1

0    a
1    b
dtype: category
Categories (2, object): ['a', 'b']

In [149]:
s2 = pd.Series(["a", "b", "a"], dtype="category")

In [150]:
s2

0    a
1    b
2    a
dtype: category
Categories (2, object): ['a', 'b']

In [151]:
pd.concat([s1, s2])

0    a
1    b
0    a
1    b
2    a
dtype: category
Categories (2, object): ['a', 'b']

In [152]:
s3 = pd.Series(["b", "c"], dtype="category")

In [153]:
s3

0    b
1    c
dtype: category
Categories (2, object): ['b', 'c']

In [154]:
pd.concat([s1, s3])

0    a
1    b
0    b
1    c
dtype: object

In [155]:
# El tipo de salida se infiere en función de los valores de las categorías
int_cats = pd.Series([1, 2], dtype="category")

In [156]:
float_cats = pd.Series([3.0, 4.0], dtype="category")

In [157]:
pd.concat([int_cats, float_cats])

0    1.0
1    2.0
0    3.0
1    4.0
dtype: float64

In [158]:
pd.concat([s1, s3]).astype("category")

0    a
1    b
0    b
1    c
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [159]:
union_categoricals([s1.array, s3.array])

['a', 'b', 'b', 'c']
Categories (3, object): ['a', 'b', 'c']

### Uniones - union_categoricals()

Si desea combinar categorías que no necesariamente tienen las mismas categorías, **la función union_categoricals() combinará una lista de categorías**. Las nuevas categorías serán la unión de las categorías que se están combinando.

In [160]:
from pandas.api.types import union_categoricals

In [161]:
a = pd.Categorical(["b", "c"])

In [162]:
b = pd.Categorical(["a", "b"])

In [163]:
union_categoricals([a, b])

['b', 'c', 'a', 'b']
Categories (3, object): ['b', 'c', 'a']

In [164]:
union_categoricals([a, b], sort_categories=True)

['b', 'c', 'a', 'b']
Categories (3, object): ['a', 'b', 'c']

## Ingresar y sacar datos (data in/out)

#### Escribir en un archivo CSV convertirá los datos, eliminando efectivamente cualquier información sobre el categórico (categorías y orden). Entonces, si vuelve a leer el archivo CSV, debe convertir las columnas relevantes nuevamente a categoría y asignar las categorías correctas y el orden de las categorías.

In [165]:
import io

In [166]:
s = pd.Series(pd.Categorical(["a", "b", "b", "a", "a", "d"]))

In [167]:
#Renombrar las categorías
s = s.cat.rename_categories(["very good", "good", "bad"])

In [168]:
# reordenar las categorías y agregar las categorías faltantes
s = s.cat.set_categories(["very bad", "bad", "medium", "good", "very good"])

In [169]:
df = pd.DataFrame({"cats": s, "vals": [1, 2, 3, 4, 5, 6]})

In [170]:
csv = io.StringIO()

In [171]:
df.to_csv(csv)

In [172]:
df2 = pd.read_csv(io.StringIO(csv.getvalue()))

In [173]:
df2.dtypes

Unnamed: 0     int64
cats          object
vals           int64
dtype: object

In [174]:
df2["cats"]

0    very good
1         good
2         good
3    very good
4    very good
5          bad
Name: cats, dtype: object

In [175]:
# Rehacer las categorías
df2["cats"] = df2["cats"].astype("category")

In [176]:
df2["cats"].cat.set_categories(
    ["very bad", "bad", "medium", "good", "very good"], inplace=True
)

  res = method(*args, **kwargs)


In [179]:
df2

Unnamed: 0.1,Unnamed: 0,cats,vals
0,0,very good,1
1,1,good,2
2,2,good,3
3,3,very good,4
4,4,very good,5
5,5,bad,6


In [177]:
df2.dtypes

Unnamed: 0       int64
cats          category
vals             int64
dtype: object

In [178]:
df2["cats"]

0    very good
1         good
2         good
3    very good
4    very good
5          bad
Name: cats, dtype: category
Categories (5, object): ['very bad', 'bad', 'medium', 'good', 'very good']

## Missing data

Los valores faltantes no deben incluirse en las categorías de Categorical, solo en los valores. En cambio, se entiende que NaN es diferente y siempre es una posibilidad. Al trabajar con los códigos de Categorical, los valores perdidos siempre tendrán un código de -1.

In [180]:
s = pd.Series(["a", "b", np.nan, "a"], dtype="category")

In [181]:
# solo dos categorías
s

0      a
1      b
2    NaN
3      a
dtype: category
Categories (2, object): ['a', 'b']

s.cat.codes

#### Métodos para trabajar con datos faltantes, p. isna(), fillna(), dropna(), todo funciona normalmente

In [183]:
s = pd.Series(["a", "b", np.nan], dtype="category")

In [184]:
s

0      a
1      b
2    NaN
dtype: category
Categories (2, object): ['a', 'b']

In [185]:
pd.isna(s)

0    False
1    False
2     True
dtype: bool

In [186]:
s.fillna("a")

0    a
1    b
2    a
dtype: category
Categories (2, object): ['a', 'b']

## Diferencias con los factores de R

1. Los niveles de R son categorías con nombre.
2. Los niveles de R siempre son de tipo string, mientras que las categorías en pandas pueden ser de cualquier tipo de dato.
3. No es posible especificar etiquetas en el momento de la creación. Utilice s.cat.rename_categories(new_labels) después.
4. En contraste con la función de factor de R, el uso de datos categóricos como la única entrada para crear una nueva serie categórica no eliminará las categorías no utilizadas, ¡sino que creará una nueva serie categórica que es igual a la pasada en uno!
5. R permite incluir valores faltantes en sus niveles (categorías de pandas). pandas no permite categorías NaN, pero los valores faltantes aún pueden estar en los valores.

## Índices categóricos

#### CategoricalIndex es un tipo de índice que es útil para respaldar la indexación con duplicados. Este es un contenedor alrededor de Categorical y permite la indexación y el almacenamiento eficientes de un índice con una gran cantidad de elementos duplicados.

In [187]:
cats = pd.Categorical([1, 2, 3, 4], categories=[4, 2, 3, 1])

In [188]:
strings = ["a", "b", "c", "d"]

In [189]:
values = [4, 2, 3, 1]

In [190]:
df = pd.DataFrame({"strings": strings, "values": values}, index=cats)

In [191]:
df.index

CategoricalIndex([1, 2, 3, 4], categories=[4, 2, 3, 1], ordered=False, dtype='category')

In [192]:
df.sort_index()

Unnamed: 0,strings,values
4,d,1
2,b,2
3,c,3
1,a,4
