In [12]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [4]:
import pandas as pd
from pandas import DataFrame,Series
import matplotlib.pyplot as plt
import numpy as np
from pandas.api.types import CategoricalDtype

# Pandas私房手册-类别数据类型 

`Categorical`类型内部数据结构由一个`categories`数组和一个整数数组组成，整数的值与`categories`数组中的值存在对应关系，`Categorical`数据类型主要用在下面几个方面：
- 整个数组由几个变量构成，将数组转变`Categorical`类型将节省一些内存。
- 变量的词法顺序与逻辑顺序不一样，通过转换为`Categorical`类型并指定类别上的逻辑顺序，就可以按照逻辑顺序而不是词汇顺序排序或者查找最大最小值。
- 有些库需要传入`Categorical`类型的数组。

## 创建`Categorical`类别数据

以下均为`Series`为例进行转换，`DataFrame`转换类似，只不过是逐列进行转换。

### 通过指定`dtype`参数或者`astype()`方法创建

可以直接通过`dtype="category"`将一个`Series`直接转换成类别数据，注意，`index`也可以直接通过`dtype="category"`将索引转换成`CatogoricalIndex`类型，已有的`Series`可以通过`astype`方法转换为`Categorical`类型：

In [8]:
idx = pd.Index(['a', 'b', 'c'], dtype='category')
idx
Series([1, 2, 3], dtype='category', index=idx)

CategoricalIndex(['a', 'b', 'c'], categories=['a', 'b', 'c'], ordered=False, dtype='category')

a    1
b    2
c    3
dtype: category
Categories (3, int64): [1, 2, 3]

### 通过`CategoricalDtype`类创建

直接把`dtype`参数设置为`category`创建的`Categorical`类型的数组都使用默认的行为：
- 类别是通过值推断出来的。
- 默认是无序的。

但是我们可以通过手动的创建`CategoricalDtype`类来控制行为，`CategoriescalDtype`包含:
- 一个包含惟一值，并且没有缺失值的序列，值代表类别。
- 类别序列的顺序，一个布尔值。

`CategoricalDtype`可以用于任何使用`dtype`的地方。例如，`pandas.read_csv()`、`pandas.DataFrame.astype()`或`Series`构造函数中。`categories`参数是可选的，当不设置`categories`参数时，表示从数据中推断出实际的类别，创建分类。默认情况下，这些类别被认为是无序的。为了方便起见，当类别的默认行为是无序的，并且与数组中的标签相等时，可以使用字符串`“category”`来代替`CategoricalDtype`。换句话说，`dtype='category'`等价于`dtype=CategoricalDtype()`。

In [8]:
from pandas.api.types import CategoricalDtype
cat_type = CategoricalDtype(categories=['c', 'b', 'd'], ordered=True)
s = Series(['a', 'b', 'c', 'a'], dtype=cat_type)
# 或者使用`astype`方法
# s.astype(cat_type)
s

0    NaN
1      b
2      c
3    NaN
dtype: category
Categories (3, object): [c < b < d]

### 某些函数结果为`Categorical`类型

某些函数，如`cut()`，其返回结果是`Categorical`类型：

In [20]:
df = pd.DataFrame({'value': np.random.randint(0, 100, 20)})
labels = ["{0} - {1}".format(i, i + 9) for i in range(0, 100, 10)]
df['group'] = pd.cut(df.value, range(0, 105, 10), right=False)
df['group'].head()

0      [0, 10)
1     [30, 40)
2    [90, 100)
3     [60, 70)
4     [10, 20)
Name: group, dtype: category
Categories (10, interval[int64]): [[0, 10) < [10, 20) < [20, 30) < [30, 40) ... [60, 70) < [70, 80) < [80, 90) < [90, 100)]

### 通过顶层`Categorical`函数直接创建

`CategoricalDtype`只是创建了类型，并非直接创建数组，我们可以通过顶层函数`Categorical`直接创建一个`CategoricalDtype`类型的数组，注意，当值不在`categories`分类中时，以`NaN`代替：

In [9]:
raw_cat = pd.Categorical(["a", "b", "c", "a"], categories=["b", "c", "d"], ordered=False)
df = pd.DataFrame({"A": ["a", "b", "c", "a"]})

df['B'] = raw_cat
df

Unnamed: 0,A,B
0,a,
1,b,b
2,c,c
3,a,


### `DataFrame`的转换

`DataFrame`的转换和`Series`是一样的，唯一要注意的是，它是逐列进行转换的，因此类别的值相当于对该列的标签去重，如果要包含整个表，可以使用下面的技巧：
```python
categories = pd.unique(df.to_numpy().ravel())
```
这样整个`DataFrame`中的所有标签都用作每个列的类别，但是注意，此时`dataframe`不能有缺失值。

In [28]:
from pandas.api.types import CategoricalDtype 
df = DataFrame({'A':['a', 'b', 'c', 'a'], 'B':['e', 'c', 'd', 'f']})
df1 = df.astype('category')
df1['A'].dtypes
df1['B'].dtypes
df2 = df.astype(CategoricalDtype(categories=pd.unique(df.to_numpy().ravel()), ordered=False))
df2['A'].dtypes

CategoricalDtype(categories=['a', 'b', 'c'], ordered=False)

CategoricalDtype(categories=['c', 'd', 'e', 'f'], ordered=False)

CategoricalDtype(categories=['a', 'e', 'b', 'c', 'd', 'f'], ordered=False)

## 恢复原始数据类型

要返回到原始的`Series`，使用`Series.astype(original_dtype)`即可：

In [33]:
s = pd.Series(["a", "b", "c", "a"])
s.dtypes
s.astype('category')
s.astype(str)

dtype('O')

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): [a, b, c]

0    a
1    b
2    c
3    a
dtype: object

## `Categorical`类型的属性和方法

### `categories`和`ordered`属性

`Categorical`数据有一个`categories`和一个`ordered`属性，属性只能通过`s.cat.categories`和`s.cat.ordered`访问：

In [34]:
s = pd.Series(["a", "b", "c", "a"], dtype="category")
s.cat.categories
s.cat.ordered

Index(['a', 'b', 'c'], dtype='object')

False

### `rename_categories() `方法

可以通过直接赋值，`rename_categories()`方法来修改`Categorical`类型数据的`categories`类别：

In [3]:
s = pd.Series(["a", "b", "c", "a"], dtype="category")
s
s.cat.categories = [f"Group {g}" for g in s.cat.categories]
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): [a, b, c]

0    Group a
1    Group b
2    Group c
3    Group a
dtype: category
Categories (3, object): [Group a, Group b, Group c]

也可以通过`rename_categories()`方法，可以传入列表或者字典，注意：类别数据必须唯一，也不能有缺失值：

In [4]:
s.cat.rename_categories([1, 2, 3])
s.cat.rename_categories({'Group a': 'a', 'Group b': 'b', 'Group c': 'c'})

0    1
1    2
2    3
3    1
dtype: category
Categories (3, int64): [1, 2, 3]

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): [a, b, c]

### `add_categories()`方法

可以通过`add_categories()`方法添加新的类别数据：

In [7]:
s = s.cat.add_categories('Group d')
s

0    Group a
1    Group b
2    Group c
3    Group a
dtype: category
Categories (4, object): [Group a, Group b, Group c, Group d]

### `remove_categories()`方法

可以通过`remove_categories()`方法删除一个类别，如果值里面包含此类别的数据，会用`NaN`来代替：

In [8]:
s.cat.remove_categories('Group a')

0        NaN
1    Group b
2    Group c
3        NaN
dtype: category
Categories (3, object): [Group b, Group c, Group d]

### `remove_unused_categories()`方法

有时候值和类别数据是不匹配的，使用`remove_unused_categories()`方法可以删除多余的类别数据：

In [10]:
s
s.cat.remove_unused_categories()

0    Group a
1    Group b
2    Group c
3    Group a
dtype: category
Categories (4, object): [Group a, Group b, Group c, Group d]

0    Group a
1    Group b
2    Group c
3    Group a
dtype: category
Categories (3, object): [Group a, Group b, Group c]

### `set_categories()`方法

如果想要删除的同时又增加新的类别，可以使用`set_categories()`方法，注意和`rename_categories()`方法的区别，`rename_categories()`是更改类别的内容，而`set_categories()`方法会新增类别，新增的类别的值会是`NaN`。

In [3]:
s = pd.Series(["one", "two", "four", "-"], dtype="category")
s
s.cat.rename_categories(["one", "two", "three", "four"])
s.cat.set_categories(["one", "two", "three", "four"])

0     one
1     two
2    four
3       -
dtype: category
Categories (4, object): [-, four, one, two]

0    three
1     four
2      two
3      one
dtype: category
Categories (4, object): [one, two, three, four]

0     one
1     two
2    four
3     NaN
dtype: category
Categories (4, object): [one, two, three, four]

## `Categorical`类型数组的`order`顺序以及排序

如果分类数据是有序的`.cat.order == True`，那么类别的顺序是有意义的，并且可以应用某些操作。如果分类是无序的，`.min()/.max()`将引发一个类型错误`TypeError`。 

### `as_ordered()`和`as_unordered()`方法

默认情况下，会按照词法顺序进行排序（字符串会以单词首字母的顺序，数字按大小）进行排序：

In [24]:
s = Series(['three', 'one', 'two', 'four'])
s.sort_values()
s.max()

3     four
1      one
0    three
2      two
dtype: object

'two'

当转换成`Categorical`类型，并且`ordered`参数为`True`时，会按照类别标签输入的顺序进行排序，同时也会影响`max()/min()`等函数的结果：

In [27]:
from pandas.api.types import CategoricalDtype
s1 = s.astype(CategoricalDtype(['one', 'two', 'three', 'four'], ordered=True))
s1.sort_values()
s1.max()

1      one
2      two
0    three
3     four
dtype: category
Categories (4, object): [one < two < three < four]

'four'

当未指定顺序时，同样会按照类别标签输入时的顺序进行排序，但是`max()/min()`等函数会抛出`TypeError`错误：

In [31]:
s2 = s.astype(CategoricalDtype(['one', 'two', 'three', 'four'], ordered=False))
s2.sort_values()
try:
    s2.max()
except Exception as e:
    print(f"{e.__class__.__name__}: {e}")

1      one
2      two
0    three
3     four
dtype: category
Categories (4, object): [one, two, three, four]

TypeError: Categorical is not ordered for operation max
you can use .as_ordered() to change the Categorical to an ordered one



就像上面报错信息提到的，可以使用`as_ordered()`方法将无序的`Categorical`数组变为有序的，而`as_unordered()`可以把有序变为无序：

In [34]:
s2.cat.as_ordered(inplace=True)
s2.max()

'four'

### 使用`set_categories()`或`reorder_categories()`方法进行重排序

排序会使用类别定义的顺序，而不是数据类型上的任何词法顺序，哪怕时数字数据也是如此：

In [36]:
s = Series([1, 2, 3, 1], dtype='category')
s = s.cat.set_categories([2, 3, 1], ordered=True)
s.sort_values()
s.max()

1    2
2    3
0    1
3    1
dtype: category
Categories (3, int64): [2 < 3 < 1]

1

除了使用`set_categories()`方法，还可以使用`reorder_categories()`方法进行重排序，不同的是`reorder_categories()`必须包含所有旧的类别标签：

In [37]:
s = s.cat.reorder_categories([3, 1, 2], ordered=True)
s.sort_values()
s.max()

2    3
0    1
3    1
1    2
dtype: category
Categories (3, int64): [3 < 1 < 2]

2

## `Categorical`的比较

### 可以进行比较的三种情况

三种情况下，`Categorical`分类数据可以和其它的对象进行比较：
- 分类数据与相同长度的类列表对象(list、Series、array，)进行相等或者不等的`(==和!=)`比较。
- 分类数据与另一个分类序列的所有比较`(==，!=，>，>=，<，and <=)`，序列的`order`必须为`True`且类别标签需要相同。
- 分类数据与标量进行比较。

其它情况都会抛出一个`TypeError`类型的错误。

In [15]:
cat = pd.Series([1, 2, 3]).astype(CategoricalDtype([3, 2, 1], ordered=True))
cat_base = pd.Series([2, 2, 2]).astype(CategoricalDtype([3, 2, 1], ordered=True))
cat_base2 = pd.Series([2, 2, 2]).astype(CategoricalDtype(ordered=True))
cat
cat_base
cat_base2

0    1
1    2
2    3
dtype: category
Categories (3, int64): [3 < 2 < 1]

0    2
1    2
2    2
dtype: category
Categories (3, int64): [3 < 2 < 1]

0    2
1    2
2    2
dtype: category
Categories (1, int64): [2]

与标量进行比较：

In [10]:
cat > 2

0     True
1    False
2    False
dtype: bool

与其它的`Categorical`类型数据比较，两者必须有相同的长度以及相同的标签：

In [16]:
# 可以进行比较，两者长度相同且有相同的标签
cat == cat_base

# 不能比较，两者长度不同，标签不同
try:
     cat > cat_base2
except TypeError as e:
     print("TypeError:", str(e))

0    False
1     True
2    False
dtype: bool

TypeError: Categoricals can only be compared if 'categories' are the same. Categories are different lengths


与长度相同的类列表对象比较，只能进行相等或者不等的比较，如果想要比较，可以使用`np.asarray()`再进行比较：

In [22]:
cat == [2, 1, 3]

# 不能进行除==或者!=外的比较
try:
    cat > [2, 1, 3]
except TypeError as e:
    print("TypeError:", str(e))

# 转化成np.array以后再比较
np.asarray(cat) < [2, 1, 3]

0    False
1    False
2     True
dtype: bool

TypeError: Cannot compare a Categorical for op __gt__ with type <class 'numpy.ndarray'>.
If you want to compare values, use 'np.asarray(cat) <op> other'.


array([ True, False, False])

如果两个无序的类型数据，类别标签相同，和类列表对象相同，只能够进行`=`或者`!=`的比较：

In [27]:
c1 = pd.Categorical(['a', 'b'], categories=['a', 'b'], ordered=False)
c2 = pd.Categorical(['a', 'b'], categories=['b', 'a'], ordered=False)

c1 == c2
try:
    c1 > c2
except TypeError as e:
     print("TypeError:", str(e))

array([ True,  True])

TypeError: Unordered Categoricals can only compare equality or not


### 数据操作注意事项

注意`Categorical`类型与普通类型的不同，在进行一些汇总的操作时，比如`value_counts`，`groupby`，`pivot`等，将使用所有类别，即使数据中不存在某些类别：

In [30]:
s = pd.Series(
    pd.Categorical(["a", "b", "c", "c"], categories=["c", "a", "b", "d"]))
s.value_counts()

c    2
b    1
a    1
d    0
dtype: int64

`Groupby`同样会显示“未使用”的类别：

In [31]:
cats = pd.Categorical(["a", "b", "b", "b", "c", "c", "c"],
                      categories=["a", "b", "c", "d"])

df = pd.DataFrame({"cats": cats, "values": [1, 2, 2, 2, 3, 4, 5]})
df.groupby("cats").mean()

Unnamed: 0_level_0,values
cats,Unnamed: 1_level_1
a,1.0
b,2.0
c,4.0
d,


## `Categorical`的选取、赋值

### `Getting`选取

一般情况下，`.loc`，`.iloc`等方便进行选取都会保留`Categorical`类型，但是只取一行的时候，则返回的结果会是`object`类型：

In [39]:
idx = pd.Index(["h", "i", "j", "k", "l", "m", "n"])
cats = pd.Series(["a", "b", "b", "b", "c", "c", "c"], dtype="category", index=idx)
values = [1, 2, 2, 2, 3, 4, 5]
df = pd.DataFrame({"cats": cats, "values": values}, index=idx)

# 一般的选取都会保留Categorical类型
df.loc["h":"k", :].dtypes

# 只选取一行的话，返回结果会是object类型
df.loc["h", :]

cats      category
values       int64
dtype: object

cats      a
values    1
Name: h, dtype: object

同样，如果只返回一个数据的话，也会是一个值，而不是长度为1的`Categorical`数据，要获得类型类别的单值的`Series`，需要传入一个带有单个值的列表：

In [44]:
# 返回单值
df.loc["h", "cats"]

# 返回类型类别的单个值的Series
df.loc[["h"], "cats"]

'a'

h    a
Name: cats, dtype: category
Categories (3, object): [a, b, c]

### `Setting`赋值

对`Categorical`类型数据赋值的时候要注意，值必须属于`Categorical`的类别标签，不然会抛出`ValueError`错误：

In [51]:
idx = pd.Index(["h", "i", "j", "k", "l", "m", "n"])
cats = pd.Categorical(["a", "a", "a", "a", "a", "a", "a"],categories=["a", "b"])
values = [1, 1, 1, 1, 1, 1, 1]
df = pd.DataFrame({"cats": cats, "values": values}, index=idx)

df.iloc[2:4, :] = [["b", 2], ["b", 2]]
df

# c不属于cats的类别标签，此时会抛出错误
try:
    df.iloc[2:4, :] = [["c", 3], ["c", 3]]
except ValueError as e:
    print("ValueError:", str(e))

Unnamed: 0,cats,values
h,a,1
i,a,1
j,b,2
k,b,2
l,a,1
m,a,1
n,a,1


ValueError: Cannot setitem on a Categorical with a new category, set the categories first


可以将类别数据分配给列的部分内容，但是此时只是简单的使用类别标签的值：

In [57]:
df = pd.DataFrame({"a": [1, 1, 1, 1, 1], "b": ["a", "a", "a", "a", "a"]})
df.dtypes
df.loc[1:2, "a"] = pd.Categorical(["b", "b"], categories=["a", "b"])
df.loc[2:3, "b"] = pd.Categorical(["b", "b"], categories=["a", "b"])
df
df.dtypes

a     int64
b    object
dtype: object

Unnamed: 0,a,b
0,1,a
1,b,a
2,b,b
3,1,b
4,1,a


a    object
b    object
dtype: object

## 合并`Categorical`数据

### 合并`Categorical`数据

0.19版本以后，新增`union_categoricals()`函数可以合并`Categorical`类别数据，返回新的类别数据将原类别数据的并集：

In [69]:
from pandas.api.types import union_categoricals
a = pd.Categorical(["b", "a"], categories=["b", "a"])
b = pd.Categorical(["b", "c"])
union_categoricals([a, b])

[b, a, b, c]
Categories (3, object): [b, a, c]

默认情况下，结果的类别标签按照它们出现的顺序排列，如果希望按词法排序，可以使用`sort_categories=True`参数：

In [65]:
union_categoricals([a, b], sort_categories=True)

[b, a, b, c]
Categories (3, object): [a, b, c]

但`union_categorical()`合并有序的`Categorical`数据时，其类别标签要是相同的，否则会抛出`TypeError`错误，0.20版本以后，可以通过设置`ignore_order=True`返回无序的结果：

In [73]:
a = pd.Categorical(["b", "a"], ordered=True)
b1 = pd.Categorical(["a", "b", "b"], ordered=True)
b2 = pd.Categorical(["c", "d"], ordered=True)

# 分类标签相同，返回有序结果
union_categoricals([a, b1])

# 分类标签不同，抛出错误
try:
    union_categoricals([a, b2])
except TypeError as e:
    print("TypeError: ", str(e))

# ignore_order为True，返回无序结果
union_categoricals([a, b2], ignore_order=True)

[b, a, a, b, b]
Categories (2, object): [a < b]

TypeError:  to union ordered Categoricals, all categories must be the same


[b, a, c, d]
Categories (4, object): [a, b, c, d]

### 包含`Categorical`数据的合并

可以将包含分类数据的`Series`或者`dataframe`进行合并，如果这些分类的类别标签相同，结果仍将是`Categorical`类型：

In [78]:
cat = pd.Series(["a", "b"], dtype="category")
vals = [1, 2]
df = pd.DataFrame({"cats": cat, "vals": vals})
res = pd.concat([df, df])
res
res.dtypes

Unnamed: 0,cats,vals
0,a,1
1,b,2
0,a,1
1,b,2


cats    category
vals       int64
dtype: object

如果分类的类别标签不同，会转换成`object`类型：

In [105]:
df_different = df.copy()
df_different["cats"].cat.categories = ["c", "d"]

res = pd.concat([df, df_different])
res
res.dtypes

Unnamed: 0,cats,vals
0,a,1
1,b,2
0,c,1
1,d,2


cats    object
vals     int64
dtype: object

## `.str`、`.dt`访问器和`Categorical`数据

只要类别的标签属于适当的类型，`.dt`和`.str`这样的访问器一样可以工作的很好：

In [46]:
str_s = pd.Series(list('aabb'))
str_cat = str_s.astype('category')
str_cat
str_cat.str.contains('a')

date_s = pd.Series(pd.date_range('1/1/2015', periods=5))
date_cat = date_s.astype('category')
date_cat
date_cat.dt.day

0    a
1    a
2    b
3    b
dtype: category
Categories (2, object): [a, b]

0     True
1     True
2    False
3    False
dtype: bool

0   2015-01-01
1   2015-01-02
2   2015-01-03
3   2015-01-04
4   2015-01-05
dtype: category
Categories (5, datetime64[ns]): [2015-01-01, 2015-01-02, 2015-01-03, 2015-01-04, 2015-01-05]

0    1
1    2
2    3
3    4
4    5
dtype: int64

## `Categorical`数据中的缺失值

缺失值不会包含在`Categorical`的`categories`类别数据中，而应该只包含在值中，在处理`Categorical`的`codes`整数编码时，丢失的值总是具有-1的代码。

In [109]:
s = pd.Series(["a", "b", np.nan, "a"], dtype="category")
s
s.cat.codes

0      a
1      b
2    NaN
3      a
dtype: category
Categories (2, object): [a, b]

0    0
1    1
2   -1
3    0
dtype: int8

## `Categorical`是`Python`对象不是`Numpy`数组

`categorical`数据和底层的`categorical`被实现为`Python`对象，而不是低级的`NumPy`数组，因此如果要判断一个`Series`是否是`Categorical`数据，可以用`hasattr()`方法，查看是否包含`cat`属性：

In [124]:
s = Series([1, 2, 3], dtype='category')

try:
    np.dtype(s)
except TypeError as e:
    print("TypeError:", str(e))

hasattr(s, 'cat')

TypeError: data type not understood


True

基于上面的原因，在`Categorical`数据上上使用`NumPy`函数无法工作，因为类别不是数值数据（即使`.categories`是数值数据）：

In [125]:
try:
    np.sum(s)
except TypeError as e:
    print("TypeError:", str(e))

TypeError: Categorical cannot perform the operation sum


## `Categorical`的副作用

从`Categorical`构造一个`Series`不会复制原始的`Categorical`，这意味着对`Series`的更改在大多数情况下将更改原始分类:

In [129]:
cat = pd.Categorical([1, 2, 3, 10], categories=[1, 2, 3, 4, 10])
cat
s = pd.Series(cat)
s.iloc[0:2] = 10
cat

[1, 2, 3, 10]
Categories (5, int64): [1, 2, 3, 4, 10]

[10, 10, 3, 10]
Categories (5, int64): [1, 2, 3, 4, 10]

可以通过设置`copy=True`来避免这种情况或者不再使用原始的`Categorical`数据：

In [132]:
cat
s = pd.Series(cat, copy=True)
s.iloc[0:2] = 4
s
cat

[10, 10, 3, 10]
Categories (5, int64): [1, 2, 3, 4, 10]

0     4
1     4
2     3
3    10
dtype: category
Categories (5, int64): [1, 2, 3, 4, 10]

[10, 10, 3, 10]
Categories (5, int64): [1, 2, 3, 4, 10]

注意，数值型的`numpy`数组也会出现这种情况：

In [134]:
arr = np.array([1, 2, 3, 4])
arr
s = Series(arr)
s[0:2] = 10
arr

array([1., 2., 3., 4.])

array([10., 10.,  3.,  4.])

但是`str`类型的`numpy`数组不会：

In [135]:
arr = np.array(['a', 'b', 'c', 'd'])
arr
s = Series(arr)
s[0:2] = 10
arr

array(['a', 'b', 'c', 'd'], dtype='<U1')

array(['a', 'b', 'c', 'd'], dtype='<U1')