# Chap09 分类数据

In [1]:
import pandas as pd
import numpy as np

## cat对象
### cat对象的属性
1. pandas中提供category类型，在一个分类类型的Series中定义了**cat**对象
2. `s.cat.categories`类别本身，以Index类型存储
3. `s.cat.ordered`类别是否有序，返回布尔值
4. 每一个序列的类别会被赋予唯一的整数编号，编号取决于`s.cat.categories`中的顺序，该属性可以通过`s.cat.codes`访问
### 类别的增加、删除和修改
1. 类别的增加`s.cat.add_categories('增加的类别')`
2. 类别的删除`s.cat.remove_categories('删除的类别')`，删除后原来序列中的该类会被设置为缺失
3. `set_categories`直接设置序列的新类别，原来的类别中如果存在元素不属于新类别，那么会被设置为缺失
4. `remove_unused_categories()`删除未出现在序列中的类别
5. `rename_categories({'原序列某类名':'修改后类名'})`修改后对原序列的对应值也进行相应修改

In [3]:
df = pd.read_csv('./data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight'])
s = df.Grade.astype('category')
s.head()

0     Freshman
1     Freshman
2       Senior
3    Sophomore
4    Sophomore
Name: Grade, dtype: category
Categories (4, object): ['Freshman', 'Junior', 'Senior', 'Sophomore']

In [5]:
s.cat.codes.head()

0    0
1    0
2    2
3    3
4    3
dtype: int8

## 有序分类
### 序的建立
1. 无序类别转化为有序类别`reorder_categories(排序后的类别列表,ordered=True)`传入的排序后的类别列表必须时由当前序列的所有**无序类别**构成的列表，不能多也不能少，且必须指定参数`ordered=True`
   - 不指定参数`ordered=True`的前提是先用`s.cat.as_ordered()`转化为有序类别，再利用`reorder_categories`进行具体的相对大小调整
2. 有序类别转化为无序类别`as_unordered()`
### 排序和比较
1. 把列的类型修改为category后，再赋予相应的大小关系，就能正常地使用`sort_index`和`sort_value`

## 区间类别
### 利用cut和qcut进行区间构造
1. 区间是一种特殊的category
2. `cut(序列s,bins,right,labels,retbins)`
   - 区间端点地调整为`0.001*(max-min)`
   - `bins`把整个传入数组地按照最大和最小值等间距地分为n段，或者指定区间分割点地列表，其中`np.infty`表示无穷大，`-np.infty`表示无穷小
   - `right`区间默认左开右闭，需要指定左闭右开时，指定`right=False`
   - `labels`区间的名字（即不显示(n1,n2])
   - `retbins`是否返回分割点，默认不返回
3. `qcut`
   - 用法上和`cut`几乎没差别，只是把bins参数变成q参数，表示按照n等分位数把数据分箱，还可以传入**浮点列表**指代相应地分位数分割点

In [9]:
s = pd.Series([1,2])
res = pd.cut(s, bins=2, labels=['small','big'], retbins=True)
res[0]

0    small
1      big
dtype: category
Categories (2, object): ['small' < 'big']

In [10]:
res[1]

array([0.999, 1.5  , 2.   ])

In [11]:
s = df.Weight
pd.qcut(s, q=[0,0.2,0.8,1]).head()

0      (44.0, 69.4]
1      (69.4, 89.0]
2      (69.4, 89.0]
3    (33.999, 44.0]
4      (69.4, 89.0]
Name: Weight, dtype: category
Categories (3, interval[float64, right]): [(33.999, 44.0] < (44.0, 69.4] < (69.4, 89.0]]