## 70 pandas分类数据（十）

### 分类数据 Categorical data （也有翻译为范畴数据）
#### 分类数据操作：表格合并

In [1]:
import numpy  as np
import pandas as pd
from faker import Faker

fake = Faker('zh_CN')
df=pd.DataFrame(data=[ [fake.name()] for x in range(10) ],columns=['name'])

df['销售额']=np.random.randint(100,100000,size=(10, 1))
df['时间']=pd.date_range(start='2020-01-01',periods=10,freq='D')
df.insert(0,'dept',['部门1']*5+['部门2']*5)
df.insert(1,'dept1',['小部门1']*2+['小部门2']*3+['小部门3']*1+['小部门4']*4)

In [2]:
df # 随机生成的数据

Unnamed: 0,dept,dept1,name,销售额,时间
0,部门1,小部门1,耿旭,5458,2020-01-01
1,部门1,小部门1,张丽丽,8857,2020-01-02
2,部门1,小部门2,赵建国,16399,2020-01-03
3,部门1,小部门2,汪桂香,23327,2020-01-04
4,部门1,小部门2,杨桂英,64689,2020-01-05
5,部门2,小部门3,邓霞,80870,2020-01-06
6,部门2,小部门4,任淑英,45469,2020-01-07
7,部门2,小部门4,张莉,72993,2020-01-08
8,部门2,小部门4,陆丽娟,89619,2020-01-09
9,部门2,小部门4,鲍秀华,27488,2020-01-10


In [3]:
df.dept=df.dept.astype('category')
df.dept1=df.dept1.astype('category')

In [4]:
df.dtypes

dept           category
dept1          category
name             object
销售额               int32
时间       datetime64[ns]
dtype: object

In [5]:
pd.concat([df,df]) #合并含有分类数据的表格

Unnamed: 0,dept,dept1,name,销售额,时间
0,部门1,小部门1,耿旭,5458,2020-01-01
1,部门1,小部门1,张丽丽,8857,2020-01-02
2,部门1,小部门2,赵建国,16399,2020-01-03
3,部门1,小部门2,汪桂香,23327,2020-01-04
4,部门1,小部门2,杨桂英,64689,2020-01-05
5,部门2,小部门3,邓霞,80870,2020-01-06
6,部门2,小部门4,任淑英,45469,2020-01-07
7,部门2,小部门4,张莉,72993,2020-01-08
8,部门2,小部门4,陆丽娟,89619,2020-01-09
9,部门2,小部门4,鲍秀华,27488,2020-01-10


In [6]:
pd.concat([df,df]).dtypes # 查看类型

dept           category
dept1          category
name             object
销售额               int32
时间       datetime64[ns]
dtype: object

In [8]:
pd.concat([df,df],axis=1) # axis=1的合并方向，并排表格

Unnamed: 0,dept,dept1,name,销售额,时间,dept.1,dept1.1,name.1,销售额.1,时间.1
0,部门1,小部门1,耿旭,5458,2020-01-01,部门1,小部门1,耿旭,5458,2020-01-01
1,部门1,小部门1,张丽丽,8857,2020-01-02,部门1,小部门1,张丽丽,8857,2020-01-02
2,部门1,小部门2,赵建国,16399,2020-01-03,部门1,小部门2,赵建国,16399,2020-01-03
3,部门1,小部门2,汪桂香,23327,2020-01-04,部门1,小部门2,汪桂香,23327,2020-01-04
4,部门1,小部门2,杨桂英,64689,2020-01-05,部门1,小部门2,杨桂英,64689,2020-01-05
5,部门2,小部门3,邓霞,80870,2020-01-06,部门2,小部门3,邓霞,80870,2020-01-06
6,部门2,小部门4,任淑英,45469,2020-01-07,部门2,小部门4,任淑英,45469,2020-01-07
7,部门2,小部门4,张莉,72993,2020-01-08,部门2,小部门4,张莉,72993,2020-01-08
8,部门2,小部门4,陆丽娟,89619,2020-01-09,部门2,小部门4,陆丽娟,89619,2020-01-09
9,部门2,小部门4,鲍秀华,27488,2020-01-10,部门2,小部门4,鲍秀华,27488,2020-01-10


In [9]:
pd.concat([df,df],axis=1).dtypes # 查看数据类型，注意重复列

dept           category
dept1          category
name             object
销售额               int32
时间       datetime64[ns]
dept           category
dept1          category
name             object
销售额               int32
时间       datetime64[ns]
dtype: object

In [10]:
from pandas.api.types import union_categoricals

In [11]:
union_categoricals([df,df]) # 提示我们 表格所有的合并内容必须是 分类数据

TypeError: all components to combine must be Categorical

In [12]:
union_categoricals([df.dept,df.dept]) # 合并列

['部门1', '部门1', '部门1', '部门1', '部门1', ..., '部门2', '部门2', '部门2', '部门2', '部门2']
Length: 20
Categories (2, object): ['部门1', '部门2']

In [13]:
union_categoricals([df.dept,df.dept1]) # 合并不同列

['部门1', '部门1', '部门1', '部门1', '部门1', ..., '小部门3', '小部门4', '小部门4', '小部门4', '小部门4']
Length: 20
Categories (6, object): ['部门1', '部门2', '小部门1', '小部门2', '小部门3', '小部门4']

In [14]:
union_categoricals([df.dept1,df.dept]) # 合并不同列，注意与上面的区别，顺序上

['小部门1', '小部门1', '小部门2', '小部门2', '小部门2', ..., '部门2', '部门2', '部门2', '部门2', '部门2']
Length: 20
Categories (6, object): ['小部门1', '小部门2', '小部门3', '小部门4', '部门1', '部门2']

In [15]:
union_categoricals([df.dept1,df.dept],sort_categories=True) # 合并不同列。分类排序参数

['小部门1', '小部门1', '小部门2', '小部门2', '小部门2', ..., '部门2', '部门2', '部门2', '部门2', '部门2']
Length: 20
Categories (6, object): ['小部门1', '小部门2', '小部门3', '小部门4', '部门1', '部门2']

In [16]:
union_categoricals([df.dept1,df.dept],sort_categories=True,ignore_order=True) # 合并不同列.ignore_order 忽略顺序参数

['小部门1', '小部门1', '小部门2', '小部门2', '小部门2', ..., '部门2', '部门2', '部门2', '部门2', '部门2']
Length: 20
Categories (6, object): ['小部门1', '小部门2', '小部门3', '小部门4', '部门1', '部门2']

In [17]:
union_categoricals([df.dept,df.dept1],axis=1) # 提示不支持 axis参数

TypeError: union_categoricals() got an unexpected keyword argument 'axis'