1 Background and Motivation（背景和动力）

表格中的列克可能会有重复的部分。我们可以用unique和value_counts，从一个数组从提取不同的值，并计算频度：

In [1]:
import numpy   as np
import pandas   as pd

In [2]:
values = pd.Series(['apple', 'orange', 'apple', 'apple'] * 2)
values

0     apple
1    orange
2     apple
3     apple
4     apple
5    orange
6     apple
7     apple
dtype: object

In [3]:
pd.unique(values)

array(['apple', 'orange'], dtype=object)

In [4]:
pd.value_counts(values)

apple     6
orange    2
dtype: int64

In [5]:
values=pd.Series([0,1,0,0]*2)

In [6]:
values

0    0
1    1
2    0
3    0
4    0
5    1
6    0
7    0
dtype: int64

In [7]:
dim=pd.Series(['apple','orange'])

In [8]:
dim

0     apple
1    orange
dtype: object

In [9]:
dim.take(values)

0     apple
1    orange
0     apple
0     apple
0     apple
1    orange
0     apple
0     apple
dtype: object

这种用整数表示的方法叫做类别（categorical）或字典编码（dictionary-encoded）表示法。表示不同类别值的数组，被称作类别，字典，或层级。本书中我们将使用类别（categorical and categories）来称呼。表示类别的整数值被叫做，类别编码（category code），或编码（code）。
2 Categorical Type in pandas（pandas中的Categorical类型）

pandas中有一个Categorical类型，是用来保存那些基于整数的类别型数据。考虑下面的例子：


In [10]:
fruits=['apple','orange','apple','apple']*2

In [11]:
fruits

['apple', 'orange', 'apple', 'apple', 'apple', 'orange', 'apple', 'apple']

In [12]:
N=len(fruits)
N

8

In [13]:
df = pd.DataFrame({'fruit': fruits,
                   'basket_id': np.arange(N),
                   'count': np.random.randint(3, 15, size=N),
                   'weight': np.random.uniform(0, 4, size=N)},
                  columns=['basket_id', 'fruit', 'count', 'weight'])
df

Unnamed: 0,basket_id,fruit,count,weight
0,0,apple,7,0.011374
1,1,orange,5,2.182489
2,2,apple,10,2.525335
3,3,apple,12,0.226321
4,4,apple,11,1.749507
5,5,orange,6,2.364774
6,6,apple,11,1.21948
7,7,apple,5,0.616688


In [14]:
fruits_cat=df['fruit'].astype('category')

In [15]:
fruits_cat

0     apple
1    orange
2     apple
3     apple
4     apple
5    orange
6     apple
7     apple
Name: fruit, dtype: category
Categories (2, object): [apple, orange]

fruits_cat的值并不是一个numpy数组，而是一个pandas.Categorical实例：

In [16]:
c=fruits_cat.values
type(c)

pandas.core.arrays.categorical.Categorical

In [18]:
#这个Categorical对象有categories和codes属性：

In [19]:
c.categories

Index(['apple', 'orange'], dtype='object')

In [20]:
c.codes

array([0, 1, 0, 0, 0, 1, 0, 0], dtype=int8)

In [21]:
#可以把转换的结果变为DataFrame列

In [22]:
df['fruit'] = df['fruit'].astype('category')
df.fruit

0     apple
1    orange
2     apple
3     apple
4     apple
5    orange
6     apple
7     apple
Name: fruit, dtype: category
Categories (2, object): [apple, orange]

In [23]:
#也可以直接把其他的python序列变为pandas.Categorical类型：

In [24]:
my_categories = pd.Categorical(['foo', 'bar', 'baz', 'foo', 'bar'])
my_categories

[foo, bar, baz, foo, bar]
Categories (3, object): [bar, baz, foo]

In [25]:
#如果已经得到了分类编码数据（categorical encoded data），我们可以使用from_codes构造器：

In [26]:
categories = ['foo', 'bar', 'baz']

In [27]:
codes = [0, 1, 2, 0, 0, 1]

In [28]:
my_cats_2 = pd.Categorical.from_codes(codes, categories)
my_cats_2

[foo, bar, baz, foo, foo, bar]
Categories (3, object): [foo, bar, baz]

In [29]:
ordered_cat = pd.Categorical.from_codes(codes, categories, 
                                        ordered=True)
ordered_cat

[foo, bar, baz, foo, foo, bar]
Categories (3, object): [foo < bar < baz]