# Pandas的高级运算

In [1]:
import pandas as pd ; import numpy as np

## 数据分类

**先说说数据分类为啥重要。我们在获得大量的数据时，我们对于单一的数据没有那么关心，我们需要的是对于一类东西的分析，或是研究几类人，或是研究几类商品。分类后我们可以使用群体的视角来审视，什么平均值、标准差、中位数，我们才可以好好探讨，对于类与类之间特征，我们也可以做研究**

**在Pandas和Numpy中有'分类类型'，对于一类的数据做了整理，并以索引标记了相同的数据**

In [2]:
#之前我们对于同类数据的统计使用的是unique和value_counts
test = pd.Series(['orange','juice','chips']*3)
print(test)

0    orange
1     juice
2     chips
3    orange
4     juice
5     chips
6    orange
7     juice
8     chips
dtype: object


In [3]:
pd.unique(test)

array(['orange', 'juice', 'chips'], dtype=object)

In [4]:
pd.value_counts(test)

chips     3
orange    3
juice     3
dtype: int64

### 引入分类类型

In [5]:
#DataFrame取一列为Series
frame = pd.DataFrame(np.ceil(np.random.randn(9,9)),index=range(9),columns=['a','s','d','f','g','h','j','k','l'])
print(frame)

     a    s    d    f    g    h    j    k    l
0 -0.0 -0.0 -0.0  1.0 -0.0 -0.0  1.0  1.0  1.0
1  2.0  1.0 -0.0  2.0 -0.0 -0.0 -0.0  1.0 -0.0
2  2.0 -0.0 -1.0 -1.0 -1.0 -1.0 -0.0  1.0 -0.0
3 -1.0 -1.0 -0.0  1.0  1.0 -0.0  2.0  1.0 -0.0
4 -0.0 -0.0  2.0  3.0  1.0 -0.0 -0.0  1.0  1.0
5  1.0 -0.0 -0.0  1.0 -3.0  2.0  1.0 -0.0 -0.0
6 -0.0  2.0  1.0  1.0 -0.0 -0.0 -0.0  3.0 -0.0
7 -0.0  1.0  1.0  2.0 -0.0 -0.0  1.0  1.0 -0.0
8  1.0  2.0  1.0  1.0  1.0 -0.0 -0.0  2.0  1.0


In [6]:
frame['a']

0   -0.0
1    2.0
2    2.0
3   -1.0
4   -0.0
5    1.0
6   -0.0
7   -0.0
8    1.0
Name: a, dtype: float64

**对于分类类型的转变的方法是：astype('category')**

In [7]:
test_t = frame['a'].astype('category').values
print(test_t)

[-0.0, 2.0, 2.0, -1.0, -0.0, 1.0, -0.0, -0.0, 1.0]
Categories (4, float64): [-1.0, -0.0, 1.0, 2.0]


**分类类型的数据是有索引(codes)和值(categories)两个内容决定的**

In [8]:
type(test_t)

pandas.core.arrays.categorical.Categorical

In [9]:
test_t.codes

array([1, 3, 3, 0, 1, 2, 1, 1, 2], dtype=int8)

In [10]:
test_t.categories

Float64Index([-1.0, -0.0, 1.0, 2.0], dtype='float64')

**在pandas中，你可以通过categoroical方法可以创建分类类型**

In [11]:
test_n = pd.Categorical(['lala','haha','enen']*3)

In [12]:
test_n

[lala, haha, enen, lala, haha, enen, lala, haha, enen]
Categories (3, object): [enen, haha, lala]

In [13]:
test_n.codes

array([2, 1, 0, 2, 1, 0, 2, 1, 0], dtype=int8)

**如果你已经有了一个顺序，那么可以使用构造函数(from_codes)来建立分类类别**

In [14]:
ele = ['lala','haha','enen']
order = [0,1,2,0,0,0,1,1,2,1]
test_a = pd.Categorical.from_codes(order,ele)

In [15]:
test_a

[lala, haha, enen, lala, lala, lala, haha, haha, enen, haha]
Categories (3, object): [lala, haha, enen]

**分类数组可以包含所有不可变类型**

In [16]:
ele_a = ['lalala','hahaha','enenen',1,2,3,4]
order_a = [1,2,3,4,1,2,5,4,5,3,4]
test_b = pd.Categorical.from_codes(order_a,ele_a)
print(test_b)

[hahaha, enenen, 1, 2, hahaha, ..., 3, 2, 3, 1, 2]
Length: 11
Categories (7, object): [lalala, hahaha, enenen, 1, 2, 3, 4]


### 用分类进行运算

**就像一开始所说的，分类的目的是将很多数据通过某些法则归类再计算，下面用一个例子说明：**

In [17]:
#建立一个数据
np.random.seed(12334)
data = np.random.randn(1000)
data[:5]

array([ 0.09853435, -0.57641006, -0.29509204,  1.4046415 , -0.82662476])

In [18]:
#我使用qcut来分类
result = pd.qcut(data,4)
result

[(0.0386, 0.716], (-0.632, 0.0386], (-0.632, 0.0386], (0.716, 3.806], (-2.8729999999999998, -0.632], ..., (0.716, 3.806], (0.0386, 0.716], (-0.632, 0.0386], (-0.632, 0.0386], (0.716, 3.806]]
Length: 1000
Categories (4, interval[float64]): [(-2.8729999999999998, -0.632] < (-0.632, 0.0386] < (0.0386, 0.716] < (0.716, 3.806]]

In [19]:
#为了好区分，我们使用标签来为分隔的数据分组
result = pd.qcut(data,4,labels=['A','B','C','D'])
result              #已经是分类类型

[C, B, B, D, A, ..., D, C, B, B, D]
Length: 1000
Categories (4, object): [A < B < C < D]

In [20]:
result.codes[:5]

array([2, 1, 1, 3, 0], dtype=int8)

In [21]:
bins = pd.Series(data,name='data')

In [22]:
end = bins.groupby(result).agg(['mean','count','std']).reset_index()

In [23]:
print(end)

  index      mean  count       std
0     A -1.219338    250  0.489043
1     B -0.270401    250  0.189888
2     C  0.350653    250  0.190798
3     D  1.303876    250  0.506625


### 分类的效率问题

**在举例子之前先说明答案：分类类型所占的内存要比同样大小的数据要小，但是在一次性产生分类类型数据的过程中会消耗cup和内存，但是这是一次性的**

In [24]:
N = 10000000

In [25]:
labes = pd.Series(['hahah','lalala','momomo','zezeze']*(N//4))

In [26]:
categroies = labes.astype('category')

In [27]:
labes.memory_usage()

80000080

In [28]:
categroies.memory_usage(0)

10000192

In [29]:
#来看看一次性的代价
%time _ =  labes.astype('category')

Wall time: 465 ms


### 分类方法

**分类的操作上面已经讲过了，这里的分类方法是根据碰到的一些情况完成的不同的分类方式**

**你已经定义好了分类的数据，但是你的大数据的中有些元素没有包含进去，这个时候使用set_catagroies**

In [30]:
data = pd.Series(['A','B','C','D']*3,dtype='category')
print(data)

0     A
1     B
2     C
3     D
4     A
5     B
6     C
7     D
8     A
9     B
10    C
11    D
dtype: category
Categories (4, object): [A, B, C, D]


In [31]:
#但是实际上的元素有【A,B,C,D,E,F】
ele = ['A','B','C','D','E','F']
data_new = data.cat.set_categories(ele)

In [32]:
print(data_new)

0     A
1     B
2     C
3     D
4     A
5     B
6     C
7     D
8     A
9     B
10    C
11    D
dtype: category
Categories (6, object): [A, B, C, D, E, F]


**由于我的分类变量的意义是：减少内存和高性能的工具。有时候数据有些分类之后我们就不用了，这个时候我们通过remove_unuesd_categories()**

In [36]:
remove = data_new[data_new.isin(['C','D'])]
print(remove)

2     C
3     D
6     C
7     D
10    C
11    D
dtype: category
Categories (6, object): [A, B, C, D, E, F]


In [37]:
print(remove.cat.remove_unused_categories())

2     C
3     D
6     C
7     D
10    C
11    D
dtype: category
Categories (2, object): [C, D]
