# Pandas的高级运算

In [1]:
import pandas as pd ; import numpy as np

## 数据分类

**先说说数据分类为啥重要。我们在获得大量的数据时，我们对于单一的数据没有那么关心，我们需要的是对于一类东西的分析，或是研究几类人，或是研究几类商品。分类后我们可以使用群体的视角来审视，什么平均值、标准差、中位数，我们才可以好好探讨，对于类与类之间特征，我们也可以做研究**

**在Pandas和Numpy中有'分类类型'，对于一类的数据做了整理，并以索引标记了相同的数据**

In [2]:
#之前我们对于同类数据的统计使用的是unique和value_counts
test = pd.Series(['orange','juice','chips']*3)
print(test)

0    orange
1     juice
2     chips
3    orange
4     juice
5     chips
6    orange
7     juice
8     chips
dtype: object


In [3]:
pd.unique(test)

array(['orange', 'juice', 'chips'], dtype=object)

In [4]:
pd.value_counts(test)

orange    3
juice     3
chips     3
dtype: int64

### 引入分类类型

In [5]:
#DataFrame取一列为Series
frame = pd.DataFrame(np.ceil(np.random.randn(9,9)),index=range(9),columns=['a','s','d','f','g','h','j','k','l'])
print(frame)

     a    s    d    f    g    h    j    k    l
0  1.0 -0.0  1.0  1.0 -1.0 -0.0 -0.0  1.0 -0.0
1  1.0  1.0 -0.0  1.0 -0.0  1.0  1.0 -0.0  2.0
2  1.0 -0.0  1.0 -0.0 -0.0 -0.0  2.0 -0.0  1.0
3 -2.0  2.0 -0.0  1.0 -0.0 -0.0  2.0  1.0 -0.0
4 -0.0 -0.0  1.0  3.0 -0.0 -1.0 -1.0 -1.0 -1.0
5  2.0 -0.0 -1.0  2.0 -0.0  1.0 -1.0  1.0 -0.0
6  1.0  1.0 -0.0  1.0 -0.0  1.0 -0.0 -0.0 -0.0
7  2.0  2.0  1.0  1.0  1.0 -0.0 -1.0 -1.0 -2.0
8 -1.0  1.0  1.0 -1.0  1.0 -0.0  1.0 -0.0 -0.0


In [6]:
frame['a']

0    1.0
1    1.0
2    1.0
3   -2.0
4   -0.0
5    2.0
6    1.0
7    2.0
8   -1.0
Name: a, dtype: float64

**对于分类类型的转变的方法是：astype('category')**

In [7]:
test_t = frame['a'].astype('category').values
print(test_t)

[1.0, 1.0, 1.0, -2.0, -0.0, 2.0, 1.0, 2.0, -1.0]
Categories (5, float64): [-2.0, -1.0, -0.0, 1.0, 2.0]


**分类类型的数据是有索引(codes)和值(categories)两个内容决定的**

In [8]:
type(test_t)

pandas.core.arrays.categorical.Categorical

In [9]:
test_t.codes

array([3, 3, 3, 0, 2, 4, 3, 4, 1], dtype=int8)

In [10]:
test_t.categories

Float64Index([-2.0, -1.0, -0.0, 1.0, 2.0], dtype='float64')

**在pandas中，你可以通过categoroical方法可以创建分类类型**

In [11]:
test_n = pd.Categorical(['lala','haha','enen']*3)

In [12]:
test_n

[lala, haha, enen, lala, haha, enen, lala, haha, enen]
Categories (3, object): [enen, haha, lala]

In [13]:
test_n.codes

array([2, 1, 0, 2, 1, 0, 2, 1, 0], dtype=int8)

**如果你已经有了一个顺序，那么可以使用构造函数(from_codes)来建立分类类别**

In [14]:
ele = ['lala','haha','enen']
order = [0,1,2,0,0,0,1,1,2,1]
test_a = pd.Categorical.from_codes(order,ele)

In [15]:
test_a

[lala, haha, enen, lala, lala, lala, haha, haha, enen, haha]
Categories (3, object): [lala, haha, enen]

**分类数组可以包含所有不可变类型**

In [16]:
ele_a = ['lalala','hahaha','enenen',1,2,3,4]
order_a = [1,2,3,4,1,2,5,4,5,3,4]
test_b = pd.Categorical.from_codes(order_a,ele_a)
print(test_b)

[hahaha, enenen, 1, 2, hahaha, ..., 3, 2, 3, 1, 2]
Length: 11
Categories (7, object): [lalala, hahaha, enenen, 1, 2, 3, 4]


### 用分类进行运算

**就像一开始所说的，分类的目的是将很多数据通过某些法则归类再计算，下面用一个例子说明：**

In [17]:
#建立一个数据
np.random.seed(12334)
data = np.random.randn(1000)
data[:5]

array([ 0.09853435, -0.57641006, -0.29509204,  1.4046415 , -0.82662476])

In [18]:
#我使用qcut来分类
result = pd.qcut(data,4)
print(result)   

[(0.0386, 0.716], (-0.632, 0.0386], (-0.632, 0.0386], (0.716, 3.806], (-2.8729999999999998, -0.632], ..., (0.716, 3.806], (0.0386, 0.716], (-0.632, 0.0386], (-0.632, 0.0386], (0.716, 3.806]]
Length: 1000
Categories (4, interval[float64]): [(-2.8729999999999998, -0.632] < (-0.632, 0.0386] < (0.0386, 0.716] < (0.716, 3.806]]


**这个告诉我们，就算没有调用category之类的操作，如果是有分类的行为，也是Categories**

In [19]:
#为了好区分，我们使用标签来为分隔的数据分组
result = pd.qcut(data,4,labels=['A','B','C','D'])           #已经是分类类型

In [20]:
result.codes[:5]

array([2, 1, 1, 3, 0], dtype=int8)

In [21]:
bins = pd.Series(data,name='data')

In [22]:
end = bins.groupby(result).agg(['mean','count','std']).reset_index()

In [23]:
print(end)

  index      mean  count       std
0     A -1.219338    250  0.489043
1     B -0.270401    250  0.189888
2     C  0.350653    250  0.190798
3     D  1.303876    250  0.506625


### 分类的效率问题

**在举例子之前先说明答案：分类类型所占的内存要比同样大小的数据要小，但是在一次性产生分类类型数据的过程中会消耗cup和内存，但是这是一次性的**

In [24]:
N = 10000000

In [25]:
labes = pd.Series(['hahah','lalala','momomo','zezeze']*(N//4))

In [26]:
categroies = labes.astype('category')

In [27]:
labes.memory_usage()

80000080

In [28]:
categroies.memory_usage(0)

10000192

In [29]:
#来看看一次性的代价
%time _ =  labes.astype('category')

Wall time: 470 ms


### 分类方法

**分类的操作上面已经讲过了，这里的分类方法是根据碰到的一些情况完成的不同的分类方式**

**你已经定义好了分类的数据，但是你的大数据的中有些元素没有包含进去，这个时候使用set_catagroies**

In [30]:
data = pd.Series(['A','B','C','D']*3,dtype='category')
print(data)

0     A
1     B
2     C
3     D
4     A
5     B
6     C
7     D
8     A
9     B
10    C
11    D
dtype: category
Categories (4, object): [A, B, C, D]


In [31]:
#但是实际上的元素有【A,B,C,D,E,F】
ele = ['A','B','C','D','E','F']
data_new = data.cat.set_categories(ele)

In [32]:
print(data_new)

0     A
1     B
2     C
3     D
4     A
5     B
6     C
7     D
8     A
9     B
10    C
11    D
dtype: category
Categories (6, object): [A, B, C, D, E, F]


**由于我的分类变量的意义是：减少内存和高性能的工具。有时候数据有些分类之后我们就不用了，这个时候我们通过remove_unuesd_categories()**

In [33]:
remove = data_new[data_new.isin(['C','D'])]
print(remove)

2     C
3     D
6     C
7     D
10    C
11    D
dtype: category
Categories (6, object): [A, B, C, D, E, F]


In [34]:
print(remove.cat.remove_unused_categories())

2     C
3     D
6     C
7     D
10    C
11    D
dtype: category
Categories (2, object): [C, D]


### one-hot 编码

**对于one-hot编码，可以理解为将我们分类完成的东西以二进制表现<https://zhuanlan.zhihu.com/p/37471802>**

**我们的思路是，将我们想要的数据线分类，然后使用get_dummies**

In [35]:
N = 10000

In [36]:
np.random.seed(12345)
data = np.random.randn(N)
data[:5]

array([-0.20470766,  0.47894334, -0.51943872, -0.5557303 ,  1.96578057])

In [37]:
ele = pd.qcut(data,4,labels=['A','B','C','F'])
print(ele[:5])

[B, C, B, B, F]
Categories (4, object): [A < B < C < F]


In [38]:
print(pd.get_dummies(ele))

      A  B  C  F
0     0  1  0  0
1     0  0  1  0
2     0  1  0  0
3     0  1  0  0
4     0  0  0  1
5     0  0  0  1
6     0  0  1  0
7     0  0  1  0
8     0  0  0  1
9     0  0  0  1
10    0  0  0  1
11    1  0  0  0
12    0  0  1  0
13    0  0  1  0
14    0  0  0  1
15    0  0  0  1
16    1  0  0  0
17    0  1  0  0
18    0  0  0  1
19    0  1  0  0
20    0  1  0  0
21    0  0  1  0
22    0  0  0  1
23    1  0  0  0
24    0  1  0  0
25    0  0  1  0
26    0  0  1  0
27    0  0  1  0
28    0  0  1  0
29    0  0  0  1
...  .. .. .. ..
9970  0  0  1  0
9971  0  0  1  0
9972  0  0  1  0
9973  0  1  0  0
9974  0  0  1  0
9975  0  1  0  0
9976  0  0  0  1
9977  0  1  0  0
9978  1  0  0  0
9979  0  0  0  1
9980  0  0  1  0
9981  1  0  0  0
9982  0  0  0  1
9983  0  0  1  0
9984  0  1  0  0
9985  0  0  0  1
9986  0  1  0  0
9987  0  0  0  1
9988  0  0  1  0
9989  0  0  0  1
9990  0  0  0  1
9991  0  0  0  1
9992  1  0  0  0
9993  0  0  1  0
9994  1  0  0  0
9995  1  0  0  0
9996  0  0  0 

## GroupBy的高级应用

### Group Tranforms and "Unwrapped" GroupBys

**标题使用英文是因为，在这一节的内容，我觉得中文翻译误导了我，但是英文理解起来比较直白**

In [39]:
frame = pd.DataFrame({'key':['a','s','a','f'],'value':range(4)})

In [40]:
print(frame)

  key  value
0   a      0
1   s      1
2   a      2
3   f      3


In [41]:
#回顾一下groupby
ele= frame.groupby('key').agg(['sum'])

In [42]:
print(ele)

    value
      sum
key      
a       2
f       3
s       1


**如果我希望自己可以将数据合并的时候，不是将数据整合之后再将表合并，而计算好的数据写在每一个同类的旁边，这个时候我们需要transform()函数**

**具体的东西的tramform()函数和上面所提的需求可以看这个链接：https://www.jianshu.com/p/509d7b97088c**

In [43]:
#上面的例子可以为
ele = frame.groupby('key')
test = ele.transform(lambda x : x.sum())

In [44]:
print(test)

   value
0      2
1      1
2      2
3      3


**在a所在的位置上，都是sum()之后的结果**

In [46]:
#还可以
def cul(x):
    return (x-x.mean())//x

In [47]:
test = ele.transform(cul)

In [48]:
print(test)

   value
0    NaN
1    0.0
2    0.0
3    0.0


### 分组的时间重采样

**对于一般的字符、字符串以及数字，我们使用groupby可以简单的将数据隔离出来。但是对数时间的数据，我们要将他区分的方法是引入TimeGroup对象和resample方法**

>  1.resample方法是将index的数据通过resample分隔，时间数据在index上是关键

>  2.引入TimeGroup是将在column上的时间数据分隔

In [59]:
time = pd.date_range('2019/7/12 00:00',freq='5min',periods=10)

In [60]:
print(time)

DatetimeIndex(['2019-07-12 00:00:00', '2019-07-12 00:05:00',
               '2019-07-12 00:10:00', '2019-07-12 00:15:00',
               '2019-07-12 00:20:00', '2019-07-12 00:25:00',
               '2019-07-12 00:30:00', '2019-07-12 00:35:00',
               '2019-07-12 00:40:00', '2019-07-12 00:45:00'],
              dtype='datetime64[ns]', freq='5T')


In [61]:
frame = pd.DataFrame({'time':time,'value':range(10)})

In [62]:
print(frame)

                 time  value
0 2019-07-12 00:00:00      0
1 2019-07-12 00:05:00      1
2 2019-07-12 00:10:00      2
3 2019-07-12 00:15:00      3
4 2019-07-12 00:20:00      4
5 2019-07-12 00:25:00      5
6 2019-07-12 00:30:00      6
7 2019-07-12 00:35:00      7
8 2019-07-12 00:40:00      8
9 2019-07-12 00:45:00      9


In [63]:
#开始分隔：使用sample()
test = frame.set_index('time').resample('20min').count()

In [65]:
print(test)

                     value
time                      
2019-07-12 00:00:00      4
2019-07-12 00:20:00      4
2019-07-12 00:40:00      2


In [68]:
#开始分隔：使用TimeGroup
frame = pd.DataFrame({'time':time,'value':range(10),'key':['a','a','s','s','f','g','h','h','h','l']})

In [69]:
print(frame)

                 time  value key
0 2019-07-12 00:00:00      0   a
1 2019-07-12 00:05:00      1   a
2 2019-07-12 00:10:00      2   s
3 2019-07-12 00:15:00      3   s
4 2019-07-12 00:20:00      4   f
5 2019-07-12 00:25:00      5   g
6 2019-07-12 00:30:00      6   h
7 2019-07-12 00:35:00      7   h
8 2019-07-12 00:40:00      8   h
9 2019-07-12 00:45:00      9   l
