### 导入包

In [3]:
import numpy as np
import pandas as pd

### 读入数据

In [4]:
df = pd.read_excel('data/city.xls')
df.head()

Unnamed: 0,地区,2018年,2017年,2016年,2015年,2014年
0,北京,30319.98,28014.94,25669.13,23014.59,21330.83
1,天津,18809.64,18549.19,17885.39,16538.19,15726.93
2,石家庄,,6460.88,5927.73,5440.6,5170.27
3,太原,,3382.18,2955.6,2735.34,2531.09
4,呼和浩特,,2743.72,3173.59,3090.52,2894.05


# 数据重塑和轴向旋转

## (1)层次化索引

### &emsp;&emsp;Series的层次化索引

In [5]:
s = pd.Series(np.arange(1,10),index=[['a','a','a','b','b','b','c','c','c'],[1,2,3,1,2,3,1,2,3]])

In [6]:
s.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('b', 3),
            ('c', 1),
            ('c', 2),
            ('c', 3)],
           )

In [7]:
s['a']

1    1
2    2
3    3
dtype: int32

In [8]:
#切片
s['a':'c']

a  1    1
   2    2
   3    3
b  1    4
   2    5
   3    6
c  1    7
   2    8
   3    9
dtype: int32

In [9]:
#内层选取
s[:,2]

a    2
b    5
c    8
dtype: int32

In [10]:
s['c',3]

9

#### 通过unstack方法可以将Series变成一个DataFrame

In [11]:
s.unstack()

Unnamed: 0,1,2,3
a,1,2,3
b,4,5,6
c,7,8,9


### &emsp;&emsp;DataFrame的层次化索引

对于DataFrame来说,行和列都能进行层次化索引

In [12]:
data = pd.DataFrame(np.arange(12).reshape(4,3))

In [13]:
data

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [14]:
data = pd.DataFrame(np.arange(12).reshape(4,3),index=[['a','a','b','b'],[1,2,1,2]],columns=[['A','A','B'],['Z','X','C']])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,A,A,B
Unnamed: 0_level_1,Unnamed: 1_level_1,Z,X,C
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [15]:
data['A']

Unnamed: 0,Unnamed: 1,Z,X
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


In [16]:
data['B']

Unnamed: 0,Unnamed: 1,C
a,1,2
a,2,5
b,1,8
b,2,11


In [17]:
data.index.names=['row1','row2']
data.columns.names=['col1','col2']
data

Unnamed: 0_level_0,col1,A,A,B
Unnamed: 0_level_1,col2,Z,X,C
row1,row2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [18]:
data.swaplevel('row1','row2')

Unnamed: 0_level_0,col1,A,A,B
Unnamed: 0_level_1,col2,Z,X,C
row2,row1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


### 可将城市GDP数据也处理成一种多层索引的结构

In [19]:
df.index

RangeIndex(start=0, stop=37, step=1)

#### 将地区设置为外层索引,年份设置为内层索引
   - set_index可将列变成索引
   - reset_index是将索引变成列

In [20]:
df = df.set_index('地区')
df

Unnamed: 0_level_0,2018年,2017年,2016年,2015年,2014年
地区,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
北京,30319.98,28014.94,25669.13,23014.59,21330.83
天津,18809.64,18549.19,17885.39,16538.19,15726.93
石家庄,,6460.88,5927.73,5440.6,5170.27
太原,,3382.18,2955.6,2735.34,2531.09
呼和浩特,,2743.72,3173.59,3090.52,2894.05
沈阳,,5864.97,5460.01,7272.31,7098.71
大连,,7363.92,6730.33,7731.64,7655.58
长春,,6530.03,5917.94,5530.03,5342.43
哈尔滨,,6355.05,6101.61,5751.21,5340.07
上海,32679.87,30632.99,28178.65,25123.45,23567.7


### 取消层次化索引

In [21]:
df = df.reset_index()

In [22]:
df[:5]

Unnamed: 0,地区,2018年,2017年,2016年,2015年,2014年
0,北京,30319.98,28014.94,25669.13,23014.59,21330.83
1,天津,18809.64,18549.19,17885.39,16538.19,15726.93
2,石家庄,,6460.88,5927.73,5440.6,5170.27
3,太原,,3382.18,2955.6,2735.34,2531.09
4,呼和浩特,,2743.72,3173.59,3090.52,2894.05


## (2)数据旋转

In [23]:
data = df[:5]
data

Unnamed: 0,地区,2018年,2017年,2016年,2015年,2014年
0,北京,30319.98,28014.94,25669.13,23014.59,21330.83
1,天津,18809.64,18549.19,17885.39,16538.19,15726.93
2,石家庄,,6460.88,5927.73,5440.6,5170.27
3,太原,,3382.18,2955.6,2735.34,2531.09
4,呼和浩特,,2743.72,3173.59,3090.52,2894.05


#### 直接让数据的行列进行交换

In [24]:
data.T

Unnamed: 0,0,1,2,3,4
地区,北京,天津,石家庄,太原,呼和浩特
2018年,30320,18809.6,,,
2017年,28014.9,18549.2,6460.88,3382.18,2743.72
2016年,25669.1,17885.4,5927.73,2955.6,3173.59
2015年,23014.6,16538.2,5440.6,2735.34,3090.52
2014年,21330.8,15726.9,5170.27,2531.09,2894.05


### DataFrame也可以使用stack和unstack,转化为层次化索引的Series

In [25]:
data.stack()

0  地区            北京
   2018年      30320
   2017年    28014.9
   2016年    25669.1
   2015年    23014.6
   2014年    21330.8
1  地区            天津
   2018年    18809.6
   2017年    18549.2
   2016年    17885.4
   2015年    16538.2
   2014年    15726.9
2  地区           石家庄
   2017年    6460.88
   2016年    5927.73
   2015年     5440.6
   2014年    5170.27
3  地区            太原
   2017年    3382.18
   2016年     2955.6
   2015年    2735.34
   2014年    2531.09
4  地区          呼和浩特
   2017年    2743.72
   2016年    3173.59
   2015年    3090.52
   2014年    2894.05
dtype: object

In [26]:
data.unstack()

地区     0         北京
       1         天津
       2        石家庄
       3         太原
       4       呼和浩特
2018年  0      30320
       1    18809.6
       2        NaN
       3        NaN
       4        NaN
2017年  0    28014.9
       1    18549.2
       2    6460.88
       3    3382.18
       4    2743.72
2016年  0    25669.1
       1    17885.4
       2    5927.73
       3     2955.6
       4    3173.59
2015年  0    23014.6
       1    16538.2
       2     5440.6
       3    2735.34
       4    3090.52
2014年  0    21330.8
       1    15726.9
       2    5170.27
       3    2531.09
       4    2894.05
dtype: object

## (3)数据分组，分组运算

#### - GroupBy技术：实现数据的分组，分组运算，作用类似于数据透视表

In [29]:
group = df.groupby(df['地区'])

In [30]:
type(group)

pandas.core.groupby.generic.DataFrameGroupBy

#### 可以计算分组后的各个统计量
   - 只会对数值变量进行分组运算

In [33]:
group.mean().head()

Unnamed: 0_level_0,2018年,2017年,2016年,2015年,2014年
地区,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
上海,32679.87,30632.99,28178.65,25123.45,23567.7
乌鲁木齐,,2743.82,2458.98,2631.64,2461.47
兰州,,2523.54,2264.23,2095.99,2000.94
北京,30319.98,28014.94,25669.13,23014.59,21330.83
南京,,11715.1,10503.02,9720.77,8820.75


## 离散化处理
- 离散化也称为分组，区间化，Pandas为我们提供了方便的函数cut()
- pd.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False):
   - x：需要离散化的数组，Series，DataFrame对象
   - bins：分组的依据

In [40]:
df['GDP等级'] = pd.cut(df['2017年'],[0, 4000, 10000, 20000, 30000,35000],labels=['E','D','C','B','A'])
df

Unnamed: 0,地区,2018年,2017年,2016年,2015年,2014年,GDP等级
0,北京,30319.98,28014.94,25669.13,23014.59,21330.83,B
1,天津,18809.64,18549.19,17885.39,16538.19,15726.93,C
2,石家庄,,6460.88,5927.73,5440.6,5170.27,D
3,太原,,3382.18,2955.6,2735.34,2531.09,E
4,呼和浩特,,2743.72,3173.59,3090.52,2894.05,E
5,沈阳,,5864.97,5460.01,7272.31,7098.71,D
6,大连,,7363.92,6730.33,7731.64,7655.58,D
7,长春,,6530.03,5917.94,5530.03,5342.43,D
8,哈尔滨,,6355.05,6101.61,5751.21,5340.07,D
9,上海,32679.87,30632.99,28178.65,25123.45,23567.7,A


### 将处理后的数据进行保存

In [42]:
df.to_excel('data/city2.xls')

## 合并数据集
### &emsp;(1)append

In [48]:
df_n1 = df[df['2017年']>25000]
df_n2 = df[(20000<df['2017年'])&(df['2017年']<=25000)]

In [49]:
df_n2.append(df_n1)

Unnamed: 0,地区,2018年,2017年,2016年,2015年,2014年,GDP等级
22,广州,,21503.15,19547.44,18100.41,16706.87,B
23,深圳,,22490.06,19492.6,17502.86,16001.82,B
0,北京,30319.98,28014.94,25669.13,23014.59,21330.83,B
9,上海,32679.87,30632.99,28178.65,25123.45,23567.7,A


### &emsp;(2)merge<br/>
pd.merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=True,suffixes=('_x','_y'),copy=True,indicator=False)
- left:对象
- right:另一个对象
- on:要加入的列
- left_on:从左边的综合使用作为键列
- right_on:
- left_index:
- right_index:
- how:
- sort:综合通过联接键按字典顺序对结果进行排序，默认值为True
- suffixes:
- indicator:

In [50]:
df1 = df.loc[:5]
df1

Unnamed: 0,地区,2018年,2017年,2016年,2015年,2014年,GDP等级
0,北京,30319.98,28014.94,25669.13,23014.59,21330.83,B
1,天津,18809.64,18549.19,17885.39,16538.19,15726.93,C
2,石家庄,,6460.88,5927.73,5440.6,5170.27,D
3,太原,,3382.18,2955.6,2735.34,2531.09,E
4,呼和浩特,,2743.72,3173.59,3090.52,2894.05,E
5,沈阳,,5864.97,5460.01,7272.31,7098.71,D


In [55]:
df2 = df.loc[:5][['地区']]
df2['2013年'] = [20001,14387.23,4902.65,2354.89,2749.20,6803.42]
df2

Unnamed: 0,地区,2013年
0,北京,20001.0
1,天津,14387.23
2,石家庄,4902.65
3,太原,2354.89
4,呼和浩特,2749.2
5,沈阳,6803.42


#### 将df1和df2合并

In [58]:
df3 = pd.merge(df1,df2,how='inner',on='地区')
df3

Unnamed: 0,地区,2018年,2017年,2016年,2015年,2014年,GDP等级,2013年
0,北京,30319.98,28014.94,25669.13,23014.59,21330.83,B,20001.0
1,天津,18809.64,18549.19,17885.39,16538.19,15726.93,C,14387.23
2,石家庄,,6460.88,5927.73,5440.6,5170.27,D,4902.65
3,太原,,3382.18,2955.6,2735.34,2531.09,E,2354.89
4,呼和浩特,,2743.72,3173.59,3090.52,2894.05,E,2749.2
5,沈阳,,5864.97,5460.01,7272.31,7098.71,D,6803.42


### &emsp;(3)concat
   - 将多个数据集进行批量合并

In [59]:
df4 = df[:5]
df5 = df[10:15]
df6 = df[20:25]

In [60]:
df4

Unnamed: 0,地区,2018年,2017年,2016年,2015年,2014年,GDP等级
0,北京,30319.98,28014.94,25669.13,23014.59,21330.83,B
1,天津,18809.64,18549.19,17885.39,16538.19,15726.93,C
2,石家庄,,6460.88,5927.73,5440.6,5170.27,D
3,太原,,3382.18,2955.6,2735.34,2531.09,E
4,呼和浩特,,2743.72,3173.59,3090.52,2894.05,E


In [61]:
df5

Unnamed: 0,地区,2018年,2017年,2016年,2015年,2014年,GDP等级
10,南京,,11715.1,10503.02,9720.77,8820.75,C
11,杭州,,12603.36,11313.72,10050.21,9206.16,C
12,宁波,,9842.1,8686.49,8003.61,7610.28,D
13,合肥,,7213.45,6274.38,5660.27,5157.97,D
14,福州,,7103.4,6197.64,5618.08,5169.16,D


In [62]:
df6

Unnamed: 0,地区,2018年,2017年,2016年,2015年,2014年,GDP等级
20,武汉,,13410.34,11912.61,10905.6,10069.48,C
21,长沙,,10535.51,9455.36,8510.13,7824.81,C
22,广州,,21503.15,19547.44,18100.41,16706.87,B
23,深圳,,22490.06,19492.6,17502.86,16001.82,B
24,南宁,,4118.83,3703.39,3410.09,3148.3,D


In [64]:
dff = pd.concat([df4,df5,df6],axis=0) #axis=0增加行数，axis=1:增加列数
dff

Unnamed: 0,地区,2018年,2017年,2016年,2015年,2014年,GDP等级
0,北京,30319.98,28014.94,25669.13,23014.59,21330.83,B
1,天津,18809.64,18549.19,17885.39,16538.19,15726.93,C
2,石家庄,,6460.88,5927.73,5440.6,5170.27,D
3,太原,,3382.18,2955.6,2735.34,2531.09,E
4,呼和浩特,,2743.72,3173.59,3090.52,2894.05,E
10,南京,,11715.1,10503.02,9720.77,8820.75,C
11,杭州,,12603.36,11313.72,10050.21,9206.16,C
12,宁波,,9842.1,8686.49,8003.61,7610.28,D
13,合肥,,7213.45,6274.38,5660.27,5157.97,D
14,福州,,7103.4,6197.64,5618.08,5169.16,D
