# Pandas统计分析基础（2）- DataFrame的合并、分组及其应用

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False  ##针对坐标轴中负号显示不出来的问题

In [None]:
pop=pd.read_excel('GDPandPopulation.xlsx',sheet_name='Population',index_col=0)
gdp=pd.read_excel('GDPandPopulation.xlsx',sheet_name='GDP',index_col=0)

In [None]:
pop.head() #DataFrame.head()  可以读取Dataframe的前n行，默认n=5

In [None]:
len(gdp)   #len()可以返回DtaFrame的行数

## 1.DataFrame的合并

**DataFrame可以保存任意维度的数据。
我们尝试将gdp和pop两个dataframe合并成一个。**

### 1.1 concat方法

#### 1.1.1 concat横向合并

In [None]:
df=pd.concat([gdp,pop],axis=1) ##axis=0是纵向，=1是横向

In [None]:
df

因此需要修改列名，使用DataFrame.rename()方法

In [None]:
gdp.rename(columns={'2018年': 'GDP'},inplace=True) #字典中，key为旧名字，value为新名字，key值不存在就不不改名，不会报错
gdp

先建好改名字典再统一改

In [None]:
pop_newname={'2018年': 'POP'} 
pop.rename(columns=pop_newname,inplace=True)
pop

In [None]:
df_combine=pd.concat([gdp,pop],axis=1)  #axis=1即行索引
df_combine

#### 1.1.2 concat纵向合并

In [None]:
df1=df_combine[:][0:5]
df2=df_combine[:][5:]

In [None]:
df1

In [None]:
df2

In [None]:
df3=pd.concat([df2,df1],axis=0) #axis=0表示纵向合并
df3

In [None]:
df1

In [None]:
df2

#### 1.1.3 append方法的纵向合并

In [None]:
a=[0]

In [None]:
a.append(8)

In [None]:
a

In [None]:
df4=df1.append(df2)
df4

In [None]:
df1

**可见，上述合并方式均不会改变原dataframe**

#### 1.1.4 使用concat合并时，可以添加keys参数来区分来自哪个dataframe

In [None]:
pop=pd.read_excel('GDPandPopulation.xlsx',sheet_name='Population',index_col=0)
gdp=pd.read_excel('GDPandPopulation.xlsx',sheet_name='GDP',index_col=0)
pop.head()

In [None]:
df5=pd.concat([pop,gdp],axis=0,keys=['pop','gdp'])  #不用改名字即可合并
df5

In [None]:
df5.index #index变成了2个元素的tuple组成的multiindex

In [None]:
df5.loc['pop']#可以通过multiindex的第一个index调用

In [None]:
df5.loc['pop','北京市']#也可以把index写全

In [None]:
df5.loc['pop','北京市']['2018年']

### 1.2 使用join函数合并表，常用于行索引相同的两个dataframe

In [None]:
gdp

In [None]:
df6=pop.join(gdp,lsuffix='_pop', rsuffix='_gdp') #两个dataframe列名相同，需要加lsuffix或rsuffix在左边/右边的列名上加后缀来区分
df6

In [None]:
region=pd.read_excel('GDPandPopulation.xlsx',sheet_name='region',index_col=0)
region

In [None]:
df7=df6.join(region) #没有重名列可以直接使用
df7

### 1.3 使用merge方法进行合并

In [None]:
df8=pd.merge(pop,gdp,left_index=True,right_index=True)  #以两个dataframe的index来合并，与join相同
df8

In [None]:
pop=pd.read_excel('GDPandPopulation.xlsx',sheet_name='Population')
gdp=pd.read_excel('GDPandPopulation.xlsx',sheet_name='GDP')
#重新读入pop和gdp，并把省份名称纳入dataframe中
pop

In [None]:
pop['数据']='pop'
gdp['数据']='gdp'
gdp

In [None]:
df9=pd.merge(pop,gdp,how='outer',on=['省份','2018年'])
#how='outer'表示求两个dataframe的并集，on=[列名]表示合并依照的列，即保持列名不变的列
df9

## 2. 基于groupby的数据分组

In [None]:
df7

In [None]:
group_region=df7.groupby(by='区域')  #以'区域'这一列进行分类，值相同的行被并为一类

In [None]:
group_region

### 2.1groupby是什么

In [None]:
len(group_region)

In [None]:
group_region[0]

In [None]:
for i in group_region:
    print(i)

In [None]:
for i in group_region:
    print(type(i))
    print(len(i))

In [None]:
for i in group_region:
    print(type(i[1]))

**groupby功能生成的是多个tuple对象，每个tuple对象有两个元素，第一个元素是分类的名字，第二个元素是该分类的所有行构成的DataFrame**

### 2.2 groupby的功能

In [None]:
group_region.sum()

In [None]:
group_region.describe()

## 3. 数据聚合方法

### 3.1 使用agg方法聚合数据

In [None]:
df7

In [None]:
df7[['2018年_pop','2018年_gdp']].agg(np.sum)  #agg可以对一列或多列执行一个函数

In [None]:
df7[['2018年_pop','2018年_gdp']].agg([np.sum,np.max]) #agg可以对一列或多列执行多个函数

**使用groupby功能分类后，也可以使用此类聚合方法**

In [None]:
group_region[['2018年_pop','2018年_gdp']].agg([np.mean,np.max])  #可以让一列或多列执行一个或多个函数

In [None]:
group_region.agg({'2018年_pop':np.sum,'2018年_gdp':np.mean})  #可以通过字典的形式给每一列指定一个函数，字典格式为{行名：该行执行的函数}

### 3.2 使用apply方法聚合数据

apply不具有执行多种函数的功能

In [None]:
group_region['2018年_pop'].apply(np.sum)  #可以让一列或多列执行一个函数

### 3.3 使用transform方法聚合数据

transform和agg，apply等方法不同，看以下例子：

求得各个地区的人口和gdp总值

In [None]:
group_region[['2018年_pop','2018年_gdp']].apply(np.sum)

**思考：如果我们想要求每个省占其所在地区的人口和GDP的占比，怎么办？**

In [None]:
groupsum=group_region.transform(np.sum)
groupsum

**transform方法可以对groupby之后的每个group作用函数，但返回的结果是和原dataframe等长的**

In [None]:
groupsum['2018年_pop']

In [None]:
df7['gdp占区域比例']=df7['2018年_gdp']/ groupsum['2018年_gdp']
df7['人口占区域比例']=df7['2018年_pop'].astype(float)/ groupsum['2018年_pop']

In [None]:
df7

## 4. groupby分组后的数据可视化

In [None]:
fig1,ax1=plt.subplots(figsize=(8,8))

In [None]:
drawdf=group_region[['2018年_pop','2018年_gdp']].apply(np.sum)
drawdf

In [None]:
type(drawdf)

In [None]:
drawdf.plot(ax=ax1)
fig1

In [None]:
fig2,ax2=plt.subplots(1,2,figsize=(12,6))

In [None]:
group_region[['2018年_pop','2018年_gdp']].agg(np.sum).plot.bar(ax=ax2,subplots=True)
fig2

In [None]:
ax2[0].set_ylabel('人口（万人）')
ax2[1].set_ylabel('GDP（亿元）')
fig2

In [None]:
fig2.savefig('pop and gdp.jpg',bbox_inches = 'tight')