# Pandas数据分析运用

## Pandas分组聚合和透视图:  使用pandas进行数据的分类和汇总、透视图和交叉表等操作


### 1. 数据排序

In [415]:
import pandas as pd
import numpy as np
import os
os.chdir('E:\云开明培训机构\云开见明培训课件\data summary\第三章') #这里改为存放数据的路径

* 数据源：一个2016年电子游戏的销量排名数据包，数据包含2016年截至的游戏销量统计排名、数据名称、分地区销量、全球总销量等

* Rank: 排名
* Name：游戏名称
* Platform：游戏运行平台
* Year：游戏发行年份
* Genre：游戏类型
* Publisher：游戏发行人
* NA_Sales：北美销售量（百万套）
* EU_Sales：欧盟销售量（百万套）
* JP_Sales：日本销售量（百万套）
* Other_sales：其余国家销售量（百万套）
* Global_Sales：全球总销售量（百万套）

In [416]:
vgsales  = pd.read_csv('vgsales.csv',encoding = 'utf-8',dtype = {'Year': float})

In [None]:
vgsales.head(5)

In [417]:
np.sum(vgsales.isnull(),axis=0)#统计缺失值

Rank              0
Name              0
Platform          0
Year            271
Genre             0
Publisher        58
NA_Sales          0
EU_Sales          0
JP_Sales          0
Other_Sales       0
Global_Sales      0
dtype: int64

In [None]:
# 使用sort_values

In [None]:
vgsales.sort_values('Year',ascending = True, na_position='last',inplace = True) #升序(缺失值排最后面),inplace =True表示是否作用在原数据上

In [None]:
vgsales.sort_values('Year',ascending = True, na_position='first') # 升序(缺失值排最前面)

In [None]:
vgsales.sort_values(['NA_Sales','EU_Sales'])# 注意没有加inplace = True表示返回的是视图，没有作用在原数据上

* 重置索引

In [None]:
vgsales = vgsales.sort_values('Year',ascending = True, na_position='last') #升序(缺失值排最后面)

In [None]:
vgsales.head()

In [None]:
vgsales.reset_index(inplace = True,drop =True)

In [None]:
vgsales.columns

* 按照索引排序

In [None]:
vgsales.sort_index(ascending = False) #按照索引来进行排序,只要不加inplace = True,返回是视图

* 使用nlargest 和nsmallest方法


In [None]:
vgsales.nsmallest(2,'JP_Sales') #在数据中找到JP_Sales中最小的两个值

In [None]:
vgsales.nlargest(2,'JP_Sales') #在数据中找到JP_Sales中最大的两个值

In [None]:
vgsales.nlargest(2,['EU_Sales', 'JP_Sales'])#在数据中找到EU_Sales和JP_Sales和最大的两个值

### 2.分组聚合


In [None]:
vgsales  = pd.read_csv('vgsales.csv',encoding = 'utf-8',dtype = {'Year': float})

* 使用描述性统计方法
* axis=0表示按列统计，axis=1表示按行统计

In [None]:
var_name = ['NA_Sales',\
       'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales']

In [None]:
np.min(vgsales[var_name],axis=0)
# 还可以使用max,median等函数

In [None]:
vgsales[var_name].min(axis=1)

In [None]:
vgsales[var_name].min(axis=0)

In [None]:
vgsales[var_name].max()

In [None]:
vgsales[var_name].median()

In [None]:
vgsales[var_name].quantile([0,0.50,1])# 分位数

In [None]:
vgsales[var_name].cumsum()# 累加
#还有cummax,cummin大家可以自行尝试一下

In [None]:
#数据简单描述
vgsales.describe()

In [None]:
vgsales.describe(include=['object'])

In [None]:
count 代表有效值个数
unique代表不同的取值个数
top 取值最高的类别
freq 取值最高的类别对应的个数

In [None]:
vgsales.describe(include='all') #输出所有变量类型统计信息

* 进行分组汇总


* df.groupby('a') or df.groupby(by = ['a','b'])
* df[['a','b','c']].groupby('a') or df[['a','b','c']].groupby(by = ['a','b'])

In [None]:
vgsales.groupby(by = 'Year')# 返回一个分组对象

In [None]:
vgsales.groupby(by = 'Year').mean() #后面接方法

* groupby(by=,as_index,sort)
* as_index是否以分组变量作为索引
* 是否以分组后标签进行排序

In [None]:
names = ['Year','NA_Sales','EU_Sales','JP_Sales','Other_Sales','Global_Sales'] #选择需要的变量

In [None]:
grouped = vgsales[names].groupby(by = 'Year',as_index=True, sort=True) #返回一个分组对象

In [None]:
grouped.mean()

In [None]:
# 可以使用sum,count,median,max,min,size等函数,大家自行尝试

In [None]:
grouped.size()#返回每个分组的大小

In [None]:
grouped.count() # 计算分组的数目

In [None]:
grouped.cumcount()# 对每个分组中的组员进行标记

* 使用多个分组变量

In [None]:
names = ['Year','Genre','NA_Sales','EU_Sales','JP_Sales','Other_Sales','Global_Sales']#选择需要的变量

In [None]:
grouped1 = vgsales[names].groupby(by = ['Year','Genre']) # 返回一个分组对象

In [None]:
grouped1.mean()

In [None]:
grouped1.sum().loc[(2017,['Action','Role-Playing']),:]

* 使用聚合函数

In [None]:
# agg是一个作用于series或者DataFrame的函数,主要目的是针对分组后的对象，使用相关函数进行计算

In [None]:
grouped.agg([np.mean,np.sum]).head(5)

In [None]:
grouped.agg([np.mean,np.sum]).loc[[1980,1981.0],('NA_Sales',['mean','sum'])]

In [None]:
grouped.agg({'NA_Sales':np.sum,'EU_Sales':np.mean}) #对2个变量分别计算不同的统计量

In [None]:
grouped.agg({'NA_Sales':np.sum,'EU_Sales':[np.mean,np.sum]}) #对2个变量计算不同的统计量

In [None]:
# agg也可以直接作用于数据，不一定分组对象

In [None]:
vgsales[['NA_Sales','EU_Sales','JP_Sales','Other_Sales']].agg([np.sum,np.mean])

In [None]:
#计算两倍总和
def DoubleSum(data):
    s = data.sum()*2
    return s

In [None]:
grouped.agg({'EU_Sales':DoubleSum})

In [None]:
vgsales.agg({'EU_Sales':DoubleSum})

* 使用apply函数
* 0代表沿着行的方向作用，最终对每一列做同样的操作，1代表沿着列的方向操作，最终对每一行做同样的操作


In [None]:
grouped.apply(np.mean)

In [None]:
vgsales[['NA_Sales','EU_Sales','JP_Sales','Other_Sales']].apply(np.mean,axis=0) #0代表计算列的情况

In [None]:
vgsales[['NA_Sales','EU_Sales','JP_Sales','Other_Sales']].apply(np.sum,axis=1) # 1代表计算行的情况

In [None]:
vgsales['Global_Sales']

In [None]:
vgsales[['NA_Sales','EU_Sales','JP_Sales','Other_Sales']].apply(lambda x: x[2] - x[3],axis = 1)

* 使用transform

In [None]:
vgsales[['NA_Sales','EU_Sales','JP_Sales','Other_Sales']].transform(np.sum)

In [None]:
# 实现分组数据的聚合
grouped.mean().transform(lambda x:x*2)

In [None]:
# 对变量的结果都乘以2
vgsales[['NA_Sales','EU_Sales','JP_Sales','Other_Sales']].transform(lambda x: x*2) 

* 使用transform后，表结构与之前保持一样
* transform对整个dataframe的元素进行操作
* 我们可以看到使用transform 和apply 的输出结果形式是不一样的，transform返回与数据同样长度的行，而apply则进行了聚合

### 3. 透视图和交叉表


* 使用pivot_table



In [None]:
#读取数据
df  = pd.read_csv('vgsales.csv',encoding = 'utf-8',dtype = {'Year': float})

In [None]:
df.columns

In [None]:
# 单个变量分组均值
#margin =True 表示是否需要总计
pd.pivot_table(data= df,index='Year',values='Global_Sales',aggfunc=np.mean,margins=True,margins_name='总计')

In [None]:
pd.pivot_table(data= df,index='Year',values='Global_Sales',aggfunc=np.sum,margins=True,margins_name='总计')

In [None]:
# 两个变量列联表汇总
pd.pivot_table(data= df,index='Year',columns='Genre',values='Global_Sales',aggfunc=np.mean,margins=True,
               margins_name='总计')

In [None]:
pd.pivot_table(data= df,index='Year',columns='Genre',values=['EU_Sales','JP_Sales'],aggfunc=np.mean,margins=True,
               margins_name='总计')

In [None]:
pd.pivot_table(data= df,index=['Year','Platform'],values='Global_Sales',aggfunc=np.mean,margins=True,
               margins_name='总计')#两层索引

* 交叉表
* 交叉表更多用于计算分组频率

In [None]:
# 使用交叉表
#是一种计算分组频数的特殊透视表
pd.crosstab(index = df['Platform'], columns=df['Genre'],margins=True)

In [None]:
#按照行进行汇总，计算频数占比
pd.crosstab(index = df['Platform'], columns=df['Genre'],margins=True,normalize='all') #normalize表示的是是否进行频率计算

In [None]:
pd.crosstab(index = df['Platform'], columns=df['Genre'],margins=True,normalize='columns') #index表示计算行百分比，columns表示计算列百分比