# 使用分组聚合进行组内计算

## 使用groupby方法拆分数据

### 单组分类

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, ** kwargs)

|参数名称|说明|
|---|---|
|by|接收list，string，mapping或generator。用于确定进行分组的依据。无默认。|
|axis|接收int。表示操作的轴向，默认对列进行操作。默认为0。|
|level|接收int或者索引名。代表标签所在级别。默认为None。|
|as_index|接收boolearn。表示聚合后的聚合标签是否以DataFrame索引形式输出。默认为True。|
|sort|接收boolearn。表示是否对分组依据分组标签进行排序。默认为True。|
|group_keys|接收boolearn。表示是否显示分组标签的名称。默认为True。|
|squeeze|接收boolearn。表示是否在允许的情况下对返回数据进行降维。默认为False)|

In [66]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'name': ['李磊', '王明', '张萌', '刘飒', '李辰'],
    'sex':['男', '男', '女', '男', '女'],
    'class': [1,2,1,1,2],
    'height': [175,176,165,175,161]})
df
adf=df.groupby('sex')

In [67]:
print(
    '''用groupby方法分组后的结果并不能直接查看，而是被存在内存中，输出的是内存地址。
       实际上分组后的数据对象GroupBy类似Series与DataFrame，是pandas提供的一种对象。''')

用groupby方法分组后的结果并不能直接查看，而是被存在内存中，输出的是内存地址。
       实际上分组后的数据对象GroupBy类似Series与DataFrame，是pandas提供的一种对象。


### 查看拆分数据

In [68]:
for i in adf:
    print(i)

('女',   name sex  class  height
2   张萌   女      1     165
4   李辰   女      2     161)
('男',   name sex  class  height
0   李磊   男      1     175
1   王明   男      2     176
3   刘飒   男      1     175)


In [69]:
for index, data in adf:
    print(index)
    print(data)

女
  name sex  class  height
2   张萌   女      1     165
4   李辰   女      2     161
男
  name sex  class  height
0   李磊   男      1     175
1   王明   男      2     176
3   刘飒   男      1     175


### **groupby 常用描述性统计方法及说明**

![jupyter](12.png)

In [40]:
adf.mean()

Unnamed: 0_level_0,class,height
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
女,1.5,163.0
男,1.333333,175.333333


In [41]:
adf.describe()

Unnamed: 0_level_0,class,class,class,class,class,class,class,class,height,height,height,height,height,height,height,height
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
女,2.0,1.5,0.707107,1.0,1.25,1.5,1.75,2.0,2.0,163.0,2.828427,161.0,162.0,163.0,164.0,165.0
男,3.0,1.333333,0.57735,1.0,1.0,1.0,1.5,2.0,3.0,175.333333,0.57735,175.0,175.0,175.0,175.5,176.0


In [42]:
adf.describe()
#.unstack() 不以表格形式显示
'''只有数字类型的列数据才会计算统计'''

Unnamed: 0_level_0,class,class,class,class,class,class,class,class,height,height,height,height,height,height,height,height
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
女,2.0,1.5,0.707107,1.0,1.25,1.5,1.75,2.0,2.0,163.0,2.828427,161.0,162.0,163.0,164.0,165.0
男,3.0,1.333333,0.57735,1.0,1.0,1.0,1.5,2.0,3.0,175.333333,0.57735,175.0,175.0,175.0,175.5,176.0


In [47]:
'''班级不需要计算均值，需要改动'''
#adf['height'].describe().unstack()
adf['height'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
女,2.0,163.0,2.828427,161.0,162.0,163.0,164.0,165.0
男,3.0,175.333333,0.57735,175.0,175.0,175.0,175.5,176.0


### 多组分类

In [70]:
df.groupby(['class','sex'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001C399EDB308>

In [71]:
mdf = df.groupby(['sex','class'])
for (index1, index2), data in mdf:
    print((index1, index2))
    print(data)

('女', 1)
  name sex  class  height
2   张萌   女      1     165
('女', 2)
  name sex  class  height
4   李辰   女      2     161
('男', 1)
  name sex  class  height
0   李磊   男      1     175
3   刘飒   男      1     175
('男', 2)
  name sex  class  height
1   王明   男      2     176


In [50]:
df.groupby(['sex','class']).describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,height,height,height,height,height,height,height,height
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
sex,class,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
女,1,1.0,165.0,,165.0,165.0,165.0,165.0,165.0
女,2,1.0,161.0,,161.0,161.0,161.0,161.0,161.0
男,1,2.0,175.0,0.0,175.0,175.0,175.0,175.0,175.0
男,2,1.0,176.0,,176.0,176.0,176.0,176.0,176.0


## 使用agg方法聚合数据

1. agg，aggregate方法都支持对每个分组应用某函数，包括Python内置函数或自定义函数。同时这两个方法能够也能够直接对DataFrame进行函数应用操作。
2.  在正常使用过程中，agg函数和aggregate函数对DataFrame对象操作时功能几乎完全相同，因此只需要掌握其中一个函数即可。它们的参数说明如下表。

     DataFrame.agg(func, axis=0, *args, ** kwargs)
     
     DataFrame.aggregate(func, axis=0, *args, ** kwargs)
     
|参数名称|说明|
|---|--|
|**func**|接收list、dict、function。表示应用于每行／每列的函数。无默认。|
|**axis**|接收0或1。代表操作的轴向。默认为0。|

In [74]:
df1 = pd.DataFrame({'Country':['China','China', 'India', 'India', 'America', 'Japan', 'China', 'India'],
                   'Income':[10000, 10000, 5000, 5002, 40000, 50000, 8000, 5000],
                    'Age':[5000, 4321, 1234, 4010, 250, 250, 4500, 4321]})

In [75]:
df1_gb = df1.groupby('Country')
for index, data in df1_gb:
    print(index)
    print(data)

America
   Country  Income  Age
4  America   40000  250
China
  Country  Income   Age
0   China   10000  5000
1   China   10000  4321
6   China    8000  4500
India
  Country  Income   Age
2   India    5000  1234
3   India    5002  4010
7   India    5000  4321
Japan
  Country  Income  Age
5   Japan   50000  250


In [76]:
'''聚合函数，对分组后数据进行聚合'''
df1_agg = df1.groupby('Country').agg(['min', 'mean', 'max'])
print(df1_agg)

        Income                        Age                   
           min          mean    max   min         mean   max
Country                                                     
America  40000  40000.000000  40000   250   250.000000   250
China     8000   9333.333333  10000  4321  4607.000000  5000
India     5000   5000.666667   5002  1234  3188.333333  4321
Japan    50000  50000.000000  50000   250   250.000000   250


In [82]:
'''对分组后的部分列进行聚合'''
num_agg = {'Age':['min', 'mean', 'max']}
print(df1.groupby('Country').agg(num_agg))

          Age                   
          min         mean   max
Country                         
America   250   250.000000   250
China    4321  4607.000000  5000
India    1234  3188.333333  4321
Japan     250   250.000000   250


In [83]:
'''不同的列采用不同统计量'''
num_agg = {'Age':['min', 'mean', 'max'],'Income':np.mean}
print(df1.groupby('Country').agg(num_agg))

          Age                           Income
          min         mean   max          mean
Country                                       
America   250   250.000000   250  40000.000000
China    4321  4607.000000  5000   9333.333333
India    1234  3188.333333  4321   5000.666667
Japan     250   250.000000   250  50000.000000


### 传入自定义函数

In [79]:
def func(x):
    return x.sum()/ x.mean()

In [80]:
num1_agg = {'Age':func}
print(df1.groupby('Country').agg(num1_agg,axis=0))

         Age
Country     
America    1
China      3
India      3
Japan      1


## apply 方法聚合数据 

1. apply方法类似agg方法能够将函数应用于每一列。不同之处在于apply方法相比agg方法传入的函数只能够作用于整个DataFrame或者Series，而无法像agg一样能够对不同字段，应用不同函数获取不同结果。
2. 使用apply方法对GroupBy对象进行聚合操作其方法和agg方法也相同，只是使用agg方法能够实现对不同的字段进行应用不同的函数，而apply则不行。

DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)


![jupyter](13.png)

In [85]:
import numpy as np
import pandas as pd
 
 
f = lambda x: x.max()-x.min()
 
df = pd.DataFrame(np.random.randn(4,3),columns=list('bde'),index=['utah', 'ohio', 'texas', 'oregon'])
print(df)
 
t1 = df.apply(f)
print(t1)
print('- -'*30)
t2 = df.apply(f, axis=1)

print(t2)

               b         d         e
utah    1.187448  0.262405 -2.951539
ohio   -0.172378 -0.879665  0.773131
texas  -1.518896 -0.181788  0.557317
oregon  0.324398  0.213035 -1.036350
b    2.706344
d    1.142070
e    3.724671
dtype: float64
- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -
utah      4.138987
ohio      1.652796
texas     2.076213
oregon    1.360748
dtype: float64


### 应用--找指定列具有最大值的行

In [107]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'name': ['李磊', '王明', '张萌', '刘飒', '李辰'],
    'sex':['男', '男', '女', '男', '女'],
    'class': [1,2,1,1,2],
    'height': [175,176,165,175,161]})
adf=df.groupby('sex')
print('- -'*30)

def top(df,column='sex'):
    return(df.sort_values(by=column,ascending=True)[-1:])#提取最大值
a = df.groupby('sex').apply(top)
a

- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -


Unnamed: 0_level_0,Unnamed: 1_level_0,name,sex,class,height
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
女,4,李辰,女,2,161
男,3,刘飒,男,1,175


## 合并

### concat():横向和纵向堆叠方式合并数据

- concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True)


<img src='14.png' width="70%">
<img src='15.png' width="70%">

In [86]:
from pandas import Series,DataFrame,concat
 
df1 = DataFrame({'city': ['Chicago', 'San Francisco', 'New York City'], 'rank': range(1, 4)})
df2 = DataFrame({'city': ['Chicago', 'Boston', 'Los Angeles'], 'rank': [1, 4, 5]})
print ('按轴进行内连接\r\n',concat([df1,df2],join="inner",axis=1))
print ('进行外连接并指定keys(行索引)\r\n',concat([df1,df2],keys=['a','b'])) #这里有重复的数据

按轴进行内连接
             city  rank         city  rank
0        Chicago     1      Chicago     1
1  San Francisco     2       Boston     4
2  New York City     3  Los Angeles     5
进行外连接并指定keys(行索引)
               city  rank
a 0        Chicago     1
  1  San Francisco     2
  2  New York City     3
b 0        Chicago     1
  1         Boston     4
  2    Los Angeles     5


### append()：纵向

- append方法也可以用于纵向合并两张表。但是append方法实现纵向表堆叠有一个前提条件，那就是两张表的列名需要完全一致。append方法的基本语法如下:

pandas.DataFrame.append(self, other, ignore_index=False, verify_integrity=False)。
<img src='16.png' width="70%">

In [114]:
df = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'))
df.append(df2)

Unnamed: 0,A,B
0,1,2
1,3,4
0,5,6
1,7,8


In [115]:
df.append(df2, ignore_index=True)

Unnamed: 0,A,B
0,1,2
1,3,4
2,5,6
3,7,8


### merge函数：主键合并

- 主键合并, 通过一个或多个见将两个数据集的行连接
- 有左连接（left）、右连接（right）、内连接（inner）和外连接（outer），可以在合并过程中对数据集中的数据进行排序等。

pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, 
          suffixes=('_x', '_y'), copy=True, indicator=False)
<img src='17.png' width="70%">

In [117]:
import pandas as pd
import numpy as np

df1=pd.DataFrame({'alpha':['A','B','B','C','D','E'],'feature1':[1,1,2,3,3,1],
            'feature2':['low','medium','medium','high','low','high']})
# 定义df2
df2 = pd.DataFrame({'alpha':['A','A','B','F'],'pazham':['apple','orange','pine','pear'],
            'kilo':['high','low','high','medium'],'price':np.array([5,6,5,7])})
print(df1)
print('--'*30)
print(df2)
# 基于共同列alpha的内连接
pd.merge(df1,df2,how='inner',on='alpha')  #取共同列alpha值的交集进行连接

  alpha  feature1 feature2
0     A         1      low
1     B         1   medium
2     B         2   medium
3     C         3     high
4     D         3      low
5     E         1     high
------------------------------------------------------------
  alpha  pazham    kilo  price
0     A   apple    high      5
1     A  orange     low      6
2     B    pine    high      5
3     F    pear  medium      7


Unnamed: 0,alpha,feature1,feature2,pazham,kilo,price
0,A,1,low,apple,high,5
1,A,1,low,orange,low,6
2,B,1,medium,pine,high,5
3,B,2,medium,pine,high,5


## 分布分析

1. 分布分析是指根据分析的目的，将定量数据进行等距或者不等距的分组，进行研究各组分布规律的一种分析方法。如学生成绩分布、用户年龄分布、收入状况分布等。

2. 分布分析cut函数的语法格式：
   pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,Include_lowest=False)
   
|参数|参数说明|
|--|--|
|x|进行划分的一维数组|
|bins|取整数值，表示将x划分为多少个等距区间。取序列值，表示将x划分在指定序列中，若不在该序列中，则是Nan。|
   |labels|分组时，是否用自定义标签来代替返回的bins，可选项，默认NULL。|
   |precision|精度|
   |Include_lowest|是否包含左断点，默认不包含|

在分布分析时，先用cut()函数确定分布分析中的分层，然后再用groupby()函数实现分组分析.

### 应用


In [146]:
import numpy as np
import pandas as pd

df = pd.read_excel('E:\Data\Employee_income.xls',
                   sheet_name='emp_income')
df

Unnamed: 0,emp_id,sex,age,education,firstjob,region,industry,occupation,salary,subsidy
0,30,男,30,本科,2011-07-20,广州,机械,技术员,5000,500
1,154,男,23,高中,2014-06-23,广州,机械,操作工,2500,1500
2,40,女,28,大专,2011-07-20,广州,机械,文员,3800,200
3,41,女,30,本科,2011-07-20,广州,机械,技术员,4500,500
4,42,男,45,研究生,2000-09-22,广州,机械,主管,7699,1000
5,43,男,37,高中,2000-03-23,广州,商业,店员,3500,600
6,44,女,36,大专,2003-03-24,广州,商业,主管,4500,1000
7,165,女,25,高中,2012-07-21,长沙,机械,文员,2500,500
8,156,男,36,本科,2007-09-22,长沙,机械,技术员,4500,500
9,154,男,38,研究生,2004-08-12,长沙,机械,主管,6500,1000


**按照年龄分布状况，分组统计人数、平均月薪、最低月薪、最高月薪**

In [145]:
import numpy as np
import pandas as pd

df = pd.read_excel('E:\Data\Employee_income.xls',
                   sheet_name='emp_income')
#年龄分布状况
age_bins = [20,30,40,50,60]
age_labels = ['20-30岁', '31-40岁', '41-50岁', '51-60岁']
df['年龄分层']=pd.cut(df.age, age_bins, labels=age_labels)

#分组统计人数、平均月薪、最高月薪和最低月薪
dfg=df.groupby(by=['年龄分层'])['salary']
aggResult = dfg.agg(['min','mean','max','min'])

print(aggResult)


           min         mean     max     min
年龄分层                                       
20-30岁  2000.0  3287.500000  5000.0  2000.0
31-40岁  2500.0  4144.444444  6500.0  2500.0
41-50岁  7699.0  7699.000000  7699.0  7699.0
51-60岁     NaN          NaN     NaN     NaN


## 交叉分析

### 透视表

1. 交叉分析通常是用于分析两个或两个以上分组变量之间的关系，以交叉表形式进行变量间关系的对比分析；从数据的不同维度，综合进行分组细分，进一步了解数据的构成、分布特征。
2. 透视表
 交叉分析有数据透视表和交叉表两种，其中，pivot_table()函数返回值是数据透视表的结果，该函数相当于excel中的数据透视表功能。
3. 交叉表
 交叉表（cross-tabulation, 简称crosstab）是一种用于计算分组频率的特殊透视表。 交叉表crosstab()函数

pd.pivot_table(data,values,index,columns,aggfunc,fill_value,margins)

dataframe.pivot_table(values,index,columns,aggfunc,fill_value,margins)

|参数|参数说明|
|---|--|
|data|数据框|
|values：|待聚合的列的名称，默认是所有数值列|
|index：|数据透视表中的行|
|columns：|数据透视表中的列|
|aggfunc：|统计函数，默认是'mean',任何对groupby有效的函数|
|fill_value：|替换结果表中的缺失值|
|margins|添加行/列的小计和总计，默认False|
|margins_name|行/列的小计和总计的名字|

### 应用
对年龄列和性别列进行交叉分析，研究不同年龄段不同性别的人数

In [153]:
import numpy as np
import pandas as pd


df = pd.read_excel('E:\Data\Employee_income.xls',
                   sheet_name='emp_income')
#年龄分布状况
age_bins = [20,30,40,50,60,70]
age_labels = ['20-29岁', '30-39岁', '40-49岁', '50-59岁','60-69岁']
df['年龄分层']=pd.cut(df.age, age_bins, right=False, labels=age_labels)

ptResult1 = df.pivot_table(
    values=['age'],
    index=['年龄分层'],
    columns=['sex'],
    aggfunc=[np.size]
,margins=True,margins_name='总和')
print(ptResult1)

       size          
        age          
sex       女     男  总和
年龄分层                 
20-29岁  3.0   3.0   6
30-39岁  5.0   6.0  11
40-49岁  NaN   1.0   1
总和      8.0  10.0  18


### 列联表(交叉表)

crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, dropna=True, normalize=False)

1. crosstab的index和columns是必须要指定复制的参数：

|参数|参数说明|
|---|--|
|index|接收 array、Series或数组列表，表示要在行中分组的值|
|columns|接收 array、Series或数组列表，表示要在列中分组的值|
|values|接受array,可选。根据因素聚合的值数组。|


In [154]:
import pandas as pd

df = pd.read_excel('E:\Data\Employee_income.xls',
                   sheet_name='emp_income')

# 按性别（sex）分组，统计各个分组中学历的频数
ctResult = pd.crosstab(df['sex'], df['education'], margins=True)
print(ctResult)

education  大专  本科  研究生  高中  All
sex                            
女           3   2    0   3    8
男           1   3    2   4   10
All         4   5    2   7   18


### 相关分析

1. 相关分析(correlation analysis)是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变量之间相关关系的一种统计方法。
         
         相关分析函数：DataFrame.corr()和Series.corr(other)


In [156]:
# -*- coding: utf-8 -*-
import pandas as pd


df = pd.read_excel('E:\Data\Employee_income.xls',
                   sheet_name='emp_income')
#计算age和salary的相关系数
corrResult1 = df.age.corr(df.salary)
print('age和salary的相关系数:\n',corrResult1)

#计算age和salary、subsidy的相关系数
corrResult2 = df.loc[:,['age', 'salary', 'subsidy']].corr()
print('age和salary、subsidy的相关系数\n',corrResult2)

# 返回一个相关系数矩阵
print('返回一个相关系数矩阵\n',df.corr())

age和salary的相关系数:
 0.6781676305144909
age和salary、subsidy的相关系数
               age    salary   subsidy
age      1.000000  0.678168  0.062137
salary   0.678168  1.000000  0.067629
subsidy  0.062137  0.067629  1.000000
返回一个相关系数矩阵
            emp_id       age    salary   subsidy
emp_id   1.000000 -0.029849 -0.143666  0.043537
age     -0.029849  1.000000  0.678168  0.062137
salary  -0.143666  0.678168  1.000000  0.067629
subsidy  0.043537  0.062137  0.067629  1.000000


## 排列与抽样

1. 利用numpy.random.permutation()函数，可以返回一个序列的随机排列。
2. 将此随机排列作为take()函数的参数，通过应用take()函数就可实现按此随机排列来调整Series对象或DataFrame对象各行的顺序。

In [158]:
import numpy as np
import pandas as pd

#创建DataFrame
df = pd.DataFrame(np.arange(12).reshape(4,3))
print(df)
print('- -'*30)
#创建随机排列
order = np.random.permutation(4)
#通过随机排列调整DataFrame各行顺序
newDf = df.take(order)
print(newDf)

   0   1   2
0  0   1   2
1  3   4   5
2  6   7   8
3  9  10  11
- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -
   0   1   2
2  6   7   8
3  9  10  11
0  0   1   2
1  3   4   5


1. 随机抽样是指随机从数据中按照一定的行数或者比例抽取数据。随机抽样的函数：numpy.random.randint(start,end,size)
2. 通过numpy.random.randint()函数产生随机抽样的数据，应用take()函数实现随机抽取Series对象或DataFrame对象中的数据。

In [160]:
import numpy as np
import pandas as pd

#创建DataFrame
df = pd.DataFrame(np.arange(12).reshape(4,3))
print(df)
print('- -'*30)
#随机抽样
order = np.random.randint(0,len(df),size=3)
#通过随机抽样抽取DataFrame中的行
newDf = df.take(order)
print(newDf)

   0   1   2
0  0   1   2
1  3   4   5
2  6   7   8
3  9  10  11
- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -
   0  1  2
1  3  4  5
2  6  7  8
1  3  4  5


## 重塑层次化索引

在数据处理时，有时需要对数据的结构进行重排，也称作是重塑(reshape)或者轴向旋转(pivot)。在pandas中提供了实现重塑的两个函数，即stack()函数和unstuck()函数。

常见的数据层次化结构有两种，一种是表格，另一种是“花括号”

<img src='18.png' width="70%">
1、stack()函数
  
  stack()函数将数据从”表格结构“变成”花括号结构“，即将其行索引变成列索引。
2、unstack()函数
   unstack()函数将数据从”花括号结构“变成”表格结构“，即要将其中一层的列索引变成行索引。



1. stack() 函数的语法格式如下：stack(level=-1,dropan=True)

 * 函数中的参数说明如下：

level：接收 int、str、list，默认为 -1，表示从列轴到索引轴堆叠的级别，定义为一个索引或标签，或者索引或标签列表；

dropna：接收布尔值，默认为 True，表示是否在缺失值的结果框架/系列中删除行。将列级别堆叠到索引轴上可以创建原始数据帧中缺失的索引值和列值的组合。

*函数返回值为 DataFrame 或 Series。
2. unstack() 函数的语法格式如下：

DataFrame.unstack(level=-1, fill_value=None)

或

Series.unstack(level=-1, fill_value=None)

函数中的参数说明如下：

level：接收 int、string 或其中的列表，默认为 -1(最后一级)，表示 unstack 索引的级别或级别名称。

fill_value：如果取消堆栈，则用此值替换 NaN 缺失值，默认为 None。

* 函数返回值为 DataFrame 或 Series。


In [165]:
import pandas as pd

#创建DataFrame
data = pd.DataFrame(np.arange(4).reshape((2, 2)),
                 index=pd.Index(['row1', 'row2'], name='rows'),
                 columns=pd.Index(['one', 'two'], name='cols'))
print(data)
print('- -'*30)
#使用stack()函数改变data层次化结构
result = data.stack()
print('data改变成“花括号”结构','\n',result)
print('- -'*30)
print('恢复到原来结构','\n',result.unstack())
print('- -'*30)
print(result.unstack(0))
print('- -'*30)
print(result.unstack('rows'))


cols  one  two
rows          
row1    0    1
row2    2    3
- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -
data改变成“花括号”结构 
 rows  cols
row1  one     0
      two     1
row2  one     2
      two     3
dtype: int32
- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -
恢复到原来结构 
 cols  one  two
rows          
row1    0    1
row2    2    3
- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -
rows  row1  row2
cols            
one      0     2
two      1     3
- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -
rows  row1  row2
cols            
one      0     2
two      1     3


In [167]:
#创建Series
s1 = pd.Series([0, 1, 2, 3], index=['a', 'b', 'c', 'd'])
s2 = pd.Series([4, 5, 6], index=['c', 'd', 'e'])
data2 = pd.concat([s1, s2], keys=['one', 'two'])
print(data2)
print('将data2改变成表格结构','\n',data2.unstack())


one  a    0
     b    1
     c    2
     d    3
two  c    4
     d    5
     e    6
dtype: int64
将data2改变成表格结构 
        a    b    c    d    e
one  0.0  1.0  2.0  3.0  NaN
two  NaN  NaN  4.0  5.0  6.0


In [168]:
#使用stack()函数改变成“花括号”结构，并删除缺少值行
print(data2.unstack().stack())
#使用stack()函数改变成“花括号”结构，不删除缺少值行
print(data2.unstack().stack(dropna=False))


one  a    0.0
     b    1.0
     c    2.0
     d    3.0
two  c    4.0
     d    5.0
     e    6.0
dtype: float64
one  a    0.0
     b    1.0
     c    2.0
     d    3.0
     e    NaN
two  a    NaN
     b    NaN
     c    4.0
     d    5.0
     e    6.0
dtype: float64


In [169]:

#用字典创建DataFrame
df = pd.DataFrame({'left': result, 'right': result + 5},
               columns=pd.Index(['left', 'right'], name='side'))
print(df)
#使用unstack()、stack（）函数
print(df.unstack('rows'))
print(df.unstack('rows').stack('side'))

side       left  right
rows cols             
row1 one      0      5
     two      1      6
row2 one      2      7
     two      3      8
side left      right     
rows row1 row2  row1 row2
cols                     
one     0    2     5    7
two     1    3     6    8
rows        row1  row2
cols side             
one  left      0     2
     right     5     7
two  left      1     3
     right     6     8


# 时间序列

## 日期转换、日期格式化和日期抽取

**日期转换**

是指将字符型的日期格式的数据转换成为日期型数据的过程。日期转换函数to_datetime()的语法格式：
        
        pandas.to_datetime(dateString,format)

函数中的参数说明：
dateString：表示字符型时间列。
format：表示时间日期格式

|代码|注释|代码|注释|
|--|--|--|--|
|%y| 两位数的年份表示（00-99）|%Y| 四位数的年份表示（000-9999）|
|%m| 月份（01-12）|%d |月内中的一天（0-31）|
|%H |24小时制小时数（0-23）|%I| 12小时制小时数（01-12）| 
|%M| 分钟数（00=59）|%S |秒（00-59）|
|%a |本地简化星期名称|%A |本地完整星期名称|
|%b |本地简化的月份名称|%B |本地完整的月份名称|
|%c |本地相应的日期表示和时间表示|%j |年内的一天（001-366）|
|%p |本地A.M.或P.M.的等价符|%U |一年中的星期数（00-53）星期天为星期的开始|
|%w |星期（0-6），星期天为星期的开始|%W |一年中的星期数（00-53）星期一为星期的开始|
|%x |本地相应的日期表示|%X |本地相应的时间表示|
|%Z |当前时区的名称|%%| %号本身|

**日期格式化**

 日期格式化是将时间日期型数据，按照指定格式，转为字符型数据。日期格式化函数：
      
      df_dt.apply(lambda x: datetime.strftime(x, format))
       或df_dt.dt.strftime(format)
           
函数中的参数说明：
  df_dt：表示数据框中时间列名。
  format：表示时间日期格式

**日期抽取**

日期抽取是指从日期格式里面抽取出需要的部分属性。
   
   抽取语法：df_dt.dt.property
  
  参数说明：
  
  df_dt：表示数据框中时间列名。 
  property：表示时间属性
  
  |属性|注释|
  |--|--|
 |second|秒，取值范围[0,61]，有闰秒|
 |minute|分钟，取值范围[0,59]|
 |hour|小时，取值范围[0,23]|
 |day|日，取值范围[01,31]|
 |month|月，取值范围[01,12]|
 |year|年|
 |weekday|用整数表示星期几，取值范围为 [0(星期天),6]|
 

In [176]:
# -*- coding: utf-8 -*-
import pandas as pd
from datetime import datetime
#导入股票数据
df = pd.read_excel('E:\Data\沪深股票股本变动数据.xlsx',
                   sheet_name='sharedata')
#查看df中每个字段数据类型，发现df['日期']是int64
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65865 entries, 0 to 65864
Data columns (total 15 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   市场类型        65865 non-null  object 
 1   股票代码        65865 non-null  object 
 2   日期          65865 non-null  int64  
 3   变动类型        65865 non-null  object 
 4   每10股票分红（元）  26897 non-null  float64
 5   配股价（元）      26897 non-null  float64
 6   每10股票送几股    26897 non-null  float64
 7   每10股票配几股    26897 non-null  float64
 8   前流通盘        38936 non-null  float64
 9   后流通盘        38936 non-null  float64
 10  前总股本        38936 non-null  float64
 11  后总股本        38936 non-null  float64
 12  浓缩比例        8 non-null      float64
 13  份数          24 non-null     float64
 14  行权价         24 non-null     float64
dtypes: float64(11), int64(1), object(3)
memory usage: 7.5+ MB
None


In [179]:
#将int转换成str
df_date = df['日期'].apply(str)
#用to_datetime()函数将字符串转换成时间格式,并增加'时间'字段
df['时间'] = pd.to_datetime(df_date,format='%Y/%m/%d')
print(df['时间'])
#将日期格式化，并增加'格式化日期'字段
df['格式化日期1'] = df.时间.apply(lambda x: datetime.
                           strftime(x, format='%Y.%m.%d'))
df['格式化日期2'] = df.时间.dt.strftime('%Y-%m-%d')
print(df['格式化日期1'],'\n',df['格式化日期2'])



0       1990-03-01
1       1990-09-27
2       1990-09-27
3       1991-02-26
4       1991-03-12
           ...    
65860   2016-12-31
65861   2016-12-31
65862   2016-12-31
65863   2016-12-31
65864   2016-12-31
Name: 时间, Length: 65865, dtype: datetime64[ns]
0        1990.03.01
1        1990.09.27
2        1990.09.27
3        1991.02.26
4        1991.03.12
            ...    
65860    2016.12.31
65861    2016.12.31
65862    2016.12.31
65863    2016.12.31
65864    2016.12.31
Name: 格式化日期1, Length: 65865, dtype: object 
 0        1990-03-01
1        1990-09-27
2        1990-09-27
3        1991-02-26
4        1991-03-12
            ...    
65860    2016-12-31
65861    2016-12-31
65862    2016-12-31
65863    2016-12-31
65864    2016-12-31
Name: 格式化日期2, Length: 65865, dtype: object


In [None]:
#抽取'时间'字段中的值
df['时间.年'] = df['时间'].dt.year
df['时间.月'] = df['时间'].dt.month
df['时间.周'] = df['时间'].dt.weekday
df['时间.日'] = df['时间'].dt.day
df['时间.时'] = df['时间'].dt.hour
df['时间.分'] = df['时间'].dt.minute
df['时间.秒'] = df['时间'].dt.second
print(df['时间.年'],df['时间.月'],df['时间.周'],df['时间.日'])
print(df['时间.时'],df['时间.分'],df['时间.秒'])