**Pandas数据结构**  
Python数据分析主要用到Pandas、NumPy，matplotlib这几个模块，使用前需要先导入

In [None]:
#模块的导入
import pandas as pd
import numpy as np

## Series数据结构

### Serise是什么  
Serise是一种类似一维数组的对象，由一组数据及一组与之相关数据标签（即索引）组成

###  创建一个Series
用pd.Series()方法创建，通过给Series()方法传入不同的对象即可实现

In [None]:
#传入一个列表
S1 = pd.Series(["a","b","c","d"])
#S1 = pd.Series(["a","b","c","d", 1])
S1

In [None]:
#指定索引
S2 = pd.Series([1,2,3,4],index = ["a","b","c","d"])
S2

In [None]:
#传入字典
S3 = pd.Series({"a":1,"b":2,"c":3,"d":4})
S3

### 利用index方法获取Series的索引

In [None]:
S1.index

In [None]:
S2.index

### 利用values方法获取Series的值

In [None]:
S1.values

In [None]:
S2.values

## DataFrame表格型数据结构

### DataFrame是什么  
DataFrame是由一组数据与一对索引（行索引和列索引）组成的表格型数据结构

### 创建一个DataFrame  
使用pd.DataFrame()方法创建，通过传入对象即可实现

In [None]:
#传入一个列表
import pandas as pd
df1 = pd.DataFrame(["a","b","c","d"])
df1

In [None]:
#传入一个嵌套列表
df2 = pd.DataFrame([["a","A"],["b","B"],["c","C"],["d","D"]])
df2

**指定行、列索引**  
- columns 参数自定义列索引
- index 参数自定义行索引

In [None]:
# 设置列索引
df31 = pd.DataFrame([["a","A"],["b","B"],["c","C"],["d","D"]],columns = ["小写","大写"])
df31

In [None]:
# 设置行索引
df32 = pd.DataFrame([["a","A"],["b","B"],["c","C"],["d","D"]],index = ["一","二","三","四"])
df32

In [None]:
# 行、列同时设置
df33 = pd.DataFrame([["a","A"],["b","B"],["c","C"],["d","D"]],columns = ["小写","大写"],index = ["一","二","三","四"])
df33

In [None]:
#传入一个字段
data = {"小写":["a","b","c","d"],"大写":["A","B","C","D"]}
df41 = pd.DataFrame(data)
df41

- 字典传入DataFrame时，key的值相当于列索引，如没设置行索引默认从0开始，如需设置行索引，可以赢index参数

In [None]:
# 给传入字典的数据设置行索引
data = {"小写":["a","b","c","d"],"大写":["A","B","C","D"]}
df42 = pd.DataFrame(data,index = ["一","二","三","四"])
df42

### 获取DataFrame的行、列索引  
- 利用columns方法获取DataFrame的列索引
- 利用index方法获取DataFrame的行索引

In [None]:
#获取DataFrame列索引
df2.columns

In [None]:
df33.columns

In [None]:
#获取DataFrame行索引
df2.index

In [None]:
df33.index

# 获取数据

## 导入外部数据  
导入数据主要用到pandas的read_x()方法，x表示待导入文件的式

### 导入.xlsx文件  
```
conda install xlrd
```
- 用read_excel()方法，传入文件路径即可，避免路径被转义前面加一个**r**
- 指定导入那个Sheet可以设定sheet_name参数
- 指定行索引index_col参数，默认是从0开始
- 指定列索引header参数，默认为0，即第一行作为列索引
- 指定导入列usecols参数

In [None]:
#直接导入
import pandas as pd
df = pd.read_excel(r"../pandas-data/excel.xlsx")
df

In [None]:
#导入具体的sheet
df = pd.read_excel(r"../pandas-data/excel.xlsx",sheet_name = 1)
df

In [None]:
#读取中文表名
df = pd.read_excel(r"../pandas-data/excel.xlsx",sheet_name = "测试")
df

In [None]:
#指定行索引
df = pd.read_excel(r"../pandas-data/excel.xlsx",sheet_name = 0,index_col = 0)
df
#df.index

In [None]:
#指定列索引
df = pd.read_excel(r"../pandas-data/excel.xlsx",sheet_name = 2,header = 1)
df

In [None]:
#导入指定的列
df = pd.read_excel(r"../pandas-data/excel.xlsx",usecols = [0,])
df

In [None]:
#导入多列
df = pd.read_excel(r"../pandas-data/excel.xlsx",sheet_name = 0,usecols =[1,2])
df

### 导入.csv文件  
- read_csv()方法直接导入
- sep参数指明分隔符
- nrows参数指明读取行
- engineing参数指定文件编码格式
- 如果文件路径含有中文需要设定engine


### 导入.txt文件  
- 用read_table()方法读取
- sep参数指定分隔符
- 也可以读取csv文件
- 其他参数与read_csv()方法基本一致

## 熟悉数据

### 利用head预览前几行  
head()方法如果不传参数，默认显示**前5行**

In [None]:
#默认显示
df.head()

In [None]:
#显示前2行
df.head(2)

### 利用shape获取数据表的大小  
Python中shape方法获取数据表的行和列数**(注意没括号)**

In [None]:
df.shape

### 利用info获取数据类型  
Python中info()方法查看数据表的中的数据类型

In [None]:
df.info()

### 利用describe获取数值分布情况
Python中describe()方法可以获取所有数值类型字段的分布值

In [None]:
df.describe()

# 数据处理

## 缺失值处理
### 缺失值查看

In [None]:
df = pd.read_excel(r"../pandas-data/na_value.xlsx")
#head()默认只显示前5条数据
#df.info()#info()方法返回各个字段属性及每一列缺失数据的情况
df.head(20).info()
df

### 缺失值删除

In [None]:
df.dropna() #dropna()删除缺失值的行

In [None]:
df.dropna(how = "all")#删除所有列为空的行

### 缺失值填充

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/na_value.xlsx")
df.fillna(0)#fillna将缺失值填充为0
df.fillna({"性别":"男","年龄":30})#分别对性别和年龄填充

## 重复数据处理

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/na_value.xlsx",sheet_name=2)
df

In [None]:
df.drop_duplicates() #删除重复的行
df.drop_duplicates(subset = "唯一识别码") #指定判断的列
df.drop_duplicates(subset = ["客户姓名","唯一识别码"])
df.drop_duplicates(subset = ["客户姓名","唯一识别码"],keep = "last") #keep参数（first,last）设置保留那个值

## 数据类型转换

### 数据类型

类型 | 说明
---|---
int | 整型数，即整数
flat | 浮点数，即含有小数点的数
object | Python对象类型，用O表示
string_ | 字符串类型，经常用S表示，S10表示长度为10的字符串
unicode_ | 谷歌程度的unicode类型，跟字符串的定义方式一样
datatime64[ns] | 表示时间格式

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/na_value.xlsx",sheet_name = 2)
df.info() #info( )获取每一列的数据类型
df["订单编号"].dtype # 查看订单编号这一列的数据类型
#df["唯一识别码"].dtype # 查看唯一识别码这一列的数据类型

### 类型转换

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/na_value.xlsx",sheet_name = 2)
df["唯一识别码"].dtype #查看类型
df["唯一识别码"].astype("float64", ascopy=False)#将唯一识别码冲int类型转为float类型
df

## 索引设置

### 为无索引表添加索引

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/na_value.xlsx",sheet_name = 3,header= None)
df

In [None]:
df.columns = ["订单编号","客户姓名","唯一识别码","成交时间"]#header需要设置为None，否则会覆盖第一行数据
df.index = [1,2,3,4,5]
df

### 重新设置索引

In [None]:
import pandas as pd
df.set_index("订单编号") #se_index()方法重新设置索引列

### 重命名索引

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/na_value.xlsx",sheet_name = 4)
df

In [None]:
df.index = [1,2,3,4,5] #添加索引
df.rename(columns={"订单编号":"新订单编号","客户姓名":"新客户姓名"}) #重命名列索引
df.rename(index = {1:"一",2:"二",3:"三"}) #重命名行索引
#df.rename(columns={"订单编号":"新订单编号","客户姓名":"新客户姓名"},index = {1:"一",2:"二",3:"三",4:'四'})#同时重命名列和行索引

### 重置索引

In [None]:
df.reset_index()

## 列选择

### 选择某一列/某几列

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/select_data.xlsx",sheet_name = 0)
#通过传入列名选择数据的方式称为普通索引
df

In [None]:
df['客户姓名']
#df[['客户姓名','订单编号','客户姓名']]
df[['客户姓名','订单编号']]

In [None]:
#通过传入具体位置来选择数据的方式称为位置索引
df.iloc[:,[0,2]] #获取第1和第3列的数值，：表示获取所有的行

### 连续选择某几列

In [None]:
#通过传入一个位置区间来获取数据的方式称为切片索引
df.iloc[:,0:3] #选择第1列到第4列的之间的值（包含第1列但是不包含第4列）

## 行选择

### 选择某一行/某几行

In [None]:
#利用iloc方法，位置索引
df.iloc[0]
df.iloc[[0,1]] #选择第一和第二行

In [None]:
#利用loc()方法，普通索引
df.index = ["一","二","三","四","五","六"]
df.loc["一"]
df.loc[["一","二"]]

### 选择连续的某几行

In [None]:
df.iloc[0:3]#选择第一行到第四行（不包含第四行）

### 选择满足条件的行

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/select_data.xlsx",sheet_name=3)
df

In [None]:
#选择年龄小于200的数据
df[df['年龄']<200]

In [None]:
#选择年龄小于200并且唯一识别码小于200，条件用括号括起来
df[(df['年龄']<200) & (df['唯一识别码']<102)]

In [None]:
df.dropna(inplace=True)
df[df["客户姓名"].str.startswith("赵")]
df[df["订单编号"].str.contains("\w[1-2]")]

## 行列同时选择

### 普通索引+普通索引选择指定的行和列

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/select_data.xlsx",sheet_name=4)
df.index = ["一","二","三","四","五"]
#用loc传入行列名称
df.loc[["一","二"],["订单编号","客户姓名","唯一识别码"]]

### 位置索引+位置索引选择指定的行和列

In [None]:
#用iloc方法传入行列位置
df.iloc[[0,1],[0,2]]

### 布尔索引+普通索引选择指定的行和列

In [None]:
#先进行布尔选择，然后通过普通索引选择列
df[df["年龄"]<200][["订单编号","年龄"]]

### 切片索引+切片索引选择指定的行和列

In [None]:
import pandas as pd
df = pd.read_excel(r"..\Data\Chapter06.xlsx",sheet_name=4)
df.index = ["一","二","三","四","五"]
#iloc第一个参数选择的是行区间，第二个参数选的是列的区间
df.iloc[0:3,1:4]

### 切片索引+普通索引指定的行和列

In [None]:
df.iloc[0:3][["客户姓名","唯一识别码"]]

## 数值替换

### 一对一替换

In [None]:
import pandas as pd
import numpy as np
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =0)
df

In [None]:
#对某一列进行数值替换
df["年龄"].replace(240,33,inplace = True)
df

In [None]:
#对全表中的缺失值进行替换
df.replace(np.NaN,0)
#df.fillna(0)

### 多对一替换

In [None]:
import pandas as pd
import numpy as np
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =0)
#多对一用replace([A,B],C)方法，表示将A、B替换成C
error_age=df["年龄"][df["年龄"]>200]
df.replace(list(error_age),35)

In [None]:
#df["年龄"][df["年龄"]>200] = 35
#df

### 多个一对一替换

In [None]:
import pandas as pd
import numpy as np
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =0)
df
#多对多的替换借助replace()方法，用字典的形式表示,replace({"A":"a","B":"b"})表示用a替换A，用b替换B.
df.replace({240:32,260:33,280:34})

## 数值排序

### 按照一定数值进行排序

In [None]:
import pandas as pd
import numpy as np
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =1)
#df.sort_values(by=["col"],ascending = False) 默认是升序
#按照销售ID进行升序排序
df.sort_values(by=["销售ID"])
#按照销售ID进行降序排序
df.sort_values(by=["销售ID"],ascending= False)

### 按照有缺失值的列进行排序

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =2)
df
#默认空值是排在最后面
df.sort_values( by = ["销售ID"])
#通过设置na_position参数将缺失的值显示在前面，默认参数值是last
df.sort_values(by = ["销售ID"],na_position = "first")

### 按照多列数字进行排序

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =3)
df
#将需要排序的by里面，然后在设置升降序
df.sort_values(by=["销售ID","成交时间"],ascending = [True,False])

## 数值排名
- 使用rank()方法，有两个参数，一个是ascending用来指明排列默认升序，另外一个是method，指明列有重复值是的处理情况  

method | 说明
---|---
average|与Excel中的RANK.AVG函数功能一样 
first|按值在所有待排列数据中出现的先后顺序排名
min|与Excle中的RANK.EQ函数的功能一样
max|与min相反，取重复值对应的最大排名

- Excel中RANK、RANK.AVG、RANK.EQ区别
- Rank是Excel早起版本就有的函数，而RANK.EQ是Excel2010才开始出现的，同时增加了RANK.AVG函数

函数名|说明
-|-
 RANK|根据数值获取排名，默认降序
 RANK.AVG|根据排名相同值的排名求得平均值的排名，默认降序
 RANK.EQ|与RANK的方法一致


In [None]:
#Excel中RANK、RANK.AVG、RANK.EQ的使用
import pandas as pd
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =4)
df

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =1)
df["销售ID"]
#method取average时与Excel中的RANK.AVG函数一样
df["销售ID"].rank(method ="average")

In [None]:
#method取first时，取数值第一次出现的排名
df["销售ID"].rank(method ="first")

In [None]:
#method取min时与Excel中的RANK.EQ函数一样
df["销售ID"].rank(method ="min")

In [None]:
#与min相反
df["销售ID"].rank(method ="max")

## 数值删除

### 删除列
用drop()方法，在括号中设置需要删除的位置，设置参数axis = 1

In [None]:
#直接传入列名
import pandas as pd
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =1)
df
#axis为1时表示列，0时表示行
df.drop(["销售ID","成交时间"],axis =1)

In [None]:
#传入列的位置
df.drop(df.columns[[4,5]],axis =1)

In [None]:
#传入列表
df.drop(columns = ["销售ID","成交时间"])

### 删除行
用drop方法，设置参数axis=0

In [None]:
#添加行索引
df.index = ["0a","1b","2c","3d","4e"]
#传入列名称
df.drop(["0a","1b"],axis = 0)

In [None]:
#传入待删除的行号
df.drop(df.index[[0,1]],axis = 0)

In [None]:
#行名直接传给index参数
df.drop(index = ["0a","1b"])

### 删除特定的行
python中不能直接删除满足条件的值，而是把不满足条件的值筛选出来作为新数据

In [None]:
#删除年龄大于40对应的行
df[df["年龄"]<40]

## 数值计算
- 数值计算就是计算某个值在一个系列中数值出现的次数
- 使用value_counts()方法，如需出现占比可以传入参数normalize = True

In [None]:
#计算销售ID的值出现的次数
df["销售ID"].value_counts()

In [None]:
#计算销售ID的值占比
df["销售ID"].value_counts(normalize = True)

## 唯一值获取
- 唯一值获取就是把一系列值删除重复项一以后的结果
- 使用unique()方法，返回数组

In [None]:
df["销售ID"].unique()

## 数值查找
- 就是看数据表中是否包含某个值
- 用isin() 方法，将需要查找的值作为参数,返回布尔值

In [None]:
#单列查找
df['年龄'].isin([31,21])

In [None]:
#全表查找
df.isin(["A2",31])

## 区间切分
- cut()方法对区间检查切分，用参数bins来指明切分区间
- qcut()方法也可以，但是不要事先指明切分区间，只需指明切分个数
- 当数据分布比较均匀时，两个方法得到的区间基本一致，如果分布不均时则偏差比较大

In [None]:
#cut切分结果是几个左开又闭的区间
import pandas as pd
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =5)
df
pd.cut(df["年龄"],bins = [0,3,6,9,10])

In [None]:
#qcut只需要指明切分个数
pd.qcut(df["年龄"],3)

## 插入新的行或列  
- 在python中没有专门用来插入行的方法，可以待插入的行当做一个新的列表，然后将两个表在纵轴方向上进行拼接
- 在python中插入一列用insert()方法实现，在扩后中指明要插入的位置、插入后新列的列名，以及要插入的数据

In [None]:
#用insert()方法插入列
import pandas as pd
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =3)
df
df.insert(2,"商品类别",["cat01","cat02","cat03","cat04","cat05"])
df

In [None]:
#通过索引的方式插入列
import pandas as pd
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =3)
df["商品类别"]= ["cat01","cat02","cat03","cat04","cat05"]
df

## 行列互换
- 所谓的行列互换(又称转置)就是行将数据的转换到列方向上，将列数据转换到行方向上。  
- 用.T方法实现

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =3)
#行列转置
df.T
#再转置则回到原来的结果
df.T.T
m=df["成交时间"]

## 索引重塑
- 所谓的索引重塑就是将原来的索引进行重构。
- 把数据从表格型数据转换到树形结果的过程叫重塑，用strack()方法实现
- 用unstack()将树形数据转为表格型数据

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =6)
df
df.stack()

In [None]:
#将树形转为表格型
df.stack().unstack()

## 长宽表转换
长宽表转换就是将比较长(很多行)的表转为比较宽的表(很多列)的表，或者将比较宽的表转为比较长的表

### 宽表转为长表  
Python中用stack()或melt()方法实现

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =7)
df
#设置索引
df.set_index(["Company","Name"])
#将列索引转为行索引
df.set_index(["Company","Name"]).stack()
#重置索引
df.set_index(["Company","Name"]).stack().reset_index()
#重命名索引
df.set_index(["Company","Name"]).stack().reset_index().rename(columns={"level_2":"Year",0:"sale"})

melt中的id_vars参数用于指明宽表转黄到成都表时保持不变的列，var_name参数表示原来的列索引转化为“行索引”以后的列名，value_name表示新索引对于的值的列名  
**注意：**这里的“行索引”是有双引号的，并非实际行索引，只是类似的实际行索引

In [None]:
#用melt()方法实现
import pandas as pd
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =7)
df
df.melt(id_vars=["Company","Name"],var_name="Year",value_name = "Sale")

### 长表转为宽表

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =8)
df
df.pivot_table(index=["Company","Name"],columns="Year",values="Sale")

## apply()与applymap()函数  
- apply()函数主要用于对DataFrame中的某一column或row中的元素执行相同的函数操作
- applymap()函数主要用于对DataFrame中每一个元素执行系统的操作
- apply()和applymap()都要与lambda结合使用

In [None]:
#对C1列的远隔元素加1
import pandas as pd
df = pd.read_excel(r"../pandas-data/reshape_data.xlsx",sheet_name =9)
df
df["C1"].apply(lambda x:x+1)

In [None]:
#对表内的每个元素加1
df.applymap(lambda x:x+1)

## 汇总运算

**count()非空值计数**  
非空值计数就是计算摸一个区域中非空数值的个数  
默认是求每一列非空值的个数  
修改axis=1可以计算每一行的非空值个数

**sum()求和**

**mean()求均值**  
求均值就是对某一区域中的所有值进行算数平均值运算

**max()求最大值**

**min()求最小值使用方法和max()一致**

**median()求中位数**  
中位数就是将一组含有n个数据的序列X按照从小到大排列，位于中间位置的那个数，使用方法和其他函数一致

**mode()求众数**  
众数就是在一组数据中出现次数最多的数，使用方法与其他函数一致

**var()求方差✩**  
方差是用来衡量一组数据离散程度的，使用方法与其他函数一致  
**std()求标准差✩**  
标准差是方差的平方根，二者都是用来表示数据的离散程度的，使用方法与其他函数一致

**quantile()求分数位**  
分数位是比中数位更加详细的基于位置的指标，有四分之一分数位、四分之二分数位、四分之三分数位，而四分之二分数位就是中数位。


**corr()函数相关性**  
相关性长用来衡量两个事之间的相关程度

## 时间索引  
时间索引就是根据时间来对时间格式的字段进行数据选取的一种索引方式。

In [None]:
import pandas as pd
import numpy as np
index = pd.DatetimeIndex(['2018-01-01','2018-01-02','2018-01-03','2018-01-04','2018-01-05',
                          '2019-01-06','2019-01-07','2019-01-08','2019-01-09','2019-01-10'])
data = pd.DataFrame(np.arange(1,11),columns =["num"],index = index)
data

In [None]:
#获取2018年的数据
data["2018"]

In [None]:
#获取2018年1月份的数据
data["2018-01"]

In [None]:
#获取2018年1月1日到2018年1月5日的数据
data["2018-01-01":"2018-01-03"]

In [None]:
import pandas as pd
from datetime import datetime
df = pd.read_excel(r"../pandas-data/select_data.xlsx",sheet_name = 4)
df

In [None]:
df[df["成交时间"]>datetime(2018,8,10)]

In [None]:
df[df["成交时间"] == datetime(2018,8,8)]

In [None]:
df[df["成交时间"] < datetime(2018,8,9)]

In [None]:
df[(df["成交时间"]>datetime(2018,8,8)) & (df["成交时间"]< datetime(2018,8,11))]

## 时间运算

**两个时间之差**

In [None]:
cha = datetime(2018,5,21,19,50)-datetime(2018,5,18,20,32)
cha

In [None]:
#返回天数
cha.days

In [None]:
#返回秒时差
cha.seconds

In [None]:
#换算成小时的时间差
cha.seconds/3600

**时间偏移**
- timedelata只能偏移天、秒、微秒
- 日期偏移量,可以直接实现天、小时、分钟单位的偏移date offset

**timedelate**

In [None]:
from datetime import timedelta,datetime
date = datetime.now()
date

#往后推一天
date+timedelta(days =1)

In [None]:
#往后推60秒
date+timedelta(seconds = 60)

In [None]:
#往前推一天
date - timedelta(days =1)

**data offset**

In [None]:
from pandas.tseries.offsets import Hour,Minute,Day,MonthEnd
date = datetime.now()
date

#往后推一天
date+Day(1)

#往后推1小时
date+Hour(1)

#往后推10分钟
date+Minute(10)

#推后到月底
date+MonthEnd(1)

# 数据分组

## 分组键是列名  
分组键是列名时将某一列或者多列的列名传给groupby()方法，groupby()方法会按照这一列或多列进行分组。

**按照一列进行分组**

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/group_data.xlsx",sheet_name =0)
df

In [None]:
g=df.groupby(df["客户分类"])
g

In [None]:
g.mean()

In [None]:
g.describe()

In [None]:
g.sum()

**按照多列进行分组**

In [None]:
df.groupby(["客户分类","区域"]).count()

In [None]:
df.groupby(["客户分类","区域"]).count().reset_index()

In [None]:
df.groupby(["客户分类","区域"]).sum()

In [None]:
df.groupby("客户分类")["用户ID"].count()

## 分组键是Series

**按照一个Series进行分组**

In [None]:
df["客户分类"]
df.groupby(df["客户分类"]).count()

**按照多个Series进行分组**

In [None]:
df.groupby([df["客户分类"],df["用户ID"]]).sum()

In [None]:
df.groupby(df["客户分类"])["用户ID"].count()

## aggregate方法

In [None]:
df.groupby("客户分类").aggregate(["count","sum"])

In [None]:
df.groupby("客户分类").aggregate({"用户ID":"count","7月销量":"sum","8月销量":"sum"})

In [None]:
df.groupby("客户分类").sum()

## 对分组后的结果进行重置索引

In [None]:
#利用reset_index()方法重置索引
df.groupby("客户分类").sum().reset_index()

# 数据透析   
Python中数据透析表用pivot_table()方法，参数如下：  
pd.pivot_table(data, values = None, index = None, columns = None, aggfunc = 'mean', fill_value = None, magrins = False, dropna = False, margins_name = 'All')  
- data表示要做数据透析表的整个表 
- values对应Excel中的值的那个框
- index对应Excel中行的那个框
- columns对应Excel中列的那个框
- aggfunc表示values的计算类型
- fill_value表示对空值的填充
- margins 表示是否显示合并的列
- dropna表似乎删除缺失，如果为真时，则把一整行全部作为缺失值删除
- margins_name表示合并的列

In [None]:
import pandas as pd
df = pd.read_excel(r"../pandas-data/group_data.xlsx",sheet_name =0)
pd.pivot_table(df,values = "用户ID",columns ="区域",index="客户分类",aggfunc="count")

In [None]:
pd.pivot_table(df,values = "用户ID",columns ="区域",index="客户分类",aggfunc="count",margins = True)

In [None]:
pd.pivot_table(df,values = "用户ID",columns ="区域",index="客户分类",aggfunc="count",margins = True,fill_value =0)

In [None]:
pd.pivot_table(df,values = ["用户ID","7月销量"],columns="区域",index="客户分类",aggfunc={"用户ID":"count","7月销量":"sum"})

In [None]:
pd.pivot_table(df,values="用户ID",columns="区域",index="客户分类",aggfunc="count")

In [None]:
pd.pivot_table(df,values="用户ID",columns="区域",index="客户分类",aggfunc="count").reset_index()

## 表的横向拼接

### 连接表的类型

**一对一**

In [None]:
import pandas as pd
df1 = pd.read_excel(r"../pandas-data/merge_data.xlsx",sheet_name =0)
df1

In [None]:
df2 = pd.read_excel(r"../pandas-data/merge_data.xlsx",sheet_name =1)
df2

In [None]:
#一对一连接
pd.merge(df1,df2)

**多对一**

In [None]:
df1 = pd.read_excel(r"../pandas-data/merge_data.xlsx",sheet_name =2)
df2 = pd.read_excel(r"../pandas-data/merge_data.xlsx",sheet_name =3)
pd.merge(df1,df2,on = "学号")

**多对多**

In [None]:
df1 = pd.read_excel(r"../pandas-data/merge_data.xlsx",sheet_name =4)
df2 = pd.read_excel(r"../pandas-data/merge_data.xlsx",sheet_name =3)
pd.merge(df1,df2)

### 连接键的类型

**默认以公共列作为连接键**

In [None]:
df1 = pd.read_excel(r"../Data/Chapter11.xlsx",sheet_name =0)
df2 = pd.read_excel(r"../Data/Chapter11.xlsx",sheet_name =1)
df1
df2
pd.merge(df1,df2)

**用on来指定连接键**

In [None]:
pd.merge(df1,df2,on="学号")

In [None]:
#连接键有多个
df1 = pd.read_excel(r"../pandas-data/merge_data.xlsx",sheet_name =0)
df2 = pd.read_excel(r"../pandas-data/merge_data.xlsx",sheet_name =5)
pd.merge(df1,df2,on=["姓名","学号"])

**分别指定左右连接键**  
当两个表面有公共列时，实际值一样，但列名不同。用left_on和right_on来指明连接的列名

In [None]:
df1 = pd.read_excel(r"../pandas-data/merge_data.xlsx",sheet_name =6)
df2 = pd.read_excel(r"../pandas-data/merge_data.xlsx",sheet_name =1)
pd.merge(df1,df2,left_on = "编号",right_on = "学号")

**把索引列当作连接键**  
索引列不算真正的列，当公共列是索引列时，就要把索引列单做连接键，使用left_index、right_index来设置索引

In [None]:
df1 = pd.read_excel(r"../pandas-data/merge_data.xlsx",sheet_name =7)
df1.set_index("编号")

In [None]:
df2 = pd.read_excel(r"../pandas-data/merge_data.xlsx",sheet_name =1)
df2.set_index("学号")

In [None]:
#当左右表的连接键均为索引
pd.merge(df1.set_index("编号"),df2.set_index("学号"),left_index = True,right_index = True)

In [None]:
df2 = pd.read_excel(r"../pandas-data/merge_data.xlsx",sheet_name =1)
df2

In [None]:
#索引列和普通索引列混用
pd.merge(df1.set_index("编号"),df2,left_index = True,right_on = "学号")

### 连接方式  
用参数how来指明具体的连接方式,如果不指定默认是内连接

**内连接(inner)**

**左连接(left)**

**右连接(right)**

**外连接(outer)**  
就是两个表的并集

**重复列名处理**  
pd.merge()方法默认会给这些重复的列名加后缀\_x,\_y

**自定义重复列名**  
用suffixes参数

In [None]:
pd.merge(df1,df2,on="学号",how="inner",suffixes=["_L","_R"])

## 表的纵向拼接

**普通合并**

In [None]:
pd.concat([df1,df2])

**索引设置**

In [None]:
pd.concat([df1.set_index("编号"),df2.set_index("编号")],ignore_index = True)

## 导出.xlsx文件
**设置文件导出路径**

In [None]:
import pandas as pd
df = pd.read_excel(r"../Data/Chapter12.xlsx",sheet_name =0 )
df.to_excel(excel_writer = r"C:\Users\Administrator\Excel-Python\Data\测试文档01.xlsx")

**设置Sheet名称**

In [None]:
df.to_excel(excel_writer = r"C:\Users\Administrator\Excel-Python\Data\测试文档02.xlsx",
            sheet_name ="测试")

**设置索引**

In [None]:
df.to_excel(excel_writer = r"C:\Users\Administrator\Excel-Python\Data\测试文档03.xlsx",
            index = False)

**设置要导出的列**

In [None]:
df = pd.read_excel(r"../Data/Chapter12.xlsx",sheet_name =0 )
df.to_excel(excel_writer = r"C:\Users\Administrator\Excel-Python\Data\测试文档04.xlsx",
            sheet_name = "测试文档",
            index=False,columns = ["用户ID","7月销量","8月销量","9月销量"])

**设置编码格式**

In [None]:
df.to_excel(excel_writer = r"C:\Users\Administrator\Excel-Python\Data\测试文档05.xlsx",
           sheet_name = "测试文档",
           index = False,
           encoding = "utf-8")

**缺失值处理**

In [None]:
df = pd.read_excel(r"../Data/Chapter12.xlsx",sheet_name =2)
df.to_excel(excel_writer = r"C:\Users\Administrator\Excel-Python\Data\测试文档06.xlsx",
           sheet_name="测试文档",
           index = False,
           encoding = "utf-8",
           na_rep = 0 #缺失值填充为0
           )

**无穷值处理**

In [None]:
df = pd.read_excel(r"../Data/Chapter12.xlsx",sheet_name =1)
df.to_excel(excel_writer = r"C:\Users\Administrator\Excel-Python\Data\测试文档07.xlsx",
           sheet_name = "测试文档",
           index = False,
           encoding = "utf-8",
           na_rep = 0,
           inf_rep = 0 #无穷值填充为0
           )

## 多个dataframe保存一个excel的多个Sheet

In [None]:
#声明一个对象
writer = pd.ExcelWriter(r"C:\Users\Administrator\Excel-Python\Data\test02.xlsx",
                        engine = "xlsxwriter")
#将df1、df2、df3写入Excel中的sheet1、sheet2、sheet3
#重命名表1、表2、表3
df1.to_excel(writer,sheet_name ="表1")
df2.to_excel(writer,sheet_name ="表2")
df3.to_excel(writer,sheet_name ="表3")
#保存读写的内容
writer.save()