# 数值操作

## 数值替换

### 一对一替换

In [23]:
import pandas as pd
import numpy as np
df = pd.read_excel(r"..\Data\test01.xlsx",sheet_name =6)
#对某一列进行数值替换
df["年龄"].replace(240,33,inplace = True)
df
#对全表中的缺失值进行替换
df.replace(np.NaN,0)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张通,101.0,31.0,2018-08-08 00:00:00
1,0,0,0.0,0.0,0
2,A2,李谷,102.0,45.0,2018-08-09 00:00:00
3,A3,孙凤,103.0,23.0,2018-08-10 00:00:00
4,A4,赵恒,104.0,33.0,2018-08-11 00:00:00
5,A5,赵恒,104.0,33.0,2018-08-12 00:00:00


### 多对一替换

In [26]:
import pandas as pd
import numpy as np
df = pd.read_excel(r"..\Data\test01.xlsx",sheet_name =6)
#多对一用replace([A,B],C)方法，表示将A、B替换成C
df.replace([240,260,280],35)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张通,101.0,31.0,2018-08-08
1,,,,,NaT
2,A2,李谷,102.0,45.0,2018-08-09
3,A3,孙凤,103.0,23.0,2018-08-10
4,A4,赵恒,104.0,35.0,2018-08-11
5,A5,赵恒,104.0,35.0,2018-08-12


### 多对多替换

In [34]:
import pandas as pd
import numpy as np
df = pd.read_excel(r"..\Data\test01.xlsx",sheet_name =6)
#多对多的替换借助replace()方法，用字典的形式表示,replace({"A":"a","B":"b"})表示用a替换A，用b替换B.
df.replace({240:32,260:33,280:34})

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张通,101.0,31.0,2018-08-08
1,,,,,NaT
2,A2,李谷,102.0,45.0,2018-08-09
3,A3,孙凤,103.0,23.0,2018-08-10
4,A4,赵恒,104.0,32.0,2018-08-11
5,A5,赵恒,104.0,33.0,2018-08-12
6,A6,王丹,105.0,34.0,2018-08-12


## 数值排序

### 按照一定数值进行排序

In [2]:
import pandas as pd
import numpy as np
#df = pd.read_excel(r"D:\db\test01.xlsx",sheet_name =7)
df = pd.read_excel(r"..\Data\test01.xlsx",sheet_name =7)
#df.sort_values(by=["col"],ascending = False) 默认是升序
#按照销售ID进行升序排序
df.sort_values(by=["销售ID"])
#按照销售ID进行降序排序
df.sort_values(by=["销售ID"],ascending= False)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
4,A5,王娜,105,21,2018-08-11,3
1,A2,李谷,102,45,2018-08-09,2
3,A4,赵恒,104,240,2018-08-11,2
0,A1,张通,101,31,2018-08-08,1
2,A3,孙凤,103,23,2018-08-10,1


### 按照有缺失值的列进行排序

In [9]:
import pandas as pd
df = pd.read_excel(r"..\Data\test01.xlsx",sheet_name =8)
df
#默认空值是排在最后面
df.sort_values( by = ["销售ID"])
#通过设置na_position参数将缺失的值显示在前面，默认参数值是last
df.sort_values(by = ["销售ID"],na_position = "first")

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2,A3,孙凤,103,23,2018-08-10,
0,A1,张通,101,31,2018-08-08,1.0
1,A2,李谷,102,45,2018-08-09,2.0
3,A4,赵恒,104,36,2018-08-11,2.0
4,A5,王娜,105,21,2018-08-11,3.0


### 按照多列数字进行排序

In [14]:
import pandas as pd
df = pd.read_excel(r"..\Data\test01.xlsx",sheet_name =9)
df
#将需要排序的by里面，然后在设置升降序
df.sort_values(by=["销售ID","成交时间"],ascending = [True,False])

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2,A3,孙凤,103,23,2018-08-10,1
0,A1,张通,101,31,2018-08-08,1
3,A4,赵恒,104,36,2018-08-11,2
1,A2,李谷,102,45,2018-08-09,2
4,A5,王娜,105,21,2018-08-11,3


## 数值排名
- 使用rank()方法，有两个参数，一个是ascending用来指明排列默认升序，另外一个是method，指明列有重复值是的处理情况  

method | 说明
---|---
average|与Excel中的RANK.AVG函数功能一样 
first|按值在所有待排列数据中出现的先后顺序排名
min|与Excle中的RANK.EQ函数的功能一样
max|与min相反，取重复值对应的最大排名

- Excel中RANK、RANK.AVG、RANK.EQ区别
- Rank是Excel早起版本就有的函数，而RANK.EQ是Excel2010才开始出现的，同时增加了RANK.AVG函数

函数名|说明
-|-
 RANK|根据数值获取排名，默认降序
 RANK.AVG|根据排名相同值的排名求得平均值的排名，默认降序
 RANK.EQ|与RANK的方法一致


In [7]:
#Excel中RANK、RANK.AVG、RANK.EQ的使用
import pandas as pd
df = pd.read_excel(r"..\Data\test01.xlsx",sheet_name =10)
df

Unnamed: 0,姓名,订单数,RANK函数,RANK.AVG函数,RANK.EQ函数
0,赵恒,11,1,1.0,1
1,叶枫,9,2,2.0,2
2,张通,4,3,3.0,3
3,李谷,1,4,5.5,4
4,孙凤,1,4,5.5,4
5,王娜,1,4,5.5,4
6,李斯,1,4,5.5,4


In [16]:
import pandas as pd
df = pd.read_excel(r"..\Data\test01.xlsx",sheet_name =9)
df["销售ID"]
#method取average时与Excel中的RANK.AVG函数一样
df["销售ID"].rank(method ="average")

0    1.5
1    3.5
2    1.5
3    3.5
4    5.0
Name: 销售ID, dtype: float64

In [17]:
#method取first时，取数值第一次出现的排名
df["销售ID"].rank(method ="first")

0    1.0
1    3.0
2    2.0
3    4.0
4    5.0
Name: 销售ID, dtype: float64

In [19]:
#method取min时与Excel中的RANK.EQ函数一样
df["销售ID"].rank(method ="min")

0    1.0
1    3.0
2    1.0
3    3.0
4    5.0
Name: 销售ID, dtype: float64

In [21]:
#与min相反
df["销售ID"].rank(method ="max")

0    2.0
1    4.0
2    2.0
3    4.0
4    5.0
Name: 销售ID, dtype: float64

## 数值删除

### 删除列
用drop()方法，在括号中设置需要删除的位置，设置参数axis = 1

In [28]:
#直接传入列名
import pandas as pd
df = pd.read_excel(r"..\Data\test01.xlsx",sheet_name =9)
df
#axis为1时表示列，0时表示行
df.drop(["销售ID","成交时间"],axis =1)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄
0,A1,张通,101,31
1,A2,李谷,102,45
2,A3,孙凤,103,23
3,A4,赵恒,104,36
4,A5,王娜,105,21


In [32]:
#传入列的位置
df.drop(df.columns[[4,5]],axis =1)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄
0,A1,张通,101,31
1,A2,李谷,102,45
2,A3,孙凤,103,23
3,A4,赵恒,104,36
4,A5,王娜,105,21


In [34]:
#传入列表
df.drop(columns = ["销售ID","成交时间"])

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄
0,A1,张通,101,31
1,A2,李谷,102,45
2,A3,孙凤,103,23
3,A4,赵恒,104,36
4,A5,王娜,105,21


### 删除行
用drop方法，设置参数axis=0

In [37]:
#添加行索引
df.index = ["0a","1b","2c","3d","4e"]
#传入列名称
df.drop(["0a","1b"],axis = 0)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2c,A3,孙凤,103,23,2018-08-10,1
3d,A4,赵恒,104,36,2018-08-11,2
4e,A5,王娜,105,21,2018-08-11,3


In [39]:
#传入待删除的行号
df.drop(df.index[[0,1]],axis = 0)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2c,A3,孙凤,103,23,2018-08-10,1
3d,A4,赵恒,104,36,2018-08-11,2
4e,A5,王娜,105,21,2018-08-11,3


In [41]:
#行名直接传给index参数
df.drop(index = ["0a","1b"])

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2c,A3,孙凤,103,23,2018-08-10,1
3d,A4,赵恒,104,36,2018-08-11,2
4e,A5,王娜,105,21,2018-08-11,3


### 删除特定的行
python中不能直接删除满足条件的值，而是把不满足条件的值筛选出来作为新数据

In [43]:
#删除年龄大于40对应的行
df[df["年龄"]<40]

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0a,A1,张通,101,31,2018-08-08,1
2c,A3,孙凤,103,23,2018-08-10,1
3d,A4,赵恒,104,36,2018-08-11,2
4e,A5,王娜,105,21,2018-08-11,3


## 数值计算
- 数值计算就是计算某个值在一个系列中数值出现的次数
- 使用value_counts()方法，如需出现占比可以传入参数normalize = True

In [48]:
#计算销售ID的值出现的次数
df["销售ID"].value_counts()

2    2
1    2
3    1
Name: 销售ID, dtype: int64

In [50]:
#计算销售ID的值占比
df["销售ID"].value_counts(normalize = True)

2    0.4
1    0.4
3    0.2
Name: 销售ID, dtype: float64

## 唯一值获取
- 唯一值获取就是把一系列值删除重复项一以后的结果
- 使用unique()方法，返回数组

In [53]:
df["销售ID"].unique()

array([1, 2, 3], dtype=int64)

## 数值查找
- 就是看数据表中是否包含某个值
- 用isin() 方法，将需要查找的值作为参数,返回布尔值

In [55]:
#单列查找
df['年龄'].isin([31,21])

0a     True
1b    False
2c    False
3d    False
4e     True
Name: 年龄, dtype: bool

In [57]:
#全表查找
df.isin(["A2",31])

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0a,False,False,False,True,False,False
1b,True,False,False,False,False,False
2c,False,False,False,False,False,False
3d,False,False,False,False,False,False
4e,False,False,False,False,False,False


## 区间切分
- cut()方法对区间检查切分，用参数bins来指明切分区间
- qcut()方法也可以，但是不要事先指明切分区间，只需指明切分个数
- 当数据分布比较均匀时，两个方法得到的区间基本一致，如果分布不均时则偏差比较的

In [79]:
#cut切分结果是几个左开又闭的区间
import pandas as pd
df = pd.read_excel(r"..\Data\test01.xlsx",sheet_name =11)
df
pd.cut(df["年龄"],bins = [0,3,6,9,10])

0     (0, 3]
1     (0, 3]
2     (0, 3]
3     (3, 6]
4     (3, 6]
5     (3, 6]
6     (6, 9]
7     (6, 9]
8     (6, 9]
9    (9, 10]
Name: 年龄, dtype: category
Categories (4, interval[int64]): [(0, 3] < (3, 6] < (6, 9] < (9, 10]]

In [80]:
#qcut只需要指明切分个数
pd.qcut(df["年龄"],3)

0    (0.999, 4.0]
1    (0.999, 4.0]
2    (0.999, 4.0]
3    (0.999, 4.0]
4      (4.0, 7.0]
5      (4.0, 7.0]
6      (4.0, 7.0]
7     (7.0, 10.0]
8     (7.0, 10.0]
9     (7.0, 10.0]
Name: 年龄, dtype: category
Categories (3, interval[float64]): [(0.999, 4.0] < (4.0, 7.0] < (7.0, 10.0]]