# 04切配菜品-数值操作

In [2]:
import pandas as pd
import numpy as np
# 一个cell输出多行语句
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

## 一、数值替换
数值替换：将数值A替换成数值B，用在**异常值替换处理**、**缺失值填充处理**中
* 一对一替换
* 多对一替换
* 多对多替换

### 1、一对一替换
将某区域中的一个值替换成另一个值

**replace(A, B)**表示将A替换成B

In [3]:
# 将240岁年龄替换成33岁
df = pd.read_excel('./data/select_condition.xlsx')
df
df['年龄'] = df['年龄'].replace(204, 33)
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,204,2018-08-11
4,A5,赵恒,104,204,2018-08-12


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,33,2018-08-11
4,A5,赵恒,104,33,2018-08-12


In [4]:
# 下面相当于fillna，np.NaN是对缺失值的一种表示方法
df.replace(np.NaN, 0)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,33,2018-08-11
4,A5,赵恒,104,33,2018-08-12


### 2、多对一替换
将多个值替换成某一个值

Excel实现：对某一列使用if函数

**replace([A, B], C)**将A、B替换成C

In [5]:
df = pd.read_excel('./data/more_one_replace.xlsx')
df
df.replace([240, 260, 280], 33)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,240,2018-08-11
4,A5,赵恒,104,260,2018-08-12
5,A6,王丹,105,280,2018-08-12


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,33,2018-08-11
4,A5,赵恒,104,33,2018-08-12
5,A6,王丹,105,33,2018-08-12


### 3、多对多替换
某个区域中多个一对一替换，比如：将年龄240替换成平均值减一，260替换成平均值，280替换成平均值加一

Excel实现：if嵌套实现

**replace({'A':'a', 'B':'b'})**表示a替换A，用b替换B

In [6]:
df.replace({240:32, 260:33, 280:34})

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,32,2018-08-11
4,A5,赵恒,104,33,2018-08-12
5,A6,王丹,105,34,2018-08-12


## 二、数值排序
按具体数值大小进行排序，有**升序**和**降序**

### 1、按照某一列数值进行排序

In [7]:
# sort_values(by=['col'], ascending=False)
# by：排序的列名
# ascending=False，降序；默认值为True表示升序
df = pd.read_excel('./data/sort_one.xlsx')
df
df.sort_values(by=['销售ID'])
df.sort_values(by=['销售ID'], ascending=False)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1
1,A2,李谷,102,45,2018-08-09,2
2,A3,孙凤,103,23,2018-08-10,1
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1
2,A3,孙凤,103,23,2018-08-10,1
1,A2,李谷,102,45,2018-08-09,2
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
5,A6,王丹,105,280,2018-08-12,4
4,A5,赵恒,104,260,2018-08-12,3
1,A2,李谷,102,45,2018-08-09,2
3,A4,赵恒,104,240,2018-08-11,2
0,A1,张 通,101,31,2018-08-08,1
2,A3,孙凤,103,23,2018-08-10,1


### 2、按照有缺失值的列进行排序
当待排序的列中有缺失值时，可以通过设置**na_position**参数对缺失值的显示位置进行设置，默认参数值为last，可以不写，表示缺失值在最后

In [8]:
df = pd.read_excel('./data/sort_na.xlsx')
df
df.sort_values(by=['销售ID'])
df.sort_values(by=['销售ID'], na_position='first')

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1.0
1,A2,李谷,102,45,2018-08-09,2.0
2,A3,孙凤,103,23,2018-08-10,1.0
3,A4,赵恒,104,240,2018-08-11,
4,A5,赵恒,104,260,2018-08-12,3.0
5,A6,王丹,105,280,2018-08-12,4.0


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1.0
2,A3,孙凤,103,23,2018-08-10,1.0
1,A2,李谷,102,45,2018-08-09,2.0
4,A5,赵恒,104,260,2018-08-12,3.0
5,A6,王丹,105,280,2018-08-12,4.0
3,A4,赵恒,104,240,2018-08-11,


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
3,A4,赵恒,104,240,2018-08-11,
0,A1,张 通,101,31,2018-08-08,1.0
2,A3,孙凤,103,23,2018-08-10,1.0
1,A2,李谷,102,45,2018-08-09,2.0
4,A5,赵恒,104,260,2018-08-12,3.0
5,A6,王丹,105,280,2018-08-12,4.0


### 3、按照多列数值进行排序
df.sort_values(by=['col1', 'col2'], ascending=[True, False])

In [9]:
df.sort_values(by=['销售ID', '成交时间'], ascending=[True, False])

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2,A3,孙凤,103,23,2018-08-10,1.0
0,A1,张 通,101,31,2018-08-08,1.0
1,A2,李谷,102,45,2018-08-09,2.0
4,A5,赵恒,104,260,2018-08-12,3.0
5,A6,王丹,105,280,2018-08-12,4.0
3,A4,赵恒,104,240,2018-08-11,


## 三、数值排名
排名和排序是相对应的，排名会**新增一列**，排名从1开始

Excel实现：RANK.AVG()和RANK.EQ()两个函数，没有重复值时，两个函数的效果完全一样。区别：处理重复值方式不同。

**RANK.AVG(number, ref, order)**

当排名的数值有重复值时，返回的重复值的平均排名

* number：排名的数值
* ref：一整列数值的范围
* order：降序或升序

<img src='./image/rank_avg.jpg' width='50%'>

**RANK.EQ(number, ref, order)**

当排名有重复时，RANK.EQ返回重复值的最佳排名

<img src='./image/rank_eq.jpg' width='50%'>

Python实现：**rank()方法**

* ascending：True升序排列；False降序排列；默认为True
* method：指明待排列值有重复值时的处理情况

<img src='./image/rank_method.jpg' width='80%'>

In [10]:
df = pd.read_excel('./data/sort_one.xlsx')
df
df['销售ID'].rank(method='average')
df['销售ID'].rank(method='first')
df['销售ID'].rank(method='min')
df['销售ID'].rank(method='max')

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1
1,A2,李谷,102,45,2018-08-09,2
2,A3,孙凤,103,23,2018-08-10,1
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


0    1.5
1    3.5
2    1.5
3    3.5
4    5.0
5    6.0
Name: 销售ID, dtype: float64

0    1.0
1    3.0
2    2.0
3    4.0
4    5.0
5    6.0
Name: 销售ID, dtype: float64

0    1.0
1    3.0
2    1.0
3    3.0
4    5.0
5    6.0
Name: 销售ID, dtype: float64

0    2.0
1    4.0
2    2.0
3    4.0
4    5.0
5    6.0
Name: 销售ID, dtype: float64

## 四、数值删除
### 1、删除列
**drop()方法**

* axis=1，表示删除列
* axis=0，表示删除行

In [11]:
df.drop(['销售ID', '成交时间'], axis=1)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄
0,A1,张 通,101,31
1,A2,李谷,102,45
2,A3,孙凤,103,23
3,A4,赵恒,104,240
4,A5,赵恒,104,260
5,A6,王丹,105,280


In [12]:
# 直接传入待删除列的位置，也需要axis参数
df.drop(df.columns[[4, 5]], axis=1)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄
0,A1,张 通,101,31
1,A2,李谷,102,45
2,A3,孙凤,103,23
3,A4,赵恒,104,240
4,A5,赵恒,104,260
5,A6,王丹,105,280


In [13]:
# 列名以列表的形式传递给columns参数，此时不需要axis参数了
df.drop(columns=['销售ID', '成交时间'])

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄
0,A1,张 通,101,31
1,A2,李谷,102,45
2,A3,孙凤,103,23
3,A4,赵恒,104,240
4,A5,赵恒,104,260
5,A6,王丹,105,280


### 2、删除行
**drop()**函数指明axis=0

In [14]:
df.drop([0, 1], axis=0)
# index获取行号，需要传axis=0
df.drop(df.index[[0, 1]], axis=0)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2,A3,孙凤,103,23,2018-08-10,1
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2,A3,孙凤,103,23,2018-08-10,1
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


In [15]:
# 将行名传递给index参数，可以不用传递axis
df.drop(index = [0, 1])

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2,A3,孙凤,103,23,2018-08-10,1
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


### 3、删除特定行
删除满足某个条件的行，《淘米洗菜-数据预处理》中异常值处理算是删除特定行

Excel实现：先筛选，后删除

Python实现：不直接删除满足条件的值，而是把不满足条件的值筛选处理作为新的数据源，即将要删除的行过滤掉

In [16]:
# 删除年龄大于等于40的行，即筛选小于40的行
df[df['年龄'] < 40]

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1
2,A3,孙凤,103,23,2018-08-10,1


## 五、数值计数
计算某个值在一系列数值中出现的次数

Excel实现：**COUNTIF函数**：计算某个区域中满足给定条件的单元格数目

**COUNTIF(range, criteria)**

* range：一系列值的范围
* criteria：表示某个值或某一条件

如下图：销售ID在F2在F2:F6中出现两次，以此类推

<img src='./image/countif.jpg'/>

Python实现：**value_counts()**方法

In [18]:
df
df['销售ID'].value_counts()
# 结果按计数值降序排列

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1
1,A2,李谷,102,45,2018-08-09,2
2,A3,孙凤,103,23,2018-08-10,1
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


2    2
1    2
4    1
3    1
Name: 销售ID, dtype: int64

In [20]:
# 查看不同值出现的占比
df['销售ID'].value_counts(normalize=True)
# 结果按计数值降序排列

2    0.333333
1    0.333333
4    0.166667
3    0.166667
Name: 销售ID, dtype: float64

In [22]:
# 不按计数值降序排列，按计数对象排序，设置sort=False
df['销售ID'].value_counts(normalize=True, sort=False)

1    0.333333
2    0.333333
3    0.166667
4    0.166667
Name: 销售ID, dtype: float64

## 六、唯一值获取
把一系列的值删除重复项以后的结果

Excel实现：将某一列复制粘贴出来，删除重复项，剩下就是唯一值了

Python实现：（1）删除重复值，和Excel一致（2）**unique()**方法

In [23]:
df['销售ID'].unique()

array([1, 2, 3, 4], dtype=int64)

## 七、数值查找
**isin()**方法

In [25]:
# 某列查询
df['年龄'].isin([31, 23])
# 全表查询
df.isin(['A2', 31])

0     True
1    False
2     True
3    False
4    False
5    False
Name: 年龄, dtype: bool

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,False,False,False,True,False,False
1,True,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,False,False


## 八、区间切分
将一系列数值分成若干份，比如：现在有10个人，你要根据这10个人的年龄将他们分成三组，这个切分过程就称为**区间切分**。

Excel实现：if函数

=IF(D2<4, "<4", IF(D2<7, "4-6", ">=7"))

Python实现：cut()方法，bins参数指明切分区间。