# 04切配菜品-数值操作

In [1]:
import pandas as pd
import numpy as np
# 一个cell输出多行语句
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

## 一、数值替换
数值替换：将数值A替换成数值B，用在**异常值替换处理**、**缺失值填充处理**中
* 一对一替换
* 多对一替换
* 多对多替换

### 1、一对一替换
将某区域中的一个值替换成另一个值

**replace(A, B)**表示将A替换成B

In [8]:
# 将240岁年龄替换成33岁
df = pd.read_excel('./data/select_condition.xlsx')
df
df['年龄'] = df['年龄'].replace(204, 33)
df

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,204,2018-08-11
4,A5,赵恒,104,204,2018-08-12


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,33,2018-08-11
4,A5,赵恒,104,33,2018-08-12


In [9]:
# 下面相当于fillna，np.NaN是对缺失值的一种表示方法
df.replace(np.NaN, 0)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,33,2018-08-11
4,A5,赵恒,104,33,2018-08-12


### 2、多对一替换
将多个值替换成某一个值

Excel实现：对某一列使用if函数

**replace([A, B], C)**将A、B替换成C

In [12]:
df = pd.read_excel('./data/more_one_replace.xlsx')
df
df.replace([240, 260, 280], 33)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,240,2018-08-11
4,A5,赵恒,104,260,2018-08-12
5,A6,王丹,105,280,2018-08-12


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,33,2018-08-11
4,A5,赵恒,104,33,2018-08-12
5,A6,王丹,105,33,2018-08-12


### 3、多对多替换
某个区域中多个一对一替换，比如：将年龄240替换成平均值减一，260替换成平均值，280替换成平均值加一

Excel实现：if嵌套实现

**replace({'A':'a', 'B':'b'})**表示a替换A，用b替换B

In [13]:
df.replace({240:32, 260:33, 280:34})

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间
0,A1,张 通,101,31,2018-08-08
1,A2,李谷,102,45,2018-08-09
2,A3,孙凤,103,23,2018-08-10
3,A4,赵恒,104,32,2018-08-11
4,A5,赵恒,104,33,2018-08-12
5,A6,王丹,105,34,2018-08-12


## 二、数值排序
按具体数值大小进行排序，有**升序**和**降序**

### 1、按照某一列数值进行排序

In [15]:
# sort_values(by=['col'], ascending=False)
# by：排序的列名
# ascending=False，降序；默认值为True表示升序
df = pd.read_excel('./data/sort_one.xlsx')
df
df.sort_values(by=['销售ID'])
df.sort_values(by=['销售ID'], ascending=False)

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1
1,A2,李谷,102,45,2018-08-09,2
2,A3,孙凤,103,23,2018-08-10,1
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1
2,A3,孙凤,103,23,2018-08-10,1
1,A2,李谷,102,45,2018-08-09,2
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
5,A6,王丹,105,280,2018-08-12,4
4,A5,赵恒,104,260,2018-08-12,3
1,A2,李谷,102,45,2018-08-09,2
3,A4,赵恒,104,240,2018-08-11,2
0,A1,张 通,101,31,2018-08-08,1
2,A3,孙凤,103,23,2018-08-10,1


### 2、按照有缺失值的列进行排序
当待排序的列中有缺失值时，可以通过设置**na_position**参数对缺失值的显示位置进行设置，默认参数值为last，可以不写，表示缺失值在最后

In [18]:
df = pd.read_excel('./data/sort_na.xlsx')
df
df.sort_values(by=['销售ID'])
df.sort_values(by=['销售ID'], na_position='first')

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1.0
1,A2,李谷,102,45,2018-08-09,2.0
2,A3,孙凤,103,23,2018-08-10,1.0
3,A4,赵恒,104,240,2018-08-11,
4,A5,赵恒,104,260,2018-08-12,3.0
5,A6,王丹,105,280,2018-08-12,4.0


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1.0
2,A3,孙凤,103,23,2018-08-10,1.0
1,A2,李谷,102,45,2018-08-09,2.0
4,A5,赵恒,104,260,2018-08-12,3.0
5,A6,王丹,105,280,2018-08-12,4.0
3,A4,赵恒,104,240,2018-08-11,


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
3,A4,赵恒,104,240,2018-08-11,
0,A1,张 通,101,31,2018-08-08,1.0
2,A3,孙凤,103,23,2018-08-10,1.0
1,A2,李谷,102,45,2018-08-09,2.0
4,A5,赵恒,104,260,2018-08-12,3.0
5,A6,王丹,105,280,2018-08-12,4.0


### 3、按照多列数值进行排序
df.sort_values(by=['col1', 'col2'], ascending=[True, False])

In [19]:
df.sort_values(by=['销售ID', '成交时间'], ascending=[True, False])

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2,A3,孙凤,103,23,2018-08-10,1.0
0,A1,张 通,101,31,2018-08-08,1.0
1,A2,李谷,102,45,2018-08-09,2.0
4,A5,赵恒,104,260,2018-08-12,3.0
5,A6,王丹,105,280,2018-08-12,4.0
3,A4,赵恒,104,240,2018-08-11,


## 三、数值排名
排名和排序是相对应的，排名会**新增一列**，排名从1开始

Excel实现：RANK.AVG()和RANK.EQ()两个函数，没有重复值时，两个函数的效果完全一样。区别：处理重复值方式不同。

RANK.AVG(number, ref, order)