# pandas 进阶修炼 ｜早起Python

**本习题由公众号【早起Python & 可视化图鉴】 原创，授权「和鲸社区」独家第三方平台发布。**


**转载及其他形式合作请与我们联系，未经授权严禁搬运及二次创作，侵权必究！**



本习题基于 `pandas` 版本 `1.1.3`，所有内容应当在 `Jupyter Notebook` 中执行以获得最佳效果。

不同版本之间写法可能会有少许不同，如若碰到此情况，你应该学会如何自行检索解决。

## 5 - 数据筛选与修改


<br>

现在，终于来到 `pandas` 数据分析中最**高频**的操作，没有之一————数据的`增删改查`

在后面的分组、聚合、透视、可视化等多个操作中，数据的筛选、修改操作也会不断出现。

因此在本章节，我整理了 40 余个常用操作

以习题的形式，带大家回顾利用 `pandas` 进行数据的增删改查。

需要注意的是，**本节中的大部分习题都有两个、三个或者更多的解法**，但我仅提供一个思路。

我提供的并非唯一也并非最优的方法，欢迎大家集思广益，加入 pandas 星球来提交你的解答并获得一定奖励。



## 初始化



该 `Notebook` 版本为**习题+答案版**


**请务必执行下方单元格加载本章所需要的数据与答案！**

执行完毕后，你可以使用 `ans(1)` 来查看第 1 题的参考解答，其余习题类似。

注意：所有答案并非固定（唯一），我提供的答案仅供参考（并非推荐答案或者最优解）

如果发现任何错误或者你有更好的解答，可以微信搜索公众号「早起Python」提交以获得奖励！


In [2]:
### 请务必执行本单元格加载本章所需要的数据与答案！
### 本单元格仅需执行一次！
### 由于和鲸社区数据缓存有一定时效，如若在hou
###! mkdir data5 > /dev/null 2>&1 && wget http://101.34.8.201:8080/pandas300/data/data5.zip > /dev/null 2>&1 && unzip /home/mw/project/data5.zip -d /home/mw/project/data5 > /dev/null 2>&1

import sys
import os
import pandas as pd

from inits import initialize,ans
res = initialize("answer-5.txt")

***************正在初始化***************
*************读取到配置文件*************
***************初始化成功***************


## 加载数据

In [3]:
import pandas as pd

df = pd.read_csv("东京奥运会奖牌数据.csv") 
#df = pd.read_html("https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm")[0]

## 5-1 数据修改



### 1- 数据修改｜列名



将原 `df` 列名 `Unnamed: 2`、`Unnamed: 3`、`Unnamed: 4` 修改为 `金牌数`、`银牌数`、`铜牌数`

In [4]:
df.head(5)
ans(1)
df.rename(columns={'Unnamed: 2':'金牌数',
                  'Unnamed: 3':'银牌数',
                  'Unnamed: 4':'铜牌数'},inplace=True)

df.rename(columns={'Unnamed: 2':'金牌数',
                  'Unnamed: 3':'银牌数',
                  'Unnamed: 4':'铜牌数'},inplace=True) 


### 2 - 数据修改｜行索引



将第一列（排名）设置为索引

In [5]:

df.set_index("排名", inplace=True)
df.head(5)
# ans(2)

Unnamed: 0_level_0,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
排名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,美国,39,41,33,113,1,USA
2,中国,38,32,18,88,2,CHN
3,日本,27,14,17,58,5,JPN
4,英国,22,21,22,65,4,GBR
5,ROC,20,28,23,71,3,ROC


### 3 - 数据修改｜修改索引名



修改索引名为 金牌排名

In [13]:
ans(3)
df.rename_axis("金牌排名",inplace=True)
df.head(5)

df.rename_axis("金牌排名",inplace=True)


Unnamed: 0_level_0,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
金牌排名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,美国,39,41,33,113,1,USA
2,中国,38,32,18,88,2,CHN
3,日本,27,14,17,58,5,JPN
4,英国,22,21,22,65,4,GBR
5,ROC,20,28,23,71,3,ROC


### 4 - 数据修改｜修改值



将 ROC（第一列第五行）修改为 俄奥委会

In [7]:
ans(4)
df.iloc[4,0] = '俄奥委会'

df.iloc[4,0] = '俄奥委会'


### 5 - 数据修改｜替换值（单值）



将金牌数列的数字 `0` 替换为 `无`

In [17]:
ans(5)
df['金牌数'].replace(0,'无',inplace=True)

df['金牌数'].replace(0,'无',inplace=True)


### 6 - <font color = '#FB8E00'>数据修改</font>｜替换值（多值）



同时替换

- 将 `无` 替换为 缺失值
- 将 0 替换为 `None`

注意：缺失值的 Nan 该怎么生成？

In [19]:
ans(6)
import numpy as np
df.replace(['无',0],[np.nan,'None'],inplace = True)

import numpy as np
df.replace(['无',0],[np.nan,'None'],inplace = True)


### 7 - 数据查看

查看各列数据类型

In [24]:
df.dtypes


国家奥委会       object
金牌数        float64
银牌数         object
铜牌数         object
总分          object
按总数排名       object
国家奥委会代码     object
dtype: object

### 8 - 数据修改｜修改类型

将 `金牌数` 列类型修改为 `int`

In [25]:
ans(8)
df['金牌数'] = df['金牌数'].fillna('0').astype(int)

df['金牌数'] = df['金牌数'].fillna('0').astype(int)

微信搜索公众号「早起Python」，关注后可以获得更多资源！


### 9 - 数据增加｜新增列（固定值）



**重新加载数据** 并 **新增一列** 比赛地点，值为 `东京`


In [27]:
ans(9)
df['比赛地点'] = '东京'

df['比赛地点'] = '东京'


### 10 - 数据增加｜新增列（计算值）



**新增一列** 金银牌总数列，值为该国家金银牌总数

In [29]:
ans(10)
df = df.replace('None',0)
df['金银牌总数']  = df['金牌数']  + df['银牌数']

df = df.replace('None',0)
df['金银牌总数']  = df['金牌数']  + df['银牌数']


### 11 -数据增加｜新增列（比较值）

新增一列 最多奖牌数量 列，值为该国 `金、银、铜` 牌数量中最多的一个奖牌数量

例如美国银牌最多，则为41，中国为38

In [32]:
ans(11)
df['最多奖牌数量'] = df.bfill(1)[["金牌数", "银牌数",'铜牌数']].max(1)
df.head(5)

df['最多奖牌数量'] = df.bfill(1)[["金牌数", "银牌数",'铜牌数']].max(1)


  df['最多奖牌数量'] = df.bfill(1)[["金牌数", "银牌数",'铜牌数']].max(1)


Unnamed: 0_level_0,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码,比赛地点,金银牌总数,最多奖牌数量
金牌排名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,美国,39.0,41,33,113,1,USA,东京,80.0,41.0
2,中国,38.0,32,18,88,2,CHN,东京,70.0,38.0
3,日本,27.0,14,17,58,5,JPN,东京,41.0,27.0
4,英国,22.0,21,22,65,4,GBR,东京,43.0,22.0
5,俄奥委会,20.0,28,23,71,3,ROC,东京,48.0,28.0


### 12 - 数据增加｜新增列（判断值）

新增一列 金牌大于30

如果一个国家的金牌数大于 30 则值为 是，反之为 否

In [34]:
ans(12)
df['金牌大于30']  = np.where(df['金牌数'] > 30, '是', '否')

df['金牌大于30']  = np.where(df['金牌数'] > 30, '是', '否')


### 13 - 数据增加｜增加多列

新增两列，分别是

- 金铜牌总数（金牌数+铜牌数）
- 银铜牌总数（银牌数+铜牌数）

In [35]:
ans(13)

df = df.assign(金铜牌总数=df.金牌数 + df.铜牌数,
         银铜牌总数=df.银牌数+df.铜牌数) 


### 14 - 数据增加｜新增列（引用变量）

新增一列金牌占比，为各国金牌数除以总金牌数（gold_sum）

In [9]:
gold_sum = df['金牌数'].sum()

In [10]:
ans(14)
df.eval(f'金牌占比 = 金牌数 / {gold_sum}',inplace=True)
df.head(5)

df.eval(f'金牌占比 = 金牌数 / {gold_sum}',inplace=True)


Unnamed: 0_level_0,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码,金牌占比
排名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,美国,39,41,33,113,1,USA,0.114706
2,中国,38,32,18,88,2,CHN,0.111765
3,日本,27,14,17,58,5,JPN,0.079412
4,英国,22,21,22,65,4,GBR,0.064706
5,俄奥委会,20,28,23,71,3,ROC,0.058824


### 15 - 数据增加｜新增行（末尾追加）



在 df 末尾追加一行，内容为 0,1,2,3... 一直到 `df` 的列长度

In [39]:
df1 = pd.DataFrame([[i for i in range(len(df.columns))]], columns=df.columns)
df_new = df.append(df1)

### 16 -数据增加｜新增行（指定位置）



在第 2 行新增一行数据，即美国和中国之间。

数据内容同上一题

In [12]:
ans(16)

df1 = df.iloc[:1, :]
df2 = df.iloc[1:, :]
df3 = pd.DataFrame([[i for i in range(len(df.columns))]], columns=df.columns)
df_new = pd.concat([df1, df3, df2], ignore_index=True)


### 17 - 数据删除｜删除行



删除 `df` 第一行

In [40]:
ans(17)

df.drop(1)


### 18 - 数据删除｜删除行（条件）

In [17]:
ans(18)
df.drop(df[df.金牌数<20].index)


df.drop(df[df.金牌数<20].index)


Unnamed: 0_level_0,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码,金牌占比
排名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,美国,39,41,33,113,1,USA,0.114706
2,中国,38,32,18,88,2,CHN,0.111765
3,日本,27,14,17,58,5,JPN,0.079412
4,英国,22,21,22,65,4,GBR,0.064706
5,俄奥委会,20,28,23,71,3,ROC,0.058824


### 19 - 数据删除｜删除列



删除刚刚新增的 比赛地点 列

In [16]:
df.drop(columns=['比赛地点'],inplace=True)

KeyError: "['比赛地点'] not found in axis"

### 20 - 数据删除｜删除列（按列号）



删除 `df` 的 `7、8、9、10` 列

In [19]:
ans(20)
df.drop(df.columns[[7,8,9,10]], axis=1,inplace=True)

df.drop(df.columns[[7,8,9,10]], axis=1,inplace=True)


IndexError: index 8 is out of bounds for axis 0 with size 8

## 5-2 数据筛选

以下所有答案要求返回的是一个 dataframe 而不是 Series 这样可以直接存储为 Excel 等格式的文件！

### 21 - 重新加载数据

In [43]:
import pandas as pd

#df = pd.read_html("https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm")[0]

df = pd.read_csv("东京奥运会奖牌数据.csv")  # 如果未联网可以使用这条命令加载数据

df.rename(columns={'Unnamed: 2':'金牌数',
                  'Unnamed: 3':'银牌数',
                  'Unnamed: 4':'铜牌数'},inplace=True)


### 22 - 筛选列｜通过列号

提取第 1、2、3、4 列

In [21]:
ans(22)
df.iloc[:,[0,1,2,3]]

df.iloc[:,[0,1,2,3]]


Unnamed: 0_level_0,国家奥委会,金牌数,银牌数,铜牌数
排名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,美国,39,41,33
2,中国,38,32,18
3,日本,27,14,17
4,英国,22,21,22
5,俄奥委会,20,28,23
...,...,...,...,...
86,加纳,0,0,1
86,格林纳达,0,0,1
86,科威特,0,0,1
86,摩尔多瓦,0,0,1


### 23 - 筛选列｜通过列名

提取 `金牌数、银牌数、铜牌数` 三列

In [22]:
ans(23)
df[['金牌数','银牌数','铜牌数']]

df[['金牌数','银牌数','铜牌数']]


Unnamed: 0_level_0,金牌数,银牌数,铜牌数
排名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,39,41,33
2,38,32,18
3,27,14,17
4,22,21,22
5,20,28,23
...,...,...,...
86,0,0,1
86,0,0,1
86,0,0,1
86,0,0,1


### 24 - 筛选列｜条件（列号）

筛选全部 **奇数列**

In [23]:
ans(24)
df.iloc[:,[i%2==1 for i in range(len(df.columns))]]

df.iloc[:,[i%2==1 for i in range(len(df.columns))]]


### 25 - >筛选列｜条件（列名）

提取全部列名中以 “数” 结尾的列

In [25]:
ans(25)
df.loc[:, df.columns.str.endswith('数')]

df.loc[:, df.columns.str.endswith('数')]


Unnamed: 0_level_0,金牌数,银牌数,铜牌数
排名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,39,41,33
2,38,32,18
3,27,14,17
4,22,21,22
5,20,28,23
...,...,...,...
86,0,0,1
86,0,0,1
86,0,0,1
86,0,0,1


### 26 - 筛选列｜组合（行号+列名）

提取倒数后三列的10-20行

In [26]:
ans(26)
df.loc[10:20, '总分':] 

df.loc[10:20, '总分':] 


### 27 -筛选行｜通过行号

提取第 10 行

In [27]:
df.loc[10] 

国家奥委会           意大利
金牌数              10
银牌数              10
铜牌数              20
总分               40
按总数排名             7
国家奥委会代码         ITA
金牌占比       0.029412
Name: 10, dtype: object

微信搜索公众号「早起Python」，关注后可以获得更多资源！

### 28 -  筛选行｜通过行号（多行）

提取第 10 行之后的全部行

In [28]:
ans(28)
df.loc[9:] 

df.loc[9:]


Unnamed: 0_level_0,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码,金牌占比
排名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
10,意大利,10,10,20,40,7,ITA,0.029412
11,加拿大,7,6,11,24,11,CAN,0.020588
12,巴西,7,6,8,21,12,BRA,0.020588
13,新西兰,7,6,7,20,13,NZL,0.020588
14,古巴,7,3,5,15,18,CUB,0.020588
...,...,...,...,...,...,...,...,...
86,加纳,0,0,1,1,77,GHA,0.000000
86,格林纳达,0,0,1,1,77,GRN,0.000000
86,科威特,0,0,1,1,77,KUW,0.000000
86,摩尔多瓦,0,0,1,1,77,MDA,0.000000


### 29 - 筛选行｜固定间隔

提取 0-50 行，间隔为 3

### 30 -  筛选行｜判断（大于）

提取 金牌数 大于 30 的行

### 31 - >筛选行｜判断（等于）

提取 `金牌数` 等于 10 的行

In [45]:
ans(31)

df.loc[df['金牌数'] == 10]


### 32 - 筛选行｜判断（不等于）

提取 `金牌数` 不等于 `10` 的行

### 33 - 筛选行｜条件（指定行号）

提取全部 **奇数行**


### 34 - 筛选行｜条件（指定值）


提取 中国、美国、英国、日本、巴西 五行数据

### 35 - 筛选行｜多条件

在上一题的条件下，新增一个条件：**金牌数小于30**

### 36 -筛选行｜条件（包含指定值）

提取 国家奥委会 列中，所有包含 `国`的行

### 37 - 筛选某行某列

提取 `第 0 行第 2 列`

### 38 - 筛选多行多列


提取 第 0-2 行第 0-2 列


### 39 - 筛选值｜组合（行号+列号）

提取第 4 行，第 4 列的值

###  40 - 筛选值｜组合（行号+列名）

提取行索引为 4 ，列名为 金牌数 的值


### 41 - 筛选值｜条件

提取 国家奥委会 为 中国 的金牌数

### 42 - 筛选值｜query

使用 query 提取 金牌数 + 银牌数 大于 15 的国家

###  43 - 筛选值｜query（引用变量）

使用 query 提取 金牌数 大于 金牌均值的国家

![](http://liuzaoqi.oss-cn-beijing.aliyuncs.com/2021/09/16/16317972442543.jpg?域名/sample.jpg?x-oss-process=style/stylename)