# pandas 进阶修炼
<br>
本习题基于 `pandas` 版本 `1.1.3`，所有内容应当在 `Jupyter Notebook` 中执行以获得最佳效果。

不同版本之间写法可能会有少许不同，如若碰到此情况，你应该学会如何自行检索解决。

https://pandas.liuzaoqi.com/doc/chapter3/%E6%95%B0%E6%8D%AE%E4%BF%AE%E6%94%B9.html

## 5 - 数据筛选与修改


<br>

现在，终于来到 `pandas` 数据分析中最**高频**的操作，没有之一————数据的`增删改查`

在后面的分组、聚合、透视、可视化等多个操作中，数据的筛选、修改操作也会不断出现。

因此在本章节，我整理了 40 余个常用操作

以习题的形式，带大家回顾利用 `pandas` 进行数据的增删改查。

需要注意的是，**本节中的大部分习题都有两个、三个或者更多的解法**，但我仅提供一个思路。

我提供的并非唯一也并非最优的方法，欢迎大家集思广益，加入 pandas 星球来提交你的解答并获得一定奖励。



## 加载数据

In [1]:
import pandas as pd

#df = pd.read_html("https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm")[0]

df = pd.read_csv("东京奥运会奖牌数据.csv")  # 如果未联网可以使用这条命令加载数据

In [2]:
df.head()

Unnamed: 0,排名,国家奥委会,Unnamed: 2,Unnamed: 3,Unnamed: 4,总分,按总数排名,国家奥委会代码
0,1,美国,39,41,33,113,1,USA
1,2,中国,38,32,18,88,2,CHN
2,3,日本,27,14,17,58,5,JPN
3,4,英国,22,21,22,65,4,GBR
4,5,ROC,20,28,23,71,3,ROC


## 5-1 数据修改



### 1- <font color = '#FB8E00'>数据修改</font>｜列名

<br>

将原 `df` 列名 `Unnamed: 2`、`Unnamed: 3`、`Unnamed: 4` 修改为 `金牌数`、`银牌数`、`铜牌数`

In [6]:
df = df.rename(columns={'Unnamed: 2':'金牌数',
                        'Unnamed: 3':'银牌数',
                        'Unnamed: 4':'铜牌数'})

In [7]:
df.head()

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
0,1,美国,39,41,33,113,1,USA
1,2,中国,38,32,18,88,2,CHN
2,3,日本,27,14,17,58,5,JPN
3,4,英国,22,21,22,65,4,GBR
4,5,ROC,20,28,23,71,3,ROC


### 2 - <font color = '#FB8E00'>数据修改</font>｜行索引

<br>

将第一列（排名）设置为索引

In [9]:
df = df.set_index('排名')

### 3 - <font color = '#FB8E00'>数据修改</font>｜修改索引名

<br>

修改索引名为 金牌排名

In [10]:
df.rename_axis('金牌排名',inplace=True)

In [11]:
df.head()

Unnamed: 0_level_0,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
金牌排名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,美国,39,41,33,113,1,USA
2,中国,38,32,18,88,2,CHN
3,日本,27,14,17,58,5,JPN
4,英国,22,21,22,65,4,GBR
5,ROC,20,28,23,71,3,ROC


### 4 - <font color = '#FB8E00'>数据修改</font>｜修改值

<br>

将 ROC（第一列第五行）修改为 俄奥委会

In [13]:
df.iloc[4,0] = '俄奥委会'

In [14]:
df.iloc[4,0]

'俄奥委会'

### 5 - <font color = '#FB8E00'>数据修改</font>｜替换值（单值）

<br>

将金牌数列的数字 `0` 替换为 `无`

In [16]:
df['金牌数'].replace(0,'无',inplace=True)

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 93 entries, 1 to 86
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   国家奥委会    93 non-null     object
 1   金牌数      93 non-null     object
 2   银牌数      93 non-null     int64 
 3   铜牌数      93 non-null     int64 
 4   总分       93 non-null     int64 
 5   按总数排名    93 non-null     int64 
 6   国家奥委会代码  93 non-null     object
dtypes: int64(4), object(3)
memory usage: 5.8+ KB


### 6 - <font color = '#FB8E00'>数据修改</font>｜替换值（多值）



同时替换

- 将 `无` 替换为 缺失值
- 将 0 替换为 `None`

注意：缺失值的 Nan 该怎么生成？

In [18]:
import numpy as np
df.replace(['无',0],[np.nan,'None'],inplace=True)
df.tail()

Unnamed: 0_level_0,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
金牌排名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
86,加纳,,,1,1,77,GHA
86,格林纳达,,,1,1,77,GRN
86,科威特,,,1,1,77,KUW
86,摩尔多瓦,,,1,1,77,MDA
86,叙利亚,,,1,1,77,SYR


### 7 - 数据查看

查看各列数据类型

In [19]:
df.dtypes

国家奥委会       object
金牌数        float64
银牌数         object
铜牌数         object
总分           int64
按总数排名        int64
国家奥委会代码     object
dtype: object

### 8 - <font color = '#FB8E00'>数据修改</font>｜修改类型

将 `金牌数` 列类型修改为 `int`

In [20]:
df['金牌数'] = df['金牌数'].fillna(0).astype('int')

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 93 entries, 1 to 86
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   国家奥委会    93 non-null     object
 1   金牌数      93 non-null     int32 
 2   银牌数      93 non-null     object
 3   铜牌数      93 non-null     object
 4   总分       93 non-null     int64 
 5   按总数排名    93 non-null     int64 
 6   国家奥委会代码  93 non-null     object
dtypes: int32(1), int64(2), object(4)
memory usage: 5.4+ KB


### 9 - <font color = '#1B85FF' >数据增加</font>｜新增列（固定值）

<br>

**重新加载数据** 并 **新增一列** 比赛地点，值为 `东京`


In [22]:
df = pd.read_csv("东京奥运会奖牌数据.csv").rename(columns={'Unnamed: 2':'金牌数',
                                                            'Unnamed: 3':'银牌数',
                                                            'Unnamed: 4':'铜牌数'})

In [23]:
df['比赛地点'] = '东京'

### 10 - <font color = '#1B85FF' >数据增加</font>｜新增列（计算值）

<br>

**新增一列** 金银牌总数列，值为该国家金银牌总数

In [24]:
df['金银花'] = df['金牌数'] + df['银牌数']

In [25]:
df.head()

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码,比赛地点,金银花
0,1,美国,39,41,33,113,1,USA,东京,80
1,2,中国,38,32,18,88,2,CHN,东京,70
2,3,日本,27,14,17,58,5,JPN,东京,41
3,4,英国,22,21,22,65,4,GBR,东京,43
4,5,ROC,20,28,23,71,3,ROC,东京,48


### 11 - <font color = '#1B85FF' >数据增加</font>｜新增列（比较值）

新增一列 最多奖牌数量 列，值为该国 `金、银、铜` 牌数量中最多的一个奖牌数量

例如美国银牌最多，则为41，中国为38

In [30]:
df['最多奖牌数'] = df.fillna(0)[['金牌数','银牌数','铜牌数']].max(1)

In [32]:
df

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码,比赛地点,金银花,最多奖牌数
0,1,美国,39,41,33,113,1,USA,东京,80,41
1,2,中国,38,32,18,88,2,CHN,东京,70,38
2,3,日本,27,14,17,58,5,JPN,东京,41,27
3,4,英国,22,21,22,65,4,GBR,东京,43,22
4,5,ROC,20,28,23,71,3,ROC,东京,48,28
...,...,...,...,...,...,...,...,...,...,...,...
88,86,加纳,0,0,1,1,77,GHA,东京,0,1
89,86,格林纳达,0,0,1,1,77,GRN,东京,0,1
90,86,科威特,0,0,1,1,77,KUW,东京,0,1
91,86,摩尔多瓦,0,0,1,1,77,MDA,东京,0,1


### 12 - <font color = '#1B85FF' >数据增加</font>｜新增列（判断值）

新增一列 金牌大于30

如果一个国家的金牌数大于 30 则值为 是，反之为 否

In [33]:
df['金30'] = np.where(df['金牌数']>30,'是','否')
df

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码,比赛地点,金银花,最多奖牌数,金30
0,1,美国,39,41,33,113,1,USA,东京,80,41,是
1,2,中国,38,32,18,88,2,CHN,东京,70,38,是
2,3,日本,27,14,17,58,5,JPN,东京,41,27,否
3,4,英国,22,21,22,65,4,GBR,东京,43,22,否
4,5,ROC,20,28,23,71,3,ROC,东京,48,28,否
...,...,...,...,...,...,...,...,...,...,...,...,...
88,86,加纳,0,0,1,1,77,GHA,东京,0,1,否
89,86,格林纳达,0,0,1,1,77,GRN,东京,0,1,否
90,86,科威特,0,0,1,1,77,KUW,东京,0,1,否
91,86,摩尔多瓦,0,0,1,1,77,MDA,东京,0,1,否


### 13 - <font color = '#1B85FF' >数据增加</font>｜增加多列

新增两列，分别是

- 金铜牌总数（金牌数+铜牌数）
- 银铜牌总数（银牌数+铜牌数）

In [34]:
df = df.assign(金童 = df['金牌数'] + df['铜牌数'],
                银通  = df['银牌数'] + df['铜牌数'])
df

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码,比赛地点,金银花,最多奖牌数,金30,金童,银通
0,1,美国,39,41,33,113,1,USA,东京,80,41,是,72,74
1,2,中国,38,32,18,88,2,CHN,东京,70,38,是,56,50
2,3,日本,27,14,17,58,5,JPN,东京,41,27,否,44,31
3,4,英国,22,21,22,65,4,GBR,东京,43,22,否,44,43
4,5,ROC,20,28,23,71,3,ROC,东京,48,28,否,43,51
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
88,86,加纳,0,0,1,1,77,GHA,东京,0,1,否,1,1
89,86,格林纳达,0,0,1,1,77,GRN,东京,0,1,否,1,1
90,86,科威特,0,0,1,1,77,KUW,东京,0,1,否,1,1
91,86,摩尔多瓦,0,0,1,1,77,MDA,东京,0,1,否,1,1


### 14 - <font color = '#1B85FF' >数据增加</font>｜新增列（引用变量）

新增一列金牌占比，为各国金牌数除以总金牌数（gold_sum）

In [35]:
gold_sum = df['金牌数'].sum()

In [36]:
df.eval(f'金牌占比 = 金牌数 / {gold_sum}',inplace=True)

In [37]:
df

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码,比赛地点,金银花,最多奖牌数,金30,金童,银通,金牌占比
0,1,美国,39,41,33,113,1,USA,东京,80,41,是,72,74,0.114706
1,2,中国,38,32,18,88,2,CHN,东京,70,38,是,56,50,0.111765
2,3,日本,27,14,17,58,5,JPN,东京,41,27,否,44,31,0.079412
3,4,英国,22,21,22,65,4,GBR,东京,43,22,否,44,43,0.064706
4,5,ROC,20,28,23,71,3,ROC,东京,48,28,否,43,51,0.058824
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
88,86,加纳,0,0,1,1,77,GHA,东京,0,1,否,1,1,0.000000
89,86,格林纳达,0,0,1,1,77,GRN,东京,0,1,否,1,1,0.000000
90,86,科威特,0,0,1,1,77,KUW,东京,0,1,否,1,1,0.000000
91,86,摩尔多瓦,0,0,1,1,77,MDA,东京,0,1,否,1,1,0.000000


### 15 - <font color = '#1B85FF' >数据增加</font>｜新增行（末尾追加）

<br>

在 df 末尾追加一行，内容为 0,1,2,3... 一直到 `df` 的列长度

In [44]:
pd.DataFrame([[i for i in range(len(df.columns))]])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14


In [45]:
pd.DataFrame([i for i in range(len(df.columns))])

Unnamed: 0,0
0,0
1,1
2,2
3,3
4,4
5,5
6,6
7,7
8,8
9,9


In [38]:
df1 = pd.DataFrame([[i for i in range(len(df.columns))]], columns=df.columns)
df_new = df.append(df1)

  df_new = df.append(df1)


In [39]:
df1

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码,比赛地点,金银花,最多奖牌数,金30,金童,银通,金牌占比
0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14


In [42]:
df_new.tail()

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码,比赛地点,金银花,最多奖牌数,金30,金童,银通,金牌占比
89,86,格林纳达,0,0,1,1,77,GRN,东京,0,1,否,1,1,0.0
90,86,科威特,0,0,1,1,77,KUW,东京,0,1,否,1,1,0.0
91,86,摩尔多瓦,0,0,1,1,77,MDA,东京,0,1,否,1,1,0.0
92,86,叙利亚,0,0,1,1,77,SYR,东京,0,1,否,1,1,0.0
0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14.0


### 16 - <font color = '#1B85FF' >数据增加</font>｜新增行（指定位置）

<br>

在第 2 行新增一行数据，即美国和中国之间。

数据内容同上一题

In [43]:
df1 = df.iloc[:1, :]
df2 = df.iloc[1:, :]
df3 = pd.DataFrame([[i for i in range(len(df.columns))]], columns=df.columns)
df_new = pd.concat([df1, df3, df2], ignore_index=True)

### 17 - <font color ='#27BE49'>数据删除</font>｜删除行

<br>

删除 `df` 第一行

In [46]:
df.drop(1)

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码,比赛地点,金银花,最多奖牌数,金30,金童,银通,金牌占比
0,1,美国,39,41,33,113,1,USA,东京,80,41,是,72,74,0.114706
2,3,日本,27,14,17,58,5,JPN,东京,41,27,否,44,31,0.079412
3,4,英国,22,21,22,65,4,GBR,东京,43,22,否,44,43,0.064706
4,5,ROC,20,28,23,71,3,ROC,东京,48,28,否,43,51,0.058824
5,6,澳大利亚,17,7,22,46,6,AUS,东京,24,22,否,39,29,0.050000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
88,86,加纳,0,0,1,1,77,GHA,东京,0,1,否,1,1,0.000000
89,86,格林纳达,0,0,1,1,77,GRN,东京,0,1,否,1,1,0.000000
90,86,科威特,0,0,1,1,77,KUW,东京,0,1,否,1,1,0.000000
91,86,摩尔多瓦,0,0,1,1,77,MDA,东京,0,1,否,1,1,0.000000


### 18 - <font color ='#27BE49'>数据删除</font>｜删除行（条件）

In [47]:
df.drop(df[df.金牌数<20].index)

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码,比赛地点,金银花,最多奖牌数,金30,金童,银通,金牌占比
0,1,美国,39,41,33,113,1,USA,东京,80,41,是,72,74,0.114706
1,2,中国,38,32,18,88,2,CHN,东京,70,38,是,56,50,0.111765
2,3,日本,27,14,17,58,5,JPN,东京,41,27,否,44,31,0.079412
3,4,英国,22,21,22,65,4,GBR,东京,43,22,否,44,43,0.064706
4,5,ROC,20,28,23,71,3,ROC,东京,48,28,否,43,51,0.058824


### 19 - <font color ='#27BE49'>数据删除</font>｜删除列

<br>

删除刚刚新增的 比赛地点 列

In [48]:
df.drop(columns='比赛地点')

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码,金银花,最多奖牌数,金30,金童,银通,金牌占比
0,1,美国,39,41,33,113,1,USA,80,41,是,72,74,0.114706
1,2,中国,38,32,18,88,2,CHN,70,38,是,56,50,0.111765
2,3,日本,27,14,17,58,5,JPN,41,27,否,44,31,0.079412
3,4,英国,22,21,22,65,4,GBR,43,22,否,44,43,0.064706
4,5,ROC,20,28,23,71,3,ROC,48,28,否,43,51,0.058824
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
88,86,加纳,0,0,1,1,77,GHA,0,1,否,1,1,0.000000
89,86,格林纳达,0,0,1,1,77,GRN,0,1,否,1,1,0.000000
90,86,科威特,0,0,1,1,77,KUW,0,1,否,1,1,0.000000
91,86,摩尔多瓦,0,0,1,1,77,MDA,0,1,否,1,1,0.000000


In [49]:
df.drop(columns=['比赛地点'],inplace=True)

### 20 - <font color ='#27BE49'>数据删除</font>｜删除列（按列号）

<br>

删除 `df` 的 `7、8、9、10` 列

In [51]:
df.drop(df.columns[[7,8,9,10]],axis=1)

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,金童,银通,金牌占比
0,1,美国,39,41,33,113,1,72,74,0.114706
1,2,中国,38,32,18,88,2,56,50,0.111765
2,3,日本,27,14,17,58,5,44,31,0.079412
3,4,英国,22,21,22,65,4,44,43,0.064706
4,5,ROC,20,28,23,71,3,43,51,0.058824
...,...,...,...,...,...,...,...,...,...,...
88,86,加纳,0,0,1,1,77,1,1,0.000000
89,86,格林纳达,0,0,1,1,77,1,1,0.000000
90,86,科威特,0,0,1,1,77,1,1,0.000000
91,86,摩尔多瓦,0,0,1,1,77,1,1,0.000000


In [53]:
df.drop(df.iloc[:,7:11],axis=1)

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,金童,银通,金牌占比
0,1,美国,39,41,33,113,1,72,74,0.114706
1,2,中国,38,32,18,88,2,56,50,0.111765
2,3,日本,27,14,17,58,5,44,31,0.079412
3,4,英国,22,21,22,65,4,44,43,0.064706
4,5,ROC,20,28,23,71,3,43,51,0.058824
...,...,...,...,...,...,...,...,...,...,...
88,86,加纳,0,0,1,1,77,1,1,0.000000
89,86,格林纳达,0,0,1,1,77,1,1,0.000000
90,86,科威特,0,0,1,1,77,1,1,0.000000
91,86,摩尔多瓦,0,0,1,1,77,1,1,0.000000


## 5-2 数据筛选

以下所有答案要求返回的是一个 dataframe 而不是 Series 这样可以直接存储为 Excel 等格式的文件！

### 21 - 重新加载数据

In [55]:
import pandas as pd

#df = pd.read_html("https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm")[0]

df = pd.read_csv("东京奥运会奖牌数据.csv")  # 如果未联网可以使用这条命令加载数据

df.rename(columns={'Unnamed: 2':'金牌数',
                  'Unnamed: 3':'银牌数',
                  'Unnamed: 4':'铜牌数'},inplace=True)


### 22 - <font color = '#FB8E00'>筛选列</font>｜通过列号

提取第 1、2、3、4 列

In [57]:
df.iloc[:,[0,1,2,3]]

Unnamed: 0,排名,国家奥委会,金牌数,银牌数
0,1,美国,39,41
1,2,中国,38,32
2,3,日本,27,14
3,4,英国,22,21
4,5,ROC,20,28
...,...,...,...,...
88,86,加纳,0,0
89,86,格林纳达,0,0
90,86,科威特,0,0
91,86,摩尔多瓦,0,0


### 23 - <font color = '#FB8E00'>筛选列</font>｜通过列名

提取 `金牌数、银牌数、铜牌数` 三列

In [58]:
df.loc[:,['金牌数','银牌数','铜牌数']]

Unnamed: 0,金牌数,银牌数,铜牌数
0,39,41,33
1,38,32,18
2,27,14,17
3,22,21,22
4,20,28,23
...,...,...,...
88,0,0,1
89,0,0,1
90,0,0,1
91,0,0,1


In [59]:
df[['金牌数','银牌数','铜牌数']]

Unnamed: 0,金牌数,银牌数,铜牌数
0,39,41,33
1,38,32,18
2,27,14,17
3,22,21,22
4,20,28,23
...,...,...,...
88,0,0,1
89,0,0,1
90,0,0,1
91,0,0,1


### 24 - <font color = '#FB8E00'>筛选列</font>｜条件（列号）

筛选全部 **奇数列**

In [60]:
df.columns

Index(['排名', '国家奥委会', '金牌数', '银牌数', '铜牌数', '总分', '按总数排名', '国家奥委会代码'], dtype='object')

In [61]:
df.iloc[:,[i%2==1 for i in range(len(df.columns))]]

Unnamed: 0,国家奥委会,银牌数,总分,国家奥委会代码
0,美国,41,113,USA
1,中国,32,88,CHN
2,日本,14,58,JPN
3,英国,21,65,GBR
4,ROC,28,71,ROC
...,...,...,...,...
88,加纳,0,1,GHA
89,格林纳达,0,1,GRN
90,科威特,0,1,KUW
91,摩尔多瓦,0,1,MDA


### 25 - <font color = '#FB8E00'>筛选列</font>｜条件（列名）

提取全部列名中以 “数” 结尾的列

In [62]:
df.loc[:,df.columns.str.endswith('数')]

Unnamed: 0,金牌数,银牌数,铜牌数
0,39,41,33
1,38,32,18
2,27,14,17
3,22,21,22
4,20,28,23
...,...,...,...
88,0,0,1
89,0,0,1
90,0,0,1
91,0,0,1


### 26 - <font color = '#FB8E00'>筛选列</font>｜组合（行号+列名）

提取倒数后三列的10-20行

In [63]:
df.loc[10:20, '总分':] 

Unnamed: 0,总分,按总数排名,国家奥委会代码
10,24,11,CAN
11,21,12,BRA
12,20,13,NZL
13,15,18,CUB
14,20,13,HUN
15,20,13,KOR
16,14,19,POL
17,11,23,CZE
18,10,25,KEN
19,8,29,NOR


### 27 - <font color = '#1B85FF' >筛选行</font>｜通过行号

提取第 10 行

In [66]:
df.loc[9,:]

排名          10
国家奥委会      意大利
金牌数         10
银牌数         10
铜牌数         20
总分          40
按总数排名        7
国家奥委会代码    ITA
Name: 9, dtype: object

In [65]:
df.loc[9:9]

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
9,10,意大利,10,10,20,40,7,ITA


In [67]:
df.loc[9]

排名          10
国家奥委会      意大利
金牌数         10
银牌数         10
铜牌数         20
总分          40
按总数排名        7
国家奥委会代码    ITA
Name: 9, dtype: object

### 28 -  <font color = '#1B85FF' >筛选行</font>｜通过行号（多行）

提取第 10 行之后的全部行

In [70]:
df.loc[9:,:]

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
9,10,意大利,10,10,20,40,7,ITA
10,11,加拿大,7,6,11,24,11,CAN
11,12,巴西,7,6,8,21,12,BRA
12,13,新西兰,7,6,7,20,13,NZL
13,14,古巴,7,3,5,15,18,CUB
...,...,...,...,...,...,...,...,...
88,86,加纳,0,0,1,1,77,GHA
89,86,格林纳达,0,0,1,1,77,GRN
90,86,科威特,0,0,1,1,77,KUW
91,86,摩尔多瓦,0,0,1,1,77,MDA


In [71]:
df[9:]

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
9,10,意大利,10,10,20,40,7,ITA
10,11,加拿大,7,6,11,24,11,CAN
11,12,巴西,7,6,8,21,12,BRA
12,13,新西兰,7,6,7,20,13,NZL
13,14,古巴,7,3,5,15,18,CUB
...,...,...,...,...,...,...,...,...
88,86,加纳,0,0,1,1,77,GHA
89,86,格林纳达,0,0,1,1,77,GRN
90,86,科威特,0,0,1,1,77,KUW
91,86,摩尔多瓦,0,0,1,1,77,MDA


### 29 - <font color = '#1B85FF' >筛选行</font>｜固定间隔

提取 0-50 行，间隔为 3

In [72]:
df[:50:3]

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
0,1,美国,39,41,33,113,1,USA
3,4,英国,22,21,22,65,4,GBR
6,7,荷兰,10,12,14,36,9,NED
9,10,意大利,10,10,20,40,7,ITA
12,13,新西兰,7,6,7,20,13,NZL
15,16,韩国,6,4,10,20,13,KOR
18,19,肯尼亚,4,4,2,10,25,KEN
21,22,西班牙,3,8,6,17,17,ESP
24,25,丹麦,3,4,4,11,23,DEN
27,28,塞尔维亚,3,1,5,9,26,SRB


### 30 -  <font color = '#1B85FF' >筛选行</font>｜判断（大于）

提取 金牌数 大于 30 的行

In [74]:
df.loc[df['金牌数']>30]

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
0,1,美国,39,41,33,113,1,USA
1,2,中国,38,32,18,88,2,CHN


In [75]:
df[df['金牌数']>30]

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
0,1,美国,39,41,33,113,1,USA
1,2,中国,38,32,18,88,2,CHN


### 31 -  <font color = '#1B85FF' >筛选行 </font>｜判断（等于）

提取 `金牌数` 等于 10 的行

In [76]:
df[df['金牌数']==10]

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
6,7,荷兰,10,12,14,36,9,NED
7,8,法国,10,12,11,33,10,FRA
8,9,德国,10,11,16,37,8,GER
9,10,意大利,10,10,20,40,7,ITA


### 32 - <font color = '#1B85FF' >筛选行</font>｜判断（不等于）

提取 `金牌数` 不等于 `10` 的行

In [77]:
df[df['金牌数']!=10]

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
0,1,美国,39,41,33,113,1,USA
1,2,中国,38,32,18,88,2,CHN
2,3,日本,27,14,17,58,5,JPN
3,4,英国,22,21,22,65,4,GBR
4,5,ROC,20,28,23,71,3,ROC
...,...,...,...,...,...,...,...,...
88,86,加纳,0,0,1,1,77,GHA
89,86,格林纳达,0,0,1,1,77,GRN
90,86,科威特,0,0,1,1,77,KUW
91,86,摩尔多瓦,0,0,1,1,77,MDA


In [78]:
df.loc[~(df['金牌数'] == 10)]

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
0,1,美国,39,41,33,113,1,USA
1,2,中国,38,32,18,88,2,CHN
2,3,日本,27,14,17,58,5,JPN
3,4,英国,22,21,22,65,4,GBR
4,5,ROC,20,28,23,71,3,ROC
...,...,...,...,...,...,...,...,...
88,86,加纳,0,0,1,1,77,GHA
89,86,格林纳达,0,0,1,1,77,GRN
90,86,科威特,0,0,1,1,77,KUW
91,86,摩尔多瓦,0,0,1,1,77,MDA


### 33 - <font color = '#1B85FF' >筛选行</font>｜条件（指定行号）

提取全部 **奇数行**


In [79]:
df.loc[[i%2==1 for i in range(len(df.index))],:]

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
1,2,中国,38,32,18,88,2,CHN
3,4,英国,22,21,22,65,4,GBR
5,6,澳大利亚,17,7,22,46,6,AUS
7,8,法国,10,12,11,33,10,FRA
9,10,意大利,10,10,20,40,7,ITA
11,12,巴西,7,6,8,21,12,BRA
13,14,古巴,7,3,5,15,18,CUB
15,16,韩国,6,4,10,20,13,KOR
17,18,捷克,4,4,3,11,23,CZE
19,20,挪威,4,2,2,8,29,NOR


In [80]:
df[[i%2==1 for i in range(len(df.index))]]

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
1,2,中国,38,32,18,88,2,CHN
3,4,英国,22,21,22,65,4,GBR
5,6,澳大利亚,17,7,22,46,6,AUS
7,8,法国,10,12,11,33,10,FRA
9,10,意大利,10,10,20,40,7,ITA
11,12,巴西,7,6,8,21,12,BRA
13,14,古巴,7,3,5,15,18,CUB
15,16,韩国,6,4,10,20,13,KOR
17,18,捷克,4,4,3,11,23,CZE
19,20,挪威,4,2,2,8,29,NOR


### 34 - <font color = '#1B85FF' >筛选行</font>｜条件（指定值）


提取 中国、美国、英国、日本、巴西 五行数据

In [85]:
df.loc[df['国家奥委会'].isin(['中国','美国','英国','日本','巴西'])]

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
0,1,美国,39,41,33,113,1,USA
1,2,中国,38,32,18,88,2,CHN
2,3,日本,27,14,17,58,5,JPN
3,4,英国,22,21,22,65,4,GBR
11,12,巴西,7,6,8,21,12,BRA


### 35 -  <font color = '#1B85FF' >筛选行</font>｜多条件

在上一题的条件下，新增一个条件：**金牌数小于30**

In [92]:
df.loc[(df['金牌数'] < 30) & (df['国家奥委会'].isin(['中国','美国','英国','日本','巴西']))]

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
2,3,日本,27,14,17,58,5,JPN
3,4,英国,22,21,22,65,4,GBR
11,12,巴西,7,6,8,21,12,BRA


### 36 - <font color = '#1B85FF' >筛选行</font>｜条件（包含指定值）

提取 国家奥委会 列中，所有包含 `国`的行

In [93]:
df[df['国家奥委会'].str.contains('国')]

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
0,1,美国,39,41,33,113,1,USA
1,2,中国,38,32,18,88,2,CHN
3,4,英国,22,21,22,65,4,GBR
7,8,法国,10,12,11,33,10,FRA
8,9,德国,10,11,16,37,8,GER
15,16,韩国,6,4,10,20,13,KOR
48,49,中国香港,1,2,3,6,39,HKG
61,59,泰国,1,0,1,2,66,THA


### 37 - 筛选某行某列

提取 `第 0 行第 2 列`

In [94]:
df.iloc[0,2]

39

In [96]:
df.iloc[[0],[2]]

Unnamed: 0,金牌数
0,39


### 38 - 筛选多行多列


提取 第 0-2 行第 0-2 列


In [95]:
df.iloc[0:3,0:3]

Unnamed: 0,排名,国家奥委会,金牌数
0,1,美国,39
1,2,中国,38
2,3,日本,27


### 39 - <font color ='#27BE49'>筛选值</font>｜组合（行号+列号）

提取第 4 行，第 4 列的值

In [97]:
df.iloc[4,4]

23

###  40 - <font color ='#27BE49'>筛选值</font>｜组合（行号+列名）

提取行索引为 4 ，列名为 金牌数 的值


In [98]:
df.at[4,'金牌数']

20

### 41 - <font color ='#27BE49'>筛选值</font>｜条件

提取 国家奥委会 为 中国 的金牌数

In [99]:
df[df['国家奥委会']=='中国']['金牌数']

1    38
Name: 金牌数, dtype: int64

In [100]:
df.loc[df['国家奥委会']=='中国']['金牌数']

1    38
Name: 金牌数, dtype: int64

In [102]:
df[df['国家奥委会']=='中国'].loc[1].at['金牌数']

38

In [104]:
df[df['国家奥委会']=='中国']

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
1,2,中国,38,32,18,88,2,CHN


In [103]:
df[df['国家奥委会']=='中国'].loc[1]

排名           2
国家奥委会       中国
金牌数         38
银牌数         32
铜牌数         18
总分          88
按总数排名        2
国家奥委会代码    CHN
Name: 1, dtype: object

### 42 - <font color ='#27BE49'>筛选值</font>｜query

使用 query 提取 金牌数 + 银牌数 大于 15 的国家

In [108]:
df.query('金牌数+银牌数 > 15')

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
0,1,美国,39,41,33,113,1,USA
1,2,中国,38,32,18,88,2,CHN
2,3,日本,27,14,17,58,5,JPN
3,4,英国,22,21,22,65,4,GBR
4,5,ROC,20,28,23,71,3,ROC
5,6,澳大利亚,17,7,22,46,6,AUS
6,7,荷兰,10,12,14,36,9,NED
7,8,法国,10,12,11,33,10,FRA
8,9,德国,10,11,16,37,8,GER
9,10,意大利,10,10,20,40,7,ITA


###  43 - <font color ='#27BE49'>筛选值</font>｜query（引用变量）

使用 query 提取 金牌数 大于 金牌均值的国家

In [109]:
gold_mean = df['金牌数'].mean()
df.query(f'金牌数 > {gold_mean}')

Unnamed: 0,排名,国家奥委会,金牌数,银牌数,铜牌数,总分,按总数排名,国家奥委会代码
0,1,美国,39,41,33,113,1,USA
1,2,中国,38,32,18,88,2,CHN
2,3,日本,27,14,17,58,5,JPN
3,4,英国,22,21,22,65,4,GBR
4,5,ROC,20,28,23,71,3,ROC
5,6,澳大利亚,17,7,22,46,6,AUS
6,7,荷兰,10,12,14,36,9,NED
7,8,法国,10,12,11,33,10,FRA
8,9,德国,10,11,16,37,8,GER
9,10,意大利,10,10,20,40,7,ITA
