# 缺失值检查与处理

```{admonition} 在线刷题
:class: seealso

检查 or 强化 `Pandas` 数据分析操作？<a href="https://www.heywhale.com/mw/project/6146c0318447b8001769ff20" target="_blank">👉在线体验「Pandas进阶修炼300题」</a>
```

```{note} 
本页面代码可以[在线编辑、执行](../指引/在线执行.md)！
```

## 本页数据说明

为了更好的介绍相关操作，本页面使用 **豆瓣电影TOP250** 数据进行展开，你应该对数据**字段、数值、类型**等相关信息做一个大致了解！

In [1]:
import pandas as pd
pd.set_option('display.max_colwidth',10)
df = pd.read_excel("TOP250.xlsx")
df.head()

Unnamed: 0,片名,上映年份,评分,评价人数,导演,编剧,主演,类型,国家/地区,语言,时长(分钟)
0,肖申克的救赎,1994,9.7,2317937.0,弗兰克·德拉邦特,弗兰克·德拉...,蒂姆·罗宾斯...,剧情 / 犯罪,美国,英语,142.0
1,霸王别姬,1993,9.6,1720638.0,陈凯歌,芦苇 / 李碧华,张国荣 / ...,剧情 / 爱...,中国,汉语普通话,171.0
2,阿甘正传,1994,9.5,1743966.0,罗伯特·泽米吉斯,艾瑞克·罗斯...,汤姆·汉克斯...,剧情 / 爱情,美国,英语,142.0
3,这个杀手不太冷,1994,9.4,1922740.0,吕克·贝松,吕克·贝松,让·雷诺 /...,剧情 / 动...,法国,英语,110.0
4,泰坦尼克号,1997,9.4,1706127.0,詹姆斯·卡梅隆,詹姆斯·卡梅隆,莱昂纳多·迪...,剧情 / 爱...,美国,英语,194.0


## 缺失值检查

### 检查全部缺失值

In [2]:
df.isna().sum().sum()

26

### 检查每列缺失值

再看看具体每列有多少缺失值

In [3]:
df.isnull().sum()

片名        0
上映年份      0
评分        5
评价人数      3
导演        0
编剧        0
主演        0
类型        0
国家/地区     6
语言        6
时长(分钟)    6
dtype: int64

### 定位缺失值


为了后面更方便的处理缺失值，现在先看看全部缺失值所在的行

In [4]:
df[df.isnull().T.any() == True]

Unnamed: 0,片名,上映年份,评分,评价人数,导演,编剧,主演,类型,国家/地区,语言,时长(分钟)
6,千与千寻,2001,9.4,1822369.0,宫崎骏,宫崎骏,柊瑠美 / ...,剧情 / 动...,日本,日语,
12,海上钢琴师,1998,9.3,1371726.0,朱塞佩·托纳多雷,亚利桑德罗·...,蒂姆·罗斯 ...,剧情 / 音乐,意大利,,165.0
19,熔炉,2011,9.3,,黄东赫,黄东赫 / 孔枝泳,孔刘 / 郑...,剧情,韩国,韩语,125.0
20,教父,1972,9.3,756991.0,弗朗西斯·福...,马里奥·普佐...,马龙·白兰度...,剧情 / 犯罪,美国,英语,
21,当幸福来敲门,2006,9.1,1237631.0,加布里埃莱·穆奇诺,斯蒂夫·康拉德,威尔·史密斯...,剧情 / 家...,美国,,117.0
22,龙猫,1988,9.2,1032307.0,宫崎骏,宫崎骏,日高法子 /...,动画 / 奇...,日本,日语,
31,乱世佳人,1939,9.3,556888.0,维克多·弗莱...,玛格丽特·米...,费雯·丽 /...,剧情 / 爱...,美国,英语,
43,我不是药神,2018,9.0,1696301.0,文牧野,韩家女 / ...,徐峥 / 王...,剧情 / 喜剧,,汉语普通话,
53,狮子王,1994,9.0,665020.0,罗杰·阿勒斯...,艾琳·梅琪 ...,乔纳森·泰勒...,动画 / 歌...,,英语,89.0
73,情书,1995,,726751.0,岩井俊二,岩井俊二,中山美穗 /...,剧情 / 爱情,日本,日语,117.0


### 高亮缺失值

很明显，虽然上一题找到了全部缺失值所在的行，但是看的很头疼

我们可以将缺失值进行高亮进一步查看

In [5]:
(df[df.isnull().T.any() == True]
.style
.highlight_null(null_color='skyblue')
.set_table_attributes('style="font-size: 10px"'))

Unnamed: 0,片名,上映年份,评分,评价人数,导演,编剧,主演,类型,国家/地区,语言,时长(分钟)
6,千与千寻,2001,9.4,1822369.0,宫崎骏,宫崎骏,柊瑠美 / 入野自由 / 夏木真理 / 菅原文太 / 中村彰男 / 玉井夕海 / 神木隆之介 / 内藤刚志 / 泽口靖子 / 我修院达也 / 大泉洋 / 小林郁夫 / 上条恒彦 / 小野武彦,剧情 / 动画 / 奇幻,日本,日语,
12,海上钢琴师,1998,9.3,1371726.0,朱塞佩·托纳多雷,亚利桑德罗·巴里克 / 朱塞佩·托纳多雷,蒂姆·罗斯 / 普路特·泰勒·文斯 / 比尔·努恩 / 克兰伦斯·威廉姆斯三世 / 梅兰尼·蒂埃里 / 皮特·沃恩 / 尼尔·奥布赖恩 / 阿尔贝托·巴斯克斯 / 加布里埃莱·拉维亚 / 科里·巴克 / 西德尼·科尔 / Luigi De Luca / 尼古拉·迪·平托 / 费米·依鲁福祖 / 伊斯顿·盖奇 / 凯文·麦克纳利 / 布莱恩·普林格 / 沙拉·鲁宾 / 希思科特·威廉姆斯 / 阿妮妲·扎格利亚 / 安吉洛·迪洛雷塔,剧情 / 音乐,意大利,,165.0
19,熔炉,2011,9.3,,黄东赫,黄东赫 / 孔枝泳,孔刘 / 郑有美 / 金贤秀 / 郑仁絮 / 白承焕 / 张光 / 金民尚 / 林贤成 / 金周灵 / 严孝燮 / 全国焕 / 崔镇浩 / 金志映 / 严智星 / 许在浩 / 张素妍,剧情,韩国,韩语,125.0
20,教父,1972,9.3,756991.0,弗朗西斯·福特·科波拉,马里奥·普佐 / 弗朗西斯·福特·科波拉,马龙·白兰度 / 阿尔·帕西诺 / 詹姆斯·肯恩 / 理查德·卡斯特尔诺 / 罗伯特·杜瓦尔 / 斯特林·海登 / 约翰·马利 / 理查德·康特 / 艾尔·勒提埃里 / 黛安·基顿 / 阿贝·维高达 / 塔莉娅·夏尔 / 吉亚尼·罗素 / 约翰·凯泽尔 / 鲁迪·邦德 / 兰尼·蒙大拿,剧情 / 犯罪,美国,英语,
21,当幸福来敲门,2006,9.1,1237631.0,加布里埃莱·穆奇诺,斯蒂夫·康拉德,威尔·史密斯 / 贾登·史密斯 / 坦迪·牛顿 / 布莱恩·豪威 / 詹姆斯·凯伦 / 丹·卡斯泰兰尼塔 / 柯特·富勒 / 塔卡尤·费舍尔 / 凯文·韦斯特 / 乔治·张 / 戴维·迈克尔·西尔弗曼 / 多米尼克·博夫 / 杰弗·卡伦 / 乔伊芙·拉文 / 斯科特·克拉斯,剧情 / 家庭 / 传记,美国,,117.0
22,龙猫,1988,9.2,1032307.0,宫崎骏,宫崎骏,日高法子 / 坂本千夏 / 糸井重里 / 岛本须美 / 北林谷荣 / 高木均 / 雨笠利幸 / 丸山裕子 / 广濑正志 / 鹫尾真知子 / 铃木玲子 / 千叶繁 / 龙田直树 / 鳕子 / 西村朋纮 / 石田光子 / 神代知衣 / 中村大树 / 水谷优子 / 平松晶子 / 大谷育江,动画 / 奇幻 / 冒险,日本,日语,
31,乱世佳人,1939,9.3,556888.0,维克多·弗莱明 / 乔治·库克 / 山姆·伍德,玛格丽特·米歇尔 / 西德尼·霍华德 / 奥利弗·H·P·加勒特 / 本·赫克特 / 乔·斯沃林 / 约翰·范·德鲁登,费雯·丽 / 克拉克·盖博 / 奥利维娅·德哈维兰 / 托马斯·米切尔 / 芭芭拉·欧内尔 / 伊夫林·凯耶斯 / 安·卢瑟福德 / 乔治·里弗斯 / 弗莱德·克莱恩 / 海蒂·麦克丹尼尔 / 奥斯卡·波尔克 / 巴特弗莱·麦昆 / 维克托·乔里 / 埃弗雷特·布朗 / 霍华德·C·希克曼 / 艾丽西亚·瑞特 / 莱斯利·霍华德 / 兰德·布鲁克斯 / 卡洛尔·奈 / 劳拉·霍普·克鲁斯 / 埃迪·安德森 / 哈里·达文波特 / 利昂娜·罗伯特 / 简·达威尔 / 欧娜·满森 / 保罗·赫斯特 / 伊莎贝尔·朱尔 / 卡米·金·肯伦 / 艾瑞克·林登 / J·M·克里根 / 沃德·邦德 / 莉莲·肯布尔-库珀,剧情 / 爱情 / 历史 / 战争,美国,英语,
43,我不是药神,2018,9.0,1696301.0,文牧野,韩家女 / 钟伟 / 文牧野,徐峥 / 王传君 / 周一围 / 谭卓 / 章宇 / 杨新鸣 / 王佳佳 / 王砚辉 / 贾晨飞 / 龚蓓苾 / 宁浩 / 李乃文 / 岳小军 / 苇青 / 富冠铭 / 巴拉特·巴蒂 / 喜利图 / 张海艳 / 朱耕佑,剧情 / 喜剧,,汉语普通话,
53,狮子王,1994,9.0,665020.0,罗杰·阿勒斯 / 罗伯·明可夫,艾琳·梅琪 / 乔纳森·罗伯特 / 琳达·伍尔芙顿,乔纳森·泰勒·托马斯 / 马修·布罗德里克 / 杰瑞米·艾恩斯 / 詹姆斯·厄尔·琼斯 / 莫伊拉·凯利 / 内森·连恩 / 尼基塔·卡兰姆 / 厄尼·萨贝拉 / 乌比·戈德堡 / 罗温·艾金森,动画 / 歌舞 / 冒险,,英语,89.0
73,情书,1995,,726751.0,岩井俊二,岩井俊二,中山美穗 / 丰川悦司 / 酒井美纪 / 柏原崇 / 范文雀 / 篠原胜之 / 铃木庆一 / 田口智朗 / 加贺麻理子 / 光石研 / 铃木兰兰 / 盐见三省 / 中村久美 / 梅田凡乃 / 长田江身子 / 小栗香织 / 神户浩 / 酒井敏也 / 山口诗史 / 山崎一 / 德井优 / 武藤寿美,剧情 / 爱情,日本,日语,117.0


## 缺失值处理

In [6]:
import pandas as pd
df = pd.read_excel("TOP250.xlsx")

### 删除缺失值


处理缺失值最简单的方式，当然是将缺失值出现的行全部删掉～

-> 现在，将缺失值出现的行全部删掉

In [7]:
df = df.dropna()

### 整体填充补全


除了删除缺失值最省事之外，将全部缺失值替换为一个 **固定的值/文本** 也是一个较为省事的方法'

-> 现在，将全部缺失值替换为 `*`

In [8]:
df = df.fillna('*') 

### 向上填充补全


从上一小节的查看数据中，不难发现整理数据是按照评分进行降序排列的

因此对于评分列的缺失值处理，我们可以用上一个电影的评分进行填充

-> 现在将评分列的缺失值，替换为上一个电影的评分

In [9]:
df['评分'] = df['评分'].fillna(axis=0,method='ffill')

###  整体均值填充补全


对于评价人数列的缺失值处理，我们可以使用整列的均值进行填充

-> 现在，将评价人数列的缺失值，用整列的均值进行填充

In [10]:
df['评价人数'] = df['评价人数'].fillna(df['评价人数'].mean())

### 上下均值填充补全


除了可以使用整列的均值进行填充，也可以使用缺失值位置的上下均值进行填充、

-> 现在，将评价人数列的缺失值，用上下数字的均值进行填充

In [11]:
df['评价人数'] = df['评价人数'].fillna(df['评价人数'].interpolate())

### 匹配填充补全


除了利用均值填充，有时还需要根据另一列的值进行匹配填充

-> 现在填充 “语言” 列的缺失值，要求根据 “国家/地区” 列的值进行填充

> 例如 《海上钢琴师》国家/地区为 意大利，根据其他意大利国家对应的语言来看，应填充为 意大利语

In [12]:
df['语言']=df.groupby('国家/地区').语言.bfill()

```{admonition} 思考
:class: hint

还有其他方法可以实现吗？
```