In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Pandas 缺失值处理

在处理大规模数据时，缺失数据是经常发生的。Pandas的目标之一就是尽量轻松地处理缺失数据。例如，pandas的所有描述性统计默认都不包括缺失数据。
对于数值数据，pandas使用浮点值NaN（Not a Number）表示缺失数据。

* **1 什么是缺失值？**


* **2 如何处理缺失值？**


* **3 Pandas 缺失值处理案例**
    * 3.1 获取缺失值的标记方式
    * 3.2 判断是否包含缺失值
    * 3.3 处理缺失值

## 1 什么是缺失值？

缺失值是指原始数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。

缺失值的产生的原因多种多样，主要分为机械原因和人为原因。
* 机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失，比如数据存储的失败，存储器损坏，机械故障导致某段时间数据未能收集（对于定时数据采集而言）。
* 人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失，比如，在市场调查中被访人拒绝透露相关问题的答案，或者回答的问题是无效的，数据录入人员失误漏录了数据。

## 2 如何处理缺失值？

主要的步骤分为3步：
* 获取缺失值的标记方式并进行处理成NaN
* 判断数据中是否包含NaN
* 处理NaN格式数据（删除或替换）

* 1.获取缺失值的标记方式并进行处理成NaN格式
    * 不同数据集标记缺失值的方式可能会有不同
        * 通常而言，缺失值会标记为空值（Null或None）：pandas导入会直接标记成NaN
        * 有些缺失值会经过人为的标记，比如‘？’等，这时我们需要把‘？’统一替换成NaN，方便后面进行处理：df.replace(to_replace=,value=)
            * to_replace:替换前的值
            * value:替换后的值
* 2. 判断数据中是否包含NaN（常用的方法包含两种）
    * 使用df.info()方法查看数据的概览，其中的一列‘Non-Null Count’可以查看非空的数量，观察每一列的数量是否相等。
    * 使用pandas的api进行查看
        * pd.isnull(df)
        * pd.notnull(df)
* 3. 处理NaN格式数据（删除或替换）
    * 删除NaN：df.dropna(axis='rows')
        * 注：不会修改原数据，需要接受返回值
    * 替换NaN:df.fillna(value, inplace=True)
        * value：替换成的值
        * inplace：是否修改原数据
            * True:会修改原数据
            * False：不修改原数据，生成新的对象，在新的对象上进行替换


## 3 缺失值处理案例

* 接下来我们用一个真实的数据集来演示如何处理缺失值，IMDB电影数据集

In [2]:
# 读取电影数据集,默认的encoding读取格式为utf-8会报错，修改编码格式即可
movie = pd.read_csv("../data/IMDB-Movie-Data.csv",encoding='gbk')
movie.head()

Unnamed: 0,Rank,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,1,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,?,8.1,757074,333.13,76.0
1,2,Prometheus,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
2,3,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,
3,4,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,5,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0


### 3.1 获取缺失值的标记方式

通常而言，缺失值的标记方式可从数据提供方的说明文档中获取。

* 如果没有的话，可以通过观察数据来获取缺失值的标记，比如我们通过观察数据发现第6行的最后一列有一个‘？’，我们就可以认为‘？’也是缺失数据的标记的一种。

* 我们也可以通过经验对数据进行分析来判断某一列是否存在其他缺失值的标记方式，下面举例说明。

In [3]:
# 我们先查看数据集的概览
movie.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Rank                1000 non-null   int64  
 1   Title               1000 non-null   object 
 2   Genre               1000 non-null   object 
 3   Description         1000 non-null   object 
 4   Director            1000 non-null   object 
 5   Actors              1000 non-null   object 
 6   Year                1000 non-null   int64  
 7   Runtime (Minutes)   1000 non-null   object 
 8   Rating              1000 non-null   float64
 9   Votes               1000 non-null   int64  
 10  Revenue (Millions)  872 non-null    float64
 11  Metascore           934 non-null    float64
dtypes: float64(3), int64(3), object(6)
memory usage: 93.9+ KB


* 我们通过查看数据集的概览可以发现，第7列应该存在问题，因为第7列Runtime（电影的时长）按照经验来说应该是一个int格式，并且包含了1000行（表示没有空值），所以可以粗略判断出该列应该存在一些格式问题，我们查看该列的数据，果然发现第一行存在一个‘？’，所以我们判断‘？’是该数据集缺失值的另一种标记方式，我们使用df.replace()函数进行替换。

* 接下来，我们查看第10列和第11列，我们发现Non-Null Count值不是满值1000，表示这两列存在空值（即缺失值），初步的分析就结束了。

In [4]:
# 替换‘？’变为np.nan
movie = movie.replace(to_replace='?',value=np.nan)
movie.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Rank                1000 non-null   int64  
 1   Title               1000 non-null   object 
 2   Genre               1000 non-null   object 
 3   Description         1000 non-null   object 
 4   Director            1000 non-null   object 
 5   Actors              1000 non-null   object 
 6   Year                1000 non-null   int64  
 7   Runtime (Minutes)   999 non-null    object 
 8   Rating              1000 non-null   float64
 9   Votes               1000 non-null   int64  
 10  Revenue (Millions)  872 non-null    float64
 11  Metascore           934 non-null    float64
dtypes: float64(3), int64(3), object(6)
memory usage: 93.9+ KB


### 3.2 判断是否包含缺失值

判断是否包含缺失值通常有两种方法，在上一小节，我们就用了第一种方法来迅速判断数据集中是否包含缺失值。

* 使用df.info()方法查看数据的概览，其中的一列‘Non-Null Count’可以查看非空的数量，观察每一列的数量是否相等。
* 使用pandas的api进行查看
    * pd.isnull(df)
    * pd.notnull(df)

In [5]:
# 使用pandas的api来判断是否包含NaN值
pd.isnull(movie).sum()

Rank                    0
Title                   0
Genre                   0
Description             0
Director                0
Actors                  0
Year                    0
Runtime (Minutes)       1
Rating                  0
Votes                   0
Revenue (Millions)    128
Metascore              66
dtype: int64

### 3.3 处理NaN值
通常而言，有两种方式处理缺失值，删除或者替换。
* 删除NaN：df.dropna(axis='rows')
    * 注：不会修改原数据，需要接受返回值
* 替换NaN:df.fillna(value, inplace=True)
    * value：替换成的值
    * inplace：是否修改原数据
        * True:会修改原数据
        * False：不修改原数据，生成新的对象，在新的对象上进行替换

In [6]:
# 删除NaN值
movie_data = movie.dropna()
movie_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 835 entries, 1 to 999
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Rank                835 non-null    int64  
 1   Title               835 non-null    object 
 2   Genre               835 non-null    object 
 3   Description         835 non-null    object 
 4   Director            835 non-null    object 
 5   Actors              835 non-null    object 
 6   Year                835 non-null    int64  
 7   Runtime (Minutes)   835 non-null    object 
 8   Rating              835 non-null    float64
 9   Votes               835 non-null    int64  
 10  Revenue (Millions)  835 non-null    float64
 11  Metascore           835 non-null    float64
dtypes: float64(3), int64(3), object(6)
memory usage: 84.8+ KB


In [7]:
# 替换缺失值，使用均值进行填充其中一列
movie['Revenue (Millions)'].fillna(movie['Revenue (Millions)'].mean(), inplace=True)
movie.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Rank                1000 non-null   int64  
 1   Title               1000 non-null   object 
 2   Genre               1000 non-null   object 
 3   Description         1000 non-null   object 
 4   Director            1000 non-null   object 
 5   Actors              1000 non-null   object 
 6   Year                1000 non-null   int64  
 7   Runtime (Minutes)   999 non-null    object 
 8   Rating              1000 non-null   float64
 9   Votes               1000 non-null   int64  
 10  Revenue (Millions)  1000 non-null   float64
 11  Metascore           934 non-null    float64
dtypes: float64(3), int64(3), object(6)
memory usage: 93.9+ KB
