## 5.1 数据清洗 - 处理缺失值 (NaN)

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('../../02 Programming for Data Science/LO3/autompg.csv')

#### 1. 缺失值的表现形式

在数据分析中，缺失值 NaN 有2中情况：
1. NaN 是数据类型 float 的一种特殊值，表示“不是一个数字”（Not a Number）； np.nan
2. None 是 Python 的一个特殊值，表示“没有值”。 在 Pandas 中，None 会被自动转换为 NaN。

#### 2. 检测缺失值

##### 2.1 使用 isna() 和 isnull()，两者完全一致，只是名字不同
返回一个布尔值的 DataFrame，表示每个元素是否为缺失值。

In [2]:
df.isna()

Unnamed: 0,mpg,cyl,displ,hp,weight,accel,yr,origin,name
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...
387,False,False,False,False,False,False,False,False,False
388,False,False,False,False,False,False,False,False,False
389,False,False,False,False,False,False,False,False,False
390,False,False,False,False,False,False,False,False,False


##### 2.2 快速统计每列的缺失值数量
使用 sum() 方法对布尔值进行求和，True 计为1，False 计为0。

In [3]:
df.isna().sum()

mpg       0
cyl       0
displ     0
hp        0
weight    0
accel     0
yr        0
origin    0
name      0
dtype: int64

#### 3. 删除缺失值
方法参数：
1. axis=0：删除行，axis=1：删除列
2. how='any'：只要有一个缺失值就删除，how='all'：全部都是缺失值才删除
3. inplace=False：默认返回一个新的 DataFrame，inplace=True：在原 DataFrame 上进行修改

In [4]:
df_dropped = df.dropna(
    axis=0,
    how='any',
    inplace=False
)
df_dropped.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 392 entries, 0 to 391
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   mpg     392 non-null    float64
 1   cyl     392 non-null    int64  
 2   displ   392 non-null    float64
 3   hp      392 non-null    int64  
 4   weight  392 non-null    int64  
 5   accel   392 non-null    float64
 6   yr      392 non-null    int64  
 7   origin  392 non-null    int64  
 8   name    392 non-null    object 
dtypes: float64(3), int64(5), object(1)
memory usage: 27.7+ KB


#### 4. 填充缺失值
方法参数：
1. value: 用于填充的值，可以是单个值，也可以是字典，指定每列的填充值
2. method: 填充方法，'ffill'（前向填充） 或 'bfill'（后向填充）
3. inplace: 是否在原 DataFrame 上进行修改，默认 False

In [7]:
df_filled = df.fillna(
    value = {
        'mpg': df['mpg'].mean(),
        'hp': df['hp'].median()
    },
    inplace=False
)