## 遺漏值

除了上面提到的數值、類別、時間之外，後續大家還會遇到的特殊資料型態是**遺漏資料**，意思是我們並不知道某些資料在某些欄位的數值，會出現這種情況的原因也有非常多種(比較常見的是在資料收集上出現問題、或是在概念上本來某些資料就不會有這個欄位的數值等等)。在Numpy與Pandas兩個套件中，遺漏資料常以**NaN**表示，意思是Not a Number，接下來讓我們示範一下如何找到資料中的遺漏值以及做一些處理。

In [8]:
import pandas as pd
import numpy as np

%matplotlib inline

In [14]:
# 載入範例的資料集，這次我們使用的是鐵達尼號的資料，後續在機器學習領域上會很常見到這份資料集
df = pd.read_csv('https://raw.githubusercontent.com/AIF-TW/Python-Data-Analysis/master/common/dataset/titanc_train.csv?token=ARV2RCN7BXU6CHBXTKA6JIC7WMZX2')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [10]:
# 使用df.info()觀察資料整體狀況
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [11]:
# 使用isna()方法判斷Age是否為遺漏值，且挑出Age為遺漏值的前5筆資料
df[df['Age'].isna()].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0,,S
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.225,,C
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.225,,C
28,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q


從資訊中我們發現有部分欄位的資料筆數並非891筆，這代表資料中有一些遺漏的資料，例如Age欄位只有714筆資料，而Cabin欄位甚至只有204筆資料，另外觀察前五筆資料也可以明顯看到Cabin中有些欄位顯示NaN，這就代表在這筆資料的這個欄位的數值為遺漏值。

了解到資料中有遺漏後又該怎麼處理呢?最常使用的方式是直接刪除遺漏資料或是補值，以下我們來示範應該如何做這些處理。

In [12]:
# 只要任何一個欄位有遺漏資料，使用dropna就會將其剔除
delete_na_df = df.dropna()

# 使用shape觀察資料筆數可以發現完全無遺漏值的資料只剩下183筆
print(delete_na_df.shape)

(183, 12)


In [13]:
# 先複製一份以免改動到原本資料
fill_na_df = df.copy()

# 事先計算年齡的平均
mean_age = df['Age'].mean()

# 使用fillna方法將遺漏值取代為特定的數值
fill_na_df['Age'].fillna(value=mean_age, inplace=True)

# 再以info看一次資料的狀況，Age欄位現在是不是沒有遺漏值了?
fill_na_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
