# Pandas DataFrame 資料操作及處理函式

In [2]:
import pandas as pd

In [3]:
# 建立一個 5x3 的 Dataframe
df = pd.DataFrame([[0,1,2],
                  [3,4,None],
                  [None,7,8],
                  [9,10,11],
                  [pd.NaT,13,14]],
                  index=list('abcde'),columns=list('ABC'))
df

Unnamed: 0,A,B,C
a,0,1,2.0
b,3,4,
c,,7,8.0
d,9,10,11.0
e,NaT,13,14.0


## 讀取 DataFrame 資料的索引方式

* .loc[]：先列標籤後行標籤，以逗號分隔
* .iloc[]：依據列數及行數進行索引

In [3]:
#df.loc['a', 'C']
df.loc['b':'d', 'B':'C']

Unnamed: 0,B,C
b,4,
c,7,8.0
d,10,11.0


In [4]:
#df.iloc[1,0]
df.iloc[1:2, 1]

b    4
Name: B, dtype: int64

## 删除一列或一行：drop 函式

    DataFrame.drop(labels=None, axis=0, index=None, columns=None, inplace=False)
    
參數說明：
* labels：要刪除的列或行的名稱
* axis：預設為 0，表示刪除列(row)，若要刪除行(column)，要設定 axis=1
* index：指定要刪除的列
* columns：指定要刪除的行
* inplace：預設為 False，表示不會改變原 Dataframe 資料；True 則會直接在原 DataFrame 進行刪除動作

In [5]:
# 刪除 a 列
#df.drop(['a'])  #inplace 預設為 False，未影響原資料
#df.drop(['a'], inplace=True)  #直接刪除原資料
df.drop(index=['b', 'c'])  

Unnamed: 0,A,B,C
a,0,1,2.0
d,9,10,11.0
e,NaT,13,14.0


In [6]:
# 刪除 A & B 行
#df.drop(['A', 'B'], axis=1)
df.drop(columns=['C'])  #使用 columns 參數指定，無需再設定 axis 參數

Unnamed: 0,A,B
a,0,1
b,3,4
c,,7
d,9,10
e,NaT,13


## 空值或缺失值處理

在 pandas 中空值為 ""；在 dataframe 中缺失值為 nan 或 naT (缺失時間)；在 series 中缺失值為 none 或 nan

相關函式：
* df.dropna()：刪除含有空值或缺失值的列或行
* df.fillna()：填充缺失值
* df.isna()：判斷是否為缺失值
* df.isnull()：判斷是否為缺失值，與 isna 相同，建議使用 isna

In [7]:
#df.dropna()  #刪除含有空值或缺失值的列
df.dropna(axis=1)  #刪除含有空值或缺失值的行

Unnamed: 0,B
a,1
b,4
c,7
d,10
e,13


In [8]:
df.fillna(value='0')  #用 0 填充缺失值

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,0
c,0,7,8
d,9,10,11
e,0,13,14


In [9]:
df.isna()

Unnamed: 0,A,B,C
a,False,False,False
b,False,False,True
c,True,False,False
d,False,False,False
e,True,False,False


## DataFrame 合併

In [4]:
df1 = pd.DataFrame([[11,12,13],
                   [14,15,16],
                   [17,18,19],
                   [20,21,22]],index=list('abcd'),columns=list('ABC'))
df1

Unnamed: 0,A,B,C
a,11,12,13
b,14,15,16
c,17,18,19
d,20,21,22


In [8]:
result = pd.concat([df, df1], ignore_index=True)  # 合併後忽略原有的索引 index
result

Unnamed: 0,A,B,C
0,0,1,2.0
1,3,4,
2,,7,8.0
3,9,10,11.0
4,NaT,13,14.0
5,11,12,13.0
6,14,15,16.0
7,17,18,19.0
8,20,21,22.0
