# Pandas - 異質性資料處理好幫手
## Pandas 有二種數據結構, 分別是Series及DataFrame, Series如同"立"起來的list結構, 而DataFrame如同電子表單(excel或mysql), 是一種二維結構


## 1. 建立

In [1]:
import pandas as pd
s = pd.Series([1,2,3,4,5])  # Series結構
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [2]:
s.values

array([1, 2, 3, 4, 5], dtype=int64)

In [3]:
s.index

RangeIndex(start=0, stop=5, step=1)

In [4]:
s = pd.Series([78, 90, 88, 60], index=["a001","a002","a003","a004"])
s

a001    78
a002    90
a003    88
a004    60
dtype: int64

In [5]:
s["a003"]

88

In [6]:
pd.isnull(s)   # 判斷是否為NaN (Not a Number)

a001    False
a002    False
a003    False
a004    False
dtype: bool

In [7]:
import pandas as pd
df1 = pd.DataFrame({'stu':['a01','a02','a03','a04','a05'],'score':[87,89,70,92,100]}) # DataFrame結構, use dict
df1

Unnamed: 0,score,stu
0,87,a01
1,89,a02
2,70,a03
3,92,a04
4,100,a05


In [8]:
df2 = pd.DataFrame({'stu':['a01','a02','a03','a04','a05'],'score':[87,89,70,92,100]}, index=['a','b','c','d','e']) # 可自訂index
df2

Unnamed: 0,score,stu
a,87,a01
b,89,a02
c,70,a03
d,92,a04
e,100,a05


In [9]:
df3 = pd.DataFrame([{'學號':'a001','分數':90},{'學號':'a002','分數':85},{'學號':'a003','分數':78}])   # JSON list
df3

Unnamed: 0,分數,學號
0,90,a001
1,85,a002
2,78,a003


## 2. 取值

In [10]:
df3['分數'] #Series  # 同 df3.分數

0    90
1    85
2    78
Name: 分數, dtype: int64

In [11]:
df3.分數

0    90
1    85
2    78
Name: 分數, dtype: int64

In [12]:
df3.學號

0    a001
1    a002
2    a003
Name: 學號, dtype: object

In [13]:
df3[['學號','分數']] # # 取得多欄位

Unnamed: 0,學號,分數
0,a001,90
1,a002,85
2,a003,78


In [14]:
df3[0:2] # 取列 : [i,j] from index i to index j

Unnamed: 0,分數,學號
0,90,a001
1,85,a002


In [15]:
df3[df3['分數']>80]  # 根據指定條件取值

Unnamed: 0,分數,學號
0,90,a001
1,85,a002


In [16]:
df3.columns  #顯示欄位

Index(['分數', '學號'], dtype='object')

In [17]:
df3.head(2)  #顯示前 n 列資料

Unnamed: 0,分數,學號
0,90,a001
1,85,a002


## 3. 新增 

In [18]:
df3['班級'] = ['四資四','二技二','四資四']  # 新增一欄
df3

Unnamed: 0,分數,學號,班級
0,90,a001,四資四
1,85,a002,二技二
2,78,a003,四資四


In [19]:
# 新增列：append DataFrame（若新增的欄位不存在，會自動新增欄位）
df3 = df3.append(pd.DataFrame([{'分數':95,'學號':'a004','班級':'二技二'}]))   # append後需要再assign
df3

Unnamed: 0,分數,學號,班級
0,90,a001,四資四
1,85,a002,二技二
2,78,a003,四資四
0,95,a004,二技二


In [20]:
# reset_index(drop=True) 表示重置index，否則index會維持新增DataFrame的index（0,1,2,3,0）
df3 = df3.append(pd.DataFrame([{'分數':95,'學號':'a005','班級':'二技二'}])).reset_index(drop=True)  
df3

Unnamed: 0,分數,學號,班級
0,90,a001,四資四
1,85,a002,二技二
2,78,a003,四資四
3,95,a004,二技二
4,95,a005,二技二


In [21]:
df3[0:2]  # 選擇前二列

Unnamed: 0,分數,學號,班級
0,90,a001,四資四
1,85,a002,二技二


In [22]:
df3[-3:]  # 選擇最後三列

Unnamed: 0,分數,學號,班級
2,78,a003,四資四
3,95,a004,二技二
4,95,a005,二技二


### 4. 修改

In [23]:
# 修改欄位名稱 : rename(columns = {舊欄位map到新欄位})
df3 = df3.rename(columns = {'分數':'國文分數'})
df3

Unnamed: 0,國文分數,學號,班級
0,90,a001,四資四
1,85,a002,二技二
2,78,a003,四資四
3,95,a004,二技二
4,95,a005,二技二


In [24]:
# 設定索引
df3.set_index('學號',inplace=True)
df3

Unnamed: 0_level_0,國文分數,班級
學號,Unnamed: 1_level_1,Unnamed: 2_level_1
a001,90,四資四
a002,85,二技二
a003,78,四資四
a004,95,二技二
a005,95,二技二


In [28]:
# 修改資料
df3.loc["a001", "國文分數"] = 100
df3

Unnamed: 0_level_0,國文分數,班級
學號,Unnamed: 1_level_1,Unnamed: 2_level_1
a001,100,四資四
a002,85,二技二
a003,78,四資四
a004,95,二技二
a005,95,二技二


### 5. 刪除

In [28]:
# 刪除欄位
del df3['班級']
df3

Unnamed: 0_level_0,國文分數
學號,Unnamed: 1_level_1
a001,100
a002,85
a003,78
a004,60
a005,95


In [29]:
df4 = pd.DataFrame([{'學號':'a001','分數':90},{'學號':'a002','分數':85},{'學號':'a003','分數':78}])   # JSON list
df4

Unnamed: 0,分數,學號
0,90,a001
1,85,a002
2,78,a003


In [30]:
# 另一種刪除欄位方法, 使用 drop 
df4 = df4.drop('分數',axis = 1) # axis = 1 表示刪除的是欄不是列
df4

Unnamed: 0,學號
0,a001
1,a002
2,a003


In [31]:
df4 = df4.drop([0,1]) # 刪除列, 使用drop(index list)
df4

Unnamed: 0,學號
2,a003


###  6. df.loc[row_indexer, column_indexer] 可取指定row, column位置資料

In [32]:
df5 = pd.DataFrame([{'學號':'a001','分數':90,'班級':'資一乙'},{'學號':'a002','分數':85,'班級':'資二乙'},{'學號':'a003','分數':78,'班級':'資三甲'}])   # JSON list
df5

Unnamed: 0,分數,學號,班級
0,90,a001,資一乙
1,85,a002,資二乙
2,78,a003,資三甲


In [33]:
df5.loc[2,'學號']

'a003'

In [34]:
df5.loc[1,'班級']='資四甲'   # 修改資料
df5

Unnamed: 0,分數,學號,班級
0,90,a001,資一乙
1,85,a002,資四甲
2,78,a003,資三甲


In [35]:
df5.loc[:,'分數']=[100, 90, 80] # 修改指定欄資料
df5

Unnamed: 0,分數,學號,班級
0,100,a001,資一乙
1,90,a002,資四甲
2,80,a003,資三甲


In [36]:
df5.loc[1,:]=[60,'a004','資一乙']
df5

Unnamed: 0,分數,學號,班級
0,100,a001,資一乙
1,60,a004,資一乙
2,80,a003,資三甲


## Pandas在清理資料上相當好用, 有許多指令可以使用, 後續課程會再介紹