## DataFrame物件的操作

大家最常使用excel的功能是甚麼呢? 在這個部分我們將會教大家一些好用的函數跟方法讓大家可以快速地在python上也可以操作表格資料唷。

- ### 使用dataframe的索引

在numpy套件裡面我們已經看過索引的用法，同樣地在pandas套件中我們也可以用類似的方法取出部分資料或元素。(將pandas的dataframe想像成二維陣列即可)


比較需要注意的是，在pandas中有兩種索引方式，分別為.iloc與.loc兩種方法，若不注意的話可能會取到錯誤的元素。讓我們使用下面的範例來了解這兩種方法的使用差異吧。

在pandas中，iloc的使用方式與numpy的索引方式相同，比較容易搞錯的地方是由於它後面接的是中括號而不是小括號

In [5]:
import pandas as pd
# import 上層目錄下的 .py 檔
import sys
sys.path.append("..")
# 除了pandas之外，也從自己寫好的utils.py檔案中載入一些自定義函數幫助我們產生資料
from common.utils import *

In [6]:
# 產生範例的資料集
dataset = CreateDataSet(4)
df = pd.DataFrame(data=dataset,
                  columns=['State', 'Status', 'CustomerCount', 'StatusDate'])
# 挑選df中第一列第一欄的資料
df.iloc[0, 0]

'GA'

In [7]:
# 挑選df中第一欄的所有資料
df.iloc[:, 0]

0      GA
1      FL
2      fl
3      FL
4      GA
       ..
831    NY
832    TX
833    TX
834    GA
835    FL
Name: State, Length: 836, dtype: object

In [8]:
# 挑選df中第一列的所有資料
df.iloc[0]

State                             GA
Status                             1
CustomerCount                    877
StatusDate       2009-01-05 00:00:00
Name: 0, dtype: object

.loc與 .iloc 的差異在於.iloc接受的是數值索引，而.loc的方法則接受的是列的索引與欄位名稱。同樣地，使用.loc時後方要加的是中括號而非小括號。

In [9]:
# 挑選index為0且欄位為State的資料
df.loc[0, 'State']

'GA'

In [10]:
# 挑選index為0的所有欄位資料
df.loc[0, :]

State                             GA
Status                             1
CustomerCount                    877
StatusDate       2009-01-05 00:00:00
Name: 0, dtype: object

In [11]:
# 挑選index為0的所有欄位資料，與上面的程式碼結果相同
df.loc[0]

State                             GA
Status                             1
CustomerCount                    877
StatusDate       2009-01-05 00:00:00
Name: 0, dtype: object

In [12]:
# 挑選index為1或5且從State 到CustomerCount 的資料
df.loc[[1, 5], 'State':'CustomerCount']

Unnamed: 0,State,Status,CustomerCount
1,FL,1,901
5,FL,2,706


- ### 挑選特定欄位之資料

在Pandas內還有最後一種使用中括號的方式，功能是取得資料中的特定欄位資料。以下我們試著使用看看。

In [None]:
# 挑選State欄位的資料，將會回傳Series類型的物件
df['State']

In [None]:
# 此種方式亦同樣可以挑選State欄位資料，並以Series類型回傳
df.State

In [None]:
# 挑選State欄位的資料，但會回傳DataFrame類型的物件
df[['State']]

In [None]:
df[['State']].shape

In [None]:
# 挑選State與 StatusDate兩欄位的資料
df[['State', 'Status']]

In [None]:
df[['State', 'Status']].shape

有沒有一種被上面的各種用法搞糊塗了呢，沒關係，在這邊我們幫大家整理一下這幾種用法的差異

用法          |  說明
-----------------|-----------
df.iloc \[0, 0\]    | 選取第一欄位資料
df.loc \[0, 'Age'\] | 選取列索引為0且欄位為年齡的資料
df\[ 'Age' \] 或 df.Age | 選取年齡欄位的資料\(pb.Serries 型態\)
df\[\[ 'Age' \]\] | 選取年齡欄位的資料\( pb.DataFrame 型態\)
