## $\Large{Pandas\; Tutorial\; (part1)}$

在所有資料當中，大家最熟悉的應該就是表格類型的資料了。平時我們可能習慣以Excel等試算表工具開啟表格資料並且進行操作、運算、以及製作統計圖表，然而在Python中也有一個非常好用的套件「Pandas」可以協助我們處理表格型的資料，它會將表格資料以pd.DataFrame 或是 pd.Series 兩種物件類型儲存，值得一提的是這兩個物件類型底層其實也是numpy的array型態，因此先前在Numpy所使用的函數也有許多可以直接無痛應用在pandas的物件類型上。接下來就讓我們來使用看看Pandas套件的功能吧。

## [Panda官方手冊](https://pandas.pydata.org/pandas-docs/stable/#0)

### 本章節內容大綱
* [DataFrame物件的建立、讀取、與儲存](#DataFrame物件的建立、讀取、與儲存)
    - [使用list建立dataframe](#使用list建立dataframe)
    - [使用dict建立dataframe](#使用dict建立dataframe)
    - [將資料儲存成csv檔案](#將資料儲存成csv檔案)
    - [讀取外部csv檔案為dataframe](#讀取外部csv檔案為dataframe)
* [DataFrame物件的常用屬性與方法](#DataFrame物件的常用屬性和方法)
    - [觀察資料](#觀察資料)
    - [欄位資料型態與描述](#欄位資料型態與描述)
* [DataFrame物件的操作](#DataFrame物件的操作)
    - [使用dataframe的索引](#使用dataframe的索引)
    - [挑選特定欄位之資料](#挑選特定欄位之資料)
    - [篩選資料](#篩選資料)
    - [對欄位進行排序](#對欄位進行排序)
    - [增加與刪除欄位](#增加與刪除欄位)
    - [合併多個dataframe](#合併多個dataframe)

## 載入套件

In [None]:
import pandas as pd

# 除了pandas之外，也從自己寫好的utils.py檔案中載入一些自定義函數幫助我們產生資料
!gdown "https://drive.google.com/uc?export=download&confirm=no_antivirus&id=1Lu9SOxTKimEW-KNFqPqWuqQcBpWQDo78"  # upload utils.py
from utils import *

<a name="DataFrame物件的建立、讀取、與儲存"></a>
## DataFrame物件的建立、讀取、與儲存

使用pandas建立一個表格資料並不困難，我們只需要提供資料內容以及欄位的名稱即可。最常見的是用列表(list)或是字典(dictionary)提供我們的資料給pandas。

<a name="使用list建立dataframe"></a>
- ### 使用list建立dataframe

In [None]:
# 假設我們想要建立一個包含嬰兒姓名與出生天數的表格資料，我們先以列表的方式手動輸入這些資料
names = ['Bob', 'Jessica', 'Mary', 'John', 'Mel', 'Jim']
births = [968, 155, 77, 578, 973, 968]

# 將兩個列表內的元素一對一的合併起來，再用一個list包住它
BabyDataSet = list(zip(names, births))

# 看一下做完的資料長怎麼樣
print(BabyDataSet)

# 將BabyDataSet這個列表轉換成dataframe，除了提供資料之外我們也用列表的方式提供欄位的名稱
df = pd.DataFrame(data=BabyDataSet, columns=['Names', 'Births'])
df

<a name="使用dict建立dataframe"></a>
- ### 使用dict建立dataframe

In [None]:
# 使用字典將資料先整理好，Key將會被當作欄位名稱，相對應的value則會被轉換成欄位的資料
BabyDataSet = {
    'names': ['Bob', 'Jessica', 'Mary', 'John', 'Mel'],
    'births': [968, 155, 77, 578, 973]
}

# 將BabyDataSet轉換為dataframe形式，此時我們就不需要額外給予欄位名稱
df = pd.DataFrame(data=BabyDataSet)
df

<a name="將資料儲存成csv檔案"></a>
- ### 將資料儲存成csv檔案

In [None]:
# 使用to_csv的方法將上面的dataframe存成csv檔案，只需要提供檔案路徑即可
df.to_csv("birth_data.csv")

<a name="讀取外部csv檔案為dataframe"></a>
- ### 讀取外部csv檔案為dataframe

In [None]:
# 將剛剛存好的csv檔案再一次讀取進python並同樣命名為df
df = pd.read_csv("birth_data.csv", index_col=0)

In [None]:
df

雖然csv格式是在做資料科學時最常見到的檔案之一，但除了csv檔案外，Pandas也支援讀取或儲存其他各式各樣的檔案格式，若有興趣或您手上的資料並非csv檔案的話可以參考看看官方文件中關於這部分所提供的功能喔。

- [官方文件連結](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

---
<a name="DataFrame物件的常用屬性和方法"></a>
## DataFrame物件的常用屬性和方法

還是覺得Excel呈現的資訊比較豐富嗎?別擔心，pandas的DataFrame物件也提供許多方便的方法讓我們可以觀察以及了解資料，第二部分就讓我們來看一下一些最基本的方法吧。

<a name="觀察資料"></a>
- ### 觀察資料

當我們手上拿到資料後，首先當然是需要看表格內到底有甚麼欄位、以及資料大概的樣子。但如果資料很大的話要呈現所有資料不僅費時又很容易眼花撩亂，因此通常我們會只看前幾筆資料或是隨機看幾筆資料，在Pandas中我們可以輕易的使用.head()、.tail()、以及.sample()等方式只抽出幾筆資料做觀察。

In [None]:
# 產生範例的資料集
dataset = CreateDataSet(4)
df = pd.DataFrame(data=dataset, columns=['State', 'Status', 'CustomerCount', 'StatusDate'])

In [None]:
# 使用.head(n=10)的方法觀察前10筆資料，若不輸入n則預設呈現前五筆資料
df.head(n=10)

可以看到資料內總共有4個欄位，分別為State、Status、CustomerCount、StatusDate，不同的欄位似乎有不同的資料類型(數字、文字、日期)。

另外最前面沒有欄位名稱的部分在Pandas被稱為index(索引)，在沒有指定索引的狀況下會自動由0開始作編號，由於我們呈現的是前10筆資料，因此索引值為0到9。然而除了用數字之外列索引也可以是字串甚至是時間類型的格式。

In [None]:
# 使用.sample(n=6)的方法隨機抽出6筆資料
# 可以看到是隨機抽出的資料，因此索引的順序是亂的
df.sample(n=6)

<a name="欄位資料型態與描述"></a>
- ### 欄位資料型態與描述

除了直接觀察資料之外，也可以用一些簡單的方法取得資料筆數、欄位名稱、欄位描述等資訊。

In [None]:
# 透過.shape屬性得到資料筆數與欄位數量，大家應該可以發現到這與numpy的使用方式非常類似
# 可以發現這份資料包含836筆觀察值與4個欄位
shape = df.shape
print(shape, end='\n\n')


# .columns屬性可以回傳表格資料內的欄位名稱
# 這份資料的欄位名稱分別為State、Status、CustomerCount、StatusDate
columns = df.columns
print(columns, end='\n\n')


# .index屬性可以回傳表格資料內的列索引
# 在這份資料中的列索引是從0到835的數值索引
index_ = df.index
print(index_, end='\n\n')


# .dtypes屬性顯示的是各個欄位的資料型態
dtypes = df.dtypes
print(dtypes, end='\n\n')


# 利用.info()方法可以知道表格資料各欄位的數量、資料型態、以及記憶體使用量
info = df.info()
print(info, end='\n\n')

在這份資料中，共有一個時間型態的欄位、兩個整數類型的欄位、以及一個物件類型的欄位。然而不同資料型態之間又有甚麼差異呢?讓我們用以下的表格來幫大家整理吧。

<img src="https://drive.google.com/uc?export=view&id=1YJqGOWJvKd9WENQKFJcyEUgko6hoCzhI"/>

---
<a name="DataFrame物件的操作"></a>
## DataFrame物件的操作

大家最常使用excel的功能是甚麼呢? 在這個部分我們將會教大家一些好用的函數跟方法讓大家可以快速地在python上也可以操作表格資料唷。

<a name="使用dataframe的索引"></a>
- ### 使用dataframe的索引

在numpy套件裡面我們已經看過索引的用法，同樣地在pandas套件中我們也可以用類似的方法取出部分資料或元素。(將pandas的dataframe想像成二維陣列即可)


比較需要注意的是，在pandas中有兩種索引方式，分別為.iloc與.loc兩種方法，若不注意的話可能會取到錯誤的元素。讓我們使用下面的範例來了解這兩種方法的使用差異吧。

#### .iloc 的使用  <img src="https://drive.google.com/uc?export=view&id=1abKmdbGQ6WvAt_8t8ulTu2n0nnH2WXto" width=300/>
在pandas中，iloc的使用方式與numpy的索引方式相同，比較容易搞錯的地方是由於它後面接的是中括號而不是小括號

In [None]:
# 挑選df中第一列第一欄的資料
df.iloc[0, 0]

In [None]:
# 挑選df中第一欄的所有資料
df.iloc[:, 0]

In [None]:
# 挑選df中第一列的所有資料
df.iloc[0]

####  .loc 的使用  <img src="https://drive.google.com/uc?export=view&id=13rVenVBVinyNL_M8qo7bMJpfeVs7dr3H" width=300/>
.loc與 .iloc 的差異在於.iloc接受的是數值索引，而.loc的方法則接受的是列的索引與欄位名稱。同樣地，使用.loc時後方要加的是中括號而非小括號。

In [None]:
# 挑選index為0且欄位為State的資料
df.loc[0, 'State']

In [None]:
# 挑選index為0的所有欄位資料
df.loc[0, :]

In [None]:
# 挑選index為0的所有欄位資料，與上面的程式碼結果相同
df.loc[0]

In [None]:
# 挑選index為1或5且從State 到CustomerCount 的資料
df.loc[[1, 5], 'State':'CustomerCount']

<a name="挑選特定欄位之資料"></a>
- ### 挑選特定欄位之資料

在Pandas內還有最後一種使用中括號的方式，功能是取得資料中的特定欄位資料。以下我們試著使用看看。

In [None]:
# 挑選State欄位的資料，將會回傳Series類型的物件
df['State']

In [None]:
# 此種方式亦同樣可以挑選State欄位資料，並以Series類型回傳
df.State

In [None]:
df.State.shape

In [None]:
# 挑選State欄位的資料，但會回傳DataFrame類型的物件
df[['State']]

In [None]:
df[['State']].shape

In [None]:
# 挑選State與 StatusDate兩欄位的資料
df[['State', 'Status']]

In [None]:
df[['State', 'Status']].shape

有沒有一種被上面的各種用法搞糊塗了呢，沒關係，在這邊我們幫大家整理一下這幾種用法的差異

<img src="https://drive.google.com/uc?export=view&id=1PNTYXJmFLxKuBEax3tbmmLzl4Ma92MHI" width = 500/>

<a name="篩選資料"></a>
- ### 篩選資料

雖然上述的方法可以快速地幫我們挑選資料，但更多時候我們想要篩選的是符合特定規則的資料，例如在成績紀錄內只篩選出期中考不及格的同學們。遇到這種狀況的時候我們可以使用和numpy很類似的用法。

In [None]:
# 設定篩選的條件，在此判斷是否State欄位的數值為FL
condition = (df.State == 'FL')

# 印出篩選條件看看，會發現這是一連串布林值
print(condition.head())

In [None]:
# 將condition放入loc中篩選判斷值為True的資料，且只呈現前十筆
df.loc[condition].head(n=10)

In [None]:
df.loc[(df.State == 'FL') & (df['Status'] == 3)].head(n=10)

In [None]:
df.loc[df.Status.isin([1, 2])].head(n=10)

In [None]:
# 設定篩選的條件，在此判斷是否State欄位的數值為FL
condition = (df.State == 'FL')

# 印出篩選條件看看，會發現這是一連串布林值
print(condition.head())

# 將condition放入loc中篩選判斷值為True的資料，且只呈現前十筆
df.loc[condition].head(n=10)

# 我們也可以做比較複雜的條件判斷並一次將篩選條件寫在內
# 同時挑選State為FL且Status為3的資料，並只呈現前十筆
df.loc[(df.State == 'FL') & (df['Status'] == 3)].head(n=10)

# 如果需要在某個欄位內挑選符合多個可能性的數值，可以使用.isin()這個方法
# 挑選Status為1或2的資料，並只呈現前十筆
df.loc[df.Status.isin([1, 2])].head(n=10)

<a name="對欄位進行排序"></a>
- ### 對欄位進行排序

在Excel中大家最常用到的功能之一就是排序了，在pandas中我們也可以輕易地做到這件事情。

In [None]:
df.sort_values(by='CustomerCount').head(10)

In [None]:
df.sort_values('Status', ascending=False)

In [None]:
df.sort_values(by=['State', 'CustomerCount']).head(10)

In [None]:
# 以CustomerCount欄位的數值做排序，並呈現前10筆資料。預設會由小到大做排序
df.sort_values(by='CustomerCount').head(10)

# 依照Status欄位並且以降冪方式排序
df.sort_values('Status', ascending=False)

# 依照State與CustomerCount排序，並呈現前10筆資料
df.sort_values(by=['State', 'CustomerCount']).head(10)

<a name="增加與刪除欄位"></a>
- ### 增加與刪除欄位

我們可以使用下面的方法在一個dataframe中增加或減少欄位。

In [None]:
df = pd.DataFrame(data={'name': ['Abby', 'Bob', 'Chris']})
df

In [None]:
# 建立一個dataframe，裡面只有name這個欄位
df = pd.DataFrame(data={'name': ['Abby', 'Bob', 'Chris']})

# 多建一個Age欄位並填入資料
df['Age'] = [20, 15, 28]

# 在建立一個欄位greater_than_18判斷是否年齡大於18歲
df['greater_than_18'] = df['Age'] > 18

# 將df印出看看結果是甚麼
df

In [None]:
df.drop(columns='greater_than_18')

In [None]:
print(df.columns)

In [None]:
# 刪除df中的greater_than_18欄位，將會回傳刪掉此欄位的dataframe出來
df.drop(columns='greater_than_18')

# 若沒有把上面的結果存下來，df這個dataframe仍然會有兩個欄位
print(df.columns)

# 如果我們想要在刪除欄位後不回傳任何東西，而是直接將結果存入原本的變數中，可以使用inplace這個參數
df.drop(columns='greater_than_18', inplace=True)

# 看看設定inplace=True後資料是不是就少了這個欄位了
print(df.columns)

<a name="合併多個dataframe"></a>
- ### 合併多個dataframe

如同在numpy上所遇到的事情，有時我們會需要以各種方式合併兩個或多個表格資料，針對這樣的需求Pandas提也供了各式各樣的函數，但以下我們只先針對concat與merge兩種不同的合併方式做說明。若大家對此部分的功能有興趣的話可以參考[Pandas官方文件](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)

- #### concat 功能

pd.concat函數可以把表格資料依照行或列的方式合併起來，且擁有許多參數可供彈性地調整。

In [None]:
# 產生範例資料，其中df1與df2的欄位名稱皆相同

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']}, index=[0, 1, 2, 3])


df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']}, index=[4, 5, 6, 7])

In [None]:
# 觀察df1資料
df1

In [None]:
# 觀察df2資料
df2

In [None]:
# 沿著列的方向將兩份資料合併，相同名稱的欄位將會被視為同一個欄位
result = pd.concat([df1, df2])
result

In [None]:
# 沿著列的方向將兩份資料合併，並且以keys函數新增index索引
result = pd.concat([df1, df2], keys=['dataframe1', 'dataframe2'])
result

In [None]:
# 沿著欄的方向將兩份資料合併，相同的index相會被視為同一筆資料
# 在此由於df1與df2的index數值皆不相同，因此合併後的資料會有八筆
result = pd.concat([df1, df2], axis=1)
result

#### merge功能

merge不同於concat，將會對應兩資料表中指定欄位的數值將資料作合併。例如我們分別有兩份資料表紀錄產品的價格、以及產品的製造地，我們就可以依照產品名稱這個欄位將兩份資料表合併再一起，也就可以得到製造地與價格之間的對應。此種用法與資料庫語言(SQL)的JOIN方法相同。

In [None]:
# 建立要合併的兩份資料，兩份資料在Key欄位內的數值相同，但其他欄位不同

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
left

In [None]:
right

In [None]:
# 使用pd.merge將left與right依照key欄位的數值合併起來
result = pd.merge(left, right, on='key')
result

![image](https://pandas.pydata.org/pandas-docs/stable/_images/merging_merge_on_key.png)

在上面的例子中，兩份dataframe在key欄位的數值皆相同，因此在合併上並不會有特別的問題，然而有時兩份dataframe在要合併的欄位上不會完全相同，此時資料表中不重複的部分有哪些處理方式呢?在這邊我們就來介紹幾種可能的合併方法，在pd.merge函數內可以使用how參數決定使用何種合併方法。

<img src="https://drive.google.com/uc?export=view&id=1kW5Joz7yPEhWH2rJy8fi55I-XNGNai95" width = 600/>

In [None]:
# 建立兩個datafrmae，後續會依照key1與key2將其合併

left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
left

In [None]:
right

In [None]:
# left join
# 只有左邊的dataframe擁有的欄位數值組合會保留下來

result = pd.merge(left, right, on=['key1', 'key2'], how='left')
result

![](https://pandas.pydata.org/pandas-docs/stable/_images/merging_merge_on_key_left.png)

In [None]:
# right join
# 只有右邊dataframe中出現的欄位數值組合會保留下來

result = pd.merge(left, right, how='right', on=['key1', 'key2'])
result

![](https://pandas.pydata.org/pandas-docs/stable/_images/merging_merge_on_key_right.png)

In [None]:
# inner join
# 只有兩個dataframe中共有的欄位數值組合會被保留下來

result = pd.merge(left, right, how='inner', on=['key1', 'key2'])
result

![](https://pandas.pydata.org/pandas-docs/stable/_images/merging_merge_on_key_inner.png)

In [None]:
# outer join
# 無論出現在哪一個dataframe的欄位數值組合都會被保留下來

result = pd.merge(left, right, how='outer', on=['key1', 'key2'])
result

![](https://pandas.pydata.org/pandas-docs/stable/_images/merging_merge_on_key_outer.png)

### 請參考 [100-pandas-puzzles](https://github.com/ajcr/100-pandas-puzzles/blob/master/100-pandas-puzzles.ipynb) 做更多 pandas  的資料操作練習