## $\Large{Pandas\; Tutorial\;}$

在所有資料當中，大家最熟悉的應該就是表格類型的資料了。平時我們可能習慣以Excel等試算表工具開啟表格資料並且進行操作、運算、以及製作統計圖表，然而在Python中也有一個非常好用的套件「Pandas」可以協助我們處理表格型的資料，它會將表格資料以pd.DataFrame 或是 pd.Series 兩種物件類型儲存，值得一提的是這兩個物件類型底層其實也是numpy的array型態，因此先前在Numpy所使用的函數也有許多可以直接無痛應用在pandas的物件類型上。接下來就讓我們來使用看看Pandas套件的功能吧。

## [Panda官方手冊](https://pandas.pydata.org/pandas-docs/stable/#0)

In [None]:
import pandas as pd

# 除了pandas之外，也從自己寫好的utils.py檔案中載入一些自定義函數幫助我們產生資料
from utils import *

## DataFrame物件的建立、讀取、與儲存

使用pandas建立一個表格資料並不困難，我們只需要提供資料內容以及欄位的名稱即可。最常見的是用列表(list)或是字典(dictionary)提供我們的資料給pandas。

- ### 使用list建立dataframe

In [None]:
 假設我們想要建立一個包含嬰兒姓名與出生天數的表格資料，我們先以列表的方式手動輸入這些資料
names = ['Bob', 'Jessica', 'Mary', 'John', 'Mel', 'Jim']
births = [968, 155, 77, 578, 973, 968]

# 將兩個列表內的元素一對一的合併起來，再用一個list包住它
BabyDataSet = list(zip(names, births))

# 看一下做完的資料長怎麼樣
print(BabyDataSet)

# 將BabyDataSet這個列表轉換成dataframe，除了提供資料之外我們也用列表的方式提供欄位的名稱
df = pd.DataFrame(data=BabyDataSet, columns=['Names', 'Births'])
df

- ### 使用dict建立dataframe

In [None]:
# 使用字典將資料先整理好，Key將會被當作欄位名稱，相對應的value則會被轉換成欄位的資料
BabyDataSet = {
    'names': ['Bob', 'Jessica', 'Mary', 'John', 'Mel'],
    'births': [968, 155, 77, 578, 973]
}

# 將BabyDataSet轉換為dataframe形式，此時我們就不需要額外給予欄位名稱
df = pd.DataFrame(data=BabyDataSet)
df

- ### 將資料儲存成csv檔案

In [None]:
# 使用to_csv的方法將上面的dataframe存成csv檔案，只需要提供檔案路徑即可
df.to_csv("birth_data.csv")

- ### 讀取外部csv檔案為dataframe

In [None]:
# 將剛剛存好的csv檔案再一次讀取進python並同樣命名為df
df = pd.read_csv("birth_data.csv", index_col=0)
df

雖然csv格式是在做資料科學時最常見到的檔案之一，但除了csv檔案外，Pandas也支援讀取或儲存其他各式各樣的檔案格式，若有興趣或您手上的資料並非csv檔案的話可以參考看看官方文件中關於這部分所提供的功能喔。

- [官方文件連結](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)