# pandas-基本功能

## 簡介
根據 [pandas 官方網站](https://pandas.pydata.org/)
> pandas is an open source,
> BSD-licensed library providing high-performance,
> easy-to-use data structures and data analysis tools for the Python programming language.
>
> pandas 是一個 BSD license 開源的套件，
> 提供 Python 使用者非常高效能且簡單上手的資料結構化與分析工具
>

## 教學目標
這份教學的目標是介紹基本的 pandas 功能，並學習快速操作大量的資料。

## 適用對象
適用於有程式基礎，且擁有 python 和 numpy 基礎的人。

## 大綱
- [Series](#Series)
- [DataFrame](#DataFrame)

## 下載資料
- 檔案[下載網址](https://e-service.cwb.gov.tw/HistoryDataQuery/MonthDataController.do?command=viewMain&station=467410&stname=%25E8%2587%25BA%25E5%258D%2597&datepicker=2019-06#) (資料集: 台南觀測站六月氣象觀測資料報表)
- 將檔案放置於 course_material 資料夾底下，並命名為 `data.csv`，供之後練習用

## 執行方法
在 Jupyter notebook 中，選取想要執行的區塊後，使用以下其中一種方法執行
- 上方工具列中，按下 `Cell` &lt; `Run Cells` 執行
- 使用快捷鍵 `Shift` + `Enter` 執行

## 編輯時間
[ProFatXuanAll](https://github.com/ProFatXuanAll) 最後編輯於 *2019/08/06* (yyyy/mm/dd)

In [None]:
import numpy as np
import pandas as pd

# Series
可以包含不同的資料型態

- 宣告
- 資料取值

In [None]:
# 宣告以 a, b, c, d 作為 index 的 Series
a = pd.Series([1,2,3,"h"], index=['a','b','c','d'])
print(a)

# indexing
print(a[0])                               # 輸出 a 中的第 0 個位置的資料 1
print(a[:2])                              # 輸出位置 0,1 但是不含 2 的資料

# DataFrame
可以包含不同的資料型態

- 宣告
- 資料取值
- 基本運算

In [None]:
# 宣告 date index
dates = pd.date_range('20190805', periods = 6) # 產生以 20190805 為開頭，長度為 6 的 date index
print(dates)                                   # 輸出 date

# 宣告 以 date 為 index, list('ABCD') 為 column, 數值為隨機產生, 一個 6 X 4 的 DataFrame
df = pd.DataFrame(np.random.randn(6, 4), index = dates, columns = list('ABCD'))
print(df)

# 宣告一個 index, column, data 自行定義的 DataFrame
df2 = pd.DataFrame({ 'A' : 1.,
                     'B' : pd.Timestamp('20130102'),
                     'C' : pd.Series(1, index=list(range(4)), dtype='float32'),
                     'D' : np.array([3] * 4, dtype='int32'),
                     'E' : pd.Categorical(["test", "train", "test", "train"]),
                     'F' : 'foo' })
print(df2)        # 輸出 df2 的內容
print(df2.dtypes) # 輸出 df2 的 data types

In [None]:
# 檔案下載網址 (資料集: 台南觀測站六月氣象觀測資料報表):
# https://e-service.cwb.gov.tw/HistoryDataQuery/MonthDataController.do?command=viewMain&station=467410&stname=%25E8%2587%25BA%25E5%258D%2597&datepicker=2019-06#
# 將檔案放置於 course_material 資料夾底下，並命名為 data.csv，供之後練習用

# 讀取 csv 檔案做為 DataFrame
data = pd.read_csv("data.csv", index_col="ObsTime", usecols=["ObsTime","Temperature","T Max","T Min", "Precp"])
print(data) # 輸出 a 所有資料

In [None]:
# 資料取值

print(data.head())  # 取得前 5 筆資料
print(data.tail(3)) # 取得後 3 筆資料

print(data[26:])    # 取得第 26 筆之後的資料
print(data[:5])     # 取得第 0 至第 4 (不包含第 5 筆) 筆的資料
print(data[5:10])   # 取得第 5 至第 9 (不包含第 10 筆) 筆的資料

In [None]:
# 依據 label 取值

print(data.loc[2])                       # 取得 index 為 2 的資料
print(data.loc[2:5, ["T Max", "T Min"]]) # 取得 index 為 2 到 5 之間，column 為 T Max 和 T Min 的資料
print(data.loc[30, "Temperature"])       # 取得 index 為 30，column 為 Temperature 的資料

In [None]:
# 依據位置取值

print(data.iloc[1])        # 取得第 1 筆資料
print(data.iloc[2:5, 1:3]) # 取得第 2 到 5 筆(不包含 5)，第 1 到 3 行(不包含 3)的資料
print(data.iloc[29, 0])    # 取得第 29 筆，第 0 行的資料

In [None]:
# 依據布林值取值

print(data[data.Temperature > 30.0])                   # 列出所有 Temperature > 30.0 的資料

data2 = data.copy()                                    # 複製 DataFrame
data2["test"] = ["one"]*10 + ["two"]*10 + ["three"]*10 # 在 data2 加上 column: test
print(data2[data2["test"].isin(["one", "three"])])     # 列出 column 為 test，且含有 one 和 three 的資料

In [None]:
# 基本運算

print(data.mean())  # 取得各個 column 數值的平均數
print(data.max())   # 取得各個 column 數值的最大值
print(data.min())   # 取得各個 column 數值的最小值

print(data.add(1))  # 對每個元素進行加法
print(data.sub(10)) # 對每個元素進行減法