# pandas-基本功能

## 簡介

Fast, flexible, and expressive data structures designed to make working with “relational” or “labeled” data both easy and intuitive.
  
Ordered and unordered variable time series data → Series (1D)  
Tabular data with heterogeneously-typed columns: SQL table or Excel spreadsheet → DataFrame (2D)  

## 教學目標
這份教學的目標是介紹基本的 pandas 功能，並學習快速操作大量的資料。

## 適用對象
適用於有程式基礎，且擁有 python 和 numpy 基礎的人。

## 大綱
- [Series](#Series)
- [Dataframe](#Dataframe)

## 執行方法
在 Jupyter notebook 中，選取想要執行的區塊後，使用以下其中一種方法執行
- 上方工具列中，按下 `Cell` &lt; `Run Cells` 執行
- 使用快捷鍵 `Shift` + `Enter` 執行

## 編輯時間
[ProFatXuanAll](https://github.com/ProFatXuanAll) 最後編輯於 *2019/08/06* (yyyy/mm/dd)

In [1]:
import numpy as np
import pandas as pd

# Series
可以包含不同的資料型態

- 宣告
- 資料取值

In [5]:
a = pd.Series([1,2,3,"h"], index=['a','b','c','d']) # 宣告 以 integer 作為 index 的 Series
print(a)                                  # 輸出 a 的所有內容

# indexing
print(a[0])                               # 輸出 a 中的第 0 個位置的資料 1
print(a[:2])                              # 輸出位置 0,1 但是不含 2 的資料

a    1
b    2
c    3
d    h
dtype: object
1
a    1
b    2
dtype: object


# DataFrame
可以包含不同的資料型態

- 宣告
- 資料取值
- 基本運算

In [4]:
# 宣告 date index
dates = pd.date_range('20190805', periods = 6) # 產生以 20190805 為開頭，長度為 6 的 date index
print(dates)                                   # 輸出 date

# 宣告 以 date 為 index, list('ABCD') 為 column, 數值為隨機產生, 一個 6 X 4 的 DataFrame
df = pd.DataFrame(np.random.randn(6, 4), index = dates, columns = list('ABCD'))
print(df)

# 宣告一個 index, column, data 自行定義的 DataFrame
df2 = pd.DataFrame({ 'A' : 1.,
                     'B' : pd.Timestamp('20130102'),
                     'C' : pd.Series(1, index=list(range(4)), dtype='float32'),
                     'D' : np.array([3] * 4, dtype='int32'),
                     'E' : pd.Categorical(["test", "train", "test", "train"]),
                     'F' : 'foo' })
print(df2)        # 輸出 df2 的內容
print(df2.dtypes) # 輸出 df2 的 data types

DatetimeIndex(['2019-08-05', '2019-08-06', '2019-08-07', '2019-08-08',
               '2019-08-09', '2019-08-10'],
              dtype='datetime64[ns]', freq='D')
                   A         B         C         D
2019-08-05  0.837503  0.461914 -0.664254  1.515654
2019-08-06 -0.782314 -0.532122  0.520739 -1.217438
2019-08-07  1.901005  0.485781 -1.428456 -0.435832
2019-08-08  0.771239 -0.549041 -0.851857 -0.992187
2019-08-09  0.446356  1.247024  1.147238 -0.878580
2019-08-10 -0.186424 -2.280903  0.654691 -0.663974
     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo
A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object


In [14]:
# 檔案下載網址 (資料集: 台南觀測站六月氣象觀測資料報表):
# https://e-service.cwb.gov.tw/HistoryDataQuery/MonthDataController.do?command=viewMain&station=467410&stname=%25E8%2587%25BA%25E5%258D%2597&datepicker=2019-06#
# 將檔案放置於 course_material 資料夾底下，並命名為 data.csv，供之後練習用

# 讀取 csv 檔案做為 DataFrame
data = pd.read_csv("data.csv", index_col="ObsTime", usecols=["ObsTime","Temperature","T Max","T Min", "Precp"])
print(data) # 輸出 a 所有資料

         Temperature  T Max  T Min  Precp
ObsTime                                  
1               28.9   32.2   26.0    2.5
2               29.6   33.0   27.2    2.0
3               30.1   33.6   27.9    0.0
4               27.8   30.6   25.2   19.5
5               29.8   33.7   26.2    0.0
6               30.6   34.1   27.6    0.0
7               30.5   33.6   28.3    0.0
8               30.3   33.5   28.1    0.0
9               30.0   34.2   27.6    1.5
10              28.2   33.7   24.5   17.5
11              26.7   28.6   25.2  114.0
12              27.2   30.5   24.6   36.0
13              28.4   33.1   26.1   17.5
14              27.8   30.9   26.1   24.5
15              28.6   33.1   25.1    0.0
16              29.1   32.5   26.6    0.0
17              30.2   33.7   26.7    0.0
18              31.2   34.6   28.1    0.0
19              30.9   33.9   28.6    0.0
20              30.7   34.0   28.6    0.0
21              30.7   34.0   28.2    0.0
22              30.8   34.4   28.6

In [3]:
# 資料取值

print(data.head())   # 取得前 5 筆資料
print(data.tail(3))  # 取得後 3 筆資料

print(data[26:])     # 取得第 26 筆之後的資料
print(data[:5])      # 取得第 0 至第 4 (不包含第 5 筆) 筆的資料
print(data[5:10])    # 取得第 5 至第 9 (不包含第 10 筆) 筆的資料

         Temperature  T Max  T Min  Precp
ObsTime                                  
1               28.9   32.2   26.0    2.5
2               29.6   33.0   27.2    2.0
3               30.1   33.6   27.9    0.0
4               27.8   30.6   25.2   19.5
5               29.8   33.7   26.2    0.0
         Temperature  T Max  T Min  Precp
ObsTime                                  
28              30.2   33.9   27.0    0.0
29              30.0   32.9   28.0    0.0
30              30.8   33.7   28.1    0.0
         Temperature  T Max  T Min  Precp
ObsTime                                  
27              28.1   32.9   26.2    0.5
28              30.2   33.9   27.0    0.0
29              30.0   32.9   28.0    0.0
30              30.8   33.7   28.1    0.0
         Temperature  T Max  T Min  Precp
ObsTime                                  
1               28.9   32.2   26.0    2.5
2               29.6   33.0   27.2    2.0
3               30.1   33.6   27.9    0.0
4               27.8   30.6   25.2

In [6]:
# 依據 label 取值

print(data.loc[2])                       # 取得 index 為 2 的資料
print(data.loc[2:5, ["T Max", "T Min"]]) # 取得 index 為 2 到 5 之間，column 為 T Max 和 T Min 的資料
print(data.loc[30, "Temperature"])       # 取得 index 為 30，column 為 Temperature 的資料

Temperature    29.6
T Max          33.0
T Min          27.2
Precp           2.0
Name: 2, dtype: float64
         T Max  T Min
ObsTime              
2         33.0   27.2
3         33.6   27.9
4         30.6   25.2
5         33.7   26.2
30.8


In [7]:
# 依據位置取值

print(data.iloc[1])        # 取得第 1 筆資料
print(data.iloc[2:5, 1:3]) # 取得第 2 到 5 筆(不包含 5)，第 1 到 3 行(不包含 3)的資料
print(data.iloc[29, 0])    # 取得第 29 筆，第 0 行的資料

Temperature    29.6
T Max          33.0
T Min          27.2
Precp           2.0
Name: 2, dtype: float64
         T Max  T Min
ObsTime              
3         33.6   27.9
4         30.6   25.2
5         33.7   26.2
30.8


In [77]:
# 依據布林值取值

print(data[data.Temperature > 30.0])                              # 列出所有 Temperature > 30.0 的資料

data2 = data.copy()                                               # 複製 DataFrame
data2["test"] = ["one"]*10 + ["two"]*10 + ["three"]*10 + ["four"] # 在 data2 加上 column: test
print(data2[data2["test"].isin(["two", "four"])])                 # 列出 column 為 test，且含有 two 和 four 的資料

         Temperature  T Max  T Min Precp
ObsTime                                 
1               31.5   34.8   28.6   0.0
14              30.2   33.7   27.5   0.5
15              30.8   34.0   28.3   0.0
16              30.8   34.0   28.9   0.0
17              30.9   35.4   28.7   0.0
18              30.1   34.5   27.7  11.0
25              30.3   33.5   27.9   0.0
26              30.3   33.6   26.8  18.0
29              30.7   35.2   27.1   0.0
30              30.6   35.2   27.8     T
31              30.3   34.1   27.9   0.0
         Temperature  T Max  T Min Precp  test
ObsTime                                       
11              27.4   30.8   25.0  24.5   two
12              29.5   33.2   25.3   6.0   two
13              30.0   33.3   27.4   3.0   two
14              30.2   33.7   27.5   0.5   two
15              30.8   34.0   28.3   0.0   two
16              30.8   34.0   28.9   0.0   two
17              30.9   35.4   28.7   0.0   two
18              30.1   34.5   27.7  11.0   t

In [13]:
# 基本運算

print(data.mean())  # 取得各個 column 數值的平均數
print(data.max())   # 取得各個 column 數值的最大值
print(data.min())   # 取得各個 column 數值的最小值

print(data.add(1))  # 對每個元素進行加法
print(data.sub(10)) # 對每個元素進行減法

Temperature    29.336667
T Max          32.776667
T Min          26.753333
Precp           9.116667
dtype: float64
Temperature     31.2
T Max           34.6
T Min           28.6
Precp          114.0
dtype: float64
Temperature    26.7
T Max          28.6
T Min          24.5
Precp           0.0
dtype: float64
         Temperature  T Max  T Min  Precp
ObsTime                                  
1               29.9   33.2   27.0    3.5
2               30.6   34.0   28.2    3.0
3               31.1   34.6   28.9    1.0
4               28.8   31.6   26.2   20.5
5               30.8   34.7   27.2    1.0
6               31.6   35.1   28.6    1.0
7               31.5   34.6   29.3    1.0
8               31.3   34.5   29.1    1.0
9               31.0   35.2   28.6    2.5
10              29.2   34.7   25.5   18.5
11              27.7   29.6   26.2  115.0
12              28.2   31.5   25.6   37.0
13              29.4   34.1   27.1   18.5
14              28.8   31.9   27.1   25.5
15              29.