LLH, 2021.03.15 @NCCU MITC

pandas 最重要的兩個資料型態: ```Series``` 與 ```Data Frame```:  
- ```Series```: 索引標籤和實際值的陣列組合 (其實就是一個字典)
- ```Data Frame```: 多個 ```Series``` 的組合

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

### 1. ```Series``` 與 ```Data Frame```: 

In [None]:
person = {'name':'Mike', 'age':21, 'nationality':'Taiwan'}

In [None]:
s = pd.Series(person)

In [None]:
type(s)

In [None]:
s['name']

In [None]:
people = {'no':[1, 2, 3, 4, 5, 6, 7], 
          'name':['Mike', 'Jason', 'Merry', 'Eric', 'Sandy', 'Bob', 'Andy'], 
          'age':[21, 30, 12, 25, 18, 32, 9], 
          'nationality':['Taiwan', 'USA', 'Japan', 'USA', 'Thailand', 'Taiwan', 'USA']}

In [None]:
df = pd.DataFrame(people)

In [None]:
df

In [None]:
type(df)

In [None]:
type(df['name'])

### 2. ```Data Frame``` 取值 (```iloc()``` 與 ```loc()```):

In [None]:
df

In [None]:
df['name'][2]

In [None]:
df.iloc[1]

In [None]:
df.iloc[[0, 2]]

In [None]:
df.loc[[0, 2], ['name', 'age']]

In [None]:
df.loc[2, 'age']

取得特定行 (<font color='blue'>column</font>)資料:

In [None]:
df['name'] # same as df.name

### 3. 設定 ```Data Frame``` 編號

In [None]:
df

In [None]:
df.set_index('no')

更改 index 後再查看一次 ```df```，發現資料並沒有被更新。  
原因是資料實際上沒有被更改，如果希望永久更改 ```df```，則要把 ```inplace``` 參數設為 ```True```

若想將 index 恢復原狀，則可以用 ```.reset_index()```，一樣要記得提供 ```inplace``` 參數

查看 ```Data Frame``` 的 index 與 columns:

In [None]:
df.index

In [None]:
df.columns

### 4. 增加資料至 ```Data Frame```

In [None]:
df['job'] = ['teacher', 'engineer', 'lawyer', 'soldier', 'doctor', 'teaher', 'student']

In [None]:
df

### 5. ```value_count()``` 與 ```value_counts()```

In [None]:
df

In [None]:
df['nationality'].value_counts()

### 6. 與 conditional operator 結合: $&, |, ~, >, <$

In [None]:
df['age'] > 20

In [None]:
filt = df['age'] > 20

In [None]:
type(filt)

In [None]:
df[filt]

In [None]:
df.loc[filt, 'job']

In [None]:
filt2 = (df['age'] > 20) & (df['nationality'] != 'Taiwan')

In [None]:
df[filt2]

### 7. 引入外部資料

上面的例子是我們手動輸入資料並產生 ```Data Frame```      
但大多時候我們有現成的資料

用 ```pandas``` 做股票分析 (資料: ```2330.TW.csv```)

In [None]:
ls

In [None]:
ohlcv = pd.read_csv(r"C:\Users\User\MITC_lecture_notes\2021.03.15\2330.TW.csv")

In [None]:
ohlcv

有時我們只需要知道資料是完整的，不用把所有資料列出來，此時可以用 ```df.head()```

刪除不必要的 columns: ```del```

In [None]:
del ohlcv['Close']

查看資料的各種統計量: ```df.describe()```

In [None]:
ohlcv['Adj Close'].mean()

In [None]:
ohlcv['Adj Close'].std() 

In [None]:
ohlcv.sort_values(by='Volume', ascending=False)

#### MACD (Moving Average Convergence Divergence)

$MACD\ line = EMA_{26} - EMA_{12}$  
$Signal\ line = Moving\ Average\ of\ MACD_{9}$
    
Basic Strategy:   
- 黃金交叉: 當 $MACD$ 由下往上穿越 $Signal\ line$，代表多頭形成  
- 死亡交叉: 當 $MACD$ 由上往下穿越 $Signal\ line$，代表空頭形成

In [None]:
df = ohlcv.copy() # 複製一份資料，並在複製的那份作操作

In [None]:
# calculate 12 days' EMA, if total day is less than 12, the value will all be NaN
df["MA_Fast"] = df["Adj Close"].ewm(span=12, min_periods=12).mean() 
df["MA_Slow"] = df["Adj Close"].ewm(span=26, min_periods=26).mean() 

In [None]:
df["MACD"] = df["MA_Fast"] - df["MA_Slow"]
df["Signal"] = df["MACD"].ewm(span=9, min_periods=9).mean()

在處理每個 ```Data Frame``` 時，都要注意是否有某些資料點缺失。

In [None]:
df.dropna()

包裝成一個 function:

In [None]:
def MACD(DF, a, b, c): # a, b, c is the custom parameters
    df = DF.copy()
    df["MA_Fast"] = df["Adj Close"].ewm(span=a, min_periods=a).mean()
    df["MA_Slow"] = df["Adj Close"].ewm(span=b, min_periods=b).mean()
    df["MACD"] = df["MA_Fast"] - df["MA_Slow"]
    df["Signal"] = df["MACD"].ewm(span=c, min_periods=c).mean()
    df.dropna()
    return df

將資料視覺化，看看成果如何

In [None]:
macd = MACD(df, 12, 26, 9)

In [None]:
macd

In [None]:
macd.iloc[:, [8, 9]]

In [None]:
macd.iloc[:, [8, 9]].plot()

In [None]:
fig = plt.figure(figsize=[7, 7])

ax0 = fig.add_subplot(211)
ax0.plot(macd['Adj Close'], color='blue', label='Stock price of 2330.TW')

ax0.legend(loc='best')

ax1 = fig.add_subplot(212)
ax1.plot(macd['MACD'], color='green', label='MACD line')
ax1.plot(macd['Signal'], color='red', label='Signal line')

ax1.legend(loc='best')

### 7. 將 ```Data Frame``` 存入本地端

In [None]:
macd.to_csv("macd_2330")

In [None]:
ls

### 8. 課堂練習:

a. ```country_vaccinations.csv``` ([資料來源](https://www.kaggle.com/gpreda/covid-world-vaccination-progress)) 是各國 COVID-19 疫苗每日施打狀況的統計，你可以:  
1. 找出日本的每日疫苗施打數並將圖畫出來
2. 統計出各公司生產的疫苗的市占率 

b. 更多指標! [On Balance Volume (OBV)](https://www.moneydj.com/kmdj/wiki/wikiviewer.aspx?keyid=1caf93e4-a640-422a-8db1-d20574d9f163)  
- 上升中的 OBV 代表未來股價可能上升，反之亦然。    
- OBV 公式:  
    - 如果今天收盤價 > 昨日收盤價: 今日 OBV = 昨日 OBV + 今日交易量 (volume)
    - 如果今天收盤價 < 昨日收盤價: 今日 OBV = 昨日 OBV - 今日交易量 (volume)
    - 如果今天收盤價 = 昨日收盤價: 今日 OBV = 昨日 OBV  
---
用同樣的 ```2330.TW.csv``` 檔案，你可以幫忙算出 OBV 值嗎?