# 臺北午後雷陣雨預報系統 V1.0

###### 筆者: 中央大氣 109級 鄭中嘉
###### 聯絡信箱: ratherman5796@gmail.com

## 更新情況:
* 2020/ 09/ 26 初版製成
* ...
* 2020/ 11/ 17 預計 V1.1 製成時間

## 前言:
當時修了周哲維老師的天氣與人工智慧時，老師提了這個有趣的題目出來，原本希望在畢業前能做出個成果，希望可以畫下一個完整的標點符號，結果...反正就到現在才有一個初版，而且這個還是未完待續的逗點，而非當初想像的句點，日後繼續更新!

另外，下面有提到的一些 code 是真的寫得蠻簡陋的，但總之勉強還堪用。
完整的 code 放在 Github 上，可以 clone 下來 run 看看。

## 流程:
1. 研究概述
2. 資料取得
3. 合併資料
4. 機器學習
5. 未來目標
6. 參考連結

# **1. 研究概述**

### **背景**
午後雷陣雨在夏季的臺北算是一個常見的天氣型態，不過因為午後雷陣雨是個短時間內就會生成的天氣系統，所以天氣預報上並沒有辦法很準確的去預報中午過後會不會有午後雷陣雨發生。目前氣象局方面有的對案是利用 [大台北午後對流檢查表](https://watch.ncdr.nat.gov.tw/watch_ntp) 等機制做到預判，其機制是根據「模糊邏輯」而設計出來的。有興趣的話可以參考[這篇論文](http://mopl.as.ntu.edu.tw/web/ASJ/40/40-1-4.pdf)。

### **在這個 Notebook 嘗試想要做到的事情是，透過機器學習的方式做到預報。**
目標取得的(歷史/即時)資料，包含板橋的**探空資料**以及板橋的**地面觀測資料**。
* 板橋探空資料取得點，[這裡](http://weather.uwyo.edu/upperair/sounding.html)。
 * 目前 板橋測站(58968) 資料有到 2019 年，2020 似乎就沒有了..
 * 無關的歷史: 這是大二的時候，王國英老師在程繪課提供給我們的資料來源。那時候我們使用 Fortran + [NCAR Graphics](http://ngwww.ucar.edu/) 繪圖 ^_^。 
* 板橋地面觀測資料取得點，[這裡](https://e-service.cwb.gov.tw/HistoryDataQuery/index.jsp)。
 * 使用其 **日報表**。


# **2. 資料取得**
* 探空資料: 利用 pandas read_csv 爬資料，parse 出目標資訊後，再依照日期命名儲存成一個csv檔。
* 地面測站資料: 在 Github 上找到專門爬觀測資料查詢系統的 project，直接clone下來做使用，點[此連結](https://github.com/s3131212/CWB-Observation-Crawler)，以了解更多。這個人真的很厲害!


### **CODE01: 取得探空資料**


In [None]:
import pandas as pd # 會用 pandas 爬資料
import time # 擔心爬蟲爬的太頻繁，被網站封鎖，但好像不管多頻繁都沒有被鎖。

In [None]:
# input YEAR, MONTH, DAY 。觀察 uwyo sounding data 網址構成，發現其實會變動的只有 YEAR, MONTH, DAY，所以它們三個就做為 input 參數
# output: data, base_url, boolean， 其中的 boolean 會告訴我們目標網址有沒有該資料，如果是 False 那就跳過這天，去爬下一天。

def get_station_data(YEAR, MONTH, DAY):
    time.sleep(0.1) # 這邊可以控制爬蟲的頻率
    base_url = f"http://weather.uwyo.edu/cgi-bin/sounding?region=naconf&TYPE=TEXT%3ALIST&YEAR={YEAR}&MONTH={MONTH}&FROM={DAY}00&TO={DAY}00&STNM=58968"
    print(base_url)
    raw_data = pd.read_csv(base_url)
    try:
        data = raw_data["<HTML>"] # 可以看看 raw_data 這個 dataframe 的結構，就知道為何這邊是使用["<HTML>"]了
        return data, base_url, True
    except:
        print(f"[SYSTEM] {YEAR}{MONTH}{DAY} No Record")
        print(base_url)
        data = None
        return data, base_url, False

In [None]:
# 取得 data 之後，要決定擷取資料的起始位置，在這邊，我定義開始位置是從 1000 hPa。
# input: line (data 中一行又一行的資訊), i (data的第幾行)
# output: boolean, i
def detect_start_line(line, i):
    x = line.split()
    if x[0] == "1000.0": 
        return True, i
    else:
        return False, 0

In [None]:
# 跟上面類似，取得 data 之後，要決定擷取資料的結束位置，在這邊，我定義結束位置是在 300 hPa。
# input: line (data 中一行又一行的資訊), i (data的第幾行)
# output: 回傳 boolean, i
def detect_final_line(line, i):
    x = line.split()
    if x[0] == "300.0":
        return True, i+1 # 這邊回傳 i+1 是因為...
    else:
        return False, 0

In [None]:
# 取得 data 之後，要確認每一行都有 11 個參數，有的話才將這筆資料納入。
# input: line
# output: boolean
def test_complete(line):
    x = line.split()
    if len(x) == 11: return True
    
# 將 list 轉成 dataframe，因為 dataframe 可以直接變成 csv 檔儲存起來。
# input: list
# output: dataframe
def list_to_dataframe(list):
    return pd.DataFrame(list)

# 先測試一下 dataframe 的 size 是不是 7 x 11 ，"7"是來自於 1000 hPa 到 300 hPa 預計共有 7 層；"11"是來自於 每一層高度涵蓋了 11個參數
# input: dataframe，YEAR, MONTH, DAY
# output: 沒有 output
def test_dataframe_and_save(dataframe, YEAR, MONTH, DAY):
    if dataframe_data.shape == (7,11):
        dataframe_data.to_csv(f"./sounding_data/{YEAR}/{YEAR}-{MONTH}-{DAY}.csv")
    else:
        print(f"[SYSTEM] {YEAR}{MONTH}{DAY} Incomplete Data")   

In [None]:
# 決定下載的資料區間，這邊我先下載 2015~2018年的5~10月的資訊，等等會拿一部分的資料當作 training dataset，一部分的資料當作 test dataset。
YEARS = [2015,2016,2017,2018]
MONTHS= ["05","06","07","08","09","10"]
# 小月: 六月、九月
DAY_30= ["01","02","03","04","05","06","07","08","09","10","11","12","13","14","15","16","17","18","19","20","21","22","23","24","25","26","27","28","29","30"]
# 大月: 五月、七月、八月、十月
DAY_31= ["01","02","03","04","05","06","07","08","09","10","11","12","13","14","15","16","17","18","19","20","21","22","23","24","25","26","27","28","29","30","31"]

因為接下來會牽涉到檔案的儲存，在google colab會需要先做一些設定，才能成功執行下面的code，如果是用自己本地端的電腦，那就只要在對的位置建立一個叫做data的資料夾，就可以執行了。

所以下面這一格是使用 google colab 的人限定的。使用本地端 jupyter notebook 的話直接跳過沒有問題。建議可以直接到 github 看看專案的結構。

In [None]:
# 點擊下方網址，選擇要使用到的 goole 帳戶，然後將對應的 key 填入 textbox 中，
# ! mkdir "sounding_data" 會在左側 content/ 目錄底下建立一個 sounding_data/ 目錄，等等爬下來的資料都會放在那邊。
from google.colab import drive
drive.mount("/content/drive")
! mkdir "sounding_data"
! mkdir "sounding_data/2015"
! mkdir "sounding_data/2016"
! mkdir "sounding_data/2017"
! mkdir "sounding_data/2018"

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
mkdir: cannot create directory ‘sounding_data’: File exists


In [None]:
# 下面的程式執行後，就會按照我們選擇的時間下去做爬蟲，這裡直接用 loop 跑 [2015,2016,2017,2018]，執行一次就可以把四年的資料都爬下來了。
# 大概會花 10 分鐘把四年的資料載完

for YEAR in YEARS:
  for MONTH in MONTHS:
    if MONTH in ["05","07","08","10"]: # 大月
        for DAY in DAY_31:
            flag = True
            data, url, flag = get_station_data(YEAR,MONTH,DAY)
            if flag == False: continue # 可以回頭看看 def get_station_data
        
            # 找到資料的第一行: i.e. hPa為 1000.0
            for i in range(len(data)):
                flag = False
                line = data[i]
                flag, START_LINE = detect_start_line(line, i)
                if flag != False: break

            # 找到資料的最後一行: i.e. hPa為 300.0
            for i in range(len(data)):
                flag = False
                line = data[i]
                flag, FINAL_LINE = detect_final_line(line, i)
                if flag != False: break
            
            # 用來儲存資料的容器，一天會有一筆，所以每一天都要清空一次   
            sounding_data_list = []
        
            for i in range(START_LINE, FINAL_LINE):
                line = data[i]
                if test_complete(line): sounding_data_list.append(line.split())
            
            # 將資料轉成　dataframe 的形式
            dataframe_data = list_to_dataframe(sounding_data_list)
            test_dataframe_and_save(dataframe_data, YEAR, MONTH, DAY)
            
    else: # 小月(6月和9月)，下面跟上面大同小異，通常會建議模組化，比較乾淨，不要學我XD
        for DAY in DAY_30:
            flag == True
            data, url, flag = get_station_data(YEAR,MONTH,DAY)
            if flag == False: continue
        
            # 找到資料的第一行: i.e. hPa為 1000.0
            for i in range(len(data)):
                flag = False
                line = data[i]
                flag, START_LINE = detect_start_line(line, i)
                if flag != False: break

            # 找到資料的最後一行: i.e. hPa為 300.0
            for i in range(len(data)):
                flag = False
                line = data[i]
                flag, FINAL_LINE = detect_final_line(line, i)
                if flag != False: break

            # 用來儲存資料的容器，一天會有一筆，所以每一天都要清空一次   
            sounding_data_list = []
        
            for i in range(START_LINE, FINAL_LINE):
                line = data[i]
                if test_complete(line): sounding_data_list.append(line.split())

            # 將資料轉成　dataframe 的形式
            dataframe_data = list_to_dataframe(sounding_data_list)
            test_dataframe_and_save(dataframe_data, YEAR, MONTH, DAY)

### 統計 sounding data
**以下是運用工人智慧(笑)，所統計出來的結果。**

#### sounding data 有問題的資料統計結果
* 2018 共 05 筆: incomplete data 有2筆、no record 有 3筆
* 2017 共 34 筆: incomplete data 有2筆、no record 有32筆 (整個5月都沒資料)
* 2016 共 28 筆: incomplete data 有2筆、no record 有26筆
* 2015 共 13 筆: incomplete data 有6筆、no record 有 7筆

#### sounding data OKAY正常的資料總數
Note: 5月到 10月共有184天，所以理想每年會有184筆資料。
* 2018 共 179
* 2017 共 150
* 2016 共 156
* 2015 共 171

**太棒了，有問題的資料總數，加上，沒有問題的資料總數是 184。針對爬取 sounding data 到這邊告一段落。**


## CODE 02: 取得地面測站資料
這邊就可以 git clone 高手的專案，然後稍微調整一下參數就可以用了。
<br>
**ref: https://github.com/s3131212/CWB-Observation-Crawler**


In [None]:
# 執行完這一行之後就可以看到 content/ 目錄底下多了一個 CWB-Observation-Crawler/ 的目錄
! git clone https://github.com/s3131212/CWB-Observation-Crawler.git

fatal: destination path 'CWB-Observation-Crawler' already exists and is not an empty directory.


## 修改程式碼

## **第一步驟: 打開程式檔**

開啟 CWB-Observation-Crawler/ climate_crawler.py，我們要稍微修改一下程式最上面的部分。

## **第二步驟: 調整測站編號**
板橋地面測站的編號是 466880，所以將原本的第三行
```
twStationList = ["466910", "466920", "466930", "C0A980", "C0A990", "C0A9A0", "C0A9B0", "C0A9C0", "C0A9E0", "C0A9F0", "C0AC40", "C0AC70", "C0AC80", "C0AH40", "C0AH70", "C1A730", "C1AC50"]
```

改成
```
twStationList = ["466880"]
```

## **第三步驟: 調整年份**
原本的第5行是
```
yearList=['2017', '2018']
```
將它改為我們想要的年份，以現在的case而言，就是2015~2018
```
yearList=["2015","2016","2017","2018"]
```
## **第四步驟: 調整月份**
原本的第7行是
```
monthSearch = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
```
把它改成
```
monthSearch = [5, 6, 7, 8, 9, 10]
```

**Note: 都修正完之後，記得要 ctrl+s 儲存一下呦~**
## **最後一步驟:執行程式**

In [None]:
# 原則上 colab 會幫我們把 python 裝好，所以可以直接用，不過保險起見，我們還是透過呼叫它的版本來確定它有真的存在吧。
! python --version

Python 3.6.9


In [None]:
# 這邊會花一點時間去爬資料，爬完的資料會被存在 content/data/466880 裡面
! python CWB-Observation-Crawler/climate_crawler.py

# **3. 合併資料**

## CODE 03: 合併兩個資料
目前兩個資料目錄路徑分別是...

### sounding data 依年份目錄路徑做區分
**注意: 如果剛剛在 CODE01 只有順著執行下來，那就只會有原本預設的 2018的資料夾喔，可以改成 loop 的方式，也可以手動4次。**
* content/ sounding_data/ 2015/
* content/ sounding_data/ 2016/
* content/ sounding_data/ 2017/
* content/ sounding_data/ 2018/

### station data 依年份目錄路徑做區分
* content/ data/ 466880/ 2015/
* content/ data/ 466880/ 2016/
* content/ data/ 466880/ 2017/
* content/ data/ 466880/ 2018/

**有了這樣子的結構之後，待會就可以依照年份(2015,2016,2017,2018)做loop的操作了**



In [None]:
import os # 待會兒會需要 os.listdir() 列出檔案目錄下的檔案
import pandas as pd # pandas 是拼接資料的好幫手

In [None]:
# 檢查每一天的資料都有 117 個參數，117個分別來自 sounding data 的 77 個，和 station data 的 40 個。
# station data 的 40 個參數分別來自，8 a.m., 9 a.m., 10 a.m. 11 a.m.的時間點，每個時間點我一共挑選了10個參數，下面就會看到哪10個。
# input: small_list (包含每一天的探空和地面資料), file_name (單純用來記錄發生問題的檔案名稱，見 elif block)
# output: boolean
def check_complete(small_list, file_name):
    if len(small_list) == 117: return True
    elif len(small_list) != 117:
        print(len(small_list))
        print(f"[SYSTEM] {file_name} Small List Incomplete Data")
        return False

# 決定每一天資料 label 的地方。
# 目前會把 Label 設為 True 的條件是: 
#    1. 早上8~12點累積雨量小於 2mm，且
#    2. 下午12~18點累積雨量大於 5mm
# 這樣我就把它設為 Ture，其他不在這個條件內的，全部都設為 False
# 我知道目前的判斷的方式確實待調整，但就在下一版做調整吧!
def decide_label(data,file_name):
    morning_sum = 0.0
    for num in list(data[8:12]):
        if num == "T": num = "0.1" # 地面測站會出現 "T" ，表示是毛毛雨
        num = float(num)
        morning_sum = morning_sum + num

    afternoon_sum = 0.0
    for num in list(data[12:18]):
        if num == "T": num = "0.1"
        num = float(num)
        afternoon_sum = afternoon_sum + num

    if morning_sum < 2.0 and afternoon_sum > 5.0:
        return True
    else:
        return False

In [None]:
# 下面的 code 會把資料合併，並儲存在這個 folder 裡面，
! mkdir "model_data" # 目錄路徑再 content/model_data

mkdir: cannot create directory ‘model_data’: File exists


In [None]:
# 建立一個空的 list 容器
data_list = []

# loop 這四年的資料夾
for YEAR in [2015,2016,2017,2018]:

    # 設定 folder path
    PATH_TO_STATION_DATA = f"data/466880/{YEAR}/"
    PATH_TO_SOUNDING_DATA= f"sounding_data/{YEAR}/"

    # 這裡是針對 sounding data 做 loop 是因為 sounding data 的資料有漏，station data 的資料沒有漏，
    # 所以為了確保資料是完整的(有探空也有地面)，我們在這裡就會以 sounding data 作為loop的對象。
    for file_name in os.listdir(PATH_TO_SOUNDING_DATA):
        
        # 每一天資料的容器
        small_list = []
        
        # Station Data 的部分(共40個參數)
        station_data = pd.read_csv(PATH_TO_STATION_DATA + file_name)
        # 每個時間點(8 a.m. ~ 12 a.m.)，都會去索取以下這10個參數
        target_station_data = station_data[8:12][{"測站氣壓","氣溫","相對溼度","露點溫度","風向","風速","最大陣風","最大陣風風向","日照時數","全天空日射量"}]
        for key in ["測站氣壓","氣溫","相對溼度","露點溫度","風向","風速","最大陣風","最大陣風風向","日照時數","全天空日射量"]:
            for value in target_station_data[f"{key}"]: 
                small_list.append(value)
        
        ## 在這邊決定 station data 的 Label
        label = decide_label(station_data["降水量"], file_name)
        
        ## Sounding Data 的部分(共77個參數)
        sounding_data = pd.read_csv(PATH_TO_SOUNDING_DATA+file_name)
        target_sounding_data = sounding_data[0:][{"0","1","2","3","4","5","6","7","8","9","10"}]
        for key in ["0","1","2","3","4","5","6","7","8","9","10"]:
            for value in target_sounding_data[f"{key}"]: 
                small_list.append(value)
        
        # 執行到這邊，表示每一天資料的容器都已經裝好來自 sounding 和 station 的 data 了。
        # 檢查是否有完整的 117 筆資料，有的話再多加兩個參數: 檔名(file_name) 和 標籤(label)
        if check_complete(small_list, file_name):
            small_list.append(file_name)
            small_list.append(label)

            # 將完整的 small_list append 進 data_list 當中
            data_list.append(small_list)
        else:  # 如果沒有完整的 117 筆資料，那就跳過這個 iterarion
            continue

# 執行到這邊，表示已經把 4年 的資料都放進 data_list 裡面了
print(f"[SYSTEM] Total # of Data {len(data_list)}") 

# 把二維的 data_list 轉成 dataframe
all_data = pd.DataFrame(data_list)

# 把 dataframe 存成一個csv檔
all_data.to_csv("model_data/all_data_with_label.csv")
print("[SYSTEM] 檔案儲存完畢! 儲存於 content/model_data/all_data_with_label.csv")

[SYSTEM] Total # of Data 656
[SYSTEM] 檔案儲存完畢! 儲存於 content/model_data/all_data_with_label.csv


# **4. 機器學習**
這邊用到 Scikit learn 最基本的一些API。這邊目前沒有花特別多的時間鑽研，想要知道更多 Scikit learn 關於如何使用的內容，請直接參考 [Scikit Learn Documentation](https://scikit-learn.org/stable/)。

## CODE 04: 用 scikit-learn

In [None]:
import pandas as pd # 一樣也是使用 pandas 去 read_csv
df = pd.read_csv("model_data/all_data_with_label.csv", index_col=0)
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,...,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118
0,1006.0,1005.9,1005.9,1005.4,29.3,31.3,31.9,33.0,58.0,53.0,49.0,46.0,20.2,20.5,20.0,19.7,200.0,220.0,220.0,220.0,1.5,2.3,5.2,4.6,4.3,5.0,10.4,11.4,200.0,200.0,210.0,230.0,0.9,1.0,0.9,0.8,1.16,1.77,2.07,2.9,...,2.76,1.5,0.79,210,245,245,255,255,255,265,4,33,29,23,29,31,29,300.4,303.6,308.6,313.8,327.7,337.9,347.1,342.2,338.3,330.7,344.6,337.4,343.5,350.2,302.9,305.8,309.9,315.6,328.3,338.2,347.2,2015-05-19.csv,False
1,1016.4,1016.4,1015.8,1015.0,27.4,29.1,30.5,32.5,72.0,66.0,62.0,55.0,22.0,22.1,22.5,22.4,220.0,240.0,70.0,60.0,1.1,1.8,0.8,2.4,2.9,3.4,4.1,7.0,220.0,250.0,250.0,60.0,0.0,0.8,0.6,0.5,0.0,1.42,1.41,1.5,...,0.64,0.41,0.71,115,145,240,245,130,15,315,6,10,4,4,4,2,27,298.9,302.2,306.0,314.6,328.2,335.5,343.1,346.4,344.5,347.2,327.9,330.7,337.2,345.9,301.9,304.8,308.5,315.4,328.4,335.6,343.3,2015-10-05.csv,False
2,1006.9,1007.1,1007.1,1006.8,29.2,30.7,32.1,33.3,76.0,72.0,64.0,59.0,24.6,25.0,24.4,24.3,250.0,230.0,230.0,230.0,0.9,0.6,0.8,0.7,2.0,2.7,2.7,2.7,240.0,240.0,240.0,250.0,1.0,1.0,1.0,1.0,1.6,1.57,2.43,3.09,...,3.86,2.52,0.88,285,205,115,215,240,270,345,2,4,4,17,12,14,8,300.1,304.2,306.4,316.9,329.2,337.6,345.4,353.6,350.9,349.6,345.7,342.5,346.8,348.9,303.4,307.1,309.1,318.6,330.0,338.1,345.6,2015-06-24.csv,True
3,1009.2,1009.1,1009.1,1008.9,29.0,30.9,31.5,32.6,73.0,67.0,65.0,63.0,23.7,24.0,24.1,24.7,0.0,200.0,250.0,230.0,0.0,0.6,2.0,2.1,1.3,2.6,4.0,4.6,40.0,230.0,290.0,250.0,0.9,1.0,0.8,0.4,1.34,2.17,1.59,1.65,...,1.95,1.42,0.62,0,245,295,210,215,245,305,0,14,6,12,12,17,16,299.4,302.8,307.3,315.3,328.7,335.8,343.7,350.7,350.7,346.6,338.0,335.7,341.1,346.2,302.5,305.7,309.7,316.6,329.1,336.1,343.8,2015-06-15.csv,False
4,1005.0,1004.8,1004.4,1004.0,28.7,30.2,31.9,32.6,68.0,67.0,59.0,55.0,22.2,23.3,22.8,22.3,0.0,70.0,70.0,70.0,0.2,1.4,3.2,4.9,2.6,4.3,7.5,8.6,80.0,60.0,40.0,40.0,1.0,1.0,0.9,1.0,1.27,1.93,2.7,3.44,...,0.35,0.15,0.19,165,80,75,90,75,50,45,2,14,14,21,16,19,19,298.6,303.0,306.2,315.1,328.9,337.4,344.5,343.4,343.4,340.6,339.1,330.3,338.0,345.3,301.3,305.5,308.3,316.5,329.0,337.4,344.6,2015-08-06.csv,False


In [None]:
import sklearn # google colab 預設也有 sickit learn
from sklearn import svm

In [None]:
# 將656筆資料洗牌一下
df = sklearn.utils.shuffle(df)

# 將 NaN 的資料用平均數代替
df=df.fillna(df.mean())

# 設計我們的X，把118的 Label 和 117的檔名 拿掉
X = df.drop({"118","117"}, axis=1).values 

# 設計我們的Y，把118的 Label 獨立出來，同時把 True, False 映射(map)給 1, 0。
df["118"] = df["118"].map({True:1, False:0})
y = df["118"].values

# 用來算分數的 test_dataset size 設為 100
test_size = 100

# 將資料切成 訓練集(training set) 和 測試集(testing set)
X_train = X[:-test_size]
y_train = y[:-test_size]
X_test = X[-test_size:]
y_test = y[-test_size:]

# clf 等於 classifier，利用 svm 的 library 建立一個 classifier
clf = svm.SVC(gamma=0.001, C=50.)

# 拿 training dataset 訓練 clf
clf.fit(X_train, y_train)

SVC(C=50.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma=0.001, kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

In [None]:
# 拿 testing datast 來評分
clf.score(X_test, y_test)

# 還有很多可以用來評分的 metrices，就參考一下 scikit learn documentation 吧。

0.95

# **5. 未來目標**
* **調整 決定資料 Label 的方式。**
* **增加 Dataset 的時間涵蓋範圍(ex: 從2010開始收集資料)**
* **在訓練前做到 [EDA](https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15)**
* **用 sklearn 其他機器學習的方式做做看 (ex: Tree models)**
* **用 deep learning 的方式做做看。**

# **6. 參考連結**
* [NCDR 天氣氣候監測 - 大台北午後對流檢查表](https://watch.ncdr.nat.gov.tw/watch_ntp)
* [弱綜觀環境下台灣午後對流特徵及其客觀預報](http://mopl.as.ntu.edu.tw/web/ASJ/40/40-1-4.pdf)
* [UWYO Sounding Data](http://weather.uwyo.edu/upperair/sounding.html)
* [NCAR Graphics 官網](http://ngwww.ucar.edu/)
* [觀測資料查詢系統](https://e-service.cwb.gov.tw/HistoryDataQuery/index.jsp)
* [Github CWB-Observation-Crawler Project](https://github.com/s3131212/CWB-Observation-Crawler)
* [Scikit Learn Documentation](https://scikit-learn.org/stable/)
* [EDA 介紹: What is Exploratory Data Analysis?](https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15)