# 體育署救生員考照分析 (2016~2018)
##### 邱冠嘉 from NTU

## 動機
因爲體育署採用新制$\space^{ 1}$，導致各個救生單位$\space ^{2}$ 增加舉辦訓練上的難度。  
這邊想要統計過去三年的結訓學員到底佔體育署結訓多少比例。  
因爲水協已經決定大幅縮減考照班的數量，取而代之的是水協的傳統的救生班(無法拿到體育署檢定證，所以不能執業)  
後續將會確定今年改成新制後救生員減少人數。

$^{1}$ *新制需要增加團體保險費用，且水協認爲救生教練將因新制制度籌備難度增加，因此擬定加入教練到班費用(以往皆義務教學)*  
$^{2}$ *我加入的水協以及其他很多友會(紅十字會、海爆)等等*  


### 輸入需要的套件

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from ipywidgets import IntProgress, Layout
import ipywidgets as widgets
from IPython.display import display
from IPython.display import clear_output
import matplotlib as mpl
import locale
mpl.rc("font", family = "Noto Sans CJK TC")
import time

## 進度條
經過測試，如果不使用`time.sleep()`暫停訪問，會被限制訪問一段時間(幾分鐘)  
體育署的資料總共有943頁需要爬  
這邊加上一個進度條的功能，至少可以看出來存取多少進度  
在利用`time.clock()`量測跑平均一個interation要幾秒 (包含 waiting time 0.5秒)  

### 計算10個Interaction所需時間

In [5]:
df = pd.DataFrame()
tic = float(time.clock())
for page in range(1,11):
    data = pd.read_html("http://www.lifeguard.utaipei.edu.tw/D01.php?cid=0&keys=&r1=&page=%d" %(page))
    df = df.append(data[0][1:], ignore_index=True)
    time.sleep(0.5)
toc = float(time.clock())
TimePerInter = (toc-tic)/10
print("10個 Interaction 所需時間： %.3f s \n平均1個 Interaction 需要 %.3f s" %(toc -tic, TimePerInter))

10個 Interaction 所需時間： 14.777 s 
平均1個 Interaction 需要 1.478 s


### 載入進度條及剩餘時間計算
![](https://i.imgur.com/fq81Lrs.gif)

In [6]:
page = 0
page_min = 1
page_max = 943 # 最大頁數 943
p = IntProgress(min = 0,max = page_max)

time_label = widgets.Text('%.3f' %((page_max-page)*TimePerInter),description='Remain Time: ',disabled=False)
widgets.VBox([p,time_label])

VBox(children=(IntProgress(value=0, max=943), Text(value='1393.444', description='Remain Time: ')))

## 開始爬資料

In [8]:
df = pd.DataFrame()
for page in range(page_min,page_max+1):
    data = pd.read_html("http://www.lifeguard.utaipei.edu.tw/D01.php?cid=0&keys=&r1=&page=%d" %(page))
    df = df.append(data[0][1:], ignore_index=True)
    p.value= int(page)
    time.sleep(0.5)
    time_label.value = '%.3f' %((page_max-page)*TimePerInter)

### 加入標題後，看一下開頭

In [9]:
col_name= ['證照資格','姓名','證照號碼','證照生效日','證照有效日']
df.columns = col_name
df.head()

Unnamed: 0,證照資格,姓名,證照號碼,證照生效日,證照有效日
0,游泳池,許Ｏ偉,紅會字第190001號,2019-04-03,2021-04-02
1,游泳池,賴Ｏ廣,紅會字第190002號,2019-04-03,2021-04-02
2,游泳池,郭Ｏ謙,紅會字第190003號,2019-04-03,2021-04-02
3,游泳池,羅Ｏ穎,紅會字第190004號,2019-04-03,2021-04-02
4,游泳池,鄭Ｏ中,海龍字第RSP180157號,2018-12-30,2021-12-29


## 統計三年內各協會之考照人數
這邊想利用字典存入不同協會三年的考照人數，先將變數設好。

In [10]:
years = ['2016','2017','2018']
group_names = ["水協","海爆", "紅會", "水運", "水域", "海龍","海總","游救"]
LifeSaving = []
Sea = []
Red = []
Sport =[]
Area = []
Dragon = []
Sea_A = []
Swim =[]
group = {"水協":LifeSaving, "海爆":Sea, "紅會":Red,
         "水運":Sport, "水域":Area, "海龍":Dragon, "海總":Sea_A,
         "游救":Swim}

### 依年份、協會統計人數
`df[(df["證照號碼"].str[:2] == g` 可取出證照號碼頭兩個字可作爲識別**不同協會**。  
`df["證照生效日"].str[:4] == year` 可取出證照生效日期頭四碼爲**年份**。  
兩者結合就可以選出特定年份、特定協會的人員再利用`len()` 取得人數。

In [11]:
for year in years:
    for g in group_names:
        group[g].append(len(df[(df["證照號碼"].str[:2] == g) & (df["證照生效日"].str[:4] == year)]))

### 統計結果

In [12]:
group

{'水協': [493, 1246, 1336],
 '海爆': [423, 343, 632],
 '紅會': [363, 282, 147],
 '水運': [817, 445, 369],
 '水域': [41, 91, 386],
 '海龍': [21, 151, 193],
 '海總': [148, 92, 119],
 '游救': [474, 315, 420]}

### 計算各年總人數

In [13]:
year_sum = [0]*3
for i in range(3):
    year_sum[i] = len(df[df["證照生效日"].str[:4] == years[i]])
year_sum

[3418, 3064, 3648]

## 結果呈現：繪圖
### 最後希望以核取清單(check box)並依使用者需要選擇想要比較的協會繪圖
#### 定義資料繪圖函式

In [14]:
def data_plot(水協 = True, 海爆 = True, 紅會 = True, 水運 = True, 水域 = True, 海龍 = True, 海總 = True, 游救 = True):
    check_box_item = [水協, 海爆, 紅會, 水運, 水域, 海龍, 海總, 游救]
    plt.figure(dpi=300,figsize=(10,5))
    plt.subplot(1,2,1)
    for i in range(8):
        if check_box_item[i] == True:
            plt.plot(years,group[group_names[i]], label=group_names[i])
    plt.title("體育署救生員證人數")
    plt.xlabel("年度")
    plt.ylabel("人數 (人)")
    plt.legend(loc=(1.01,0.43))
    plt.tight_layout(pad=0.4, w_pad=1.2, h_pad=1.0)
    plt.subplot(1,2,2)
    for i in range(8):
        if check_box_item[i] == True:
            plt.plot(years,np.array(group[group_names[i]])/np.array(year_sum)*100, label=group_names[i])
    plt.legend(loc=(1.01,0.43))
    plt.title("體育署救生員證佔當年度百分比")
    plt.xlabel("年度")
    plt.ylabel("百分比 (%)")
    plt.tight_layout(pad=0.4, w_pad=1.2, h_pad=1.0)

### 定義互動函式
下段會解釋爲什麼要使用 `interactive` 而不是 `interact`

In [15]:
plot = widgets.interactive(data_plot,水協 = True, 海爆 = True, 紅會 = True, 水運 = True, 水域 = True, 海龍 = True, 海總 = True, 游救 = True)

### 互動介面排版
這邊可以看到我想要把核取方塊排成 $4*2$ 的形式  
如果不使用 `interactive` 將不能把 `plot` 這個 widget 裡的變數單獨取出來。  
下方可以看到 `controls` 中使用 `plot.children` 取出各變數。  
*(`.children` 只能在 `interactive` 下使用)*  
接著使用 `HBox`，將變數的核取方塊重新排列成恰當的排版。  
`plot.children` 此陣列最後一項就是 `data_plot` 函數，取出來後與上面變數垂直排列(`VBox`)。

In [16]:
controls = widgets.HBox(plot.children[:-1], layout = Layout(flex_flow='row wrap'))
output = plot.children[-1]
display(widgets.VBox([controls,output]))

VBox(children=(HBox(children=(Checkbox(value=True, description='水協'), Checkbox(value=True, description='海爆'), …

## 結果示範
![](https://i.imgur.com/QzfIYRK.gif)

### 小插曲： 中文變數
有趣的地方是前面沒有想到**用中文來命名變數**。  
在這邊因爲希望使用`interact`時上面的核取方塊內容直接以**中文**表示。  
才突然想到 Python 3 裡面已經可以使用中文當變數了！  
否則，想要同時顯示變數核取方塊及其名稱，可能需要更麻煩的方式。

## 結論
#### 目前看來仍是以水協的考照人數居多(接近40%)，未來如果大幅縮減考照班，將會嚴重影響救生員人數。  
且目前救生員薪水很低，又要負擔高風險，加上水協考照班的費用將比以往會大增(體育署規定增加團體保險費用及水協教練費用)。  
使得各種因素都減低一般人參與救生訓練及考照的意願。