## 練習時間
#### 請寫一個函式用來計算 Mean Square Error
$ MSE = \frac{1}{n}\sum_{i=1}^{n}{(Y_i - \hat{Y}_i)^2} $

### Hint: [如何取平方](https://googoodesign.gitbooks.io/-ezpython/unit-1.html)

# [作業目標]
- 仿造範例的MAE函數, 自己寫一個MSE函數(參考上面公式)

# [作業重點]
- 注意程式的縮排
- 是否能將數學公式, 轉換為 Python 的函式組合? (In[2], Out[2])

In [None]:
# 載入基礎套件與代稱
import numpy as np
import matplotlib.pyplot as plt

In [None]:
def mean_absolute_error(y, yp):
    """
    計算 MAE
    Args:
        - y: 實際值
        - yp: 預測值
    Return:
        - mae: MAE
    """
    mae = MAE = sum(abs(y - yp)) / len(y)
    return mae

# 定義 mean_squared_error 這個函數, 計算並傳回 MSE
def mean_squared_error():
    """
    計算 MSE
    Args:
        - y: 實際值
        - yp: 預測值
    Return:
        - mse: MSE
    """
    base = y - yp
    mse = MSE = sum(pow(base, 2)) / len(y)
    return mse

In [None]:
# 與範例相同, 不另外解說
w = 3
b = 0.5
x_lin = np.linspace(0, 100, 101)
y = (x_lin + np.random.randn(101) * 5) * w + b

plt.plot(x_lin, y, 'b.', label = 'data points')
plt.title("Assume we have data points")
plt.legend(loc = 2)
plt.show()

In [None]:
# 與範例相同, 不另外解說
y_hat = x_lin * w + b
plt.plot(x_lin, y, 'b.', label = 'data')
plt.plot(x_lin, y_hat, 'r-', label = 'prediction')
plt.title("Assume we have data points (And the prediction)")
plt.legend(loc = 2)
plt.show()

In [None]:
# 執行 Function, 確認有沒有正常執行
MSE = mean_squared_error(y, y_hat)
MAE = mean_absolute_error(y, y_hat)
print("The Mean squared error is %.3f" % (MSE))
print("The Mean absolute error is %.3f" % (MAE))

# [作業2]

請上 Kaggle, 在 Competitions 或 Dataset 中找一組競賽或資料並寫下：

[RSNA 2023 Abdominal Trauma Detection](https://www.kaggle.com/competitions/rsna-2023-abdominal-trauma-detection)

1. 你選的這組資料為何重要
> 創傷性傷害是生命前四十年最常見的死亡原因，也是世界各地的一個主要公共衛生問題。據估計，全世界每年有超過 500 萬人死於外傷。即時準確地診斷創傷對於及時採取適當的干預措施至關重要，這可以顯著改善患者的治療結果和存活率。電腦斷層掃描（CT）因其能夠提供詳細的腹部橫斷面影像而成為評估疑似腹部損傷患者不可或缺的工具。
>
> 然而，解釋腹部創傷的 CT 掃描可能是一項複雜且耗時的任務，特別是當存在多處損傷或存在細微活動性出血的區域時。這項挑戰旨在利用人工智慧和機器學習的力量來幫助醫療專業人員快速、準確地檢測傷害並對其嚴重程度進行分級。為此開發先進演算法有可能改善全世界的創傷護理和患者治療結果。

2. 資料從何而來 (tips: 譬如提供者是誰、以什麼方式蒐集)
>由 14 個國家的 23 個研究機構提供了去識別化的腹部 CT 研究和相關臨床信息，這些信息被匯總起來以創建挑戰數據集。

3. 蒐集而來的資料型態為何
> 結構化：Target label of train set (csv file)
>
> 非結構化：DICOM format

4. 這組資料想解決的問題如何評估
> Submissions are evaluated using the average of the sample weighted log losses from each injury type and an any_injury prediction generated by the metric. The metric implementation notebook can be found here.
>
> The sample weights are as follows:
>
> - 1 for all healthy labels.
> - 2 for low grade solid organ injuries (liver, spleen, kidney).
> - 4 for high grade solid organ injuries.
> - 2 for bowel injuries.
> - 6 for extravasation.
> - 6 for the auto-generated any_injury label.
>
> For each patient ID in the test set, you must predict a probability for each of the different possible injury types and degrees. The file should contain a header and have the following format:
> ```
patient_id,bowel_healthy,bowel_injury,extravasation_healthy,extravasation_injury,kidney_healthy,kidney_low,kidney_high,liver_healthy,liver_low,liver_high,spleen_healthy,spleen_low,spleen_high
10102,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5
10107,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5
etc.
```

# [作業3]

想像你經營一個自由載客車隊，你希望能透過數據分析以提升業績，請你思考並描述你如何規劃整體的分析/解決方案：

1. 核心問題為何 (tips：如何定義 「提升業績 & 你的假設」)
> 知道什麼時段叫車需求為最大量，以及知道什麼區域有較大的載客需求。

2. 資料從何而來 (tips：哪些資料可能會對你想問的問題產生影響 & 資料如何蒐集)
> 1. 每日每台車結算的營業額
> 2. 從車隊中的每台汽車都會即時上傳載客數據（像是接客時段、在哪個區域載客、運送到哪裡、每趟車資多少）

3. 蒐集而來的資料型態為何
> json 格式的結構化資料

4. 你要回答的問題，其如何評估 (tips：你的假設如何驗證)
> dashboard 呈現每日、每週、每月等變化量，設定閥值做警示