# Julia DataFrames.jl 介紹

# Day 017 作業：載入 COVID-19 資料集

今天的作業將使用 `DataFrames.jl` 及 `CSV.jl` 套件，來載入美國約翰霍普金斯大學提供的 COVID-19 資料集 (2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSE)。資料集作為教育及研究使用，並且被用來建立視覺化儀表板提供檢視及追蹤 COVID-19 疫情狀況。

資料集 GitHub: [https://github.com/CSSEGISandData/COVID-19](https://github.com/CSSEGISandData/COVID-19)

資料集格式為 CSV，整合不同資料來源，主要分為 Daily Report 及時間序列資料。

請自行下載 2020/4/2 的 daily report資料集：[https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_daily_reports/04-02-2020.csv](https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_daily_reports/04-02-2020.csv)

Daily Report 主要欄位有：

- Province/State: 省名 (中國)、州名或市名 (美國、加拿大、澳洲)、或是事件名稱 (例如鑽石公主號)...
- Country/Region: 國名或區域名
- Last Update: 最後更新日期/時間，格式為 24 小時制的 UTC 時間
- Confirmed: 確診案例
- Deaths: 死亡案例
- Recovered: 康復案例
- Lat, Long: 經緯度
- Combined Key: 複合 Key 值

In [1]:
using DataFrames, CSV

In [2]:
df = CSV.read("04-02-2020.csv", delim = ',')

Unnamed: 0_level_0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat
Unnamed: 0_level_1,Int64⍰,String⍰,String⍰,String,String,Float64⍰
1,45001,Abbeville,South Carolina,US,2020-04-02 23:25:27,34.2233
2,22001,Acadia,Louisiana,US,2020-04-02 23:25:27,30.2951
3,51001,Accomack,Virginia,US,2020-04-02 23:25:27,37.7671
4,16001,Ada,Idaho,US,2020-04-02 23:25:27,43.4527
5,19001,Adair,Iowa,US,2020-04-02 23:25:27,41.3308
6,29001,Adair,Missouri,US,2020-04-02 23:25:27,40.1906
7,40001,Adair,Oklahoma,US,2020-04-02 23:25:27,35.8849
8,8001,Adams,Colorado,US,2020-04-02 23:25:27,39.8743
9,16003,Adams,Idaho,US,2020-04-02 23:25:27,44.8933
10,17001,Adams,Illinois,US,2020-04-02 23:25:27,39.9882


請問此資料集的筆數 (row) 及欄位數 (column) 各是多少？

In [50]:
# 請在此輸入程式碼
size(df)

(2569, 12)

In [0]:
# 彙總 DataFrame 資訊
describe(df)

### 作業1：數值 Column 的計算

請問截至4月2日為止 (UTC 時間)，全球累計的確診、死亡、及康復案例數各是多少？

【提示】可參考 `sum()` 內建函式。

In [3]:
println("Confirmed: ", sum(df[:, 8]))
println("Death:", sum(df[:, 9]))
println("Recovered: ", sum(df[:, 10]))

Confirmed: 1013157
Death:52983
Recovered: 210263


上面解答範例列出確診案例數前 10 名的 Province_State, Country_Region, Confirmed, Deaths, Recovered 等 5 個 column。

### 作業2：找出特定的 Row

截至4月2日為止 (UTC 時間)，台灣的確診、死亡、及康復案例數為多少？

【提示】使用點運算 `.==` 來比較同一 column 中所有值。

In [49]:
println("Taiwan Confirmed:")
println(sum(df[!, 8] .* (df[!, 4] .== "Taiwan*")))
println("Taiwan Death:")
println(sum(df[!, 9] .* (df[!, 4] .== "Taiwan*")))
println("Taiwan Recovered:")
println(sum(df[!, 10] .* (df[!, 4] .== "Taiwan*")))

Taiwan Confirmed:
339
Taiwan Death:
5
Taiwan Recovered:
45
