# Julia DataFrames.jl 介紹

# Day 017 作業：載入 COVID-19 資料集

今天的作業將使用 `DataFrames.jl` 及 `CSV.jl` 套件，來載入美國約翰霍普金斯大學提供的 COVID-19 資料集 (2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSE)。資料集作為教育及研究使用，並且被用來建立視覺化儀表板提供檢視及追蹤 COVID-19 疫情狀況。

資料集 GitHub: [https://github.com/CSSEGISandData/COVID-19](https://github.com/CSSEGISandData/COVID-19)

資料集格式為 CSV，整合不同資料來源，主要分為 Daily Report 及時間序列資料。

請自行下載 2020/4/2 的 daily report資料集：[https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_daily_reports/04-02-2020.csv](https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_daily_reports/04-02-2020.csv)

Daily Report 主要欄位有：

- Province/State: 省名 (中國)、州名或市名 (美國、加拿大、澳洲)、或是事件名稱 (例如鑽石公主號)...
- Country/Region: 國名或區域名
- Last Update: 最後更新日期/時間，格式為 24 小時制的 UTC 時間
- Confirmed: 確診案例
- Deaths: 死亡案例
- Recovered: 康復案例
- Lat, Long: 經緯度
- Combined Key: 複合 Key 值

In [1]:
using DataFrames, CSV

In [2]:
df = CSV.read("04-02-2020.CSV", delim=',')

Unnamed: 0_level_0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat
Unnamed: 0_level_1,Int64⍰,String⍰,String⍰,String,String,Float64⍰
1,45001,Abbeville,South Carolina,US,2020-04-02 23:25:27,34.2233
2,22001,Acadia,Louisiana,US,2020-04-02 23:25:27,30.2951
3,51001,Accomack,Virginia,US,2020-04-02 23:25:27,37.7671
4,16001,Ada,Idaho,US,2020-04-02 23:25:27,43.4527
5,19001,Adair,Iowa,US,2020-04-02 23:25:27,41.3308
6,29001,Adair,Missouri,US,2020-04-02 23:25:27,40.1906
7,40001,Adair,Oklahoma,US,2020-04-02 23:25:27,35.8849
8,8001,Adams,Colorado,US,2020-04-02 23:25:27,39.8743
9,16003,Adams,Idaho,US,2020-04-02 23:25:27,44.8933
10,17001,Adams,Illinois,US,2020-04-02 23:25:27,39.9882


請問此資料集的筆數 (row) 及欄位數 (column) 各是多少？

In [4]:
# 請在此輸入程式碼
df[!, :]
df[:, :]

Unnamed: 0_level_0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat
Unnamed: 0_level_1,Int64⍰,String⍰,String⍰,String,String,Float64⍰
1,45001,Abbeville,South Carolina,US,2020-04-02 23:25:27,34.2233
2,22001,Acadia,Louisiana,US,2020-04-02 23:25:27,30.2951
3,51001,Accomack,Virginia,US,2020-04-02 23:25:27,37.7671
4,16001,Ada,Idaho,US,2020-04-02 23:25:27,43.4527
5,19001,Adair,Iowa,US,2020-04-02 23:25:27,41.3308
6,29001,Adair,Missouri,US,2020-04-02 23:25:27,40.1906
7,40001,Adair,Oklahoma,US,2020-04-02 23:25:27,35.8849
8,8001,Adams,Colorado,US,2020-04-02 23:25:27,39.8743
9,16003,Adams,Idaho,US,2020-04-02 23:25:27,44.8933
10,17001,Adams,Illinois,US,2020-04-02 23:25:27,39.9882


In [5]:
# 彙總 DataFrame 資訊
describe(df)

Unnamed: 0_level_0,variable,mean,min,median,max
Unnamed: 0_level_1,Symbol,Union…,Any,Union…,Any
1,FIPS,30958.4,66,29093.0,99999
2,Admin2,,Abbeville,,unassigned
3,Province_State,,Alabama,,Zhejiang
4,Country_Region,,Afghanistan,,Zimbabwe
5,Last_Update,,2020-02-23 11:19:02,,2020-04-02 23:32:01
6,Lat,36.2992,-42.8821,37.7171,71.7069
7,Long_,-78.9577,-159.597,-86.5104,178.065
8,Confirmed,394.378,0,7.0,115242
9,Deaths,20.624,0,0.0,13915
10,Recovered,81.8462,0,0.0,63471


### 作業1：數值 Column 的計算

請問截至4月2日為止 (UTC 時間)，全球累計的確診、死亡、及㡽復案例數各是多少？

【提示】可參考 `sum()` 內建函式。

In [9]:
show(df[1:5, :], allcols=true)

5×12 DataFrame
│ Row │ FIPS   │ Admin2    │ Province_State │ Country_Region │
│     │ [90mInt64⍰[39m │ [90mString⍰[39m   │ [90mString⍰[39m        │ [90mString[39m         │
├─────┼────────┼───────────┼────────────────┼────────────────┤
│ 1   │ 45001  │ Abbeville │ South Carolina │ US             │
│ 2   │ 22001  │ Acadia    │ Louisiana      │ US             │
│ 3   │ 51001  │ Accomack  │ Virginia       │ US             │
│ 4   │ 16001  │ Ada       │ Idaho          │ US             │
│ 5   │ 19001  │ Adair     │ Iowa           │ US             │

│ Row │ Last_Update         │ Lat      │ Long_    │ Confirmed │ Deaths │
│     │ [90mString[39m              │ [90mFloat64⍰[39m │ [90mFloat64⍰[39m │ [90mInt64[39m     │ [90mInt64[39m  │
├─────┼─────────────────────┼──────────┼──────────┼───────────┼────────┤
│ 1   │ 2020-04-02 23:25:27 │ 34.2233  │ -82.4617 │ 6         │ 0      │
│ 2   │ 2020-04-02 23:25:27 │ 30.2951  │ -92.4142 │ 61        │ 1      │
│ 3   │ 2020-04-02 23:25:

In [17]:
df2 = by(df,  [:Province_State , :Country_Region] , :Confirmed  => sum , :Deaths => sum , :Recovered => sum)
show(df2, allcols=true, allrows=true)

315×5 DataFrame
│ Row │ Province_State                   │ Country_Region                   │
│     │ [90mUnion{Missing, String}[39m           │ [90mString[39m                           │
├─────┼──────────────────────────────────┼──────────────────────────────────┤
│ 1   │ South Carolina                   │ US                               │
│ 2   │ Louisiana                        │ US                               │
│ 3   │ Virginia                         │ US                               │
│ 4   │ Idaho                            │ US                               │
│ 5   │ Iowa                             │ US                               │
│ 6   │ Missouri                         │ US                               │
│ 7   │ Oklahoma                         │ US                               │
│ 8   │ Colorado                         │ US                               │
│ 9   │ Illinois                         │ US                               │
│ 10  │ Indiana             

│ 102 │ New South Wales                  │ Australia                        │
│ 103 │ Newfoundland and Labrador        │ Canada                           │
│ 104 │ Ningxia                          │ China                            │
│ 105 │ Northern Mariana Islands         │ US                               │
│ 106 │ Northern Territory               │ Australia                        │
│ 107 │ Northwest Territories            │ Canada                           │
│ 108 │ Nova Scotia                      │ Canada                           │
│ 109 │ Ontario                          │ Canada                           │
│ 110 │ Prince Edward Island             │ Canada                           │
│ 111 │ Puerto Rico                      │ US                               │
│ 112 │ Qinghai                          │ China                            │
│ 113 │ Quebec                           │ Canada                           │
│ 114 │ Queensland                       │ Australia            

│ 199 │ [90mmissing[39m                          │ Gambia                           │
│ 200 │ [90mmissing[39m                          │ Georgia                          │
│ 201 │ [90mmissing[39m                          │ Germany                          │
│ 202 │ [90mmissing[39m                          │ Ghana                            │
│ 203 │ [90mmissing[39m                          │ Greece                           │
│ 204 │ [90mmissing[39m                          │ Grenada                          │
│ 205 │ [90mmissing[39m                          │ Guatemala                        │
│ 206 │ [90mmissing[39m                          │ Guinea                           │
│ 207 │ [90mmissing[39m                          │ Guinea-Bissau                    │
│ 208 │ [90mmissing[39m                          │ Guyana                           │
│ 209 │ [90mmissing[39m                          │ Haiti                            │
│ 210 │ [90mmissing[39m       

│ 296 │ [90mmissing[39m                          │ Syria                            │
│ 297 │ [90mmissing[39m                          │ Taiwan*                          │
│ 298 │ [90mmissing[39m                          │ Tanzania                         │
│ 299 │ [90mmissing[39m                          │ Thailand                         │
│ 300 │ [90mmissing[39m                          │ Timor-Leste                      │
│ 301 │ [90mmissing[39m                          │ Togo                             │
│ 302 │ [90mmissing[39m                          │ Trinidad and Tobago              │
│ 303 │ [90mmissing[39m                          │ Tunisia                          │
│ 304 │ [90mmissing[39m                          │ Turkey                           │
│ 305 │ [90mmissing[39m                          │ Uganda                           │
│ 306 │ [90mmissing[39m                          │ Ukraine                          │
│ 307 │ [90mmissing[39m       

│ 120 │ 255           │ 3          │ 242           │
│ 121 │ 775           │ 7          │ 753           │
│ 122 │ 522           │ 6          │ 343           │
│ 123 │ 137           │ 0          │ 133           │
│ 124 │ 554           │ 3          │ 537           │
│ 125 │ 18            │ 1          │ 6             │
│ 126 │ 367           │ 0          │ 6             │
│ 127 │ 22            │ 1          │ 2             │
│ 128 │ 72            │ 2          │ 5             │
│ 129 │ 176           │ 3          │ 135           │
│ 130 │ 1             │ 0          │ 1             │
│ 131 │ 5             │ 0          │ 0             │
│ 132 │ 1036          │ 5          │ 422           │
│ 133 │ 30            │ 0          │ 0             │
│ 134 │ 400           │ 2          │ 64            │
│ 135 │ 76            │ 3          │ 73            │
│ 136 │ 6             │ 0          │ 0             │
│ 137 │ 183           │ 2          │ 172           │
│ 138 │ 1258          │ 1          │ 1228     

│ 276 │ 9             │ 0          │ 0             │
│ 277 │ 13            │ 0          │ 1             │
│ 278 │ 2             │ 0          │ 1             │
│ 279 │ 245           │ 30         │ 21            │
│ 280 │ 1885          │ 21         │ 328           │
│ 281 │ 195           │ 1          │ 55            │
│ 282 │ 1171          │ 31         │ 0             │
│ 283 │ 10            │ 0          │ 0             │
│ 284 │ 2             │ 0          │ 0             │
│ 285 │ 1049          │ 4          │ 266           │
│ 286 │ 426           │ 1          │ 5             │
│ 287 │ 897           │ 17         │ 70            │
│ 288 │ 5             │ 0          │ 1             │
│ 289 │ 1462          │ 5          │ 50            │
│ 290 │ 112065        │ 10348      │ 26743         │
│ 291 │ 151           │ 4          │ 21            │
│ 292 │ 8             │ 2          │ 2             │
│ 293 │ 10            │ 0          │ 0             │
│ 294 │ 5568          │ 308        │ 103      

上面解答範例列出確診案例數前 10 名的 Province_State, Country_Region, Confirmed, Deaths, Recovered 等 5 個 column。

### 作業2：找出特定的 Row

截至4月2日為止 (UTC 時間)，台灣的確診、死亡、及㡽復案例數為多少？

【提示】使用點運算 `.==` 來比較同一 column 中所有值。

In [19]:

df_tw = filter(row -> row[:Country_Region] == "Taiwan*" ,df)
show(df_tw, allcols=true, allrows=true)

1×12 DataFrame
│ Row │ FIPS    │ Admin2  │ Province_State │ Country_Region │
│     │ [90mInt64⍰[39m  │ [90mString⍰[39m │ [90mString⍰[39m        │ [90mString[39m         │
├─────┼─────────┼─────────┼────────────────┼────────────────┤
│ 1   │ [90mmissing[39m │ [90mmissing[39m │ [90mmissing[39m        │ Taiwan*        │

│ Row │ Last_Update         │ Lat      │ Long_    │ Confirmed │ Deaths │
│     │ [90mString[39m              │ [90mFloat64⍰[39m │ [90mFloat64⍰[39m │ [90mInt64[39m     │ [90mInt64[39m  │
├─────┼─────────────────────┼──────────┼──────────┼───────────┼────────┤
│ 1   │ 2020-04-02 11:09:45 │ 23.7     │ 121.0    │ 339       │ 5      │

│ Row │ Recovered │ Active │ Combined_Key │
│     │ [90mInt64[39m     │ [90mInt64[39m  │ [90mString[39m       │
├─────┼───────────┼────────┼──────────────┤
│ 1   │ 45        │ 289    │ Taiwan*      │