# Julia DataFrames.jl 介紹

# Day 017 作業：載入 COVID-19 資料集

今天的作業將使用 `DataFrames.jl` 及 `CSV.jl` 套件，來載入美國約翰霍普金斯大學提供的 COVID-19 資料集 (2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSE)。資料集作為教育及研究使用，並且被用來建立視覺化儀表板提供檢視及追蹤 COVID-19 疫情狀況。

資料集 GitHub: [https://github.com/CSSEGISandData/COVID-19](https://github.com/CSSEGISandData/COVID-19)

資料集格式為 CSV，整合不同資料來源，主要分為 Daily Report 及時間序列資料。

請自行下載 2020/4/2 的 daily report資料集：[https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_daily_reports/04-02-2020.csv](https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_daily_reports/04-02-2020.csv)

Daily Report 主要欄位有：

- Province/State: 省名 (中國)、州名或市名 (美國、加拿大、澳洲)、或是事件名稱 (例如鑽石公主號)...
- Country/Region: 國名或區域名
- Last Update: 最後更新日期/時間，格式為 24 小時制的 UTC 時間
- Confirmed: 確診案例
- Deaths: 死亡案例
- Recovered: 康復案例
- Lat, Long: 經緯度
- Combined Key: 複合 Key 值

In [1]:
using DataFrames, CSV

┌ Info: Recompiling stale cache file /Users/prestonyu9011/.julia/compiled/v1.2/DataFrames/AR9oZ.ji for DataFrames [a93c6f00-e57d-5684-b7b6-d8193f3e46c0]
└ @ Base loading.jl:1240
┌ Info: Recompiling stale cache file /Users/prestonyu9011/.julia/compiled/v1.2/CSV/HHBkp.ji for CSV [336ed68f-0bac-5ca0-87d4-7b16caf5d00b]
└ @ Base loading.jl:1240


In [2]:
# 撰寫讀取 CSV 檔的程式碼
df = CSV.read("04-02-2020.csv")

└ @ CSV /Users/prestonyu9011/.julia/packages/CSV/vohbW/src/CSV.jl:41


Unnamed: 0_level_0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat
Unnamed: 0_level_1,Int64?,String?,String?,String,String,Float64?
1,45001,Abbeville,South Carolina,US,2020-04-02 23:25:27,34.2233
2,22001,Acadia,Louisiana,US,2020-04-02 23:25:27,30.2951
3,51001,Accomack,Virginia,US,2020-04-02 23:25:27,37.7671
4,16001,Ada,Idaho,US,2020-04-02 23:25:27,43.4527
5,19001,Adair,Iowa,US,2020-04-02 23:25:27,41.3308
6,29001,Adair,Missouri,US,2020-04-02 23:25:27,40.1906
7,40001,Adair,Oklahoma,US,2020-04-02 23:25:27,35.8849
8,8001,Adams,Colorado,US,2020-04-02 23:25:27,39.8743
9,16003,Adams,Idaho,US,2020-04-02 23:25:27,44.8933
10,17001,Adams,Illinois,US,2020-04-02 23:25:27,39.9882


請問此資料集的筆數 (row) 及欄位數 (column) 各是多少？

In [3]:
# 請在此輸入程式碼
println("Number of rows: $(size(df, 1))")
println("Number of columns: $(size(df, 2))")

Number of rows: 2569
Number of columns: 12


In [4]:
# 彙總 DataFrame 資訊
describe(df)

Unnamed: 0_level_0,variable,mean,min,median,max
Unnamed: 0_level_1,Symbol,Union…,Any,Union…,Any
1,FIPS,30958.4,66,29093.0,99999
2,Admin2,,Abbeville,,unassigned
3,Province_State,,Alabama,,Zhejiang
4,Country_Region,,Afghanistan,,Zimbabwe
5,Last_Update,,2020-02-23 11:19:02,,2020-04-02 23:32:01
6,Lat,36.2992,-42.8821,37.7171,71.7069
7,Long_,-78.9577,-159.597,-86.5104,178.065
8,Confirmed,394.378,0,7.0,115242
9,Deaths,20.624,0,0.0,13915
10,Recovered,81.8462,0,0.0,63471


### 作業1：數值 Column 的計算

請問截至4月2日為止 (UTC 時間)，全球累計的確診、死亡、及㡽復案例數各是多少？

【提示】可參考 `sum()` 內建函式。

In [5]:
names(df)

12-element Array{String,1}:
 "FIPS"          
 "Admin2"        
 "Province_State"
 "Country_Region"
 "Last_Update"   
 "Lat"           
 "Long_"         
 "Confirmed"     
 "Deaths"        
 "Recovered"     
 "Active"        
 "Combined_Key"  

In [6]:
# map(sum, [df[:, name] for name in names(df) if name in (:Confirmed, :Deaths, :Recovered)])

println("All over the world until 2020/04/02,
    Confirmed: $(sum(df.Confirmed))
    Deaths: $(sum(df.Deaths))
    Recovered: $(sum(df.Recovered))")

All over the world until 2020/04/02,
    Confirmed: 1013157
    Deaths: 52983
    Recovered: 210263


In [7]:
using Statistics
df_sum =  aggregate(df[:, [:Confirmed, :Deaths, :Recovered]], [sum])
println("All over the world until 2020/04/02,
    Confirmed: $(sum(df_sum.Confirmed_sum))
    Deaths: $(sum(df_sum.Deaths_sum))
    Recovered: $(sum(df_sum.Recovered_sum))")

All over the world until 2020/04/02,
    Confirmed: 1013157
    Deaths: 52983
    Recovered: 210263


│   caller = top-level scope at In[7]:2
└ @ Core In[7]:2


In [8]:
df_Confirmed_top10 = first(sort(df, :Confirmed, rev=true), 10)
df_Confirmed_top10[!, [:Province_State, :Country_Region, :Confirmed, :Deaths, :Recovered]]

Unnamed: 0_level_0,Province_State,Country_Region,Confirmed,Deaths,Recovered
Unnamed: 0_level_1,String?,String,Int64,Int64,Int64
1,missing,Italy,115242,13915,18278
2,missing,Spain,112065,10348,26743
3,missing,Germany,84794,1107,22440
4,Hubei,China,67802,3199,63471
5,missing,France,59105,5387,12428
6,New York,US,51809,1397,0
7,missing,Iran,50468,3160,16711
8,missing,United Kingdom,33718,2921,135
9,missing,Switzerland,18827,536,4013
10,missing,Turkey,18135,356,415


上面解答範例列出確診案例數前 10 名的 Province_State, Country_Region, Confirmed, Deaths, Recovered 等 5 個 column。

### 作業2：找出特定的 Row

截至4月2日為止 (UTC 時間)，台灣的確診、死亡、及㡽復案例數為多少？

【提示】使用點運算 `.==` 來比較同一 column 中所有值。

In [9]:
# Find the string representing Taiwan in the Country_Region column
show(df[:, [:Country_Region]]; allrows=true)

2569×1 DataFrame
│ Row  │ Country_Region                   │
│      │ [90mString[39m                           │
├──────┼──────────────────────────────────┤
│ 1    │ US                               │
│ 2    │ US                               │
│ 3    │ US                               │
│ 4    │ US                               │
│ 5    │ US                               │
│ 6    │ US                               │
│ 7    │ US                               │
│ 8    │ US                               │
│ 9    │ US                               │
│ 10   │ US                               │
│ 11   │ US                               │
│ 12   │ US                               │
│ 13   │ US                               │
│ 14   │ US                               │
│ 15   │ US                               │
│ 16   │ US                               │
│ 17   │ US                               │
│ 18   │ US                               │
│ 19   │ US                               │
│ 20 

│ 205  │ US                               │
│ 206  │ US                               │
│ 207  │ US                               │
│ 208  │ US                               │
│ 209  │ US                               │
│ 210  │ US                               │
│ 211  │ US                               │
│ 212  │ US                               │
│ 213  │ US                               │
│ 214  │ US                               │
│ 215  │ US                               │
│ 216  │ US                               │
│ 217  │ US                               │
│ 218  │ US                               │
│ 219  │ US                               │
│ 220  │ US                               │
│ 221  │ US                               │
│ 222  │ US                               │
│ 223  │ US                               │
│ 224  │ US                               │
│ 225  │ US                               │
│ 226  │ US                               │
│ 227  │ US                     

│ 465  │ US                               │
│ 466  │ US                               │
│ 467  │ US                               │
│ 468  │ US                               │
│ 469  │ US                               │
│ 470  │ US                               │
│ 471  │ US                               │
│ 472  │ US                               │
│ 473  │ US                               │
│ 474  │ US                               │
│ 475  │ US                               │
│ 476  │ US                               │
│ 477  │ US                               │
│ 478  │ US                               │
│ 479  │ US                               │
│ 480  │ US                               │
│ 481  │ US                               │
│ 482  │ US                               │
│ 483  │ US                               │
│ 484  │ US                               │
│ 485  │ US                               │
│ 486  │ US                               │
│ 487  │ US                     

│ 697  │ US                               │
│ 698  │ US                               │
│ 699  │ US                               │
│ 700  │ US                               │
│ 701  │ US                               │
│ 702  │ US                               │
│ 703  │ US                               │
│ 704  │ US                               │
│ 705  │ US                               │
│ 706  │ US                               │
│ 707  │ US                               │
│ 708  │ US                               │
│ 709  │ US                               │
│ 710  │ US                               │
│ 711  │ US                               │
│ 712  │ US                               │
│ 713  │ US                               │
│ 714  │ US                               │
│ 715  │ US                               │
│ 716  │ US                               │
│ 717  │ US                               │
│ 718  │ US                               │
│ 719  │ US                     

│ 924  │ US                               │
│ 925  │ US                               │
│ 926  │ US                               │
│ 927  │ US                               │
│ 928  │ US                               │
│ 929  │ US                               │
│ 930  │ US                               │
│ 931  │ US                               │
│ 932  │ US                               │
│ 933  │ US                               │
│ 934  │ US                               │
│ 935  │ US                               │
│ 936  │ US                               │
│ 937  │ US                               │
│ 938  │ US                               │
│ 939  │ US                               │
│ 940  │ US                               │
│ 941  │ US                               │
│ 942  │ US                               │
│ 943  │ US                               │
│ 944  │ US                               │
│ 945  │ US                               │
│ 946  │ US                     

│ 1152 │ US                               │
│ 1153 │ US                               │
│ 1154 │ US                               │
│ 1155 │ US                               │
│ 1156 │ US                               │
│ 1157 │ US                               │
│ 1158 │ US                               │
│ 1159 │ US                               │
│ 1160 │ US                               │
│ 1161 │ US                               │
│ 1162 │ US                               │
│ 1163 │ US                               │
│ 1164 │ US                               │
│ 1165 │ US                               │
│ 1166 │ US                               │
│ 1167 │ US                               │
│ 1168 │ US                               │
│ 1169 │ US                               │
│ 1170 │ US                               │
│ 1171 │ US                               │
│ 1172 │ US                               │
│ 1173 │ US                               │
│ 1174 │ US                     

│ 1414 │ US                               │
│ 1415 │ US                               │
│ 1416 │ US                               │
│ 1417 │ US                               │
│ 1418 │ US                               │
│ 1419 │ US                               │
│ 1420 │ US                               │
│ 1421 │ US                               │
│ 1422 │ US                               │
│ 1423 │ US                               │
│ 1424 │ US                               │
│ 1425 │ US                               │
│ 1426 │ US                               │
│ 1427 │ US                               │
│ 1428 │ US                               │
│ 1429 │ US                               │
│ 1430 │ US                               │
│ 1431 │ US                               │
│ 1432 │ US                               │
│ 1433 │ US                               │
│ 1434 │ US                               │
│ 1435 │ US                               │
│ 1436 │ US                     

│ 1660 │ US                               │
│ 1661 │ US                               │
│ 1662 │ US                               │
│ 1663 │ US                               │
│ 1664 │ US                               │
│ 1665 │ US                               │
│ 1666 │ US                               │
│ 1667 │ US                               │
│ 1668 │ US                               │
│ 1669 │ US                               │
│ 1670 │ US                               │
│ 1671 │ US                               │
│ 1672 │ US                               │
│ 1673 │ US                               │
│ 1674 │ US                               │
│ 1675 │ US                               │
│ 1676 │ US                               │
│ 1677 │ US                               │
│ 1678 │ US                               │
│ 1679 │ US                               │
│ 1680 │ US                               │
│ 1681 │ US                               │
│ 1682 │ US                     

│ 1927 │ US                               │
│ 1928 │ US                               │
│ 1929 │ US                               │
│ 1930 │ US                               │
│ 1931 │ US                               │
│ 1932 │ US                               │
│ 1933 │ US                               │
│ 1934 │ US                               │
│ 1935 │ US                               │
│ 1936 │ US                               │
│ 1937 │ US                               │
│ 1938 │ US                               │
│ 1939 │ US                               │
│ 1940 │ US                               │
│ 1941 │ US                               │
│ 1942 │ US                               │
│ 1943 │ US                               │
│ 1944 │ US                               │
│ 1945 │ US                               │
│ 1946 │ US                               │
│ 1947 │ US                               │
│ 1948 │ US                               │
│ 1949 │ US                     

│ 2195 │ US                               │
│ 2196 │ US                               │
│ 2197 │ US                               │
│ 2198 │ US                               │
│ 2199 │ US                               │
│ 2200 │ US                               │
│ 2201 │ US                               │
│ 2202 │ US                               │
│ 2203 │ US                               │
│ 2204 │ US                               │
│ 2205 │ US                               │
│ 2206 │ US                               │
│ 2207 │ US                               │
│ 2208 │ US                               │
│ 2209 │ US                               │
│ 2210 │ US                               │
│ 2211 │ US                               │
│ 2212 │ US                               │
│ 2213 │ US                               │
│ 2214 │ US                               │
│ 2215 │ US                               │
│ 2216 │ US                               │
│ 2217 │ US                     

│ 2438 │ Dominica                         │
│ 2439 │ Dominican Republic               │
│ 2440 │ Ecuador                          │
│ 2441 │ Egypt                            │
│ 2442 │ El Salvador                      │
│ 2443 │ Equatorial Guinea                │
│ 2444 │ Eritrea                          │
│ 2445 │ Estonia                          │
│ 2446 │ Eswatini                         │
│ 2447 │ Ethiopia                         │
│ 2448 │ Fiji                             │
│ 2449 │ Finland                          │
│ 2450 │ France                           │
│ 2451 │ Gabon                            │
│ 2452 │ Gambia                           │
│ 2453 │ Georgia                          │
│ 2454 │ Germany                          │
│ 2455 │ Ghana                            │
│ 2456 │ Greece                           │
│ 2457 │ Grenada                          │
│ 2458 │ Guatemala                        │
│ 2459 │ Guinea                           │
│ 2460 │ Guinea-Bissau          

In [10]:
df_taiwan = df[df[:, :Country_Region] .== "Taiwan*", :]

Unnamed: 0_level_0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat
Unnamed: 0_level_1,Int64?,String?,String?,String,String,Float64?
1,missing,missing,missing,Taiwan*,2020-04-02 11:09:45,23.7


In [11]:
println("In Taiwan until 2020/04/02,
    Confirmed: $(sum(df_taiwan.Confirmed))
    Deaths: $(sum(df_taiwan.Deaths))
    Recovered: $(sum(df_taiwan.Recovered))")

In Taiwan until 2020/04/02,
    Confirmed: 339
    Deaths: 5
    Recovered: 45
