# Julia DataFrames.jl 介紹

# Day 017 作業：載入 COVID-19 資料集

今天的作業將使用 `DataFrames.jl` 及 `CSV.jl` 套件，來載入美國約翰霍普金斯大學提供的 COVID-19 資料集 (2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSE)。資料集作為教育及研究使用，並且被用來建立視覺化儀表板提供檢視及追蹤 COVID-19 疫情狀況。

資料集 GitHub: [https://github.com/CSSEGISandData/COVID-19](https://github.com/CSSEGISandData/COVID-19)

資料集格式為 CSV，整合不同資料來源，主要分為 Daily Report 及時間序列資料。

請自行下載 2020/4/2 的 daily report資料集：[https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_daily_reports/04-02-2020.csv](https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_daily_reports/04-02-2020.csv)

Daily Report 主要欄位有：

- Province/State: 省名 (中國)、州名或市名 (美國、加拿大、澳洲)、或是事件名稱 (例如鑽石公主號)...
- Country/Region: 國名或區域名
- Last Update: 最後更新日期/時間，格式為 24 小時制的 UTC 時間
- Confirmed: 確診案例
- Deaths: 死亡案例
- Recovered: 康復案例
- Lat, Long: 經緯度
- Combined Key: 複合 Key 值

In [1]:
using DataFrames, CSV

In [2]:
# 撰寫讀取 CSV 檔的程式碼
df = CSV.read("04-02-2020.csv")

Unnamed: 0_level_0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat
Unnamed: 0_level_1,Int64⍰,String⍰,String⍰,String,String,Float64⍰
1,45001,Abbeville,South Carolina,US,2020-04-02 23:25:27,34.2233
2,22001,Acadia,Louisiana,US,2020-04-02 23:25:27,30.2951
3,51001,Accomack,Virginia,US,2020-04-02 23:25:27,37.7671
4,16001,Ada,Idaho,US,2020-04-02 23:25:27,43.4527
5,19001,Adair,Iowa,US,2020-04-02 23:25:27,41.3308
6,29001,Adair,Missouri,US,2020-04-02 23:25:27,40.1906
7,40001,Adair,Oklahoma,US,2020-04-02 23:25:27,35.8849
8,8001,Adams,Colorado,US,2020-04-02 23:25:27,39.8743
9,16003,Adams,Idaho,US,2020-04-02 23:25:27,44.8933
10,17001,Adams,Illinois,US,2020-04-02 23:25:27,39.9882


請問此資料集的筆數 (row) 及欄位數 (column) 各是多少？

In [3]:
# 請在此輸入程式碼
println("Number of rows: $(size(df, 1))")
println("Number of columns: $(size(df, 2))")

Number of rows: 2569
Number of columns: 12


In [4]:
# 彙總 DataFrame 資訊
describe(df)

Unnamed: 0_level_0,variable,mean,min,median,max
Unnamed: 0_level_1,Symbol,Union…,Any,Union…,Any
1,FIPS,30958.4,66,29093.0,99999
2,Admin2,,Abbeville,,unassigned
3,Province_State,,Alabama,,Zhejiang
4,Country_Region,,Afghanistan,,Zimbabwe
5,Last_Update,,2020-02-23 11:19:02,,2020-04-02 23:32:01
6,Lat,36.2992,-42.8821,37.7171,71.7069
7,Long_,-78.9577,-159.597,-86.5104,178.065
8,Confirmed,394.378,0,7.0,115242
9,Deaths,20.624,0,0.0,13915
10,Recovered,81.8462,0,0.0,63471


### 作業1：數值 Column 的計算

請問截至4月2日為止 (UTC 時間)，全球累計的確診、死亡、及㡽復案例數各是多少？

【提示】可參考 `sum()` 內建函式。

In [5]:
names(df)

12-element Array{Symbol,1}:
 :FIPS
 :Admin2
 :Province_State
 :Country_Region
 :Last_Update
 :Lat
 :Long_
 :Confirmed
 :Deaths
 :Recovered
 :Active
 :Combined_Key

In [6]:
# map(sum, [df[:, name] for name in names(df) if name in (:Confirmed, :Deaths, :Recovered)])

println("All over the world until 2020/04/02,
    Confirmed: $(sum(df.Confirmed))
    Deaths: $(sum(df.Deaths))
    Recovered: $(sum(df.Recovered))")

All over the world until 2020/04/02,
    Confirmed: 1013157
    Deaths: 52983
    Recovered: 210263


In [7]:
using Statistics
df_sum =  aggregate(df[:, [:Confirmed, :Deaths, :Recovered]], [sum])
println("All over the world until 2020/04/02,
    Confirmed: $(sum(df_sum.Confirmed_sum))
    Deaths: $(sum(df_sum.Deaths_sum))
    Recovered: $(sum(df_sum.Recovered_sum))")

All over the world until 2020/04/02,
    Confirmed: 1013157
    Deaths: 52983
    Recovered: 210263


上面解答範例列出確診案例數前 10 名的 Province_State, Country_Region, Confirmed, Deaths, Recovered 等 5 個 column。

In [8]:
df_Confirmed_top10 = first(sort(df, :Confirmed, rev=true), 10)
df_Confirmed_top10[!, [:Province_State, :Country_Region, :Confirmed, :Deaths, :Recovered]]

Unnamed: 0_level_0,Province_State,Country_Region,Confirmed,Deaths,Recovered
Unnamed: 0_level_1,String⍰,String,Int64,Int64,Int64
1,missing,Italy,115242,13915,18278
2,missing,Spain,112065,10348,26743
3,missing,Germany,84794,1107,22440
4,Hubei,China,67802,3199,63471
5,missing,France,59105,5387,12428
6,New York,US,51809,1397,0
7,missing,Iran,50468,3160,16711
8,missing,United Kingdom,33718,2921,135
9,missing,Switzerland,18827,536,4013
10,missing,Turkey,18135,356,415


### 作業2：找出特定的 Row

截至4月2日為止 (UTC 時間)，台灣的確診、死亡、及㡽復案例數為多少？

【提示】使用點運算 `.==` 來比較同一 column 中所有值。

In [9]:
# Find the string representing Taiwan in the Country_Region column
show(df[:, [:Country_Region]]; allrows=true)

2569×1 DataFrame
│ Row  │ Country_Region                   │
│      │ [90mString[39m                           │
├──────┼──────────────────────────────────┤
│ 1    │ US                               │
│ 2    │ US                               │
│ 3    │ US                               │
│ 4    │ US                               │
│ 5    │ US                               │
│ 6    │ US                               │
│ 7    │ US                               │
│ 8    │ US                               │
│ 9    │ US                               │
│ 10   │ US                               │
│ 11   │ US                               │
│ 12   │ US                               │
│ 13   │ US                               │
│ 14   │ US                               │
│ 15   │ US                               │
│ 16   │ US                               │
│ 17   │ US                               │
│ 18   │ US                               │
│ 19   │ US                               │
│ 20 

│ 214  │ US                               │
│ 215  │ US                               │
│ 216  │ US                               │
│ 217  │ US                               │
│ 218  │ US                               │
│ 219  │ US                               │
│ 220  │ US                               │
│ 221  │ US                               │
│ 222  │ US                               │
│ 223  │ US                               │
│ 224  │ US                               │
│ 225  │ US                               │
│ 226  │ US                               │
│ 227  │ US                               │
│ 228  │ US                               │
│ 229  │ US                               │
│ 230  │ US                               │
│ 231  │ US                               │
│ 232  │ US                               │
│ 233  │ US                               │
│ 234  │ US                               │
│ 235  │ US                               │
│ 236  │ US                     

│ 444  │ US                               │
│ 445  │ US                               │
│ 446  │ US                               │
│ 447  │ US                               │
│ 448  │ US                               │
│ 449  │ US                               │
│ 450  │ US                               │
│ 451  │ US                               │
│ 452  │ US                               │
│ 453  │ US                               │
│ 454  │ US                               │
│ 455  │ US                               │
│ 456  │ US                               │
│ 457  │ US                               │
│ 458  │ US                               │
│ 459  │ US                               │
│ 460  │ US                               │
│ 461  │ US                               │
│ 462  │ US                               │
│ 463  │ US                               │
│ 464  │ US                               │
│ 465  │ US                               │
│ 466  │ US                     

│ 659  │ US                               │
│ 660  │ US                               │
│ 661  │ US                               │
│ 662  │ US                               │
│ 663  │ US                               │
│ 664  │ US                               │
│ 665  │ US                               │
│ 666  │ US                               │
│ 667  │ US                               │
│ 668  │ US                               │
│ 669  │ US                               │
│ 670  │ US                               │
│ 671  │ US                               │
│ 672  │ US                               │
│ 673  │ US                               │
│ 674  │ US                               │
│ 675  │ US                               │
│ 676  │ US                               │
│ 677  │ US                               │
│ 678  │ US                               │
│ 679  │ US                               │
│ 680  │ US                               │
│ 681  │ US                     

│ 891  │ US                               │
│ 892  │ US                               │
│ 893  │ US                               │
│ 894  │ US                               │
│ 895  │ US                               │
│ 896  │ US                               │
│ 897  │ US                               │
│ 898  │ US                               │
│ 899  │ US                               │
│ 900  │ US                               │
│ 901  │ US                               │
│ 902  │ US                               │
│ 903  │ US                               │
│ 904  │ US                               │
│ 905  │ US                               │
│ 906  │ US                               │
│ 907  │ US                               │
│ 908  │ US                               │
│ 909  │ US                               │
│ 910  │ US                               │
│ 911  │ US                               │
│ 912  │ US                               │
│ 913  │ US                     

│ 1086 │ US                               │
│ 1087 │ US                               │
│ 1088 │ US                               │
│ 1089 │ US                               │
│ 1090 │ US                               │
│ 1091 │ US                               │
│ 1092 │ US                               │
│ 1093 │ US                               │
│ 1094 │ US                               │
│ 1095 │ US                               │
│ 1096 │ US                               │
│ 1097 │ US                               │
│ 1098 │ US                               │
│ 1099 │ US                               │
│ 1100 │ US                               │
│ 1101 │ US                               │
│ 1102 │ US                               │
│ 1103 │ US                               │
│ 1104 │ US                               │
│ 1105 │ US                               │
│ 1106 │ US                               │
│ 1107 │ US                               │
│ 1108 │ US                     

│ 1320 │ US                               │
│ 1321 │ US                               │
│ 1322 │ US                               │
│ 1323 │ US                               │
│ 1324 │ US                               │
│ 1325 │ US                               │
│ 1326 │ US                               │
│ 1327 │ US                               │
│ 1328 │ US                               │
│ 1329 │ US                               │
│ 1330 │ US                               │
│ 1331 │ US                               │
│ 1332 │ US                               │
│ 1333 │ US                               │
│ 1334 │ US                               │
│ 1335 │ US                               │
│ 1336 │ US                               │
│ 1337 │ US                               │
│ 1338 │ US                               │
│ 1339 │ US                               │
│ 1340 │ US                               │
│ 1341 │ US                               │
│ 1342 │ US                     

│ 1541 │ US                               │
│ 1542 │ US                               │
│ 1543 │ US                               │
│ 1544 │ US                               │
│ 1545 │ US                               │
│ 1546 │ US                               │
│ 1547 │ US                               │
│ 1548 │ US                               │
│ 1549 │ US                               │
│ 1550 │ US                               │
│ 1551 │ US                               │
│ 1552 │ US                               │
│ 1553 │ US                               │
│ 1554 │ US                               │
│ 1555 │ US                               │
│ 1556 │ US                               │
│ 1557 │ US                               │
│ 1558 │ US                               │
│ 1559 │ US                               │
│ 1560 │ US                               │
│ 1561 │ US                               │
│ 1562 │ US                               │
│ 1563 │ US                     

│ 1764 │ US                               │
│ 1765 │ US                               │
│ 1766 │ US                               │
│ 1767 │ US                               │
│ 1768 │ US                               │
│ 1769 │ US                               │
│ 1770 │ US                               │
│ 1771 │ US                               │
│ 1772 │ US                               │
│ 1773 │ US                               │
│ 1774 │ US                               │
│ 1775 │ US                               │
│ 1776 │ US                               │
│ 1777 │ US                               │
│ 1778 │ US                               │
│ 1779 │ US                               │
│ 1780 │ US                               │
│ 1781 │ US                               │
│ 1782 │ US                               │
│ 1783 │ US                               │
│ 1784 │ US                               │
│ 1785 │ US                               │
│ 1786 │ US                     

│ 1999 │ US                               │
│ 2000 │ US                               │
│ 2001 │ US                               │
│ 2002 │ US                               │
│ 2003 │ US                               │
│ 2004 │ US                               │
│ 2005 │ US                               │
│ 2006 │ US                               │
│ 2007 │ US                               │
│ 2008 │ US                               │
│ 2009 │ US                               │
│ 2010 │ US                               │
│ 2011 │ US                               │
│ 2012 │ US                               │
│ 2013 │ US                               │
│ 2014 │ US                               │
│ 2015 │ US                               │
│ 2016 │ US                               │
│ 2017 │ US                               │
│ 2018 │ US                               │
│ 2019 │ US                               │
│ 2020 │ US                               │
│ 2021 │ US                     

│ 2249 │ US                               │
│ 2250 │ US                               │
│ 2251 │ US                               │
│ 2252 │ US                               │
│ 2253 │ US                               │
│ 2254 │ US                               │
│ 2255 │ US                               │
│ 2256 │ US                               │
│ 2257 │ US                               │
│ 2258 │ US                               │
│ 2259 │ US                               │
│ 2260 │ US                               │
│ 2261 │ US                               │
│ 2262 │ US                               │
│ 2263 │ US                               │
│ 2264 │ US                               │
│ 2265 │ US                               │
│ 2266 │ US                               │
│ 2267 │ US                               │
│ 2268 │ US                               │
│ 2269 │ US                               │
│ 2270 │ US                               │
│ 2271 │ US                     

│ 2483 │ Laos                             │
│ 2484 │ Latvia                           │
│ 2485 │ Lebanon                          │
│ 2486 │ Liberia                          │
│ 2487 │ Libya                            │
│ 2488 │ Liechtenstein                    │
│ 2489 │ Lithuania                        │
│ 2490 │ Luxembourg                       │
│ 2491 │ MS Zaandam                       │
│ 2492 │ Madagascar                       │
│ 2493 │ Malawi                           │
│ 2494 │ Malaysia                         │
│ 2495 │ Maldives                         │
│ 2496 │ Mali                             │
│ 2497 │ Malta                            │
│ 2498 │ Mauritania                       │
│ 2499 │ Mauritius                        │
│ 2500 │ Mexico                           │
│ 2501 │ Moldova                          │
│ 2502 │ Monaco                           │
│ 2503 │ Mongolia                         │
│ 2504 │ Montenegro                       │
│ 2505 │ Morocco                

In [10]:
df_taiwan = df[df[:, :Country_Region] .== "Taiwan*", :]

Unnamed: 0_level_0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat
Unnamed: 0_level_1,Int64⍰,String⍰,String⍰,String,String,Float64⍰
1,missing,missing,missing,Taiwan*,2020-04-02 11:09:45,23.7


In [11]:
println("In Taiwan until 2020/04/02,
    Confirmed: $(sum(df_taiwan.Confirmed))
    Deaths: $(sum(df_taiwan.Deaths))
    Recovered: $(sum(df_taiwan.Recovered))")

In Taiwan until 2020/04/02,
    Confirmed: 339
    Deaths: 5
    Recovered: 45
