# Julia DataFrames.jl 介紹

# Day 017 作業：載入 COVID-19 資料集

今天的作業將使用 `DataFrames.jl` 及 `CSV.jl` 套件，來載入美國約翰霍普金斯大學提供的 COVID-19 資料集 (2019 Novel Coronavirus COVID-19 (2019-nCoV) Data Repository by Johns Hopkins CSSE)。資料集作為教育及研究使用，並且被用來建立視覺化儀表板提供檢視及追蹤 COVID-19 疫情狀況。

資料集 GitHub: [https://github.com/CSSEGISandData/COVID-19](https://github.com/CSSEGISandData/COVID-19)

資料集格式為 CSV，整合不同資料來源，主要分為 Daily Report 及時間序列資料。

請自行下載 2020/4/2 的 daily report資料集：[https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_daily_reports/04-02-2020.csv](https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_daily_reports/04-02-2020.csv)

Daily Report 主要欄位有：

- Province/State: 省名 (中國)、州名或市名 (美國、加拿大、澳洲)、或是事件名稱 (例如鑽石公主號)...
- Country/Region: 國名或區域名
- Last Update: 最後更新日期/時間，格式為 24 小時制的 UTC 時間
- Confirmed: 確診案例
- Deaths: 死亡案例
- Recovered: 康復案例
- Lat, Long: 經緯度
- Combined Key: 複合 Key 值

In [1]:
using DataFrames, CSV

In [8]:
df =CSV.read("C:/Users/USER/Julia MaRaThon/04-02-2020.csv",copycols=true); # 撰寫讀取 CSV 檔的程式碼

請問此資料集的筆數 (row) 及欄位數 (column) 各是多少？

In [10]:
show(df,splitcols=false,summary=true)

2569×12 DataFrame
│ Row  │ FIPS    │ Admin2     │ Province_State │ Country_Region       │ Last_Update         │ Lat      │ Long_    │ Confirmed │ Deaths │ Recovered │ Active │ Combined_Key                  │
│      │ [90mInt64⍰[39m  │ [90mString⍰[39m    │ [90mString⍰[39m        │ [90mString[39m               │ [90mString[39m              │ [90mFloat64⍰[39m │ [90mFloat64⍰[39m │ [90mInt64[39m     │ [90mInt64[39m  │ [90mInt64[39m     │ [90mInt64[39m  │ [90mString[39m                        │
├──────┼─────────┼────────────┼────────────────┼──────────────────────┼─────────────────────┼──────────┼──────────┼───────────┼────────┼───────────┼────────┼───────────────────────────────┤
│ 1    │ 45001   │ Abbeville  │ South Carolina │ US                   │ 2020-04-02 23:25:27 │ 34.2233  │ -82.4617 │ 6         │ 0      │ 0         │ 0      │ Abbeville, South Carolina, US │
│ 2    │ 22001   │ Acadia     │ Louisiana      │ US                   │ 2020-04-02 23:25:27 │ 30.2951 

In [6]:
# 請在此輸入程式碼
size(df)

(2569, 12)

In [7]:
# 彙總 DataFrame 資訊
describe(df)

Unnamed: 0_level_0,variable,mean,min,median,max
Unnamed: 0_level_1,Symbol,Union…,Any,Union…,Any
1,FIPS,30958.4,66,29093.0,99999
2,Admin2,,Abbeville,,unassigned
3,Province_State,,Alabama,,Zhejiang
4,Country_Region,,Afghanistan,,Zimbabwe
5,Last_Update,,2020-02-23 11:19:02,,2020-04-02 23:32:01
6,Lat,36.2992,-42.8821,37.7171,71.7069
7,Long_,-78.9577,-159.597,-86.5104,178.065
8,Confirmed,394.378,0,7.0,115242
9,Deaths,20.624,0,0.0,13915
10,Recovered,81.8462,0,0.0,63471


### 作業1：數值 Column 的計算

請問截至4月2日為止 (UTC 時間)，全球累計的確診、死亡、及㡽復案例數各是多少？

【提示】可參考 `sum()` 內建函式。

In [16]:
totalconfirmed=sum(df[:,:Confirmed])
totaldeath=sum(df[:,:Deaths])
totalrecovered=sum(df[:,:Recovered])
print("Total Confirmed=",totalconfirmed,"  ","Total Death=",totaldeath,"  ","Total Recovered=",totalrecovered)

Total Confirmed=1013157  Total Death=52983  Total Recovered=210263

上面解答範例列出確診案例數前 10 名的 Province_State, Country_Region, Confirmed, Deaths, Recovered 等 5 個 column。

### 作業2：找出特定的 Row

截至4月2日為止 (UTC 時間)，台灣的確診、死亡、及㡽復案例數為多少？

【提示】使用點運算 `.==` 來比較同一 column 中所有值。

In [27]:
findidx=df[:,:Combined_Key].=="Taiwan*"
idx=findall(x->x==1,findidx)[1]

2550

In [36]:
TaiwanConfirmed=df[idx,:Confirmed]
TaiwanDeath=df[idx,:Deaths]
TaiwanRecovered=df[idx,:Recovered]
print("Confirmed=",TaiwanConfirmed,"  ","Death=",TaiwanDeath,"  ","Recovered=",TaiwanRecovered)

Confirmed=339  Death=5  Recovered=45