# Term Project

by Hogeon Kim

In [1]:
# conda install watermark -c conda-forge

In [14]:
%load_ext watermark
%watermark -v -a "Hogeon Kim" -e "hoho9337@khu.ac.kr" -gu "hoho9337" -p numpy,matplotlib,pandas

Author: Hogeon Kim

Github username: hoho9337

Email: hoho9337@khu.ac.kr

Python implementation: CPython
Python version       : 3.9.12
IPython version      : 8.2.0

numpy     : 1.21.5
matplotlib: 3.5.1
pandas    : 1.4.2



## 목차
1. 주제 선정 이유: 왜 이 주제(정보, 데이터)를 선정하게 된 이유를 나열
1. 가설 정의: 본인이 텀 프로젝트를 통해서 증명하고자 하는 명제 혹은 밝히고자 하는 논리가 무엇인지 설명
1. 인터넷을 통한 데이터 획득: 위의 명제/논리을 펼치기 위하여, 파이썬으로 어떤 데이터를 어떻게 획득했는지 구체적으로 설명
1. 분석을 위한 데이터의 가공: 데이터는 가공되지 않으면 의미가 없으므로, 어떤 데이터를 어떻게 가공했는지 설명
1. 분석 결과: 수학적 방법 혹은 논리적 방법을 파이썬으로 구현하여 분석 결과를 도출 (그래프 등의 가시화 활용)
1. 결론: 본인의 명제 혹은 밝히고자 하는 논리가 증명/확인 되었는지 구체적으로 서술
1. 참고문헌: 위의 작업을 위하여 참고한 자료, 인터넷 정보, 논문, 도서 등을 나열
1. 별첨: (3)의 획득한 데이터 원본
1. 별첨: (4)의 가공된 데이터 원본
1. 별첨: (3) 데이터 획득, (4) 데이터 가공, (5) 분석 결과를 도출하기까지 본인이 직접 작성한 파이썬 소스 코드 원본

# Proposal

## 주제 : COVID-19의 치사율에 영향을 주는 요인 분석


- 주제 선정 이유
1. 건강과 healthcare 관련된 관심도가 급격하게 증가하는 추세이다.
1. 여러 종류의 데이터 중 정보의 양과 신뢰도가 높다고 판단되었다.
1. 코로나-19 이후에 등장할 전염병에도 적용될 수 있는 내용이다.
1. 전염병과 관련된 강의와 도서를 접하게 되어 개인적 관심이 높아졌다.

## 가설 / 명제

- 1인당 담배 소비량이 높은 나라는 코로나-19 확진률도 높을 것이다.
- 개인 건강/면역 상태(ex. 영양부족, Healthy life expectancy 등)가 불량할수록 코로나-19에 취약할 가능성이 높을 것이다.
- 의료 종사자 수 비율이 높은 나라일수록 코로나-19로 인한 사망자가 적을 것이다.
- 코로나-19로 인한 치사율이 높은 나라는 낮은 나라보다 다른 질병으로부터 더 취약할 것이다.
- 코로나-19 백신 접종률이 높은 나라일수록 코로나-19 확진자 증가율이 적을 것이다.

## 분석할 데이터의 출처와 데이터 내용

- https://covid19.who.int : 
    국가별 코로나-19 확진자/사망자 추세
    
- https://kosis.kr : 
    국가별 전염병 발생 추이, 영양부족 인구비율, 우리나라 개인 건강 상태, 국가별 흡연율/알코올 소비량, 
    
- https://www.who.int : 
   코로나-19 외 다른 질병의 국가별 통계자료

## 분석 계획

1. 데이터 수집
    - 국가별 코로나-19 확진자/사망자 추세
    - 국가별 백신 접종 현황
    - 국가별 개인 건강상태
    - 국가별 의료 종사자 비율
    - 국가별 1인당 담배 소비량
    - 국가별 알코올 소비량
    - 코로나-19 외 다른 질병의 국가별 통계자료
    
1. 개인 건강/위생/면역 상태를 대표할 수 있는 `feature` 선정
1. 필요한 데이터의 종류와 형태로 preprocess
1. 대표 `feature`들(개인 건강/위생/면역 상태, 백신접종률)과 코로나-19 발생/치사율 사이의 연관성 가시화
1. 그래프 분석 및 결론 도출

### Raw Data

In [32]:
import numpy as np
import pandas as pd

- 국가별 코로나-19 확진자/사망자 추세 : 대표 `feature`들과 연관시킬 key data

In [31]:
df_cov = pd.read_csv("data/WHO-COVID-19-global-table-data.csv")
df_cov

Unnamed: 0,Name,WHO Region,Cases - cumulative total,Cases - cumulative total per 100000 population,Cases - newly reported in last 7 days,Cases - newly reported in last 7 days per 100000 population,Cases - newly reported in last 24 hours,Deaths - cumulative total,Deaths - cumulative total per 100000 population,Deaths - newly reported in last 7 days,Deaths - newly reported in last 7 days per 100000 population,Deaths - newly reported in last 24 hours
Global,,626337158,8035.588106,2047229,26.26491,162207,6566610,84.246276,5879,0.075425,603,
United States of America,Americas,95946824,28986.724000,0,0.00000,0,1059255,320.014000,0,0.000000,0,
India,South-East Asia,44649088,3235.431000,10452,0.75700,2208,528999,38.333000,46,0.003000,12,
France,Europe,35697506,54886.005000,267748,411.67100,37089,153182,235.522000,513,0.789000,71,
Germany,Europe,35523412,42713.499000,386677,464.94200,41338,153377,184.421000,140,0.168000,11,
...,...,...,...,...,...,...,...,...,...,...,...,...
Tuvalu,Western Pacific,23,195.047000,0,0.00000,0,0,0.000000,0,0.000000,0,
Pitcairn Islands,Western Pacific,4,8000.000000,0,0.00000,0,0,0.000000,0,0.000000,0,
Democratic People's Republic of Korea,South-East Asia,0,0.000000,0,0.00000,0,0,0.000000,0,0.000000,0,
Tokelau,Western Pacific,0,0.000000,0,0.00000,0,0,0.000000,0,0.000000,0,


- 국가별 백신 접종 현황

In [28]:
df_vac = pd.read_csv('data/vaccination-data.csv')
df_vac

Unnamed: 0,COUNTRY,ISO3,WHO_REGION,DATA_SOURCE,DATE_UPDATED,TOTAL_VACCINATIONS,PERSONS_VACCINATED_1PLUS_DOSE,TOTAL_VACCINATIONS_PER100,PERSONS_VACCINATED_1PLUS_DOSE_PER100,PERSONS_FULLY_VACCINATED,PERSONS_FULLY_VACCINATED_PER100,VACCINES_USED,FIRST_VACCINE_DATE,NUMBER_VACCINES_TYPES_USED,PERSONS_BOOSTER_ADD_DOSE,PERSONS_BOOSTER_ADD_DOSE_PER100
0,Afghanistan,AFG,EMRO,REPORTING,2022-10-24,12055358.0,11084618.0,30.968,28.474,10386823.0,26.682,"AstraZeneca - Vaxzevria,Beijing CNBG - BBIBP-C...",2021-02-22,11.0,,
1,Albania,ALB,EURO,REPORTING,2022-10-16,2991576.0,1339100.0,104.000,47.053,1265900.0,44.481,"AstraZeneca - Vaxzevria,Gamaleya - Gam-Covid-V...",2021-01-13,5.0,363122.0,12.759
2,Algeria,DZA,AFRO,REPORTING,2022-09-04,15267442.0,7840131.0,34.817,17.879,6481186.0,14.780,"Beijing CNBG - BBIBP-CorV,Gamaleya - Gam-Covid...",2021-01-30,4.0,575651.0,1.313
3,American Samoa,ASM,WPRO,REPORTING,2022-08-23,111316.0,44885.0,201.670,81.318,41423.0,75.046,"Janssen - Ad26.COV 2-S,Moderna - Spikevax,Pfiz...",2020-12-21,3.0,24160.0,43.770
4,Andorra,AND,EURO,REPORTING,2022-10-16,154320.0,57898.0,199.700,76.005,53482.0,70.208,"AstraZeneca - Vaxzevria,Moderna - Spikevax,Pfi...",2021-01-20,3.0,42940.0,56.369
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
224,Viet Nam,VNM,WPRO,REPORTING,2022-10-13,260375471.0,90028108.0,267.495,92.490,84393196.0,86.701,"AstraZeneca - Vaxzevria,Beijing CNBG - BBIBP-C...",2021-03-08,6.0,55949328.0,57.479
225,Wallis and Futuna,WLF,WPRO,REPORTING,2022-07-26,16782.0,6592.0,149.226,58.616,6989.0,62.147,Moderna - Spikevax,2021-03-19,1.0,3201.0,28.463
226,Yemen,YEM,EMRO,REPORTING,2022-10-20,1139242.0,914722.0,3.820,3.067,669393.0,2.244,"AstraZeneca - Vaxzevria,Beijing CNBG - BBIBP-C...",2021-04-20,11.0,54985.0,0.184
227,Zambia,ZMB,AFRO,REPORTING,2022-10-16,9315275.0,8556919.0,50.671,46.546,6354938.0,34.568,"Beijing CNBG - BBIBP-CorV,Janssen - Ad26.COV 2...",2021-04-14,3.0,724977.0,3.944


- 국가별 개인 건강상태 지표

: 몇 가지 feature들만 발췌하여 분석에 사용될 예정

In [46]:
with pd.ExcelFile("data/whs2022.xlsx") as xls:
    df_whs1 = pd.read_excel(xls, "Annex 2-1")
    df_whs2 = pd.read_excel(xls, "Annex 2-2")
    df_whs3 = pd.read_excel(xls, "Annex 2-3")
    df_whs4 = pd.read_excel(xls, "Annex 2-4")
    
df_whs1

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 12,3.2,Unnamed: 14,3.3,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21
0,,Total populationa (000s),,,Life expectancy at birthb (years),,,Healthy life expectancy at birthb (years),,,...,,Under-five mortality ratee (per 1000 live births),Neonatal mortality ratee (per 1000 live births),New HIV infectionsf (per 1000 uninfected popul...,Tuberculosis incidenceg (per 100 000 population),Malaria incidenceh (per 1000 population at risk),,Hepatitis B surface antigen (HBsAg) prevalence...,Reported number of people requiring interventi...,
1,Data type,Comparable estimates,,,Comparable estimates,,,Comparable estimates,,,...,,Comparable estimates,Comparable estimates,Comparable estimates,Comparable estimates,Comparable estimates,,Comparable estimates,Primary data,
2,,Male,Female,Both sexes,Male,Female,Both sexes,Male,Female,Both sexes,...,,,,,,,,,,
3,Member State,2020,,,2019,,,2019,,,...,,2020,2020,2020,2020,2020,,2020,2020,Member State
4,Afghanistan,19976,18952,38928,63.3,63.2,63.2,54.7,53.2,53.9,...,,58,35,0.04,193,8.4,,0.39,14367281,Afghanistan
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
203,European Region,452591,480297,932888,75.1,81.3,78.2,66.6,70,68.3,...,,8,4,0.18,25,0,,0.26,6639094,European Region
204,Eastern Mediterranean Region,374719,351002,725721,68.3,71.3,69.7,60.2,60.7,60.4,...,,45,25,0.06,112,11.2,,0.84,75059501,Eastern Mediterranean Region
205,Western Pacific Region,987323,952556,1939879,74.8,80.8,77.7,67,70.2,68.6,...,,11,5,0.06,93,2.2,,0.3,72876938,Western Pacific Region
206,,,,,,,,,,,...,,,,,,,,,,


- 국가별 의료 종사자 비율

: 국가 이름 영어/ISO3 형식으로 변환 필요

In [67]:
df_heal = pd.read_csv('data/how_many_healers.csv')
df_heal.head()

Unnamed: 0,국가별,2019,2019.1,2019.2,2019.3,2019.4,2019.5,2019.6,2019.7,2020,...,2020.6,2020.7,2021,2021.1,2021.2,2021.3,2021.4,2021.5,2021.6,2021.7
0,국가별,의사,#NAME?,약사,#NAME?,치과의사,#NAME?,간호사,#NAME?,의사,...,간호사,#NAME?,의사,#NAME?,약사,#NAME?,치과의사,#NAME?,간호사,#NAME?
1,아시아,,,,,,,,,,...,,,,,,,,,,
2,대한민국,127258,2.46,38941,0.75,26486,0.51,410694,7.93,130014,...,433993,8.37,,,,,,,,
3,중국,3210515,2.24,,,,,4445047,3.1,3401672,...,4708717,3.27,,,,,,,,
4,인도,1234205,0.9,,,,,,,,...,,,,,,,,,,


- 국가별 1인당 담배 소비량

: 국가 이름 영어/ISO3 형식으로 변환 필요

In [68]:
df_smkr = pd.read_csv('data/how_many_smokers.csv')
df_smkr.head()

Unnamed: 0,국가별,2017,2018,2019,2020,2021
0,아시아,,,,,
1,대한민국,1607.0,1606.0,1574.0,1592.0,-
2,이스라엘,773.0,769.0,727.0,806.0,808
3,일본,1310.0,1171.0,1065.0,892.0,-
4,튀르키예,1073.7,1178.2,1179.5,1182.4,-


- 국가별 1인당 알코올 음료 소비량

: 국가 이름 영어/ISO3 형식으로 변환 필요

In [69]:
df_alc = pd.read_csv('data/how_many_alcohol.csv')
df_alc.head()

Unnamed: 0,국가별,2017,2018,2019,2020,2021
0,아시아,,,,,
1,대한민국,8.7,8.5,8.3,7.9,
2,중국,5.3,4.8,4.5,,
3,인도,2.9,3.0,3.1,,
4,인도네시아,0.1,0.1,0.1,,


## 참고문헌

- `총, 균, 쇠` / 제레드 다이아몬드
- `인수공통 모든 전염병의 열쇠` / 데이비드 콰먼
- `10퍼센트 인간` / 엘리나 콜렌
- `World health statistics 2022: monitoring health for the SDGs, sustainable development goals` / WHO https://www.who.int/publications/i/item/9789240051157