### kaggle

 - 여러 데이터들을 공유할 수 있는 사이트
 
 - 기업이나 기관이 데이터를 올리고 어떤 문제 해결을 챌린지로 내걸기도 함
 
 - 데이터를 기반으로 어떤 학습을 하고자할 때 매우 유용
 
 > https://www.kaggle.com/

### 한국에서 코로나 바이러스에 감염된 사람들 데이터셋 처리

 - 데이터 셋 : 데이터들의 집합 ... 데이터 뭉치들
 
 - 최근 19년도 말부터 20년도 지금까지 코로나 바이러스가 발병 중...
 
 - 한국에서 코로나 바이러스에 감염된 사람들에 대한 데이터 및 관련 데이터들을 질병 관리 본부가 kaggle에 공유했음
 
 - 질병 관리 데이터 컴퓨팅 사이언티스트가 되어 여러 사안을 추적해보자!

### 추적1. 데이터의 형태 (patient.csv)

 - csv 파일 형식
 
 - column 항목
 
 > id: 확진자의 id (n번째 확진자)
 > 
 > sex: 성별
 > 
 > birth_year: 출생 연도
 > 
 > country: 국적
 > 
 > region: 주 활동 지역 (광역시/도 단위)
 > 
 > group: 특정 집단 관련
 > 
 > infection_reason: 감염 경로
 > 
 > infection_order: 감염 차수 (n차 감염)
 > 
 > infected_by: 해당 확진자의 감염원 id
 > 
 > contact_number: 접촉자 수
 > 
 > confirmed_date: 확진 일자
 > 
 > released_date: 퇴원 일자 (격리 해제 일자)
 > 
 > deceased_date: 사망 일자
 > 
 > state: 상태

In [None]:
# CSV 파일 읽어들이기

import csv  # csv 모듈 임포트
import pprint

# 파일 위치, 경로 정의
file_path = '01_South_Korea/patient.csv'

# patient.csv 파일 열기
with open(file_path) as file:
    reader = csv.reader(file)  # CSV 파일을 읽어들이는 읽기 객체
    raw = list(reader)      #  CSV 파일 내용을 리스트로 읽어들인다

pprint.pprint(raw[:10])  # 읽어들인 내용을 화면에 출력

### 추적2. 데이터의 기본적 가공

 - 어떻게 확인할 수 있을까?
 
 - 아래의 순서대로 하나하나 뜯어보자
 
 > 1. 성별에 따른 확진자의 수
 >
 > 2. 사망자와 완치자
 >
 > 3. 나이대별 확진자의 수

###### 성별에 따른 확진자의 수

In [None]:
# 남자와 여자 환자의 수
male = 0
female = 0
nope_sex = 0

for i in range(len(raw_)):
    sex_of_patient = raw_[i][1]
    
    if(sex_of_patient == 'male'):
        male = male + 1
    elif(sex_of_patient == 'female'):
        female = female + 1
    else:
        nope_sex = nope_sex + 1
        
print("여자 확진자 : " + str(female))
print("남자 확진자 : " + str(male))
print("???? 확진자 : " + str(nope_sex))

###### 사망자와 완치자

In [None]:
# 사망자와 완치자의 수
deceased = 0
released = 0
infected = 0

for i in range(len(raw_)):
    state_of_patient = raw_[i][14]
    
    if(state_of_patient == 'deceased'):
        deceased = deceased + 1
    elif(state_of_patient == 'released'):
        released = released + 1
    else:
        infected = infected + 1
        
print("사망자 : " + str(deceased))
print("완치자 : " + str(released))
print("감염자 : " + str(infected))

###### 나이대별 확진자의 수

In [None]:
# 나이대별 확진자의 수

age000 = 0
age010 = 0
age020 = 0
age030 = 0
age040 = 0
age050 = 0
age060 = 0
age070 = 0
age080 = 0
age090 = 0
age100 = 0
nope_age = 0

for i in range(len(raw_)):
    
    if(raw_[i][2] == ''):
        nope_age = nope_age + 1
    else:
        age_of_patient = 2020 - int(raw_[i][2])

        if(0 <= age_of_patient < 10):
            age000 = age000 + 1
        elif(10 <= age_of_patient < 20):
            age010 = age010 + 1
        elif(20 <= age_of_patient < 30):
            age020 = age020 + 1
        elif(30 <= age_of_patient < 40):
            age030 = age030 + 1
        elif(40 <= age_of_patient < 50):
            age040 = age040 + 1
        elif(50 <= age_of_patient < 60):
            age050 = age050 + 1
        elif(60 <= age_of_patient < 70):
            age060 = age060 + 1
        elif(70 <= age_of_patient < 80):
            age070 = age070 + 1
        elif(80 <= age_of_patient < 90):
            age080 = age080 + 1
        elif(90 <= age_of_patient < 100):
            age090 = age100 + 1
        else:
            age100 = age100 + 1
            
print("어린이 확진자 : " + str(age000))
print("10대 확진자 : " + str(age010))
print("20대 확진자 : " + str(age020))
print("30대 확진자 : " + str(age030))
print("40대 확진자 : " + str(age040))
print("50대 확진자 : " + str(age050))
print("60대 확진자 : " + str(age060))
print("70대 확진자 : " + str(age070))
print("80대 확진자 : " + str(age080))
print("90대 확진자 : " + str(age090))
print("100세 이상 확진자 : " + str(age100))
print("나이 미상 확진자 : " + str(nope_age))

### 추적3. 데이터의 응용 가공

 - 어떻게 확인할 수 있을까?
 
 - 아래의 순서대로 하나하나 뜯어보자
 
 - 또 추가적으로 어떤 정보가 있다면 더 상세하게 데이터를 바라볼 수 있을까?
 
 > 1. 주 활동 지역에 따른 분류
 >
 > 2. 감염 원인에 따른 분류
 >
 > 3. 감염 집단들에 따른 분류
 >
 > 4. 누구로부터 감염되었는가? (슈퍼 전파자)
 >
 > 5. 확진자의 추이

###### 주 활동 지역에 따른 분류

In [None]:
# 주 활동 지역에 대한 정보 획득하기
regions = []

for i in range(len(raw_)):
    region = raw_[i][4] 
    
    if(region == ''):
        pass
    else:        
        if region in regions:
            pass
        else:
            regions.append(region)
            
pprint.pprint(regions)

In [None]:
# 주 활동 지역별 확진자 수 확인
regions_count = []

for i in range(len(regions) + 1):
    regions_count.append([])

for i in range(len(raw_)):
    region = raw_[i][4]
    
    for j in range(len(regions)):
        if(region == regions[j]):
            regions_count[j].append(1)

regions_patient = ()
    
for i in range(len(regions)):
    regions_patient = regions_patient + tuple((regions[i], sum(regions_count[i])))

pprint.pprint(regions_patient)

###### 감염 원인에 따른 분류

In [None]:
# 감염 원인들에 대한 정보 획득
reasons = []

for i in range(len(raw_)):
    reason = raw_[i][7] 
    
    if(reason == ''):
        pass
    else:        
        if reason in reasons:
            pass
        else:
            reasons.append(reason)
            
pprint.pprint(reasons)

In [None]:
# 감염 원인별 확진자 수 확인
reasons_count = []

for i in range(len(reasons) + 1):
    reasons_count.append([])

for i in range(len(raw_)):
    reason = raw_[i][7]
    
    for j in range(len(reasons)):
        if(reason == reasons[j]):
            reasons_count[j].append(1)

reasons_patient = ()
    
for i in range(len(reasons)):
    reasons_patient = reasons_patient + tuple((reasons[i], sum(reasons_count[i])))

pprint.pprint(reasons_patient)

###### 감염 집단들에 따른 분류

In [None]:
# 감염 집단들에 대한 정보 획득
groups = []

for i in range(len(raw_)):
    group = raw_[i][6] 
    
    if(group == ''):
        pass
    else:        
        if group in groups:
            pass
        else:
            groups.append(group)
            
pprint.pprint(groups)

In [None]:
# 감염 집단별 확진자 수 확인
groups_count = []

for i in range(len(groups) + 1):
    groups_count.append([])

for i in range(len(raw_)):
    group = raw_[i][6]
    
    for j in range(len(groups)):
        if(group == groups[j]):
            groups_count[j].append(1)

groups_patient = ()
    
for i in range(len(groups)):
    groups_patient = groups_patient + tuple((groups[i], sum(groups_count[i])))

pprint.pprint(groups_patient)

###### 누구로부터 감염되었는가? (슈퍼 전파자)

In [None]:
# 전파자에 대한 정보 획득
infection_by = []

for i in range(len(raw_)):
    infection = raw_[i][9] 
    
    if(infection == ''):
        pass
    else:        
        if infection in infection_by:
            pass
        else:
            infection_by.append(infection)
            
pprint.pprint(infection_by)

In [None]:
# 전파자에 의한 감염자 확인
count_infection_by = []

for i in range(len(infection_by) + 1):
    count_infection_by.append([])

for i in range(len(raw_)):
    infection = raw_[i][9]
    
    for j in range(len(infection_by)):
        if(infection == infection_by[j]):
            count_infection_by[j].append(1)

exporter_patient = ()
    
for i in range(len(infection_by)):
    exporter_patient = exporter_patient + tuple((infection_by[i], sum(count_infection_by[i])))

pprint.pprint(exporter_patient)

###### 확진자의 추이

In [None]:
# 감염 날짜에 대한 정보 획득
infection_date = []

for i in range(len(raw_)):
    date = raw_[i][11] 
    
    if(date == ''):
        pass
    else:        
        if date in infection_date:
            pass
        else:
            infection_date.append(date)
            
pprint.pprint(infection_date)

In [None]:
# 첫 확진자 발생부터 지금까지의 날짜별 감염자 확인
count_infection_date = []
count_infection_date_ = []

for i in range(len(infection_date) + 1):
    count_infection_date.append([])

for i in range(len(raw_)):
    date = raw_[i][11]
    
    for j in range(len(infection_date)):
        if(date == infection_date[j]):
            count_infection_date[j].append(1)

num_of_patient_in_date = ()
    
for i in range(len(infection_date)):
    num_of_patient_in_date = num_of_patient_in_date + tuple((infection_date[i], sum(count_infection_date[i])))
    count_infection_date_.append(sum(count_infection_date[i]))

pprint.pprint(num_of_patient_in_date)

In [None]:
# 누적 확진자 수 만들기
count_infection_date_accumulated = []

acc_count = 0

for i in range(len(count_infection_date_)):
    acc_count = acc_count + count_infection_date_[i]
    count_infection_date_accumulated.append(acc_count)

count_infection_date_accumulated

###### 퇴원자의 추이

In [None]:
# 퇴원 날짜에 대한 정보 획득
released_date = []

for i in range(len(raw_)):
    date = raw_[i][12] 
    
    if(date == ''):
        pass
    else:        
        if date in released_date:
            pass
        else:
            released_date.append(date)
            
pprint.pprint(released_date)

In [None]:
# 첫 퇴원자 발생부터 지금까지의 날짜별 퇴원자 확인
count_released_date = []
count_released_date_ = []

for i in range(len(released_date) + 1):
    count_released_date.append([])

for i in range(len(raw_)):
    date = raw_[i][12]
    
    for j in range(len(released_date)):
        if(date == released_date[j]):
            count_released_date[j].append(1)

num_of_patient_in_released_date = ()
    
for i in range(len(released_date)):
    num_of_patient_in_released_date = num_of_patient_in_released_date + tuple((released_date[i], sum(count_released_date[i])))
    count_released_date_.append(sum(count_released_date[i]))

pprint.pprint(num_of_patient_in_released_date)

### 추적4. 여러 데이터를 시각적으로 확인해보자

 - 데이터를 숫자로만 보니 어렵다
 
 - 위의 여러 사항에 대하여 시각적으로 확인할 수 있는 방법은 없을까?
 
 - matplotlib python package를 사용해보자!
 
 - command window에 아래의 명령으로 설치! (상황에 따라서 수치 및 데이터 가공과 관련된 numpy, scipy등을 추가로 설치할 수도 있음)
 
 ```
 pip install matplotlib
 ```
 
 - google에 python plot bar chart라는 검색어로 검색을 해보자
 
 > 1. `https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.bar.html`
 >
 > 2. `https://pythonspot.com/matplotlib-bar-chart/`

###### pie chart

In [None]:
# draw pie chart

fig = plt.figure()
ax = fig.add_axes([0,0,1,1])
ax.axis('equal')
type_of_sex = ['male', 'female', 'nope_sex']
patient_sex = [male,female,nope_sex]
ax.pie(patient_sex, labels = type_of_sex, autopct='%1.2f%%')
plt.show()

###### bar chart

In [None]:
# I wnat to use Korean!
from matplotlib import font_manager, rc
font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)

# draw bar chart
type_of_sex = type_of_sex[:2]
patient_sex = patient_sex[:2]

x_pos = [i for i, _ in enumerate(type_of_sex)]

plt.bar(x_pos, patient_sex, color='red')
plt.xlabel("gender")
plt.ylabel("number of patients")
plt.title("성별에 따른 확진자 수")

plt.xticks(x_pos, type_of_sex)

plt.show()

###### horizontal bar chart

In [None]:
# I wnat to use Korean!
from matplotlib import font_manager, rc
font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)

# draw horizontal bar chart
type_of_age = ['어린이', '10대', '20대', '30대', '40대', '50대', '60대', '70대', '80대', '90대', '100세 이상']
patient_age = [age000,age010,age020,age030,age040,age050,age060,age070,age080,age090,age100]

y_pos = [i for i, _ in enumerate(type_of_age)]

plt.barh(y_pos, patient_age, color='blue')
plt.ylabel("나이대")
plt.xlabel("number of patients")
plt.title("나이대에 따른 확진자 수")

plt.yticks(y_pos, type_of_age)

plt.show()

###### line graph

In [None]:
# I wnat to use Korean!
from matplotlib import font_manager, rc
font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)

# draw line graph
dates = infection_date
count = count_infection_date_

x_pos = [i for i, _ in enumerate(dates)]

plt.plot(x_pos, count, color='pink')
plt.xlabel("date")
plt.ylabel("number of patients")
plt.title("날짜별 확진자의 수")

plt.xticks(x_pos, dates, rotation=90)

plt.show()