# 데이터 파일 읽기

- [서울시 코로나19 확진자 현황](http://data.seoul.go.kr/dataList/OA-20279/S/1/datasetView.do)
## 컬럼
- ID : 확진자 ID. 발생순서대로 1씩증가하는 값
- 확진일: 확진 날짜
- 자치구: 확진 결과를 받은 지역구.
- 여행력: 해외유입의 경우 국가명
- 접촉력: 감염된 경로. 
- 현재상태: 퇴원, 사망, NA: 치료중

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [4]:
df = pd.read_csv('data/corona19_seoul_2021-03-15.csv')
df

Unnamed: 0,ID,확진일,자치구,여행력,접촉력,현재상태
0,30061,2021-03-14,동대문구,,동대문구 소재 병원 관련(\'21.2.),사망
1,30060,2021-03-14,강동구,,감염경로 조사중,
2,30059,2021-03-14,타시도,,관악구 소재 미용업 관련,
3,30058,2021-03-14,마포구,,감염경로 조사중,
4,30057,2021-03-14,서대문구,,타시도 확진자 접촉,
...,...,...,...,...,...,...
30056,5,2020-01-31,마포구,,기타 확진자 접촉,퇴원
30057,4,2020-01-30,종로구,중국,해외유입,퇴원
30058,3,2020-01-30,중랑구,,종로구 집단발병,퇴원
30059,2,2020-01-30,강서구,중국,해외유입,퇴원


# 1. DataFrame 기본정보 조회

In [5]:
df.shape

(30061, 6)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30061 entries, 0 to 30060
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ID      30061 non-null  int64 
 1   확진일     30061 non-null  object
 2   자치구     30061 non-null  object
 3   여행력     976 non-null    object
 4   접촉력     30061 non-null  object
 5   현재상태    27143 non-null  object
dtypes: int64(1), object(5)
memory usage: 1.4+ MB


In [9]:
df.describe(include = 'object')

Unnamed: 0,확진일,자치구,여행력,접촉력,현재상태
count,30061,30061,976,30061,27143
unique,384,27,120,512,2
top,2020-12-17,기타,미국,기타 확진자 접촉,퇴원
freq,588,2000,329,9660,26738


In [10]:
df.head()

Unnamed: 0,ID,확진일,자치구,여행력,접촉력,현재상태
0,30061,2021-03-14,동대문구,,동대문구 소재 병원 관련(\'21.2.),사망
1,30060,2021-03-14,강동구,,감염경로 조사중,
2,30059,2021-03-14,타시도,,관악구 소재 미용업 관련,
3,30058,2021-03-14,마포구,,감염경로 조사중,
4,30057,2021-03-14,서대문구,,타시도 확진자 접촉,


In [12]:
df.tail()

Unnamed: 0,ID,확진일,자치구,여행력,접촉력,현재상태
30056,5,2020-01-31,마포구,,기타 확진자 접촉,퇴원
30057,4,2020-01-30,종로구,중국,해외유입,퇴원
30058,3,2020-01-30,중랑구,,종로구 집단발병,퇴원
30059,2,2020-01-30,강서구,중국,해외유입,퇴원
30060,1,2020-01-24,강서구,중국,해외유입,퇴원


##  1.1 범주형 컬럼들의 고유값들 조회

In [15]:
# 자치구 고유값 조회
df['자치구'].unique()
df['자치구'].value_counts()

기타      2000
강서구     1704
송파구     1658
타시도     1413
관악구     1408
강남구     1376
노원구     1322
성북구     1298
은평구     1262
중랑구     1250
동작구     1238
서초구     1148
양천구     1144
영등포구    1122
구로구     1094
동대문구    1087
강동구     1036
마포구      990
도봉구      954
광진구      876
용산구      815
서대문구     786
강북구      785
성동구      763
종로구      579
금천구      478
중구       475
Name: 자치구, dtype: int64

In [17]:
# 여행력 고유값 조회
df['여행력'].unique()
df['여행력'].value_counts()

미국                 329
영국                  63
러시아                 36
인도네시아               34
필리핀                 33
                  ... 
오스트리아, 모로코, 프랑스      1
싱가포르                 1
에티오피나                1
캄보디아                 1
28238                1
Name: 여행력, Length: 120, dtype: int64

In [19]:
# 접촉력 고유값 조회
df['접촉력'].unique()
df['접촉력'].value_counts()

기타 확진자 접촉                   9660
감염경로 조사중                    6994
타시도 확진자 접촉                  1304
동부구치소 관련                    1175
해외유입                         965
                            ... 
타시도 확진자 접촉 (강원 강릉시 지인모임)       1
위에화엔터테인먼트                      1
타시도 확진자 접촉 (수원 베이비시터 관련)       1
관악구 투석환자 관련                    1
강남구 오렌지라이프 관련                  1
Name: 접촉력, Length: 512, dtype: int64

In [21]:
#현재상태 고유값 조회
df['현재상태'].unique()
df['현재상태'].value_counts()

퇴원    26738
사망      405
Name: 현재상태, dtype: int64

# 2. 확진일 확진자수 정보 조회

## 2.1 확진일의 빈도수

> ### datetime으로 변환
> - `pd.to_datetime(변환할 Series)`
> - x 또는 y 축이 날짜 일 경우 datetime 타입으로 처리하는 것이 좋다.
> - datetime을 변환하면 날짜만의 기능을 다룰 수 있다.
>     - dt accessor를 이용해 datetime의 속성값들을(년, 월, 일 등) 추출할 수 있다.
>     - https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.html

## 2.2 확진일을 datetime으로 변환

## 2.3 확진일 관련 파생변수 추가
- 확진일에서 년을 추출해서 **'년'** 컬럼을 생성
- 확진일에서 월을 추출해서 **'월'** 컬럼을 생성
- 확진일에서 주(1년 중 몇번째 주)를 추출해서 **'주'** 컬럼을 생성
- 확진일에서 요일을 추출해서 **'요일'** 컬럼을 생성. 

## 2.4 요일 정수를 문자열(월,화,수,목,금,토,일)로 변경
- datetime에서 요일을 추출하면 정수로 반환된다.
    - dt.week 로 조회시 - 월요일: 0, 일요일: 6
    - dt.isocalendar()['week']로 조회시 - 월요일 : 1, 일요일: 7

### 참고 > Categorical Data 타입
> - 범주형 타입
> - 문자열과 차이점
>     - 내부적으로 정수로 관리되기 때문에 메모리를 절약 할 수 있다. 
>     - 사전적 순서와 논리적 순서가 다를 경우 논리적 순서로 정렬되도록 정의 할 수 있다.
>         - 사전적순서: Four One Three Two
>         - 논리적순서: One Two Three Four
> - str 타입 Series를 Categorical 타입으로 변환
>     - `pandas.categorical(변환할Series, [categories=[고유값 리스트], ordered=None])`
    - categories: 고유값 리스트를 지정한다. 생략할 경우 Series의 고유값들을 가지고 만든다.
        - 원하는 순서대로 지정하기 위해서는 설정한다.
    - ordered: 순성형 여부 설정

## 2.5 요일을 Categorical Type으로 변환

## 2.6 확진자 수 변화 추이 시각화

## 2.7 2020년 12월 이후 확진일 기준으로 확진자 수 변화 추이 시각화

## 2.8 년도-주 단위 확진자 수 변화 추이 시각화
- ex) 2020년 1주차, 2020년 2주차 ... 

## 2.9 년-월 단위  확진자수 조회 및 시각화

## 2.10 월-요일별 확진자수 조회 및 시각화

# 3. 누적 확진자수 조회 및 변화 흐름 시각화
- Series/DataFrame.cumsum()
    - 누적 합계
- Series.to_frame()
    - Series를 DataFrame으로 변환

## 3.1 일별 누적 확진자수 조회

## 3.2 누적확진자수 파생변수 생성

## 3.3 누적 확진자수 선그래프

# 4. 자치구 기준 확진자 조회

## 4.1 자치구별 확진자수 조회

## 4.2 자치구별 확진자수 시각화

# 5. 접촉력 관련 확진자 조회

## 5.1 가장 많은 집단 감염자를 낸 접촉력 상위 15개 조회

## 5.2 가장 많은 집단 감염자를 낸 접촉력 하위 15 

## 5.3 접촉력 상위 15개만 시각화

## 5.4 확진자를 가장 많이 발생시킨 접촉력 상위 15개를 기준으로  월별 빈도수를 집계
- 몇 월에 발생했는지 확인 (년도는 무시)

# 6. 현재상태 관련조회

## 6.1 사망자 수/비율 조회

## 6.2 퇴원, 사망자, 치료중(NA)의 비율을 시각화