## 서울시에서 공개한 코로나19 발생동향 분석
* http://www.seoul.go.kr/coronaV/coronaStatus.do

## 분석에 사용할 Pandas 주요기능
* Pandas cheat sheet 를 함께 보세요! : [Pandas_Cheat_Sheet.pdf](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

* 파일 불러오기
    * to_csv("파일명", index=False) : csv 파일로 저장하기
    * read_csv("파일명") : csv 파일 불러오기
    
* Pandas를 통한 파일 저장과 불러오기
    * shape를 통한 행과 열의 수 보기
    * head, tail, sample 을 통한 일부 데이터 가져오기
    
* DataFrame의 info(), describe() 등을 통한 요약과 기술통계 값 구하기
    * info()
    * describe()
    * nunique()
    * index
    * columns
    * values
    
* Pandas의  DataFrame과 Series의 이해
    * Series : 1차원 벡터구조
    * DataFrame : 2차원 행렬구조
    
* 색인하기
    * [컬럼]
    * .loc[행]
    * .loc[행, 열]
    * .loc[조건식, 열]
    
* DataFrame의 데이터 타입 이해하기
    * 날짜 데이터의 변환
    
* DataFrame 다루기
    * 열(column) 인덱싱
    * 행(index) 인덱싱
    * 행, 열 인덱싱
    * 정렬하기 : sort_values 사용하기
    * 조건식 사용하기

* 빈도수 구하기
    * 한 개의 변수 : series.value_counts()
    * 두 개의 변수 : pd.crosstab()

* groupby 와 pivot_table
    * 다양한 연산식의 사용


## 라이브러리 로드

In [1]:
# pandas, numpy, matplotlib.pyplot 불러오기

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


## 시각화 기본 명칭 확인하기
* [Anatomy of a figure — Matplotlib documentation](https://matplotlib.org/stable/gallery/showcase/anatomy.html)

## 시각화 한글폰트 설정하기

In [2]:
# 윈도우 : "Malgun Gothic"
# 맥 : "AppleGothic"
def get_font_family():
    """
    시스템 환경에 따른 기본 폰트명을 반환하는 함수
    """
    import platform
    system_name = platform.system()
    # colab 사용자는 system_name이 'Linux'로 확인

    if system_name == "Darwin" :
        font_family = "AppleGothic"
    elif system_name == "Windows":
        font_family = "AppleGothic"
    else:
        !apt-get install fonts-nanum -qq  > /dev/null
        !fc-cache -fv

        import matplotlib as mpl
        mpl.font_manager._rebuild()
        findfont = mpl.font_manager.fontManager.findfont
        mpl.font_manager.findfont = findfont
        mpl.backends.backend_agg.findfont = findfont
        
        font_family = "NanumBarunGothic"
    return font_family


plt.style.use("seaborn-whitegrid")

# 폰트설정
plt.rc("font", family=get_font_family())
# 마이너스폰트 설정
plt.rc("axes", unicode_minus=False)

# 그래프에 retina display 적용
from IPython.display import set_matplotlib_formats

set_matplotlib_formats("retina")

In [None]:
# 그래프 그려보기


## 파일 불러오기
<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg">

In [5]:
# seoul-covid19-2021-12-18.csv 불러오기
# df_01 변수에 담아 재사용합니다.
# df_01

import glob
glob.glob("data/*")


df_01 = pd.read_csv("data/seoul-covid19-2021-12-18.csv")
df_02 = pd.read_csv("data/seoul-covid19-2021-12-26.csv")

## head, tail, sample 로 일부 데이터만 보기

In [11]:
# seoul-covid19-2021-12-26.csv 불러오기
# df_02 변수에 담아 재사용합니다.
# df_02

df_02.shape

(18646, 7)

In [None]:
# 일부데이터만 가져와보기


## concat 으로 여러 개의 데이터프레임 합치기


* axis = 0

<img src="https://pandas.pydata.org/docs/_images/merging_concat_basic.png">

* axis = 1 
<img src="https://pandas.pydata.org/docs/_images/merging_concat_axis1.png">

* 결측치를 제외하기 join="inner"
<img src="https://pandas.pydata.org/docs/_images/merging_concat_axis1_inner.png">


* [Merge, join, concatenate and compare documentation](https://pandas.pydata.org/docs/user_guide/merging.html#merge-join-concatenate-and-compare)

In [None]:
# pd.concat 으로 [df_01, df_02] 합치고 df 변수에 할당하기
# df

## 합친 데이터 확인하기

In [None]:
# head, tail, sample 을 통해 데이터 확인하기


## 중복 제거하기

## 인덱스 값 설정하기
* 전체 데이터프레임의 행의 갯수와 "연번"의 유일값을 확인하면 중복값이 없는 것으로 확인할 수 있습니다.
* shape와 nunique()로 행의 수와 유일값이 일치하는지 확인합니다.

In [None]:
# shape


In [None]:
# 연번의 nunique()


In [None]:
# set_index 를 통해 인덱스 값을 변경합니다.


## 연번 순으로 정렬하기

In [None]:
# sort_index 를 통해 인덱스값 기준으로 정렬합니다.


In [None]:
# head 로 미리보기 합니다.


In [None]:
# tail로 미리보기 합니다.


## 판다스의 attributes
* [Series — pandas documentation](https://pandas.pydata.org/docs/reference/series.html#attributes)
* [DataFrame — pandas documentation](https://pandas.pydata.org/docs/reference/frame.html#attributes-and-underlying-data)


In [None]:
# shape


In [None]:
# dtypes


In [None]:
# columns


In [None]:
# index


## 데이터 요약

In [None]:
# info를 통해 데이터를 요약합니다.


## 결측치 보기

In [None]:
# 결측치의 합계를 구합니다.
# isnull()


In [None]:
# 평균(mean)을 통해 결측치의 비율을 구합니다.


## 기술통계

In [None]:
# describe()로 기술통계 값을 구합니다.


In [None]:
# describe(include="object") 로 문자 데이터에 대한 기술통계 값을 구합니다.


## 날짜 데이터 타입 변경하기

* 확진일 Series 형태로 가져오기
<img src="https://pandas.pydata.org/docs/_images/01_table_series.svg">

In [None]:
# 확진일 Series 형태로 가져오기


In [None]:
# pd.to_datetime 을 통한 데이터 타입 변경하기


In [None]:
# df["확진일"]을 head() 로 일부만 가져와서 타입이  datetime64 형태로 변경되었는지 확인하기


## 파생변수 만들기
### 연, 월, 일, 요일 만들기

In [None]:
# 연도 파생변수 만들기
# df["연도"]


In [None]:
# 월(month), 일(day), 요일(dayofweek) 만들기
# df["월"]
# df["일"]
# df["요일"]

In [None]:
# 확진일, 연도, 월, 일, 요일 컬럼만 가져오기
# head 로 일부만 가져와 파생변수가 잘 생성되었는지 확인하기


### 연도-월 만들기

In [None]:
# 연도-월 파생변수 만들기
# astype(str) 을 통해 수치 데이터를 문자 데이터로 변환하고 문자열 연결하기
# df["연도월"]


In [None]:
# 문자열 슬라이싱으로도 만들 수 있습니다.
# df["연도월"]


In [None]:
# df["연도월"]이 잘 생성되었는지 확인하기


### 요일 한글로 만들기
* 함수와 Series의 map 활용

In [None]:
dayofweek = "월화수목금토일"
dayofweek[1]

In [None]:
#find_dayofweek 함수로 요일 숫자를 넘겨주면 요일명을 반환하는 함수

# def find_dayofweek(day_no):


In [None]:
# 함수가 잘 만들어졌는지 확인하기


In [None]:
# map을 사용해서 요일 컬럼을 요일명으로 변환하고 "요일명"이라는 새로운 컬럼에 저장하기
# df["요일명"]

In [None]:
# ["요일", "요일명"]을 sample(5) 로 임의의 5개만 불러와 잘 변환이 되었는지 확인하기


## 전체 수치 변수 히스토그램 그리기

In [None]:
# df.hist로 히스토그램 그리기


## value_counts로 하나의 변수에 대한 빈도수 구하기
### 연도

In [None]:
# "연도" 컬럼을 통해 빈도수 구하기


In [None]:
# "연도" 컬럼의 비율 구하기


### 연도월

In [None]:
# 연도월에 대한 빈도수 구하기
# 빈도수를 구하고 sort_index 로 정렬합니다.
# year_month

In [None]:
# 연도월을 시각화 합니다.


In [None]:
# 연도월을 막대 그래프로 시각화 합니다.


### 요일별 빈도수 구하기

In [None]:
# 빈도수 구하고 인덱스 번호로 정렬합니다.
# weekday_count 변수에 담아 재사용합니다.
# weekday_count


In [None]:
# 리스트컴프리헨션 사용해서 리스트 만들기
# "월화수목금토일" 리스트로 만들어 weekday_list 변수로 재사용하기
# weekday_list

In [None]:
# 인덱스 값을 요일명으로 변경하고 시각화 합니다.
# weekday_count.index

### 확진일 빈도수 구하기

In [None]:
# df["확진일"] 빈도수 구하고 인덱스 값인 날짜로 정렬하기
# day_count

In [None]:
# 선 그래프로 시각화 하기


## 전체 확진일 데이터 만들기
### tail로 초기 데이터 보기

In [None]:
# head(10)로 10번째 확진 데이터를 봅니다.


### iloc를 통해 첫 확진일과 마지막 확진일자 찾기

In [None]:
# last_day

In [None]:
# first_day

### date_range로 전체 기간 데이터 만들기

In [None]:
# pd.date_range 로 전체 기간을 생성합니다.
# all_day

In [None]:
# all_day 를 데이터프레임으로 변환합니다.


In [None]:
# "확진수" 라는 컬럼을 생성해서 위에서 구한 day_count 를 추가합니다.
# 확진자가 없는 날도 인덱스에 생성이 됩니다.


In [None]:
# 필요 없는 0 컬럼을 삭제합니다.
# del df_all_day[0]

### 결측치 채우기

In [None]:
# 비어있는 값은 확진자가 없었던 날이기 때문에 fillna로 0으로 채웁니다.


In [None]:
# day_count 에서 초기 30개의 데이터에 대해서 슬라이싱 해서 시각화 합니다.


### 누적 확진 수 구하기

In [None]:
# df

In [None]:
# cumsum 으로 "누적확진수" 구해서 새로운 변수에 담기
# df_all_day["누적확진수"]


In [None]:
# 시각화 하기


## 거주지

In [None]:
# 거주지 빈도수 구하기


### 타시도, 기타 전처리

In [None]:
# "거주지" => "거주구"로 사본 생성
# df["거주구"]

In [None]:
# 텍스트 앞뒤 공백 제거하기


In [None]:
# 타시도 => 기타로 변경하기


In [None]:
# "거주구" 빈도수 구하기


In [None]:
# gu_count 변수에 담긴 값 시각화 하기


## 두 개의 변수에 대한 빈도수 구하기
### 연도, 퇴원현황 두 개의 변수에 대한 빈도수 구하기

In [None]:
# pd.crosstab 으로 연도, 퇴원현황 두 개의 변수에 대한 빈도수 구하기
# 연도, 퇴원현황 빈도수 구하기


In [None]:
# pd.crosstab 으로 연도, 퇴원현황 두 개의 변수에 대한 빈도 빈율 구하기


### 연도, 월 두 개의 변수에 대한 빈도수 구하기

In [None]:
# pd.crosstab 으로 연도, 월 두 개의 변수에 대한 빈도수 구하기


In [None]:
# 시각화 하기


### 연도, 요일 두 개의 변수에 대한 빈도수 구하기

In [None]:
# pd.crosstab 으로 연도, 요일 두 개의 변수에 대한 빈도수 구하기


In [None]:
# 리스트컴프리헨션 사용해서 리스트 만들기
# weekday_list


In [None]:
# 컬럼명 변경하기


### 거주구, 연도월에 대한 빈도수 구하기

In [None]:
# pd.crosstab 으로 두 개 변수에 대한 빈도수 구하기
# 거주구, 연도월에 대한 빈도수 구하기


In [None]:
# background_gradient() 로 빈도수 표현하기


In [None]:
# gu_month.T 로 행과 열을 바꾼 뒤에 보기
# background_gradient()


## Boolean Indexing 으로 특정 조건 값 찾기
### 여러 조건 비교하기

In [None]:
# 강남구에서 "일요일"에 확진된 데이터만 찾기
# .loc[행]
# .loc[행, 열]
# .loc[조건, 열]


In [None]:
# 거주구가 강남구이며, 여행력이 일본인 데이터 찾기


### str.contains 활용하기

In [None]:
# 접촉력의 영문자 검색을 위해 영문자를 모두 대문자로 만들고 "접촉력_대문자"컬럼을 생성하기


In [None]:
# "접촉력_대문자" 컬럼으로 PC방 데이터를 찾고 접촉력 컬럼에 대해서만 빈도수 구하기


### isin 으로 여러 값 찾기

In [None]:
# isin 을 사용해 리스트로 여러 값을 찾아오기
# "거주구"가 "강남구", "서초구", "송파구" 인 데이터만 찾기
# loc를 통해 해당 조건의 "접촉력" 컬럼만 가져오기


## 여행력

In [None]:
#  접촉력이 해외유입인 데이터에 대해 "해외유입" 변수 만들기


In [None]:
# 거주구, 해외유입 빈도수 구하기


In [None]:
# 거주구 해외유입 비율 구하기


In [None]:
# 해외유입 여부에 따라 막대그래프를 그립니다.
# stacked=True 로 두 가지를 함께 그립니다.


## pivot_table 사용하기

In [None]:
# 거주구별 해외유입 여부에 따른 빈도수 구하기
# gu_over_count


In [None]:
weekday_list

In [None]:
# 거주구에 따른 요일별 확진자 빈도수
# df_gu_weekday[weekday_list].style.bar()

## groupby 사용하기

In [None]:
# "거주구", "해외유입" 으로 그룹화 하여 "환자" 컬럼으로 빈도수 구하기


### Groupby의 unstack()
* https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html

<img src="https://pandas.pydata.org/docs/_images/reshaping_unstack.png" width="600">

In [None]:
# "거주구", "해외유입" 으로 그룹화 하여 "환자" 컬럼으로 빈도수 구하고
# 마지막 인덱스를 컬럼으로 만들기


In [None]:
# 연도, 월을 멀티인덱스로 사용하는 빈도수 구하기


In [None]:
# unstack()으로 월을 컬럼으로 만들기


In [None]:
# ["연도", "월"] 로 그룹화 하고 "해외유입" 의 describe 값 보기
