## 서울시 코로나 확진자 데이터
### 모듈 import

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
%matplotlib inline

import warnings

# 경고 메시지를 무시하고 숨기거나
warnings.filterwarnings(action='ignore')

In [2]:
df = pd.read_csv('./seoul.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 101411 entries, 0 to 101410
Data columns (total 14 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   연번      101411 non-null  int64  
 1   확진일     101411 non-null  object 
 2   환자번호    0 non-null       float64
 3   국적      0 non-null       float64
 4   환자정보    0 non-null       float64
 5   지역      101411 non-null  object 
 6   여행력     1729 non-null    object 
 7   접촉력     101411 non-null  object 
 8   조치사항    0 non-null       float64
 9   상태      101411 non-null  object 
 10  이동경로    10000 non-null   object 
 11  등록일     101411 non-null  object 
 12  수정일     101411 non-null  object 
 13  노출여부    101411 non-null  object 
dtypes: float64(4), int64(1), object(9)
memory usage: 10.8+ MB


### 빈 킬럼 제거
- 시간-지역별 확진자 수를 파악하기 위함이므로 결측치가 포함된 컬럼은 삭제

In [4]:
df.drop(['환자번호', '국적', '환자정보', '여행력', '조치사항', '이동경로'], axis=1, inplace=True)

In [5]:
df.isnull().sum()

연번      0
확진일     0
지역      0
접촉력     0
상태      0
등록일     0
수정일     0
노출여부    0
dtype: int64

### 지역별 확진자 수를 파악하기 위해 count 컬럼 추가

In [6]:
df['count'] = 1

### 구별 확진자 수 분류

In [7]:
df_seoul = df.groupby('지역').sum().sort_values(by='count', ascending=False)
df_seoul

Unnamed: 0_level_0,연번,count
지역,Unnamed: 1_level_1,Unnamed: 2_level_1
강남구,372105439,7028
송파구,347139814,6477
관악구,287623783,5492
타시도,242537259,4776
영등포구,250444647,4536
강서구,211743005,4526
은평구,221170979,4341
서초구,209226831,4311
구로구,249243106,4286
동작구,205210716,4176


### 서울시 구가 아닌 타시도와, 기타 데이터는 삭제

In [8]:
df = df.drop(df[df['지역'] == '타시도'].index)
corona_seoul = df.drop(df[df['지역'] == '기타'].index)

In [9]:
corona_seoul

Unnamed: 0,연번,확진일,지역,접촉력,상태,등록일,수정일,노출여부,count
17,101394,2021-09-30,성동구,감염경로 조사중,-,2021-10-01 10:57:21,2021-10-01 10:57:21,Y,1
19,101392,2021-09-30,송파구,감염경로 조사중,-,2021-10-01 10:57:21,2021-10-01 10:57:21,Y,1
52,101359,2021-09-30,종로구,감염경로 조사중,-,2021-10-01 10:57:21,2021-10-01 10:57:21,Y,1
90,101321,2021-09-30,광진구,감염경로 조사중,-,2021-10-01 10:57:21,2021-10-01 10:57:21,Y,1
91,101320,2021-09-30,금천구,해외유입,-,2021-10-01 10:57:21,2021-10-01 10:57:21,Y,1
...,...,...,...,...,...,...,...,...,...
101406,5,2020-01-31,성북구,기타 확진자 접촉,퇴원,2021-05-27 11:08:12,2021-05-27 11:08:12,Y,1
101407,4,2020-01-30,마포구,해외유입,퇴원,2021-05-27 11:08:12,2021-05-27 11:08:12,Y,1
101408,3,2020-01-30,종로구,종로구 집단발병,퇴원,2021-05-27 11:08:12,2021-05-27 11:08:12,Y,1
101409,2,2020-01-30,중랑구,해외유입,퇴원,2021-05-27 11:08:12,2021-05-27 11:08:12,Y,1


### 구별로 데이터 나누기

In [10]:
Gangnam = corona_seoul[corona_seoul['지역'] == '강남구']

In [11]:
Gwanak = corona_seoul[corona_seoul['지역'] == '관악구']

In [12]:
Songpa = corona_seoul[corona_seoul['지역'] == '송파구']

In [13]:
Ydp = corona_seoul[corona_seoul['지역'] == '영등포']

In [14]:
Gangseo = corona_seoul[corona_seoul['지역'] == '강서구']

In [15]:
Ep = corona_seoul[corona_seoul['지역'] == '은평구']

In [16]:
Seocho = corona_seoul[corona_seoul['지역'] == '서초구']

In [17]:
Guro = corona_seoul[corona_seoul['지역'] == '구로구']

In [18]:
Dongjak = corona_seoul[corona_seoul['지역'] == '동작구']

In [19]:
Nowon = corona_seoul[corona_seoul['지역'] == '노원구']

In [20]:
Gangdong = corona_seoul[corona_seoul['지역'] == '강동구']

In [21]:
Seongbuk = corona_seoul[corona_seoul['지역'] == '성북구']

In [22]:
Jungrang = corona_seoul[corona_seoul['지역'] == '중랑구']

In [23]:
Mapo = corona_seoul[corona_seoul['지역'] == '마포구']

In [24]:
Dongdaemun = corona_seoul[corona_seoul['지역'] == '동대문구']

In [25]:
Gwangjin = corona_seoul[corona_seoul['지역'] == '광진구']

In [26]:
Yangchun = corona_seoul[corona_seoul['지역'] == '양천구']

In [27]:
Sungdong = corona_seoul[corona_seoul['지역'] == '성동구']

In [28]:
Yongsan = corona_seoul[corona_seoul['지역'] == '용산구']

In [29]:
Seodaemun = corona_seoul[corona_seoul['지역'] == '서대문구']

In [30]:
Gangbuk = corona_seoul[corona_seoul['지역'] == '강북구']

In [31]:
Dobong = corona_seoul[corona_seoul['지역'] == '도봉구']

In [32]:
Geumchun = corona_seoul[corona_seoul['지역'] == '금천구']

In [33]:
Jung = corona_seoul[corona_seoul['지역'] == '중구']

In [34]:
Jongro = corona_seoul[corona_seoul['지역'] == '종로구']

In [35]:
# df에서 지역명을 뽑아서 리스트로 저장
province = np.unique(corona_seoul['지역'].values).tolist()
province

['강남구',
 '강동구',
 '강북구',
 '강서구',
 '관악구',
 '광진구',
 '구로구',
 '금천구',
 '노원구',
 '도봉구',
 '동대문구',
 '동작구',
 '마포구',
 '서대문구',
 '서초구',
 '성동구',
 '성북구',
 '송파구',
 '양천구',
 '영등포구',
 '용산구',
 '은평구',
 '종로구',
 '중구',
 '중랑구']

In [36]:
for i in province:
    globals()['df_{}'.format(i)] = corona_seoul[corona_seoul['지역'] == i]

In [37]:
df_송파구

Unnamed: 0,연번,확진일,지역,접촉력,상태,등록일,수정일,노출여부,count
19,101392,2021-09-30,송파구,감염경로 조사중,-,2021-10-01 10:57:21,2021-10-01 10:57:21,Y,1
167,101244,2021-09-30,송파구,송파구 소재 시장 관련(�'21.9.),-,2021-10-01 10:57:21,2021-10-01 10:57:21,Y,1
204,101207,2021-09-30,송파구,기타 확진자 접촉,-,2021-10-01 10:57:21,2021-10-01 10:57:21,Y,1
217,101194,2021-09-30,송파구,기타 확진자 접촉,-,2021-10-01 10:57:21,2021-10-01 10:57:21,Y,1
230,101181,2021-09-30,송파구,기타 확진자 접촉,-,2021-10-01 10:57:21,2021-10-01 10:57:21,Y,1
...,...,...,...,...,...,...,...,...,...
101375,36,2020-02-24,송파구,타시도 확진자 접촉,퇴원,2021-05-27 11:08:12,2021-05-27 11:08:12,Y,1
101378,33,2020-02-24,송파구,타시도 확진자 접촉,퇴원,2021-05-27 11:08:12,2021-05-27 11:08:12,Y,1
101379,32,2020-02-24,송파구,타시도 확진자 접촉,퇴원,2021-05-27 11:08:12,2021-05-27 11:08:12,Y,1
101381,30,2020-02-22,송파구,타시도 확진자 접촉,퇴원,2021-05-27 11:08:12,2021-05-27 11:08:12,Y,1


In [39]:
location = [Gangnam, Gwanak, Songpa, Ydp, Gangseo, Ep, Seocho, Guro, Dongjak, Nowon, Gangdong, Seongbuk, Jungrang, Mapo, Dongdaemun, Gwangjin, Yangchun, Sungdong, Yongsan, Seodaemun, Gangbuk, Dobong, Geumchun, Jung, Jongro]

### 단위기간별로 확진자를 파악하기 위해 object 타입인 확진일을 datetime 타입으로 변경

In [40]:
for dataset in location:
    dataset['datetime'] = dataset['확진일'].apply(lambda x: pd.to_datetime(str(x), format='%Y-%m-%d'))
    dataset.set_index('datetime', inplace=True)
    dataset.drop(['확진일', '연번'], axis=1, inplace=True)

In [41]:
Gangnam.index

DatetimeIndex(['2021-09-30', '2021-09-30', '2021-09-30', '2021-09-30',
               '2021-09-30', '2021-09-30', '2021-09-30', '2021-09-30',
               '2021-09-30', '2021-09-30',
               ...
               '2020-03-05', '2020-03-02', '2020-03-01', '2020-02-29',
               '2020-02-28', '2020-02-28', '2020-02-28', '2020-02-27',
               '2020-02-26', '2020-02-26'],
              dtype='datetime64[ns]', name='datetime', length=7028, freq=None)

### resample 함수를 이용해서 주, 월, 분기별로 확진자 수 파악

In [42]:
Gangnam_weekly = Gangnam.resample('W').sum()
Gangnam_monthly = Gangnam.resample('M').sum()
Gangnam_quaterly = Gangnam.resample('Q').sum()

In [43]:
for i in province:
    for dataset in location:
        globals()['df_{}_weekly'.format(i)] = dataset.resample('W').sum()
        globals()['df_{}_monthly'.format(i)] = dataset.resample('M').sum()
        globals()['df_{}_queaterly'.format(i)] = dataset.resample('Q').sum()

TypeError: Only valid with DatetimeIndex, TimedeltaIndex or PeriodIndex, but got an instance of 'Index'

### folium으로 맵에 시각화

In [None]:
pip install folium

In [None]:
import folium
map_osm = folium.Map(location=[37.529622, 126.984307], zoom_start=11)

In [None]:
df_seoul.reset_index(inplace=True)

### 서울시 구별 좌표 json 파일 불러오기

In [None]:
state_geo = 'https://raw.githubusercontent.com/southkorea/seoul-maps/master/kostat/2013/json/seoul_municipalities_geo_simple.json'

### choropleth를 이용한 구별 누적 확진자 수 시각화

In [None]:
map_osm.choropleth(
    geo_data=state_geo,
    name='서울시 코로나 누적 확진자 수',
    data=df_seoul,
    columns=['지역', 'count'],
    key_on='feature.properties.name',
    fill_color='Blues',
    fill_opacity=0.7,
    line_opacity=0.3,
    color = 'gray',
    legend_name = '확진자 수'
)

map_osm

In [None]:
gu = pd.read_csv('./location.csv')
gu

In [None]:
for region in set(corona_seoul['지역']):

    # 해당 지역의 데이터 개수를 count에 저장합니다.
    count = len(corona_seoul[corona_seoul['지역'] == region])
    # 해당 지역의 데이터를 CRS에서 뽑아냅니다.
    tmp_region = gu[gu['시군구명_한글'] == region]
    
    marker = folium.Marker([tmp_region['위도'], tmp_region['경도']], # 위치
                                  popup=' '.join((region, str(count), '명'))) # 팝업 설정
    
    # 생성한 원형마커를 지도에 추가합니다.
    marker.add_to(map_osm)

In [None]:
map_osm