## 서울시에서 공개한 코로나19 발생동향 분석
* http://www.seoul.go.kr/coronaV/coronaStatus.do

In [1]:
# 필요한 라이브러리를 불러옵니다.
import pandas as pd
import numpy as np

In [2]:
# 크롤링으로 가져올 url 주소를 입력합니다.
url = "http://www.seoul.go.kr/coronaV/coronaStatus.do"
url

'http://www.seoul.go.kr/coronaV/coronaStatus.do'

In [None]:
"""
최근 확진자가 증가하면서 read_html 로 데이터를 불러올 때 3~5분 정도의 시간이 소요됩니다.
최대 10분까지 걸릴 수 있으며 오류 메시지가 표시되지 않는 한 데이터가 로드 될 때까지 기다려주세요! 
"""

In [3]:
# 판다스의 read_html 을 통해 위 url에 있는 불러옵니다.
table = pd.read_html(url)
len(table)

6

In [4]:
# read_html 은 사이트 내의 html 태그를 불러옵니다.
table[0].T

Unnamed: 0,0
소계,1312
해외접촉관련,303
관악구왕성교회관련,24
강남구역삼동모임,10
도봉구요양시설관련,43
리치웨이관련,122
부천시쿠팡관련,24
kb생명보험관련,13
수도권개척교회관련,37
양천구운동시설관련,43


In [5]:
# table 변수 안에 있는 table 태그의 값을 하나씩 읽어보며 확진자 목록이 있는 테이블을 가져옵니다.
df = table[4]
df.shape

(1312, 7)

In [6]:
# 미리보기 합니다.
df.head()

Unnamed: 0,연번,환자,확진일,거주지,여행력,접촉력,조치사항
0,1312,12789,6.29.,은평구,-,확인 중,서북병원
1,1311,12784,6.29.,의정부,-,확인 중,타시도 이관
2,1310,12778,6.29.,금천구,-,타시도 확진자 접촉,서남병원
3,1309,12783,6.29.,마포구,-,리치웨이 관련,서울의료원
4,1308,12781,6.29.,마포구,-,리치웨이 관련,서울의료원


In [7]:
# 마지막 확진일을 파일명에 써주기 위해 . 을 _ 로 변경합니다.
# 확장자와 구분이 쉽게 되도록 _ 로 변경합니다. 
last_day = df.loc[0, "확진일"]
last_day = last_day.replace(".", "_")
last_day

'6_29_'

In [8]:
# 파일명을 만들어 줍니다.
file_name = f"seoul_covid_{last_day}.csv"
file_name

'seoul_covid_6_29_.csv'

In [9]:
df.to_csv(file_name, index=False)

In [10]:
pd.read_csv(file_name)

Unnamed: 0,연번,환자,확진일,거주지,여행력,접촉력,조치사항
0,1312,12789,6.29.,은평구,-,확인 중,서북병원
1,1311,12784,6.29.,의정부,-,확인 중,타시도 이관
2,1310,12778,6.29.,금천구,-,타시도 확진자 접촉,서남병원
3,1309,12783,6.29.,마포구,-,리치웨이 관련,서울의료원
4,1308,12781,6.29.,마포구,-,리치웨이 관련,서울의료원
...,...,...,...,...,...,...,...
1307,5,9,1.31.,성북구,-,#5 접촉,서울의료원(퇴원)
1308,4,7,1.30.,마포구,중국 우한시,해외 접촉,서울의료원(퇴원)
1309,3,6,1.30.,종로구,-,#3 접촉,서울대학교병원(퇴원)
1310,2,5,1.30.,중랑구,중국 우한시,해외 접촉,서울의료원(퇴원)


In [11]:
df = df.sort_values(["연번"], ascending=False)

In [12]:
df.head()

Unnamed: 0,연번,환자,확진일,거주지,여행력,접촉력,조치사항
0,1312,12789,6.29.,은평구,-,확인 중,서북병원
1,1311,12784,6.29.,의정부,-,확인 중,타시도 이관
2,1310,12778,6.29.,금천구,-,타시도 확진자 접촉,서남병원
3,1309,12783,6.29.,마포구,-,리치웨이 관련,서울의료원
4,1308,12781,6.29.,마포구,-,리치웨이 관련,서울의료원


In [13]:
df.tail()

Unnamed: 0,연번,환자,확진일,거주지,여행력,접촉력,조치사항
1307,5,9,1.31.,성북구,-,#5 접촉,서울의료원(퇴원)
1308,4,7,1.30.,마포구,중국 우한시,해외 접촉,서울의료원(퇴원)
1309,3,6,1.30.,종로구,-,#3 접촉,서울대학교병원(퇴원)
1310,2,5,1.30.,중랑구,중국 우한시,해외 접촉,서울의료원(퇴원)
1311,1,2,1.24.,강서구,중국 우한시,해외 접촉,국립중앙의료원(퇴원)
