## 서울시에서 공개한 코로나19 발생동향 분석
* http://www.seoul.go.kr/coronaV/coronaStatus.do

In [1]:
# 필요한 라이브러리를 불러옵니다.
import pandas as pd
import numpy as np

In [2]:
# 크롤링으로 가져올 url 주소를 입력합니다.
url = "http://www.seoul.go.kr/coronaV/coronaStatus.do"
url

'http://www.seoul.go.kr/coronaV/coronaStatus.do'

In [3]:
"""
최근 확진자가 증가하면서 read_html 로 데이터를 불러올 때 3~5분 정도의 시간이 소요됩니다.
최대 10분까지 걸릴 수 있으며 오류 메시지가 표시되지 않는 한 데이터가 로드 될 때까지 기다려주세요! 
"""

'\n최근 확진자가 증가하면서 read_html 로 데이터를 불러올 때 3~5분 정도의 시간이 소요됩니다.\n최대 10분까지 걸릴 수 있으며 오류 메시지가 표시되지 않는 한 데이터가 로드 될 때까지 기다려주세요! \n'

In [4]:
# 판다스의 read_html 을 통해 위 url에 있는 불러옵니다.
table = pd.read_html(url)
len(table)

5

In [33]:
# read_html 은 사이트 내의 html 태그를 불러옵니다.
table[2].T   #table.transpose() 해도 된다.
#table[1], table[2], table[3], table[4] 다 보면서 무엇인지 확인해보기.
#4번이 홈페이지와 비슷하고 더 자세하므로 5번 말고 table[4]로 할 것.

Unnamed: 0,0
소계,5443
해외접촉관련,421
영등포구 방문판매 업체 관련,7
도봉구 다나 병원,50
서초구 병원 관련,3
강남구 대우디오빌 플러스,29
영등포구 LG 트윈타워,7
강북구 북서울 꿈의교회,6
서초구 소재 카페,3
동작구 부동산 회사,2


In [19]:
# table 변수 안에 있는 table 태그의 값을 하나씩 읽어보며 확진자 목록이 있는 테이블을 가져옵니다.
df = table[4]
df.shape

(5443, 6)

In [7]:
# 미리보기 합니다.
df.head()

Unnamed: 0,연번,환자번호,감염경로,확진일,거주지,퇴원현황
0,"5443 <tr> <td class=""tdl"" colspan=""5""> <p>확...",24333,도봉구 다나병원,10/06,강북구,
1,"5442 <tr> <td class=""tdl"" colspan=""5""> <p>확...",24321,해외 접촉 추정(프랑스),10/06,용산구,
2,"5441 <tr> <td class=""tdl"" colspan=""5""> <p>확...",24326,강북구 북서울 꿈의교회,10/06,강북구,
3,"5440 <tr> <td class=""tdl"" colspan=""5""> <p>확...",24331,기타 확진자 접촉,10/06,동대문구,
4,"5439 <tr> <td class=""tdl"" colspan=""5""> <p>확...",24330,감염경로 조사중,10/06,동대문구,


In [11]:
# 마지막 확진일을 파일명에 써주기 위해 . 을 _ 로 변경합니다.
# 확장자와 구분이 쉽게 되도록 _ 로 변경합니다. 
# df.loc[0] --> index로 가져올 수 있다. 여기에서 확진일만 가지고 오고 싶으므로 확진일만 본다.
last_day = df.loc[0, "확진일"]
#last_day 
last_day = last_day.replace("/", "_") 
last_day

'10_06'

In [12]:
# 파일명을 만들어 줍니다.
# python에 format string을 사용한다. file_name= f"{last_day}"
# file_name
file_name = f"seoul_covid_{last_day}.csv"
file_name

'seoul_covid_10_06.csv'

In [13]:
# csv 파일로 저장한다.
df.to_csv(file_name, index=False) 
# index=False를 안하면 unnamed이라는 index column이 생긴다
# df.to_csv(file_name, index=False, encoding = "cp949")
# 하지만 excel로 저장할 경우가 아니면 미리보기를 할 때 보통 UTF-8 을 쓰므로 옵션지정 X

In [14]:
# 제대로 저장되었는지 확인한다.
pd.read_csv(file_name)
# read할 때 cp949로 저장했으면 cp949로 읽어야 한다.
# df.to_csv(file_name, index=False, encoding = "cp949")

Unnamed: 0,연번,환자번호,감염경로,확진일,거주지,퇴원현황
0,"5443 <tr> <td class=""tdl"" colspan=""5""> <p>확...",24333,도봉구 다나병원,10/06,강북구,
1,"5442 <tr> <td class=""tdl"" colspan=""5""> <p>확...",24321,해외 접촉 추정(프랑스),10/06,용산구,
2,"5441 <tr> <td class=""tdl"" colspan=""5""> <p>확...",24326,강북구 북서울 꿈의교회,10/06,강북구,
3,"5440 <tr> <td class=""tdl"" colspan=""5""> <p>확...",24331,기타 확진자 접촉,10/06,동대문구,
4,"5439 <tr> <td class=""tdl"" colspan=""5""> <p>확...",24330,감염경로 조사중,10/06,동대문구,
5,"5438 <tr> <td class=""tdl"" colspan=""5""> <p>확...",24314,감염경로 조사중,10/06,관악구,
6,"5437 <tr> <td class=""tdl"" colspan=""5""> <p>확...",24304,타시도 확진자 접촉,10/06,동대문구,
7,"5436 <tr> <td class=""tdl"" colspan=""5""> <p>확...",24272,감염경로 조사중,10/06,송파구,
8,"5435 <tr> <td class=""tdl"" colspan=""5""> <p>확...",24324,타시도 확진자 접촉,10/06,관악구,
9,"5434 <tr> <td class=""tdl"" colspan=""5""> <p>확...",24325,타시도 확진자 접촉,10/06,관악구,


In [15]:
df = df.sort_values(["연번"], ascending=False)

In [16]:
df.head()

Unnamed: 0,연번,환자번호,감염경로,확진일,거주지,퇴원현황
4444,"999 <tr> <td class=""tdl"" colspan=""5""> <p>이동...",11817,리치웨이 관련,6/08,관악구,퇴원
4445,"998 <tr> <td class=""tdl"" colspan=""5""> <p>이동...",11816,kb 생명보험 관련,6/08,중랑구,퇴원
4446,"997 <tr> <td class=""tdl"" colspan=""5""> <p>이동...",11826,확인 중,6/08,서대문구,사망
4447,"996 <tr> <td class=""tdl"" colspan=""5""> <p>이동...",11812,확인 중,6/05,강동구,퇴원
4448,"995 <tr> <td class=""tdl"" colspan=""5""> <p>이동...",11791,리치웨이 관련,6/07,양천구,퇴원


In [17]:
df.tail()

Unnamed: 0,연번,환자번호,감염경로,확진일,거주지,퇴원현황
4442,"1001 <tr> <td class=""tdl"" colspan=""5""> <p>이...",11821,확인 중,6/08,강서구,퇴원
4443,"1000 <tr> <td class=""tdl"" colspan=""5""> <p>이...",11851,해외 접촉 추정(미국),6/08,서초구,퇴원
5343,"100 <tr> <td class=""tdl"" colspan=""5""> <p>이동...",5377,동대문구 관련,3/3,동대문구,퇴원
5433,"10 <tr> <td class=""tdl"" colspan=""5""> <p>이동경...",21,#6 접촉,2/5,성북구,퇴원
5442,"1 <tr> <td class=""tdl"" colspan=""5""> <p>이동경로...",2,해외 접촉(중국 우한시),1/24,강서구,퇴원
