#  서울특별시 코로나 바이러스 크롤링 데이터

# 1. 전처리

크롤링한 데이터를 pandas 를 통해서 불러온다.

In [1]:
import pandas as pd
import numpy as np
import matplotlib as mp
import matplotlib.pyplot as plt
import seaborn as sns


In [2]:
fm = mp.font_manager.FontManager()
plt.rcParams['font.family'] = 'Malgun Gothic'


In [3]:
corona_data = pd.read_csv('C:\\Users\\Master\\Desktop\\새 폴더\\서울특별시 코로나19 백신 예방접종 현황.csv', encoding = 'utf-8')

FileNotFoundError: [Errno 2] No such file or directory: 'C:\\study\\workspace_python\\pdsample\\datasets\\mydata\\corona_df_2021_08_14.csv'

In [None]:
corona_data.info()

## 1.1 Null 값 처리

msno를 통해서 null 값의 개수를 확인한다.  
퇴원현황 칼럼이 31778 개로 나머지 칼럼과 비교했을 때 null 값이 있음을 확인할 수 있다.

In [None]:
import missingno as msno

msno.bar(corona_data, figsize = (10,5))

In [None]:
msno.matrix(corona_data)

### 1.1.1 퇴원현황 column

- 퇴원현황만 null 값 있는 거 확인.

In [None]:
counted_null = corona_data['퇴원현황'].isnull().sum()
print('코로나 크롤링 데이터 퇴원현황 null 개수 : ', counted_null)

In [None]:
# https://www.seoul.go.kr/coronaV/coronaStatus.do 
# 사이트를 확인해보니 퇴원하기 전 퇴원현황을 Null 값으로 처리했다는 것을 유추가능.
# null 을 '퇴원전' 으로 수정


corona_data['퇴원현황'].unique()

In [None]:
corona_data['퇴원현황'] = corona_data['퇴원현황'].fillna('퇴원전')


In [None]:
msno.bar(corona_data, figsize = (10,5))

### 1.1.2 여행력 column

null 값은 없지만, null 값으로 의심되는 데이터를 발견

In [None]:
corona_data['여행력'].unique()

In [None]:
#"-" 를 여행력 없음으로 간주, 보기 쉽게 바꿀 예정

counted_null2 = len(corona_data[corona_data['여행력'] == '-'])
print('여행력 column null 값 개수 : ', counted_null2)
corona_data[corona_data['여행력'] == '-'].sample(5)

In [None]:
corona_data['여행력'].replace('-','없음', inplace = True)

In [None]:
corona_data.head()

## 1.2. Feature Engineering

시각화를 하기 편하게 변수들을 가공한다.

### 1.2.1 칼럼 삭제

In [None]:
corona_data.head()

In [None]:
#연번은 의미없는 칼럼으로 보여서 삭제

corona_data.drop(['연번'], axis = 1,inplace = True)

### 1.2.2 칼럼 생성

확진일을 연도, 월, 일로 나누기

In [None]:
corona_data['연도'] = corona_data['확진일'].str.split('-', expand = True)[0]
corona_data['월'] = corona_data['확진일'].str.split('-', expand = True)[1]
corona_data['일'] = corona_data['확진일'].str.split('-', expand = True)[2]


In [None]:
#자료형 변경

corona_data['월'] = corona_data['월'].astype(int)
corona_data['일'] = corona_data['일'].astype(int)

In [None]:
corona_data.head()

# 2. 데이터 분석 and 시각화

## 2.1 코로나 확진자가 거주하는 지역 지도 표시하기

### 2.1.1 거주지별 환자수 대략 파악

In [None]:
#데이터 다시 확인

corona_data.head(10)

In [None]:
#어떤 지역에 확진자들이 많이 거주하는지 파악하기
corona_data['거주지'].value_counts().plot(kind = 'bar')

In [None]:
#거주지별 환자수를 data frame 으로 받아오기
residence_counts = corona_data['거주지'].value_counts()
residence_counts.reset_index()
residence_counts_df = residence_counts.reset_index().rename(columns = {"거주지" : "거주 환자수","index": "거주지"})


In [None]:
#거주지별 환자수 막대 그래프를 보완해서 그리기
plt.figure(figsize = (15,4))
plt.title('거주지별 환자수')
plt.xticks(rotation = 90)
sns.barplot(data = residence_counts_df, x = '거주지', y = '거주 환자수')
sns.lineplot(data = residence_counts_df, x = '거주지', y = '거주 환자수', marker = 'o', linestyle = '--', color = 'red')

### 2.1.2 거주지별 위도 경도 데이터 가져오기

거주지별 좌표 정보를 얻기위해서 크롤링 작업 실행  
네이버 map 을 사용  


In [None]:
#기타 항목은 크롤링 과정에서 읽혀와지지 않기 때문에 기타를 포함한 행 전체 삭제

corona_data[corona_data['거주지'] == '기타'].index.tolist()
for_graph_df = corona_data.drop(corona_data[corona_data['거주지'] == '기타'].index.tolist())

In [None]:
#타시도 또한 지도에 표시되지 않기 때문에 타시도를 포함한 행 전체 삭제

for_graph_df.drop(for_graph_df[for_graph_df['거주지'] == '타시도'].index.tolist(), inplace = True)

In [None]:
from urllib.request import urlopen
from urllib import parse
from urllib.request import Request
from urllib.error import HTTPError
from bs4 import BeautifulSoup
import json

In [None]:
residence_list = for_graph_df['거주지'].unique().tolist()


In [None]:
#좌표 만들기

#naver api
client_id = 'wxj67k3geg'
client_pw = 'vDFxfMNt1ToZdXJQyKeNDARNd9L0bedUMgKctuPf'

api_url = 'https://naveropenapi.apigw.ntruss.com/map-geocode/v2/geocode?query='

#주소 목록 파일
geo_coordi = []


#특정 url 의 정보를 받고 그 정보를 json 으로 받아서 정보를 읽어오기

for residence in residence_list:
    add_urlenc = parse.quote(residence) #코로나 주소를 url 에 사용가능하도록 url encoding
    url = api_url + add_urlenc #api 주소의 query 변수에 들어갈 encoding 된 주소
    request = Request(url) #url 정보 request 로 받아오기
    request.add_header('X-NCP-APIGW-API-KEY-ID', client_id)
    request.add_header('X-NCP-APIGW-API-KEY', client_pw)
    response = urlopen(request)
    
    response_body = response.read().decode('utf-8')
    response_body_json = json.loads(response_body)

    latitude = response_body_json['addresses'][0]['y']
    longitude = response_body_json['addresses'][0]['x']
    
    geo_coordi.append([latitude, longitude])
    


In [None]:
resi_sr = pd.Series(geo_coordi)
resi_df = resi_sr.reset_index()
resi_df['index'] = residence_list

In [None]:
resi_df.rename(columns = {'index' : '지역구', 0 : '좌표'}, inplace = True)

In [None]:
resi_df[resi_df['지역구'] == '성북구']['좌표']

In [None]:
for_graph_df['좌표'] = 0

for i in range(len(for_graph_df)):
    for j in residence_list:
        if for_graph_df.iloc[i,2] == j:
            for_graph_df.iloc[i,9] = resi_df[resi_df['지역구'] == j]['좌표']
        
        

In [None]:
for_graph_df.sample(10)

In [None]:
#좌표 x, y 값 받기


for_graph_df['y'] = 0
for_graph_df['x'] = 0

In [None]:
for i in range(len(for_graph_df)):
    for_graph_df.iloc[i,10] = for_graph_df.iloc[i,9][0]
    for_graph_df.iloc[i,11] = for_graph_df.iloc[i,9][1]
    

In [None]:
for_graph_df['거주지'].unique()

In [None]:
for_graph_df.sample(10)

In [None]:
for_graph_df['x'].astype(float)
for_graph_df['y'].astype(float)

# 본래 이렇게 해야하는데 너무 오래걸리고 오류

In [None]:
#실제로 데이터 다 받아오기


#naver api
client_id = 'wxj67k3geg'
client_pw = 'vDFxfMNt1ToZdXJQyKeNDARNd9L0bedUMgKctuPf'

api_url = 'https://naveropenapi.apigw.ntruss.com/map-geocode/v2/geocode?query='

#주소 목록 파일
geo_coordi = []

for add in for_graph_df['거주지']:
    add_urlenc = parse.quote(add) #코로나 주소를 url 에 사용가능하도록 url encoding
    url = api_url + add_urlenc #api 주소의 query 변수에 들어갈 encoding 된 주소
    
    request = Request(url) #url 정보 request 로 받아오기
    request.add_header('X-NCP-APIGW-API-KEY-ID', client_id)
    request.add_header('X-NCP-APIGW-API-KEY', client_pw)
    
    try:
        response = urlopen(request)
        
    except HTTPError as e:
        print('HTTP ERROR HAVE OCCURED!')
        latitude = None
        longitude = None
    
    else:
        rescode = response.getcode() #정상이면 200 return
        
        if rescode == 200: #만일 정상적으로 가동된다면
            response_body = response.read().decode('utf-8') #request로 받아온 url 정보를 response 다시 연걸 읽는다.
            response_body = json.loads(response_body) #읽은걸 json 파일로 변환
            
            if 'addresses' in response_body:
#                 print(add)
#                 print(response_body['addresses'])
                latitude = response_body['addresses'][0]['y']
                longitude = response_body['addresses'][0]['x']
                print('Process Completely')
                
            else:
                print("""'result' not exist!""")
                latitude = None
                longitude = None
        else:
            print('Respose error code : {}'.format(rescode))
            latitude = None
            longitude = None
    
    
    geo_coordi.append([latitude, longitude])

np_geo_coordi = np.array(geo_coordi)
                
            
    

### 2.1.3 folium 위한 최종 csv 저장

In [None]:
for_graph_df.to_csv("for_folium_data_corona.csv")

In [None]:
folium_df = pd.read_csv('for_folium_data_corona.csv')

In [None]:
folium_df.drop('Unnamed: 0', axis = 1, inplace = True)

In [None]:
folium_df.head()

### 2.1.4 코로나 확진자 수 지도에 시각화

In [None]:
resi_series = folium_df['거주지'].value_counts().reset_index()
resi_df = resi_series.rename(columns = {'거주지':'환자수', 'index':'거주지'})

In [None]:
!pip install folium

In [None]:
import folium

In [None]:
m = folium.Map([37.589400, 127.016749], tiles="Cartodb Positron", zoom_start=6)

In [None]:
m

In [None]:
#서울시 중심부의 위도, 걍도

center = [37.541, 126.986]

#맵이 center 에 위치, zoom 레벨은 11 시작

m = folium.Map(location = center, zoom_start = 11)

In [None]:
m

### 2.1.4.1 코로나 환자수 Choropleth 로 시각화

In [None]:
import json

In [None]:
resi_df.columns = ['거주지','환자수']

In [None]:
geo_json = 'https://raw.githubusercontent.com/southkorea/seoul-maps/master/kostat/2013/json/seoul_municipalities_geo_simple.json'

In [None]:
m = folium.Map(location = center, tiles = 'Stamen Terrain')

In [None]:
folium.Choropleth(
    geo_data = geo_json,
    name = 'choropleth',
    data = resi_df,
    columns = ['거주지','환자수'],
    key_on =  'feature.properties.name', #구로 되어있음 (경로임)
    fill_color = 'YlGn',
    fill_opacity = 0.7,
    line_opacity = 0.2,
).add_to(m)

In [None]:
m

### 2.1.4.2 코로나 환자 heat 맵으로 표시

In [None]:
heat_df = folium_df[['y','x']]
heat_data = [[j['y'],j['x']] for i,j in heat_df.iterrows()]

In [None]:
from folium.plugins import HeatMap

HeatMap(heat_data).add_to(m)

In [None]:
m

## 2.2 해외유입 환자 비율에서 어떤 나라가 확진자 수가 많은지 시각화

In [None]:
corona_data.head()

In [None]:
travel_df = corona_data[corona_data['여행력'] != '없음']
travel_df2 = travel_df['여행력'].value_counts().reset_index()
travel_df2 = travel_df2.rename(columns = {"index" : "국가명","여행력" : "환자수"})
important_travel_df = travel_df2[travel_df2['환자수'] >= 10]

In [None]:
important_travel_df

In [None]:
plt.figure(figsize = (15,4))
plt.xticks(rotation = 90)
# plt.text(x = '국가명', y = '환자수', s = 'd')
sns.barplot(data = important_travel_df, x = '국가명', y = '환자수')

## 2.3 날짜별 환자수 선그래프 그리기

### 2.3.1 2021년 월별 환자수 추이

In [None]:
for_graph_df.head()

In [None]:
date_corona_month = for_graph_df['월'].value_counts().reset_index().rename(columns = {"월":"확진자수","index":"월"})

In [None]:
date_corona_month = date_corona_month.sort_values(by = '월')

In [None]:
plt.figure(figsize = (15,4))
plt.title('2021 월별 코로나 확진자 추이')
sns.pointplot(data = date_corona_month, x = '월', y = '확진자수')
plt.figure(figsize = (15,4))
sns.barplot(data = date_corona_month, x = '월', y = '확진자수')

### 2.3.2 2021 3월 ~ 8월 확진자 수 추이

In [None]:
date_corona = for_graph_df['확진일'].value_counts().reset_index()
date_corona.rename(columns = {'확진일':'확진자수','index':'확진일'},inplace = True)

In [None]:
date_corona = date_corona.sort_values(by = '확진일')

In [None]:

plt.figure(figsize = (15,4))
plt.title('날짜별 코로나 확진자 수 1 (03_18 ~ 05_16)')
plt.xticks(rotation = 90)
sns.pointplot(data = date_corona.iloc[:60,:], x = '확진일', y = '확진자수')
plt.figure(figsize = (15,4))
plt.title('날짜별 코로나 확진자 수 2 (05_17 ~ 08_13)')
plt.xticks(rotation = 90)
sns.pointplot(data = date_corona.iloc[60:,:], x = '확진일', y = '확진자수')




### 2.3.3 날짜별 거주지별 환자수

In [None]:
for_graph_df[(for_graph_df['확진일'] == '2021-03-18') &  (for_graph_df['거주지'] == '강동구')]

In [None]:
date_resi_gb = for_graph_df.groupby(['확진일','거주지'])[['환자']].count()
date_resi_gb

# 코로나 19 여행사업 관련 데이터 

In [None]:
trip_industry_df = pd.read_excel('C:\\study\\workspace_python\\pdsample\\datasets\\mydata\\코로나19 여행관련 데이터.xlsx')

In [None]:
trip_industry_df.T

In [None]:
wanted_data = trip_df.T.iloc[2:20,2]
visualization_df = wanted_data.reset_index()

In [None]:
visualization_df = visualization_df.rename(columns = {2 : 'results', 'index': '날짜'})
visualization_df.head()
visualization_df = visualization_df.sort_values(by = '날짜')
visualization_df

In [None]:
visualization_df['results'] = visualization_df['results'].astype(int)

In [None]:
plt.figure(figsize = (15,4))
plt.title('travel business from 2020 - 2021')
sns.lineplot(data = visualization_df, x = '날짜', y = 'results', linestyle = '--', marker = 'o')
sns.barplot(data = visualization_df, x = '날짜', y = 'results', palette='YlGn_r')
plt.xticks(rotation = 90)
plt.figure(figsize = (15,4))
plt.title('travel business from 2020 - 2021')
sns.lineplot(data = visualization_df, x = '날짜', y = 'results', linestyle = '--', marker = 'o')
plt.xticks(rotation = 90)


# plt.savefig('foryongju')