# 6장 19대 대선 자료 분석하기
- 이 책을 집필 완료 후 선거관리 위원회 홈페이지가 재보궐선거로 구성화면이 변경되었습니다.
- 그러므로 일일이 진입하던 코드를 생략하고, 바로 19대 대통령 선거 결과를 확인할 수 있는 페이지 바로가기로 진입합니다.
- 그리고 6-1, 6-2 절의 코드는 바뀝니다. 그러나 6-3절부터 학습하는 경우라면 Github에서 배포하는 데이터를 사용

## 6-1. Selenium과 Beautiful Soup을 이용한 데이터 획득 준비 작업

In [1]:
import pandas as pd
import numpy as np

import platform
import matplotlib.pyplot as plt
%matplotlib inline

path = "c:/Windows/Fonts/malgun.ttf"
from matplotlib import font_manager, rc
if platform.system() == 'Windows':
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font',family=font_name)
plt.rcParams['axes.unicode_minus'] = False

In [3]:
from selenium import webdriver
import time

In [4]:
# 크롬 드라이버를 사용하여 크롬 창을 연다
driver = webdriver.Chrome('./driver/chromedriver.exe')

# 분야별정보 -> 역대선거통계 -> 투개표 -> 개표현황(읍면동별)
driver.get("http://info.nec.go.kr/main/showDocument.xhtml?electionId=0000000000&topMenuId=VC&secondMenuId=VCCP09")

In [5]:
# '대통령선거' 항목 클릭
driver.find_element_by_id("electionType1").click()

In [6]:
driver.find_element_by_id("electionName").send_keys("제19대")

In [7]:
driver.find_element_by_id("electionCode").send_keys("대통령선거")

In [11]:
# 'option'에 있는 시도 항목들을 전부 가지고 온다.
sido_list_raw = driver.find_element_by_xpath("""//*[@id="cityCode"]""")
sido_list = sido_list_raw.find_elements_by_tag_name("option")
sido_names_values = [option.text for option in sido_list]
sido_names_values = sido_names_values[2:]
sido_names_values

['서울특별시',
 '부산광역시',
 '대구광역시',
 '인천광역시',
 '광주광역시',
 '대전광역시',
 '울산광역시',
 '세종특별자치시',
 '경기도',
 '강원도',
 '충청북도',
 '충청남도',
 '전라북도',
 '전라남도',
 '경상북도',
 '경상남도',
 '제주특별자치도']

In [14]:
# 'option'에 있는 시도 항목들을 전부 가지고 온다.
sigun_list_raw = driver.find_element_by_xpath("""//*[@id="townCode"]""")
sigun_list = sido_list_raw.find_elements_by_tag_name("option")
sigun_names_values = [option.text for option in sigun_list]
sigun_names_values = sigun_names_values[2:]
sigun_names_values

[]

In [None]:
driver.find_element_by_xpath("""//*[@id="searchBtn"]""").click()

In [None]:
# BeautifulSoup을 사용해서 현재 페이지 파싱
from bs4 import BeautifulSoup

html - driver.page_source
soup = BeautifulSoup(html, 'html.parser')

In [None]:
# aligR을 모두 찾아서 1~4번째까지 출력
tmp = soup.find_all('td','alignR')
tmp[1:5]

## 6-2 19대 개표 결과 데이터 획득하기

In [None]:
from tqdm import tqdm_notebook
# 시도/시군 목록을 넣기 위한 리스트를 생성해준다.
sido_name = []
sigun_name = []

# 시도 목록을 모두 입력칸에 반복해서 넣어준다.
for sido_value in tqdm_notebook(sido_names_values):
    element = driver.find_element_by_id("cityCode")
    element.send_keys(sido_value)
    
    time.sleep(1)
    
    # 시군 목록을 모두 입력칸에 반복해서 넣어준다.
    sigun_list_raw = driver.find_element_by_xpath("""//*[@id="townCode"]""")
    sigun_list = sigun_list_raw.find_elements_by_tag_name("option")
    
    # 시군 목록에서 나온 값들을 출력
    sigun_names_values = [option.text for option in sigun_list]
    sigun_names_values = sigun_names_values[1:]
    
    # 시군 목록에서 나온 값들을 리스트에 추가해준다.
    for sigun_value in sigun_names_values:
        sido_name.append(sido_value)
        sigun_name.append(sigun_value)

In [None]:
# 각 값들을 데이터프레임으로 만들어준다.
election_result = pd.DataFrame({"광역시도":sido_name,"시군":sigun_name})

election_result.head()

In [None]:
# 투표율을 얻기 위한 함수 생성
def get_vote_info(n):
    # 페이지 html 소스를 읽어온다.
    html = driver.page_source
    soup = BeautifulSoup(html,'lxml')
    
    # 'td'태그에 있는 값들을 불러오고 ','를 삭제한다.
    tmp = soup.find_all('td','alignR')
    tmp_values = [float(tmp_val.get_text().replace(',','')) for tmp_val in tmp[1:5]]
    
    # 각 후보들의 득표 값들을 알맞게 넣어준다.
    pop[n] = tmp_values[0]
    moon[n] = tmp_values[1]
    hong[n] = tmp_values[2]
    ahn[n] = tmp_values[3]

In [None]:
import numpy as np

# 값을 불러올 때, 없으면 nan 처리한다.
def fail_procedure(n):
    pop[n] = np.nan
    moon[n] = np.nan
    hong[n] = np.nan
    ahn[n] = np.nan

In [None]:
# nan처리 된 값들을 계산한다.
pop = [np.nan]*len(election_result)
moon = [np.nan]*len(election_result)
hong = [np.nan]*len(election_result)
ahn = [np.nan]*len(election_result)

len(pop),len(moon), len(hong), len(ahn)

In [None]:
for n in tqdm_notebook(election_result.index):
    # 에러가 나면 except 구문을 실행
    try:
        # 각 항목들에 값을 넣어주는 구문
        element = driver.find_element_by_id("CityCode")
        element.send_keys(election_result["광역시도"][n])
        
        time.sleep(0.5)
        
        element = driver.find_element_by_id("townCode")
        element.send_keys(election_result["시군"][n])
        
        driver.find_element_by_xpath(""""//*[@id="searchBtn"]""").click()
        
        time.sleep(0.5)
        
        get_vote_info()
    except:
        print('--- Erro r---')
        fail_procedure(n)

In [None]:
re_try_index = election_result[election_result['pop'].isnull()].index

for n in tqdm_notebook(re_try_index):
    try:
        element = driver.find_element_by_id("CityCode")
        element.send_keys(election_result['광역시도'][n])
        
        time.sleep(0.5)
        
         element = driver.find_element_by_id("townCode")
        element.send_keys(election_result["시군"][n])
        
        driver.find_element_by_xpath(""""//*[@id="spanSubit"]/input""").click()
        
        time.sleep(0.5)
        
        get_vote_info()
    except:
        print('--- Erro r---')
        fail_procedure(n)
        

In [None]:
election_result['pop'] = pop
election_result['moon'] = moon
election_result['ahn'] = ahn
election_result['hong'] = hong
election_result.head()

In [None]:
election_result.to_csv('./data/05. election_result.csv',encoding='utf-8',sep=',')

## 6-3 각 후보의 득표율과 지역 ID 정리하기

In [None]:
# csv 파일 읽어오기
election_result = pd.read_csv('./data/06. election_result.csv',encoding='utf-8',index_col=0)
election_result.head()

In [None]:
# '광역시도' 이름을 정리한다
sido_candi = election_result['광역시도']
sido_candi = [name[:2] if name[:2] in ['서울','부산','대구','광주','인천','대전','울산']
                        else '' for name in sido_candi]

In [None]:
# 시구 이름을 정리하는 함수를 지정해준다.
def cut_char_sigu(name):
    return name if len(name) == 2 else name[:-1]

In [None]:
import re

sigun_candi = ['']*len(election_result)

# 행정구를 가지고 있는 도시들의 이름을 정렬해준다.
for n in election_result.index:
    each = election_result['시군'][n]
    if each in ['수원','성남','안양','안산','고양','용인','청주','천안','전주','포항','창원']:
        # '시'글자를 기준으로 나눈다.
        sigun_candi[n] = re.split('시',each)[0] + ' '+cut_char_sigu(re.split('시',each)[1])
        else:
            sigun_candi[n] = cut_char_sigu(each)
            
        sigun_candi

In [None]:
ID_candi = [sido_candi[n]+' '+sigun_candi[n] for n in range(0,len(sigun_candi))]

# 첫글자가 띄어쓰기인 경우 정리하게끔 한다.
ID_candi = [name[1:] if name[0]==' ' else name for name in ID_candi]

# 세종시는 예외처리
ID_candi = [name[:2] if name[:2]=='세종' else name for name in ID_candi]

ID_candi

In [None]:
# 'ID'칼럼을 추가하고 정제한 값들을 넣어준다
election_result['ID'] = ID_candi
election_result.head(10)

In [None]:
# 각 후보들의 득표율을 계산하여 넣어준다
election_result[['rate_moon','rate_hong','rate_ahn']] = election_result[['moon','hong','ahn']].div(election_result['pop'],axis=0)
election_result[['rate_moon','rate_hong','rate_ahn']]*=100
election_result.head()

In [None]:
# 문재인 후보의 득표율을 오름차순으로 보여준다
election_result.sort_values(['rate_moon'],ascending=[False].head(10))

In [None]:
# 홍준표 후보의 득표율을 오름차순으로 보여준다
election_result.sort_values(['rate_hong'],ascending=[False].head(10))

In [None]:
# 안철수 후보의 득표율을 오름차순으로 보여준다
election_result.sort_values(['rate_ahn'],ascending=[False].head(10))

In [None]:
# csv 파일을 읽어온다
draw_korea = pd.read_csv('./data/05. draw_korea.csv',encoding='utf-8',index_col=0)
draw_korea.head()

In [None]:
# draw_korea에 있는 지역에서 election_result에 있는 지역을 빼준다
set(draw_korea['ID'].unique()) - set(election_result['ID'].unique)

In [None]:
# 위의 것의 반대로(서로 없는 지역을 알 수 있다)
set(election_result['ID'].unique) - set(draw_korea['ID'].unique()) 

In [None]:
# '고성'지역을 찾아낸다
election_result[election_result['ID']=='고성']

In [None]:
# 강원/경남 고성을 각각 나누어 준다
election_result.loc[125,'ID'] = '고성(강원)'
election_result.loc[233,'ID'] = '고성(경남)'

election_result[election_result['시군'] == '고성군']

In [None]:
# 경상남도 지역을 찾아낸다
election_result[election_result['광역시도']=='경상남도']

In [None]:
# 마산합포구를 합포, 회원으로 변경
election_result.loc[228,'ID'] = '창원 합포'
election_result.loc[229,'ID'] = '창원 회원'

election_result[election_result['광역시도']=='경상남도']

In [None]:
# draw_korea에 있는 지역에서 election_result에 있는 지역을 빼준다
set(draw_korea['ID'].unique()) - set(election_result['ID'].unique)

In [None]:
# 위의 것의 반대로(서로 없는 지역을 알 수 있다)
set(election_result['ID'].unique) - set(draw_korea['ID'].unique()) 

In [None]:
# 부천시를 찾아낸다
election_result[election_result['시군']=='부천시']

In [None]:
election_result.tail()

In [None]:
ahn_tmp = election_result.loc[85,'ahn']/3
hong_tmp = election_result.loc[85,'honh']/3
moon_tmp = election_result.loc[85,'moon']/3
pop_tmp = election_result.loc[85,'pop']/3

rate_moon_tmp = election_result.loc[85,'rate_moon']
rate_hong_tmp = election_result.loc[85,'rate_hong']
rate_ahn_tmp = election_result.loc[85,'rate_ahn']

election_result.loc[250] = [ahn_tmp, hong_tmp, moon_tmp, pop_tmp,
                           '경기도','부천시','부천 소사',
                           rate_moon_tmp, rate_hong_tmp, rate_ahn_tmp]
election_result.loc[251] = [ahn_tmp, hong_tmp, moon_tmp, pop_tmp,
                           '경기도','부천시','부천 오정',
                           rate_moon_tmp, rate_hong_tmp, rate_ahn_tmp]
election_result.loc[252] = [ahn_tmp, hong_tmp, moon_tmp, pop_tmp,
                           '경기도','부천시','부천 원미',
                           rate_moon_tmp, rate_hong_tmp, rate_ahn_tmp]


In [None]:
election_result[election_result['시군'] == '부천시']

In [None]:
election_result.drop([85],inplace=True)
election_result[election_result['시군'] == ['부천시']]

In [None]:
set(draw_korea['ID'].unique()) - set(election_result['ID'].unique)

In [None]:
set(election_result['ID'].unique) - set(draw_korea['ID'].unique()) 

In [None]:
final_elect_data = pd.merge(election_result,draw_korea,how='left',on=["ID"])
final_elect_data

In [None]:
final_elect_data['moon_vs_hong'] = final_elect_data['rate_moon'] - final_elect_data['rate_hong']
final_elect_data['moon_vs_ahn'] = final_elect_data['rate_moon'] - final_elect_data['rate_ahn']
final_elect_data['ahn_vs_hong'] = final_elect_data['rate_ahn'] - final_elect_data['rate_hong']
final_elect_data.head()

# 6-4 19대 대선 결과 득표율 시각화하기

In [None]:
# 지역별로 경계선을 나누어준다
BORDER_LINES = [[(5,1),(5,2),(7,2),(7,3),(11,3),(11,0)],# 인천
                [(5,4),(5,5),(2,5),(2,7),(4,7),(4,9),(7,9), (7,7),(9,7),(9,5),(10,5),(10,4),(5,4)],# 서울
                [(1,7),(1,8),(3,8),(3,10),(10,10),(10,7),
                (12,7),(12,6),(11,6),(11,5),(12,5),(12,4),(11,4),(11,3)], # 경기도
                [(8,10),(8,11),(6,11),(6,12)],  #  강원도
                [(12,5),(13,5),(13,4),(14,4),(14,5),(15,5),(15,4),(16,4),(16,2)], # 충청북도
                [(16,4),(17,4),(17,5),(16,5),(16,6),(19,6),(19,5),(20,5),(20,4),(21,4),(21,3),(19,3),(19,1)], # 전라북도
                [(13,5),(13,6),(16,6)], # 대전시
                [(13,5),(14,5)],   # 세종시
                [(21,2),(21,3),(22,3),(22,4),(24,4),(24,2),(21,2)], # 광주
                [(20,5),(21,5),(21,6),(23,6)],  # 전라남도
                [(10,8),(12,8),(12,9),(14,9),(14,8),(16,8),(16,6)], # 충청북도
                [(14,9),(14,11),(14,12),(13,12),(13,13)],  # 경상북도
                [(15,8),(17,8),(17,10),(16,10),(16,11),(14,11)], # 대구
                [(17,9),(18,9),(18,8),(19,8),(19,9),(20,9),(20,10),(21,10)], # 부산
                [(16,11),(16,13)], # 울산
                [(27,5),(27,6),(25,6)]
               ]
                



In [None]:
def drawKorea(targetData, blockedMap, cmapname ):
    gamma = 0.75
    
    whitelabelmin = 20
    datalabel = targetData
    
    tmp_max = max([np.abs(min(blockedMap[targetData])),np.abs(max(blockedMap[targetData]))])
    
    vmin, vmax = -tmp_max, tmp_max
    
    mapdata = blockedMap.pivot_table(index='y',columns='x',values=targetData)
    masked_mapdata = np.ma.masked_where(np.isnan(mapdata),mapdata)
    
    plt.figure(figsize = (9,11))
    plt.color(masked_mapdata, vmin = vmin, vmax=vmax, cmap=cmapname,
             edgecolor = '#aaaaaa',linewidth=0.5)
    
    # 지역이름 표시
    for idx, row in blockedMap.itterrows():
        if len(row['ID'].split()) ==2:
            dispname = '{}\{}'.format(row['ID'].split()[0], row['ID'].split()[1])
        elif row['ID'][:2]=='고성':
            dispname = '고성'
        else:
            dispname = row['ID']
            
    # 서대문구, 서귀포시와 같이 읆이 3자 이상인 경우에 작은 글자로 표시한다.    
    if len(dispname.splitlines()[-1]) >= 3:
        fontsize, linespacing = 10.0, 1.1
    else:
        fontsize, linespacing = 11,1.
    
    annocolor = 'white' if row[targetData] > whitelabelmin else 'black'
    plt.annotate(dispname, (row['x']+0.5, row['y']+0.5),weight='bold'.
                fontsize=fontsize, ha='center', va='center', color=annocolor,
                linespacing=linespacing)
    
    # 시도 경계 그린다
    for path in BORDER_LINES:
        ys, xs = zip(*path)
        plt.plot(xs,ys,c='black',lw=2)
    
    plt.gca().invert_yaxis()
    
    plt.axis('off')
    
    cb = plt.colorbar(shrink=.0,aspect=10)
    cb.set_label(datalabel)
    
    plt.tight_layout()
    plt.show()

In [None]:
drawKorea('moon_vs_hong',final_elect_data,'RdBu')

In [None]:
drawKorea('moon_vs_ahn',final_elect_data,'RdBu')

In [None]:
drawKorea('ahn_vs_hong',final_elect_data,'RdBu')

In [None]:
import folium
import json
import warnings
warnings.simplefilter(action='ignore',category=FutureWarning)

In [None]:
pop_folium = final_elect_data.set_index('ID')

del pop_folium['광역시도']
del pop_folium['시군']

pop_folium.head()

In [None]:
geo_path = './data/05. skorea_municipalities_geo_simple.json'
geo_data = json.load(open(geo_path,encoding='utf-8'))

map = folium.Map(location=[36.2002,127.054],zoom_start=6)
map.choropleth(geo_str = geo_data,
              data = pop_folium['moon_vs_hong'],
              colimns = [pop_folium.index.pop_folium['moon_vs_hong']],
              fill_color = 'PuBu',
              key_on = 'feature.id')
map