# 🐸 파이썬으로 데이터 주무르기 

## 6장 19대 대선 결과 분석

일자: 2020-05-12 ~

#### 주의
- 이 책을 집필완료한 후 선거관리 위원회 홈페이지가 재보궐선거로 구성화면이 변경되었습니다.
- 그러므로 일일이 진입하던 코드를 생략하고, 바로 19대 대통령 선거 결과를 확인할 수 있는 페이지[바로가기](http://info.nec.go.kr/main/showDocument.xhtml?electionId=0000000000&topMenuId=VC&secondMenuId=VCCP09)로 진입합니다.
- 그리고 6-1, 6-2절의 코드는 바뀝니다. 그러나 6-3절부터 학습하시는 경우라면 Github에서 배포하는 데이터를 사용하시면 됩니다.
- 아래 6-1, 6-2절의 코드가 변경되는 것을 양해해 주시기 바랍니다.

#### 1. Selinium과 Beautiful Soup을 이용한 데이터 획득 준비 작업 

In [1]:
import pandas as pd
import numpy as np

import platform
import matplotlib.pyplot as plt

%matplotlib inline

path = "c:/Windows/Fonts/malgun.ttf"
from matplotlib import font_manager, rc
if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown system... sorry~~~~')    

plt.rcParams['axes.unicode_minus'] = False

In [2]:
from selenium import webdriver
import time

In [3]:
driver = webdriver.Chrome('/Users/harampark/Documents/chromedriver')
driver.get("http://info.nec.go.kr/main/showDocument.xhtml?electionId=0000000000&topMenuId=VC&secondMenuId=VCCP09")

In [4]:
driver.find_element_by_id("electionType1").click()

- elem.send_keys('원하는 키 선택') 

In [5]:
driver.find_element_by_id("electionName").send_keys("제19대")

In [6]:
driver.find_element_by_id("electionCode").send_keys("대통령선거")

In [7]:
sido_list_raw = driver.find_element_by_xpath("""//*[@id="cityCode"]""")
sido_list = sido_list_raw.find_elements_by_tag_name("option") # 옵션이라는 태그 이름! 
sido_names_values = [option.text for option in sido_list] # 옵션의 텍스트만!
sido_names_values

['▽ 선 택',
 '▷ 전 체',
 '서울특별시',
 '부산광역시',
 '대구광역시',
 '인천광역시',
 '광주광역시',
 '대전광역시',
 '울산광역시',
 '세종특별자치시',
 '경기도',
 '강원도',
 '충청북도',
 '충청남도',
 '전라북도',
 '전라남도',
 '경상북도',
 '경상남도',
 '제주특별자치도']

In [8]:
# 선택, 전체 없애고 나머지만 가져오자!
sido_names_values = sido_names_values[2:]
sido_names_values

['서울특별시',
 '부산광역시',
 '대구광역시',
 '인천광역시',
 '광주광역시',
 '대전광역시',
 '울산광역시',
 '세종특별자치시',
 '경기도',
 '강원도',
 '충청북도',
 '충청남도',
 '전라북도',
 '전라남도',
 '경상북도',
 '경상남도',
 '제주특별자치도']

#### 2. 19대 대선 개표 결과 데이터 획득하기 
- 위 그림이 지역을 선택하면 나타나는 화면중 하나인데 득표수에 득표율이 괄호()로 함께 나타납니다.
- 이를 제거하고 (를 기준으로 왼쪽 숫자만 얻어서, 콤마(,)를 제거하고, float형으로 변경하는 함수를 get_num으로 준비해 둡니다

In [9]:
import re

def get_num(tmp):
    return float(re.split('\(', tmp)[0].replace(',',''))

* 책에서는 특별히 다루고 있지 않지만, 아래 모듈을 import해서 wait.until 함수를 사용할 수 있습니다.


* 이 함수는 **검색**버튼이 클릭가능할 때 까지 기다리는 기능을 합니다.
* 그리고 **move_sido** 함수는 광역시도 이름을 리스트에 전송하고 검색 버튼을 누르는 역할을 합니다.

In [10]:
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

wait = WebDriverWait(driver, 10)

def move_sido(name):
    element = driver.find_element_by_id("cityCode")
    element.send_keys(name)
    make_xpath = """//*[@id="searchBtn"]"""   # 검색 버튼의 xpath 
    wait.until(EC.element_to_be_clickable((By.XPATH,make_xpath)))  # 검색 버튼이 생길 때까지 기다리기! 
    driver.find_element_by_xpath(make_xpath).click() # 검색 버튼 클릭 

* **append_data** 함수는 빈 내용으로 미리 준비한 DataFrame에 append 명령으로 읽은 데이터를 하나씩 추가하는 기능입니다.

* 이 함수가 실행되면 전체 투표수, 문재인후보, 홍준표후보, 안철수후보의 득표수가 추가됩니다

In [11]:
def append_data(df, sido_name, data):
    for each in df[0].values[1:]:
        data['광역시도'].append(sido_name)
        data['시군'].append(each[0])
        data['pop'].append(each[2])
        data['moon'].append(get_num(each[3]))
        data['hong'].append(get_num(each[4]))
        data['ahn'].append(get_num(each[5]))

* 미리 변수를 하나 만들어 둡니다.

In [12]:
election_result_raw = {'광역시도' : [],
                       '시군' : [],
                       'pop' : [],
                       'moon' : [],
                       'hong' : [],    
                       'ahn' : [] }

* 교재를 집필할 때는 table로 읽는 것이 부담된다고 판단했는데, 지금은 형태가 바뀌어서 html 태그 중 table로 되어 있는 부분을 Beautiful Soup으로 읽어서 pandas의 read_html로 읽는 것이 더 유리합니다.

- driver.page_source: 브라우저에 보이는 그대로의 HTML, 크롬 개발자 도구의 Element 탭 내용과 동일.
- [pandas.read_html](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_html.html): html의 table 태그를 pandas의 데이터프레임으로 전환시켜주는 것!

url에서 table은 한 개의 table만 가지고 있고, 첫번째 요소 [0]이 우리가 원하는데이터를 표시하는 것!

In [13]:
import re

def get_num(tmp):
    return float(re.split('\(', tmp)[0].replace(',',''))

def append_data(df, sido_name, data):
    for each in df[0].values[1:]:
        data['광역시도'].append(sido_name)
        data['시군'].append(each[0])
        data['pop'].append(each[2])
        data['moon'].append(get_num(each[3]))
        data['hong'].append(get_num(each[4]))
        data['ahn'].append(get_num(each[5]))

In [14]:
from bs4 import BeautifulSoup

for each_sido in sido_names_values:
    move_sido(each_sido)
    
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    table = soup.find('table')  # table이란 태그를 찾아라! 
    
    df = pd.read_html(str(table))
    
    append_data(df, each_sido, election_result_raw)

In [15]:
election_result_raw

{'광역시도': ['서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '서울특별시',
  '부산광역시',
  '부산광역시',
  '부산광역시',
  '부산광역시',
  '부산광역시',
  '부산광역시',
  '부산광역시',
  '부산광역시',
  '부산광역시',
  '부산광역시',
  '부산광역시',
  '부산광역시',
  '부산광역시',
  '부산광역시',
  '부산광역시',
  '부산광역시',
  '대구광역시',
  '대구광역시',
  '대구광역시',
  '대구광역시',
  '대구광역시',
  '대구광역시',
  '대구광역시',
  '대구광역시',
  '인천광역시',
  '인천광역시',
  '인천광역시',
  '인천광역시',
  '인천광역시',
  '인천광역시',
  '인천광역시',
  '인천광역시',
  '인천광역시',
  '인천광역시',
  '광주광역시',
  '광주광역시',
  '광주광역시',
  '광주광역시',
  '광주광역시',
  '대전광역시',
  '대전광역시',
  '대전광역시',
  '대전광역시',
  '대전광역시',
  '울산광역시',
  '울산광역시',
  '울산광역시',
  '울산광역시',
  '울산광역시',
  '세종특별자치시',
  '경기도',
  '경기도',
  '경기도',
  '경기도',
  '경기도',
  '경기도',
  '경기도',
  '경기도',
  '경기도',
  '경기도',
  '경기도',
  '경기도',
  '경기도',
  '경기도',
  '경기도',
  '경기도',
  '경기도',
  '경기도',
  '

In [16]:
election_result = pd.DataFrame(election_result_raw, 
                               columns=['광역시도', '시군', 'pop', 'moon','hong','ahn'])
election_result

Unnamed: 0,광역시도,시군,pop,moon,hong,ahn
0,서울특별시,종로구,102566,42512.0,22325.0,22313.0
1,서울특별시,중구,82852,34062.0,17901.0,19372.0
2,서울특별시,용산구,148157,58081.0,35230.0,32109.0
3,서울특별시,성동구,203175,86686.0,40566.0,45674.0
4,서울특별시,광진구,240030,105512.0,46368.0,52824.0
...,...,...,...,...,...,...
245,경상남도,산청군,24513,6561.0,12544.0,2753.0
246,경상남도,거창군,41325,11256.0,19976.0,4923.0
247,경상남도,합천군,33021,7143.0,19699.0,3077.0
248,제주특별자치도,제주시,273163,125717.0,48027.0,55971.0


In [17]:
election_result.to_csv('05. election_result.csv', encoding='utf-8', sep=',')
driver.close()