- 자료출처
- 중앙선거관리위원회 국회의원선거 개표결과 정보_20200415 (총선)
- 중앙선거관리위원회 홈페이지 20대 대통령 선거 개표결과 (대선)
- 얼마나 상세히 보여줄 것인가?
- '시군구'
- 기본적인 단위
- '읍면동'
- 실질적으로 가장 상세한 단위
- 제대로 분석하려면 이 단위까지 내려가야 하는 것이 맞다.
- 이 단위까지 표기하면 실제 지역 특성이 나타나기 시작한다.
- 정보량이 많아서 모바일에서는 느리다. PC에서도 느린게 느껴진다.
- geojson 파일을 다루기도 쉽지 않은 편.
- '투표소'
- 가장 상세한 단위
- 실제 구획으로는 '통', '반' 으로 진입하게 된다.
- 우리나라의 주소체계는 3개. '법정동', '행정동', '도로명'
- 행정동과 법정동은 서로 완전한 포함관계가 아님.
- 투표소는 '통', '반' 으로 설정되어 있음.
- 구청 홈페이지에 가면 '통', '반' 의 구획을 찾을 수 있음
- 그래서 실제로 찾아보면 한 아파트 단지에서 층수로 '통', '반'이 나뉨. (물리적으로 수직 구조가 존재)
- 사실상 2차원 평면으로 표기하기 어렵다.
- '시군구'
- 선거인 수는 적지만 넓은 지역에서 오는 왜곡을 어떻게 보정할 것인가?
- 면적은 넓고 인구는 적은 곳은 과대하게 보이는 왜곡이 있다.
- 카토그램 같은 것으로 보정이 가능하다.
- 투표수 기준으로 표기하면 인구적은 넓은 지역이 과소평가되는 경향이 생긴다.
- 결론 : 그냥 기본(시군구)으로 진행
- 지역구별 분리된 엑셀파일 형식을 하나로 모은다.
- 먼저 하위폴더명을 따서 folders 에 저장한다.
- url 뒤에 붙여서 저장된 폴더들을 순회한다.
- 폴더에 진입하면 다시 해당폴더에 든 파일명을 files 에 저장한다.
- url 뒤에 붙여서 저장된 파일들을 순회한다.
- 파일을 열면 다시 해당엑셀파일에 있는 시트명을 sheets 에 저장한다.
- url 뒤에 붙여서 엑셀파일 안에 있는 모든 시트를 순회한다. (이번 경우는 시트 1개)
- 엑셀파일을 데이터프레임으로 불러온다.
- 정보가 될 몇 개의 column 을 새로 생성한다.
- '시도'는 폴더명에서 가져옴
'구시군'은 파일명에서 잘라냄총선 자료파일의 2번째 라인에서 가져다 쓰는 것으로 변경
- 시트 하나를 읽으면 메인 데이터프레임에 concat 으로 가져다 붙인다.
- 위의 과정을 반복하여 3단 for문으로 모두 읽어온다.
-
기본적으로 국회의원 선거와 같으나 정식자료가 나오지 않은 상태에서 홈페이지 데이터만 긁어온 상태
-
지역구별 구획이 아니다. 총선자료와는 '시군구2' 항목으로 맞춰야 한다.
-
1_ 로 시작하는 파일은 로컬에서 엑셀파일로 데이터처리
-
2_ 로 시작하는 파일은 웹에서 스크랩하여 데이터처리