In [30]:
import csv
import numpy as np
import pandas as pd
import lxml
from bs4 import BeautifulSoup 
from urllib.request import urlopen
from selenium import webdriver
import time

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException

<br>

<ul style="list-style-type:disc;">
  <li style = "font-family: Gulim; font-size:24px;line-height:1.4">
      <b> 전처리_전국 시군구 list  </b>
     <p style = "font-family: Gulim;font-weight:bold;font-size:18px;line-height:1.5">Ediya 의 매장 주소검색을 활용하기 위해 시군구 list 를 만든다. <br>후에 비교분석하기 위해 시군구별 전체 인구 및 도시인구 비율(2018) 을 KOSIS 도시계획현황에서 다운받아 전처리한다. <br>
        <ol type = "A">
            <li style = "font-family: Gulim;font-size:16px;line-height:1.5"> pandas read_csv 로 읽으니 utf-8 encoding 이 계속 error 을 내어 python 내장 csv library를 활용 (이것은 단순 list로만 반환한다). 결과 리스트를 pd.dataframe 화 진행. 추후 더 좋은 방법이 있거나 위의 에러를 해결할 수 있다면 바꿀 예정<br></li>
<li style = "font-family: Gulim;font-size:16px;line-height:1.5"> 지역 입력을 위해 시도 + 군구 과정에서 시도 축약 전처리 필요 (Ediya 는 세종특별자치시 와 제주특별자치도 제외 모든 시도를 축약형으로 등록. 따라서 광역,특별, 경기도 및 강원도 / 일반 4음절 도 를 나누어 전처리) </li>
<li style = "font-family: Gulim;font-size:16px;line-height:1.5"> 경기 수원시, 고양시, 용인시, 성남시의 경우 인구가 900,000 명 이상이며 자치구가 존재하는데, 이들은 Ediya 에서 검색시 '결과가 너무 많습니다. 범위를 좁혀 주시기 바랍니다' 라는 에러가 발생. 따라서 이들은 시도+군구+자치구 의 형태 (ex. 경기 수원시 장안구) 로 변형.</li></ol></li></ul>

In [31]:
with open("시군구별 전체인구 및 도시인구비율.csv", newline='') as csvfile:
     li = []
     spamreader = csv.reader(csvfile, delimiter=' ', quotechar='|')
     for row in spamreader:
        li.extend(row)

areas = pd.DataFrame(columns = ['시도군구', '전체 인구', '도시지역 인구비율'])
n = 0
for k in li[4:]:
    a = k.split(',')
    
    # 시도 군구 를 합치기 위한 과정
    # 광역,특별시, 세 글자 도 (경기, 강원) 의 경우 앞의 두 음절 + 군구 이름
    if a[0][2:] in ['광역시', '특별시', '도']:
        a[0] = a[0][:2] + ' '+a[1]
        
    # 모든 '도' 들을 축약형으로 등록. 따라서 index 0, 2 를 join 해서 새롭게 지정
    elif a[0][3]  == '도':
        a[0] = a[0][0] + a[0][2] +' '+ a[1]
        
    # 세종특별자치시 는 군구가 없으므로 시도군구에 a[0]만 사용. 
    # 그러기 위해 세종이 아닌 다른 지역(제주)을 먼저 a[0] + ' '+a[1]  작업
    elif a[0] != '세종특별자치시':
        a[0] = a[0] + ' '+ a[1]

    areas.loc[n, '시도군구'] = a[0]
    areas.loc[n, '전체 인구'] = a[2]
    areas.loc[n, '도시지역 인구비율'] = a[3]    
    n +=1


In [32]:
for sido in areas['시도군구']:
    n = len(areas)
    if sido == '경기 수원시':
        for gungu in ['장안구','권선구','팔달구','영통구']:
            areas.loc[n, '시도군구'] = sido + ' '+gungu
            n += 1
    elif sido == '경기 성남시':
        for gungu in ['수정구','중원구','분당구']:
            areas.loc[n, '시도군구'] = sido + ' '+gungu
            n += 1
    elif sido == '경기 고양시':
        for gungu in ['덕양구','일산동구','일산서구']:
            areas.loc[n, '시도군구'] = sido + ' '+gungu
            n += 1
    elif sido == '경기 용인시':
        for gungu in ['처인구','기흥구','수지구']:
            areas.loc[n, '시도군구'] = sido + ' '+gungu
            n += 1

areas.tail(30)

Unnamed: 0,시도군구,전체 인구,도시지역 인구비율
192,경북 영천시,101595.0,64.58
193,경북 상주시,100297.0,51.45
194,경북 문경시,71874.0,73.61
195,경북 경산시,261093.0,88.59
196,경북 군위군,23919.0,19.12
197,경북 의성군,52944.0,50.74
198,경북 청송군,25678.0,47.48
199,경북 영양군,17356.0,43.44
200,경북 영덕군,38108.0,49.06
201,경북 청도군,43057.0,37.29


In [33]:
areas.to_csv("Ediya_시군구_전체인구및도시인구비율.csv", encoding = 'utf-8-sig')

In [34]:
area_names = areas['시도군구']

<br>

<ul style="list-style-type:disc;">
  <li style = "font-family: Gulim; font-size:24px;line-height:1.4">
      <b> Scraping _ Selenium 사용, 매장 주소 검색 </b>
     <p style = "font-family: Gulim;font-weight:bold;font-size:18px;line-height:1.5"> Selenium 의 send_keys method 를 사용하여 앞서 만든 시도군구 list 를 하나씩 for loop 으로 적용. <br>
        <ol type = "A">
            <li style = "font-family: Gulim;font-size:16px;line-height:1.5"> 시간이 ,,,,, 오래 걸린다ㅠㅠ time.sleep () 을 낮춰도 좋을 것.</li>
<li style = "font-family: Gulim;font-size:16px;line-height:1.5"> 검색 결과가 너무 많거나 없을 시 error 발생. try... except... 구문<sup><b>1</b></sup>을 사용하여 에러 발생시 continue (다음 시도군구를 적용하는 새로운 for loop 시작) 하도록 한다. </li>


In [35]:
# headless 만들기
options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('window-size=1920x1080')
options.add_argument("disable-gpu")

chrome_driver_path = "C:/Sel/chromedriver.exe"
driver = webdriver.Chrome(chrome_driver_path)
url = "https://www.ediya.com/contents/find_store.html#c"

address = []
for i in area_names:
    driver.get(url)
    time.sleep(0.5)
  
    loca = driver.find_element_by_xpath('//*[@id="contentWrap"]/div[3]/div/div[2]/ul/li[2]/a')
    loca.click()
    time.sleep(0.5)

    loca = driver.find_element_by_xpath('//*[@id="keyword"]')
    loca.send_keys(i)
    loca.submit()
    time.sleep(0.5)

    # 지역 내에 매장이 없을 경우 '검색 결과가 없습니다' error returned
    # 따라서 그와 같은 에러 반환 시 해당 for loop 을 끊고 다음 지역으로 continue 한다.
    # try ..except .. 구문 참조: 
    t = 0
    try:
        WebDriverWait(driver, 3).until(EC.alert_is_present(),
                                       'Timed out waiting for PA creation ' +
                                       'confirmation popup to appear.')
        alert = driver.switch_to.alert
        alert.accept()
        t = 1
    except TimeoutException:
        t = 0

    if t == 1:
        continue
    
    source = driver.page_source

    bs = BeautifulSoup(source, 'lxml')
    entire = bs.find('ul',id = 'placesList')
    li_list = entire.find_all('li')
    
    print(i)
    
    for k in li_list:
        address.append(k.text)

서울 종로구
서울 중구
서울 용산구
서울 성동구
서울 광진구
서울 동대문구
서울 중랑구
서울 성북구
서울 강북구
서울 도봉구
서울 노원구
서울 은평구
서울 서대문구
서울 마포구
서울 양천구
서울 강서구
서울 구로구
서울 금천구
서울 영등포구
서울 동작구
서울 관악구
서울 서초구
서울 강남구
서울 송파구
서울 강동구
부산 중구
부산 서구
부산 동구
부산 영도구
부산 부산진구
부산 동래구
부산 남구
부산 북구
부산 해운대구
부산 사하구
부산 금정구
부산 강서구
부산 연제구
부산 수영구
부산 사상구
부산 기장군
대구 중구
대구 동구
대구 남구
대구 북구
대구 수성구
대구 달서구
대구 달성군
인천 중구
인천 동구
인천 미추홀구
인천 연수구
인천 남동구
인천 부평구
인천 계양구
인천 서구
인천 강화군
인천 옹진군
광주 동구
광주 서구
광주 남구
광주 북구
광주 광산구
대전 동구
대전 중구
대전 서구
대전 유성구
대전 대덕구
울산 중구
울산 남구
울산 동구
울산 북구
울산 울주군
세종특별자치시
경기 부천시
경기 안산시
경기 안양시
경기 남양주시
경기 화성시
경기 평택시
경기 의정부시
경기 시흥시
경기 파주시
경기 광명시
경기 김포시
경기 군포시
경기 광주시
경기 이천시
경기 양주시
경기 오산시
경기 구리시
경기 안성시
경기 포천시
경기 의왕시
경기 하남시
경기 여주시
경기 양평군
경기 동두천시
경기 과천시
경기 가평군
경기 연천군
강원 춘천시
강원 원주시
강원 강릉시
강원 동해시
강원 속초시
강원 삼척시
강원 홍천군
강원 영월군
강원 평창군
강원 정선군
강원 철원군
강원 화천군
강원 양구군
강원 인제군
강원 고성군
강원 양양군
충북 청주시
충북 충주시
충북 제천시
충북 보은군
충북 옥천군
충북 영동군
충북 진천군
충북 괴산군
충북 음성군
충북 단양군
충북 증평군
충남 천안시
충남 공주시
충남 보령시
충남 아산시
충남 서산시
충남 논산시
충남 당진시
충남 금산군
충남 부여군
충남 서천군
충남 홍성군
충남 예산군
충남 태안군
전북 전주시
전북 군산시
전북 익산시
전북 정읍시

In [1]:
address

NameError: name 'address' is not defined

<br>

<ul style="list-style-type:disc;">
  <li style = "font-family: Gulim; font-size:24px;line-height:1.4">
      <b> 후처리_ 결과 dataframe화 및 시군구별 카운트  </b>
        <ol type = "A">
            <li style = "font-family: Gulim;font-size:16px;line-height:1.5"> Ediya 의 경우 text 가 '매장이름 + full 주소' 로 이루어짐. 매장이름과 주소를 떼어내기 위해 split(). split 결과의 index 0 은 매장이름.<br> <b>+ </b>  cartography의 ID를 만들기 위해 시도, 군구를 나눈다. 따라서 '안양SK  V1점' 와 세종특별자치시 (이 둘은 따로 처리) 제외 나머지는 a[1] = 시도, a[2] = 군구 로 나누어준다.</li>
<li style = "font-family: Gulim;font-size:16px;line-height:1.5"> draw_korea 와 호환하는 ID 만들기. 이 과정 중에 알 수 없는 이유로 인해 '군구' 데이터 중 일부가 float 형식으로 인식됨. 고로 applymap(str) 을 사용하여 전 데이터를 미리 string 으로 만든다. 시도 와 군구 를 나누면서 고성군 (강원, 경남) 는 각각 (강원), (경남) 로 구분. </li>
<li style = "font-family: Gulim;font-size:16px;line-height:1.5">draw_korea 에서는 거대 도시 (수원~부천 등 12개) 에서는 각각의 '자치구' 를 따로 정의, ID 로 만듦. 문제는 매장 주소는 일부는 자치구가 있으나 (ex. 부천시 원미구 상동) 일부는 도로명 주소여서인지 왜인지,,,ㅠㅠ 구가 없다 (ex. 부천시 부흥로 472). 그래서 이 부분은 후에 draw_korea의 ID에서 자치구를 없애고 모두 한 도시이름으로 변형하겠다.


In [248]:
df_address = pd.DataFrame(columns = ['시도', '군구', '이디야_나머지데이터'])
n = 0
for ad in address :
    a = ad.split()
    # 전체 ediya 매장 중 경기 안양시의 V1 점은 지점 이름이 '안양SK  V1점' 으로 두 음절.
    # 따라서 이것은 직접 전처리한다.
    if a[1] == 'V1점':
        df_address.loc[n, '시도'] = a[2]
        df_address.loc[n, '군구'] = a[3]
        df_address.loc[n, '이디야_나머지데이터'] = ' '.join(a[4:])
    else:
        df_address.loc[n , '시도'] = a[1]
        if a[2] == '고성군':
            if a[1] == '강원':
                df_address.loc[n, '군구'] =  '고성(강원)'
            else:
                df_address.loc[n, '군구'] = '고성(경남)'
        elif a[1] == '세종특별자치시':
            df_address.loc[n, '군구'] = '세종'
        else:
            if len(a[2]) >= 4:
                df_address.loc[n, '군구'] = a[2][:3]
            else: 
                df_address.loc[n , '군구'] = a[2]
        df_address.loc[n, '이디야_나머지데이터'] = ' '.join(a[3:])
    n += 1

In [249]:
# 만일을 대비해 df_address 내의 모든 데이터를 string 형식으로 전환
df_ID = df_address.applymap(str)
df_ID.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2531 entries, 0 to 2530
Data columns (total 3 columns):
시도            2531 non-null object
군구            2531 non-null object
이디야_나머지데이터    2531 non-null object
dtypes: object(3)
memory usage: 159.1+ KB


In [238]:
special_cities =  ['서울',  '인천',  '대전', '대구', '울산', '부산', '광주']
over3_gungu = ['고성(강원)', '고성(경남)','동두천', '의정부', '일산동', '남양주', '일산서', '서대문', '동대문', '영등포', '부산진', '해운대', '서귀포']

In [250]:
df_ID['ID'] = np.nan

n = len(df_ID)

for i in range(n):
    # 군구 중 원래 3음절이 아닌 경우 맨 끝의 '구' 또는 '시' 를 떼어낸다
    if df_ID.loc[i, '군구'] not in over3_gungu and len(str(df_ID.loc[i, '군구'])) >= 3:
        df_ID.loc[i,'군구'] = str(df_ID.loc[i, '군구'])[0:-1]
    # 시도 가 특별시, 광역시 등일 경우 draw_korea 와 호환을 위해 ID 에 포함한다.
    if df_ID.loc[i, '시도'] in special_cities:
        df_ID.loc[i, 'ID'] = df_ID.loc[i, '시도'] +' '+ str(df_ID.loc[i, '군구'])
    else:
        df_ID.loc[i, 'ID'] = df_ID.loc[i, '군구']
        

In [251]:
df_ID.to_csv("data_soomin/이디야_기본.csv",encoding='utf-8-sig')

In [252]:
df_ID[2000:2010]

Unnamed: 0,시도,군구,이디야_나머지데이터,ID
2000,전북,완주,삼례읍 동학로 98,완주
2001,전북,완주,구이면 모악산길 107,완주
2002,전북,완주,이서면 출판로 40,완주
2003,전북,진안,진안읍 우화산길 9 (군하리),진안
2004,전북,무주,무주읍 향학로 37,무주
2005,전북,장수,장수읍 싸리재로 6 (장수리),장수
2006,전북,임실,임실읍 운수로 19,임실
2007,전북,순창,순창읍 순창로 211,순창
2008,전북,고창,고창읍 중앙로 191,고창
2009,전북,부안,변산면 격포로 144 (격포리),부안


In [254]:
df_count= pd.DataFrame(df_ID.groupby(df_ID.ID).count()['군구'])
df_count1 = df_count.rename(columns = {'군구':'이디야_빈도'})
df_count1.head()

Unnamed: 0_level_0,이디야_빈도
ID,Unnamed: 1_level_1
가평,6
강릉,12
강진,1
거제,7
거창,1


In [256]:
df_count1.to_csv("data_soomin/이디야_시군구별카운트.csv",encoding='utf-8-sig')
df_count1.to_csv("data_soomin/이디야_시군구별카운트_euckr인코딩.csv")

---------------------
<p style = "font-family:Gulim; font-size:26px;font-weight:bold">참조 링크 </p>
<br>


1. [Check if any alert exists using selenium with python](https://stackoverflow.com/questions/19003003/check-if-any-alert-exists-using-selenium-with-python), stackoverflow