
## 스타벅스 이디야 데이터 분석

---

현업에서는 파일의 양이 방대하기 때문에 파일들을 데이터베이스(DBMS)에 저장하고, 데이터베이스에서 쿼리를 통해 필요한 부분의 테이블만 가져와서 데이터를 전처리 및 시각화함

AWS RDS (MySQL) 에 프로젝트 관련 Database 를 생성하고, 접근 가능한 사용자 계정을 생성함

- Database Name : oneday
- User Name / Password : oneday / 1234

자체 운영 데이터베이스 시스템보다 AWS RDS에서 데이터베이스를 사용해서 얻는 이점
- 관리의 편리성 : 백업, 패치 관리, 복구 등을 AWS가 처리하여 사용자가 걱정할 필요가 없음
- 확장성 : 클라우드 데이터베이스는 사용자의 요구에 따라 자원을 쉽게 확장하거나 축소 가능함
- 보안 : AWS는 데이터를 암호화하여 저장하고 전송하여 기업의 데이터 유출을 예방함
- 비용 효율성 : 클라우드 서비스는 '사용한 만큼만 지불'하는 모델을 제공하고, 이로 인해 사전에 큰 투자 없이 필요한 리소스를 사용할 수 있고, 비용을 예측하기 쉬움

In [30]:
# python에서 AWS RDS(mysql)에 연결
import mysql.connector
remote = mysql.connector.connect(
    host = "database-1.cx8zt2bohelq.us-east-2.rds.amazonaws.com",
    port = 3306,
    user = "admin",
    password = "vkfks134"
)

In [32]:
# 결과를 모두 소진해야 다음 쿼리를 실행하도록 커서 객체 생성
cursor = remote.cursor(buffered=True)

# 모든 데이터베이스 조회
cursor.execute('SHOW databases;')
cursor.fetchall()

[('information_schema',),
 ('mysql',),
 ('oneday',),
 ('performance_schema',),
 ('sys',),
 ('zerobase',),
 ('zerodb',)]

데이터베이스 생성 및 생성문 확인

In [15]:
# oneday 데이터베이스 생성
cursor.execute("CREATE DATABASE oneday DEFAULT CHARACTER SET utf8mb4;")  # utf8mb4는 이모지 등 유니코드 문자의 전체 범위 지원
cursor.execute('SHOW databases;')
cursor.fetchall()

[('information_schema',),
 ('mysql',),
 ('oneday',),
 ('performance_schema',),
 ('sys',),
 ('zerobase',),
 ('zerodb',)]

In [20]:
# 데이터베이스 생성문 확인
cursor.execute("SHOW CREATE DATABASE oneday;")
cursor.fetchall()

[('oneday',
  "CREATE DATABASE `oneday` /*!40100 DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci */ /*!80016 DEFAULT ENCRYPTION='N' */")]

user 조회, 삭제 및 생성

In [16]:
# user 조회
cursor.execute('USE mysql;')
cursor.execute('SELECT host, user FROM user;')
cursor.fetchall()

[('%', 'admin'),
 ('%', 'oneday'),
 ('%', 'zero'),
 ('localhost', 'mysql.infoschema'),
 ('localhost', 'mysql.session'),
 ('localhost', 'mysql.sys'),
 ('localhost', 'rdsadmin')]

In [17]:
# 기존 oneday 외부 유저 삭제
cursor.execute("DROP user 'oneday'@'%';")

In [18]:
# oneday 외부 유저 다시 생성
cursor.execute("CREATE user 'oneday'@'%' identified by '1234';")
cursor.execute("SELECT host, user FROM user;")
cursor.fetchall()

[('%', 'admin'),
 ('%', 'oneday'),
 ('%', 'zero'),
 ('localhost', 'mysql.infoschema'),
 ('localhost', 'mysql.session'),
 ('localhost', 'mysql.sys'),
 ('localhost', 'rdsadmin')]

user 권한 조회, 삭제 및 생성

In [25]:
# user 권한 조회
cursor.execute("SHOW GRANTS FOR 'oneday'@'%';")
cursor.fetchall()

[('GRANT USAGE ON *.* TO `oneday`@`%`',),
 ('GRANT ALL PRIVILEGES ON `oneday`.* TO `oneday`@`%`',)]

In [27]:
# user 권한 제거
cursor.execute("REVOKE ALL ON oneday.* FROM 'oneday'@'%';")

In [28]:
# oneday 유저에게  다시 oneday 데이터베이스 권한 할당
cursor.execute("GRANT ALL ON oneday.* TO 'oneday'@'%';")
cursor.execute("SHOW GRANTS FOR 'oneday'@'%';")
cursor.fetchall()

[('GRANT USAGE ON *.* TO `oneday`@`%`',),
 ('GRANT ALL PRIVILEGES ON `oneday`.* TO `oneday`@`%`',)]

스타벅스 이디야 데이터를 저장할 테이블 구조 생성

In [33]:
# 커피 브랜드 테이블 구조 생성
cursor.execute("use oneday;")
# 기본키는 null 값이 있으면 안됨
cursor.execute("CREATE TABLE COFFEE_BRAND (id int not null primary key auto_increment, name varchar(255));")

- VARCHAR 필드의 크기는 설정할 수 있는 최대 길이를 의미하며, 실제 데이터의 길이에 따라 필요한 저장 공간이 달라짐

In [136]:
# 커피 스토어 테이블 구조 생성
cursor.execute("use oneday;")
cursor.execute(
    "CREATE TABLE COFFEE_STORE (id int NOT NULL PRIMARY KEY auto_increment, brand int NOT NULL, name varchar(32) NOT NULL, gu_name varchar(5) NOT NULL, address varchar(128) NOT NULL, lat decimal(16,14) NOT NULL, lng decimal(17,14) NOT NULL, FOREIGN KEY (brand) REFERENCES COFFEE_BRAND(id));"
)

In [41]:
cursor.execute("DESC COFFEE_BRAND;")
cursor.fetchall()

[('id', b'int', 'NO', 'PRI', None, 'auto_increment'),
 ('name', b'varchar(255)', 'YES', '', None, '')]

In [137]:
cursor.execute("DESC COFFEE_STORE;")
cursor.fetchall()

[('id', b'int', 'NO', 'PRI', None, 'auto_increment'),
 ('brand', b'int', 'NO', 'MUL', None, ''),
 ('name', b'varchar(32)', 'NO', '', None, ''),
 ('gu_name', b'varchar(5)', 'NO', '', None, ''),
 ('address', b'varchar(128)', 'NO', '', None, ''),
 ('lat', b'decimal(16,14)', 'NO', '', None, ''),
 ('lng', b'decimal(17,14)', 'NO', '', None, '')]

COFFEE_BRAND 데이터를  입력하고 확인

In [43]:
# ID 값은 auto_increment로 자동으로 올라감
cursor.execute("insert into COFFEE_BRAND (name) values ('STARBUCKS'), ('EDIYA')")

In [44]:
remote.close()

In [45]:
cursor.close()

True

AWS RDS에 연결하여 oneday 계정을 만들고 해당 계정에 데이터베이스 권한을 주고 나서 다시 oneday 계정으로 로그인하여 작업을 계속하는 이유

- 보안 강화 및 작업 환경 분리  : admin 계정은 모든 권한을 가지고 있어서 강력하지만, 그만큼 위험도 큽니다. 실수로 데이터를 삭제하거나 변경할 수 있으며, 보안 위협에 더 노출될 수 있기 때문에 oneday 같은 특정 데이터베이스만 사용할 수 있는 계정을 사용하면 필요한 권한만 부여하여 리스크를 최소화할 수 있음


In [2]:
# python에서 AWS RDS(mysql)에 연결
import mysql.connector
remote = mysql.connector.connect(
    host = "database-1.cx8zt2bohelq.us-east-2.rds.amazonaws.com",
    port = 3306,
    user = "oneday",
    password = "1234"
)

In [3]:
cursor = remote.cursor(buffered=True)
cursor.execute("SHOW databases;")
cursor.fetchall()

[('information_schema',), ('oneday',), ('performance_schema',)]

In [4]:
cursor.execute("USE oneday;")
cursor.execute("DESC COFFEE_BRAND;")
cursor.fetchall()

[('id', b'int', 'NO', 'PRI', None, 'auto_increment'),
 ('name', b'varchar(255)', 'YES', '', None, '')]

In [138]:
cursor.execute("Desc COFFEE_STORE;")
cursor.fetchall()

[('id', b'int', 'NO', 'PRI', None, 'auto_increment'),
 ('brand', b'int', 'NO', 'MUL', None, ''),
 ('name', b'varchar(32)', 'NO', '', None, ''),
 ('gu_name', b'varchar(5)', 'NO', '', None, ''),
 ('address', b'varchar(128)', 'NO', '', None, ''),
 ('lat', b'decimal(16,14)', 'NO', '', None, ''),
 ('lng', b'decimal(17,14)', 'NO', '', None, '')]

In [7]:
cursor.execute("INSERT INTO COFFEE_BRAND (name) VALUES ('STARBUCKS'), ('EDIYA')")

In [8]:
cursor.execute("SELECT * FROM COFFEE_BRAND;")
cursor.fetchall()

[(1, 'STARBUCKS'), (2, 'EDIYA')]


- 스타벅스 페이지에 접근하는 코드에서 팝업창이 없을 때 팝업창을 닫는 코드에서 에러가 발생하는데 이 때 예외처리 해서 에러 메시지 출력 및 실행이 중단되지 않도록 수정하기


In [139]:
# 스타벅스 페이지 크롤링
import warnings
from tqdm import tqdm
from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.common.exceptions import NoSuchElementException
warnings.simplefilter(action='ignore')

driver = webdriver.Chrome("./driver/chromedriver-win64/chromedriver.exe")
driver.get("https://www.starbucks.co.kr/store/store_map.do?disp=locale")

# 팝업창 닫기를 시도
try:
    driver.find_element_by_css_selector('.holiday_notice_close a').click()
except NoSuchElementException as e:
    print(e)

Message: no such element: Unable to locate element: {"method":"css selector","selector":".holiday_notice_close a"}
  (Session info: chrome=119.0.6045.106)



스타벅스 페이지에서 데이터를 가져올때, COFFEE_STORE 테이블에 바로 입력하도록 수정하자

- 데이터 세트: 매장 이름, 매장이 위치한 구 이름, 매장 주소, 위도, 경도
- 필요한 데이터를 한세트씩 가져와서 COFFEE_STORE 테이블에 각각INSERT

In [140]:
# 서울 버튼 클릭
driver.find_element_by_css_selector(".sido_arae_box > li > a").click()

In [141]:
# 전체 선택
driver.find_element_by_css_selector(".gugun_arae_box > li > a").click()

In [142]:
# 서울시 전체 리스트 가져오기
seoul_list = driver.find_elements_by_css_selector("#mCSB_3_container ul li")
len(seoul_list)

607

In [143]:
html = driver.page_source
soup = BeautifulSoup(html, "html.parser")

In [144]:
seoul_list = soup.select("#mCSB_3_container ul li")
seoul_list

[<li class="quickResultLstCon" data-code="3762" data-hlytag="null" data-index="0" data-lat="37.501087" data-long="127.043069" data-name="역삼아레나빌딩" data-storecd="1509" style="background:#fff"> <strong data-my_siren_order_store_yn="N" data-name="역삼아레나빌딩" data-store="1509" data-yn="N">역삼아레나빌딩  </strong> <p class="result_details">서울특별시 강남구 언주로 425 (역삼동)<br/>1522-3232</p> <i class="pin_general">리저브 매장 2번</i></li>,
 <li class="quickResultLstCon" data-code="3672" data-hlytag="null" data-index="1" data-lat="37.510178" data-long="127.022223" data-name="논현역사거리" data-storecd="1434" style="background:#fff"> <strong data-my_siren_order_store_yn="N" data-name="논현역사거리" data-store="1434" data-yn="N">논현역사거리  </strong> <p class="result_details">서울특별시 강남구 강남대로 538 (논현동)<br/>1522-3232</p> <i class="pin_general">리저브 매장 2번</i></li>,
 <li class="quickResultLstCon" data-code="3858" data-hlytag="null" data-index="2" data-lat="37.5139309" data-long="127.0206057" data-name="신사역성일빌딩" data-storecd="1595" style="bac

#### 하나만 테스트 해보자

In [36]:
# 매장 이름
title = seoul_list[0]["data-name"]
title

'역삼아레나빌딩'

In [37]:
# 주소
address = seoul_list[0].select_one("p").text[:-9]
address

'서울특별시 강남구 언주로 425 (역삼동)'

In [38]:
# 구 이름
gu_name = address.split(' ')[1]
gu_name

'강남구'

In [39]:
# 위도 및 경도
lat = seoul_list[0]["data-lat"]
lng = seoul_list[0]["data-long"]
lat, lng

('37.501087', '127.043069')

In [145]:
# 서울시 스타벅스 전체매장
for content in tqdm(seoul_list):

    # 매장 이름
    title = content["data-name"]
    

    # 주소
    address = content.select_one("p").text[:-9]
    

    # 구 이름
    gu_name = address.split(' ')[1]

    # 위도, 경도
    lat = content["data-lat"]
    lng = content["data-long"]

    # 테이블에 insert
    sql = "INSERT INTO COFFEE_STORE (brand, name, gu_name, address, lat, lng) VALUES (1, %s, %s, %s, %s, %s)"
    cursor.execute(sql, (title, gu_name, address, lat, lng))
    conn.commit()




100%|██████████| 607/607 [04:03<00:00,  2.49it/s]


In [146]:
driver.close()

In [147]:
# 총 개수 확인
cursor.execute("SELECT COUNT(*) FROM COFFEE_STORE")
result = cursor.fetchall()
result

[(607,)]

In [148]:
# 10개만 보기
cursor.execute("SELECT * FROM COFFEE_STORE LIMIT 10;")
result = cursor.fetchall()
result

[(1,
  1,
  '역삼아레나빌딩',
  '강남구',
  '서울특별시 강남구 언주로 425 (역삼동)',
  Decimal('37.50108700000000'),
  Decimal('127.04306900000000')),
 (2,
  1,
  '논현역사거리',
  '강남구',
  '서울특별시 강남구 강남대로 538 (논현동)',
  Decimal('37.51017800000000'),
  Decimal('127.02222300000000')),
 (3,
  1,
  '신사역성일빌딩',
  '강남구',
  '서울특별시 강남구 강남대로 584 (논현동)',
  Decimal('37.51393090000000'),
  Decimal('127.02060570000000')),
 (4,
  1,
  '국기원사거리',
  '강남구',
  '서울특별시 강남구 테헤란로 125 (역삼동)',
  Decimal('37.49951700000000'),
  Decimal('127.03149500000000')),
 (5,
  1,
  '대치재경빌딩R',
  '강남구',
  '서울특별시 강남구 남부순환로 2947 (대치동)',
  Decimal('37.49466800000000'),
  Decimal('127.06258300000000')),
 (6,
  1,
  '봉은사역',
  '강남구',
  '서울특별시 강남구 봉은사로 619 (삼성동)',
  Decimal('37.51500000000000'),
  Decimal('127.06319600000000')),
 (7,
  1,
  '압구정윤성빌딩',
  '강남구',
  '서울특별시 강남구 논현로 834 (신사동)',
  Decimal('37.52279340000000'),
  Decimal('127.02860090000000')),
 (8,
  1,
  '코엑스별마당',
  '강남구',
  '서울특별시 강남구 영동대로 513 (삼성동)',
  Decimal('37.51015000000000'),
  Decimal('127.0

In [47]:
cursor.close()

True

이디야 페이지에서 데이터를 가져올때, COFFEE_STORE 테이블에 바로 입력하도록 수정하자

- 데이터 세트 : 매장 이름, 매장이 위치한 구 이름, 매장 주소, 위도, 경도
- 이디야 페이지에서 검색에 사용할 구 이름은 COFFEE_STORE 에서 중복을 제거하는 쿼리(distinct)를 사용하여 가져와서 {서울  + 구이름} 형식으로 변환하여 사용하자
- 필요한 데이터를 한 세트씩 가져와서 COFFEE_STORE 테이블에 각각 INSERT
- COFFEE_STORE 테이블에 입력할 구 이름은 {'서울 '} 이 제거된 구 이름!

제출 6.
- 이디야 데이터 관련 코드 & 실행 결과 (ipynb)

In [45]:
# 이디야 페이지 크롤링
import warnings
from tqdm import tqdm_notebook
from selenium import webdriver
from bs4 import BeautifulSoup
warnings.simplefilter(action='ignore')

driver = webdriver.Chrome("./driver/chromedriver-win64/chromedriver.exe")
driver.get("https://ediya.com/contents/find_store.html")

In [46]:
# 주소 탭 클릭
driver.find_element_by_css_selector("#contentWrap > div.contents > div > div.store_search_pop > ul > li:nth-child(2) > a").click()

In [48]:
import mysql.connector

conn = mysql.connector.connect(
    host = "database-1.cx8zt2bohelq.us-east-2.rds.amazonaws.com",
    port = 3306,
    user = "oneday",
    password = "1234"
)

cursor = conn.cursor(buffered=True)

In [75]:
conn.close()
cursor.close()

True

In [149]:
cursor.execute("USE oneday;")

In [150]:
# 검색어는 COFFEE_STORE에서 중복 없는 gu_name을 가져와 "서울 "과 합침
cursor.execute("SELECT DISTINCT (gu_name) FROM COFFEE_STORE;")
result = cursor.fetchall()
gu_list = ['서울 ' + name[0] for name in result]

len(gu_list), gu_list[:3]

(25, ['서울 강남구', '서울 강북구', '서울 강서구'])

In [52]:
# 구별 검색어 검색창에 입력 (하나만 테스트)
search_keyword = driver.find_element_by_css_selector("#keyword")
search_keyword.clear()
search_keyword.send_keys(gu_list[0])


In [53]:
# 검색 버튼 클릭
search_button = driver.find_element_by_css_selector("#keyword_div > form > button")
search_button.click()

In [54]:
# 검색 결과 리스트 가져오기
html = driver.page_source
soup = BeautifulSoup(html, "html.parser")
contents = soup.select("#placesList li")
len(contents)

39

In [56]:
# 매장 이름, 주소 데이터 수집
title = contents[0].select_one('dt').text
address = contents[0].select_one('dd').text
title, address

('강남YMCA점', '서울 강남구 논현동')

In [57]:
driver.close()

In [59]:
# 구 이름
gu_name = address.split(' ')[1]
gu_name

'강남구'

In [151]:
# 구글맵 이용
import googlemaps
gmaps_key = "AIzaSyDrXFafxS1zYn77x1jEXHGoJ43_LZGudtc"
gmaps = googlemaps.Client(key=gmaps_key)



In [66]:
# 위도, 경도

tmp = gmaps.geocode(address, language='ko')
tmp

[{'address_components': [{'long_name': '논현동',
    'short_name': '논현동',
    'types': ['political', 'sublocality', 'sublocality_level_2']},
   {'long_name': '강남구',
    'short_name': '강남구',
    'types': ['political', 'sublocality', 'sublocality_level_1']},
   {'long_name': '서울특별시',
    'short_name': '서울특별시',
    'types': ['administrative_area_level_1', 'political']},
   {'long_name': '대한민국',
    'short_name': 'KR',
    'types': ['country', 'political']}],
  'formatted_address': '대한민국 서울특별시 강남구 논현동',
  'geometry': {'bounds': {'northeast': {'lat': 37.5231802, 'lng': 127.0438519},
    'southwest': {'lat': 37.5044773, 'lng': 127.0195255}},
   'location': {'lat': 37.5136787, 'lng': 127.0317124},
   'location_type': 'APPROXIMATE',
   'viewport': {'northeast': {'lat': 37.5231802, 'lng': 127.0438519},
    'southwest': {'lat': 37.5044773, 'lng': 127.0195255}}},
  'place_id': 'ChIJh8vInfGjfDUR2f7GJmldEIY',
  'types': ['political', 'sublocality', 'sublocality_level_2']}]

In [93]:
#  API 응답의 완전성을 위해 필요한 것
tmp[0].get("formatted_address")

'대한민국 서울특별시 중랑구 묵동 2 묵동 2번지 중랑구 서울특별시 KR 02021'

In [74]:
lat = tmp[0]["geometry"]["location"]["lat"]
lng = tmp[0]["geometry"]["location"]["lng"]
lat, lng

(37.5136787, 127.0317124)

In [108]:
import mysql.connector

conn = mysql.connector.connect(
    host = "database-1.cx8zt2bohelq.us-east-2.rds.amazonaws.com",
    port = 3306,
    user = "oneday",
    password = "1234"
)

cursor = conn.cursor(buffered=True)

In [107]:
# 이디야 매장 전체 데이터 구하기
import time
import googlemaps

driver = webdriver.Chrome("./driver/chromedriver-win64/chromedriver.exe")
driver.get("https://ediya.com/contents/find_store.html")

# 주소 탭 클릭
driver.find_element_by_css_selector("#contentWrap > div.contents > div > div.store_search_pop > ul > li:nth-child(2) > a").click()

search_keyword = driver.find_element_by_css_selector("#keyword")
search_button = driver.find_element_by_css_selector("#keyword_div button")

cursor.execute("USE oneday;")
# 테이블에 insert
sql = "INSERT INTO COFFEE_STORE (brand, name, gu_name, address, lat, lng) VALUES (2, %s, %s, %s, %s, %s)"
time.sleep(1)


for gu in gu_list:
    # 구별 검색어 검색창에 입력
    search_keyword.clear()
    search_keyword.send_keys(gu)
    
    # 검색 버튼 클릭
    search_button.click()
    time.sleep(1)

    # 검색 결과 리스트 가져오기
    html = driver.page_source
    soup = BeautifulSoup(html, "html.parser")
    contents = soup.select("#placesList li")

    for content in contents:
        # 매장 이름, 주소, 구 이름 데이터 수집
        title = content.select_one('dt').text
        address = content.select_one('dd').text
        gu_name = address.split(' ')[1]


        try:
            tmp = gmaps.geocode(address, language='ko')
            if tmp:
                tmp[0].get("formatted_address")
                lat = tmp[0]["geometry"]["location"]["lat"]
                lng = tmp[0]["geometry"]["location"]["lng"]
                cursor.execute(sql, (title, gu_name, address, lat, lng))
                conn.commit()
            else:
                print("주소를 찾을 수 없습니다: ", address)
        except IndexError as e:
            print("주소 처리 중 오류 발생: ", address)
            print(str(e))

        


주소를 찾을 수 없습니다:  서울 관악구 남부순환로 1369 (신림동, 관악농협농산물백화점)
주소를 찾을 수 없습니다:  서울 마포구 신촌로 66 (노고산동, 농협중앙회)
주소를 찾을 수 없습니다:  서울 서대문구 수색로 100 (북가좌동, DMC래미안e편한세상)
주소를 찾을 수 없습니다:  서울 서초구 서초대로 108 (방배동, 삼보빌딩)
주소를 찾을 수 없습니다:  서울 송파구 충민로 66 (문정동, 가든파이브라이프)
주소를 찾을 수 없습니다:  서울 송파구 송파대로 567 (잠실동, 잠실주공아파트)
주소를 찾을 수 없습니다:  서울 영등포구 63로 40 (여의도동, 라이프오피스텔)


위와 같이 구글맵 api 를 통해서 얻어올 수 없을 경우 예외처리를 하여 해당 주소들의 위도, 경도 값을 http://map.esran.com/  가져와야 함
또한 찾은 위도, 경도 값은 손수 넣어줘야 함

In [106]:
driver.close()

In [110]:
cursor.execute("USE oneday;")
cursor.execute("DELETE FROM COFFEE_STORE WHERE brand=2;")


In [113]:
cursor.execute("SELECT * FROM COFFEE_STORE order by id desc;")
cursor.fetchall()

[(607,
  1,
  '중화역',
  '중랑구',
  '서울특별시 중랑구 봉화산로 35 ',
  Decimal('37.60170912407773'),
  Decimal('127.07841136432036')),
 (606,
  1,
  '양원역',
  '중랑구',
  '서울특별시 중랑구 양원역로10길 3 (망우동)',
  Decimal('37.60665362672320'),
  Decimal('127.10635979005300')),
 (605,
  1,
  '묵동',
  '중랑구',
  '서울특별시 중랑구 동일로 952 (묵동, 로프트원 태릉입구역) 1층',
  Decimal('37.61536800000000'),
  Decimal('127.07663300000000')),
 (604,
  1,
  '상봉역',
  '중랑구',
  '서울특별시 중랑구 망우로 307 (상봉동)',
  Decimal('37.59689000000000'),
  Decimal('127.08647000000000')),
 (603,
  1,
  '사가정역',
  '중랑구',
  '서울특별시 중랑구 면목로 310',
  Decimal('37.57959400000000'),
  Decimal('127.08796600000000')),
 (602,
  1,
  '중랑구청',
  '중랑구',
  '서울특별시 중랑구 신내로 72',
  Decimal('37.60538908000000'),
  Decimal('127.09575580000000')),
 (601,
  1,
  '중랑역',
  '중랑구',
  '서울특별시 중랑구 망우로30길 3 (상봉동)',
  Decimal('37.59303260000000'),
  Decimal('127.07473579999998')),
 (600,
  1,
  '상봉',
  '중랑구',
  '서울특별시 중랑구 상봉로 131 (상봉동, 상봉 듀오트리스 주상복합)',
  Decimal('37.59784200000000'),
  Decimal('127.09250

In [152]:
# 이디야 매장 전체 데이터 구하기
import time
import googlemaps

driver = webdriver.Chrome("./driver/chromedriver-win64/chromedriver.exe")
driver.get("https://ediya.com/contents/find_store.html")

# 주소 탭 클릭
driver.find_element_by_css_selector("#contentWrap > div.contents > div > div.store_search_pop > ul > li:nth-child(2) > a").click()

search_keyword = driver.find_element_by_css_selector("#keyword")
search_button = driver.find_element_by_css_selector("#keyword_div button")

cursor.execute("USE oneday;")
# 테이블에 insert
sql = "INSERT INTO COFFEE_STORE (brand, name, gu_name, address, lat, lng) VALUES (2, %s, %s, %s, %s, %s)"
time.sleep(1)

# 주소를 찾을 수 없을 때 수동으로 위도와 경도를 매핑하는 딕셔너리
address_to_coords = {
    "서울 관악구 남부순환로 1369 (신림동, 관악농협농산물백화점)": (37.480015243858205, 126.90297235228446),
    "서울 마포구 신촌로 66 (노고산동, 농협중앙회)": (37.55600645259885, 126.93304897393608),
    "서울 서대문구 수색로 100 (북가좌동, DMC래미안e편한세상)": (37.57495124473997, 126.90825191501912),
    "서울 서초구 서초대로 108 (방배동, 삼보빌딩)": (37.48750853475973, 126.99420794887064),
    "서울 송파구 충민로 66 (문정동, 가든파이브라이프)": (37.47748419041258, 127.12496889994861),
    "서울 송파구 송파대로 567 (잠실동, 잠실주공아파트)": (37.51432402116925, 127.09334786098638),
    "서울 영등포구 63로 40 (여의도동, 라이프오피스텔)": (37.51956203765937, 126.9391390787403),
}

for gu in gu_list:
    # 구별 검색어 검색창에 입력
    search_keyword.clear()
    search_keyword.send_keys(gu)
    
    # 검색 버튼 클릭
    search_button.click()
    time.sleep(1)

    # 검색 결과 리스트 가져오기
    html = driver.page_source
    soup = BeautifulSoup(html, "html.parser")
    contents = soup.select("#placesList li")

    for content in contents:
        # 매장 이름, 주소, 구 이름 데이터 수집
        title = content.select_one('dt').text
        address = content.select_one('dd').text
        gu_name = address.split(' ')[1]


        try:
            tmp = gmaps.geocode(address, language='ko')
            if tmp:
                tmp[0].get("formatted_address")
                lat = tmp[0]["geometry"]["location"]["lat"]
                lng = tmp[0]["geometry"]["location"]["lng"]
                cursor.execute(sql, (title, gu_name, address, lat, lng))
                conn.commit()
            else:
                print("주소를 찾을 수 없습니다: ", address)
                # 수동으로 입력된 위도와 경도 값을 가져옵니다.
                lat, lng = address_to_coords[address]
                cursor.execute(sql, (title, gu_name, address, lat, lng))
                conn.commit()
        except IndexError as e:
            print("주소 처리 중 오류 발생: ", address)
            print(str(e))


주소를 찾을 수 없습니다:  서울 관악구 남부순환로 1369 (신림동, 관악농협농산물백화점)
주소를 찾을 수 없습니다:  서울 마포구 신촌로 66 (노고산동, 농협중앙회)
주소를 찾을 수 없습니다:  서울 서대문구 수색로 100 (북가좌동, DMC래미안e편한세상)
주소를 찾을 수 없습니다:  서울 서초구 서초대로 108 (방배동, 삼보빌딩)
주소를 찾을 수 없습니다:  서울 송파구 충민로 66 (문정동, 가든파이브라이프)
주소를 찾을 수 없습니다:  서울 송파구 송파대로 567 (잠실동, 잠실주공아파트)
주소를 찾을 수 없습니다:  서울 영등포구 63로 40 (여의도동, 라이프오피스텔)


In [117]:
cursor.execute("DESC COFFEE_STORE;")
cursor.fetchall()

[('id', b'int', 'NO', 'PRI', None, 'auto_increment'),
 ('brand', b'int', 'NO', 'MUL', None, ''),
 ('name', b'varchar(32)', 'NO', '', None, ''),
 ('gu_name', b'varchar(5)', 'NO', '', None, ''),
 ('address', b'varchar(128)', 'NO', '', None, ''),
 ('lat', b'decimal(16,14)', 'NO', '', None, ''),
 ('lng', b'decimal(17,14)', 'NO', '', None, '')]

In [154]:
cursor.execute("SELECT * FROM COFFEE_STORE WHERE brand=2 ORDER BY id DESC;")
cursor.fetchall()

[(1221,
  2,
  '화랑대역점',
  '중랑구',
  '서울 중랑구 신내로25가길 2 (묵동, 현동학당)',
  Decimal('37.61945060000000'),
  Decimal('127.08416050000000')),
 (1220,
  2,
  '중화동점',
  '중랑구',
  '서울 중랑구 동일로129길 1 (중화동)',
  Decimal('37.60195730000000'),
  Decimal('127.08662700000000')),
 (1219,
  2,
  '중랑역점',
  '중랑구',
  '서울 중랑구 망우로 198 (상봉동)',
  Decimal('37.59328500000000'),
  Decimal('127.07488880000000')),
 (1218,
  2,
  '중랑묵동점',
  '중랑구',
  '서울 중랑구 동일로 932 (묵동, 묵동자이아파트)',
  Decimal('37.61377890000001'),
  Decimal('127.07752370000000')),
 (1217,
  2,
  '중랑교차로점',
  '중랑구',
  '서울 중랑구 동일로 683 (면목동)',
  Decimal('37.59144780000000'),
  Decimal('127.07988210000000')),
 (1216,
  2,
  '우림시장점',
  '중랑구',
  '서울 중랑구 봉우재로 240 (망우동)',
  Decimal('37.59526970000000'),
  Decimal('127.09937670000000')),
 (1215,
  2,
  '양원역점',
  '중랑구',
  '서울 중랑구 양원역로14가길 24 (망우동)',
  Decimal('37.60748980000000'),
  Decimal('127.10695150000000')),
 (1214,
  2,
  '신내동점',
  '중랑구',
  '서울 중랑구 봉화산로 215 (신내동)',
  Decimal('37.60767080000000'),
  Decimal('127

auto_increment로 인해 오류가 뜬 것이 누적되어 id값을 초기화해야함 
어쩔 수 없이 COFFEE_STORE 테이블을 삭제 후 다시 생성하고 
스타벅스 값을 넣고, 이디야 값을 넣자

In [135]:
cursor.execute("DROP TABLE COFFEE_STORE;")

In [155]:
cursor.execute("SELECT COUNT(*) FROM COFFEE_STORE WHERE brand=2;")
result = cursor.fetchall()
result

[(614,)]

In [156]:
cursor.execute("SELECT s.* FROM COFFEE_BRAND b, COFFEE_STORE s WHERE b.id = s.brand AND b.name LIKE 'EDIYA' limit 10;")
result = cursor.fetchall()
for row in result:
    print(row)

(608, 2, '강남YMCA점', '강남구', '서울 강남구 논현동', Decimal('37.51367870000000'), Decimal('127.03171240000000'))
(609, 2, '강남구청역아이티웨딩점', '강남구', '서울 강남구 학동로 338 (논현동, 강남파라곤)', Decimal('37.51655130000000'), Decimal('127.04013910000000'))
(610, 2, '강남논현학동점', '강남구', '서울 강남구 논현로131길 28 (논현동)', Decimal('37.51518990000000'), Decimal('127.02755390000000'))
(611, 2, '강남대치점', '강남구', '서울 강남구 역삼로 415 (대치동, 성진빌딩)', Decimal('37.50143400000000'), Decimal('127.05232800000000'))
(612, 2, '강남도산점', '강남구', '서울 강남구 도산대로37길 20 (신사동)', Decimal('37.52228210000000'), Decimal('127.03147990000000'))
(613, 2, '강남율현점', '강남구', '서울 강남구 밤고개로21길 8 (율현동, 세곡프라자)', Decimal('37.47358220000000'), Decimal('127.10783110000000'))
(614, 2, '강남자곡점', '강남구', '서울 강남구 자곡로 180 (자곡동, 강남유탑유블레스)', Decimal('37.47348460000000'), Decimal('127.10309790000000'))
(615, 2, '개포동역점', '강남구', '서울 강남구 개포로82길 11 (개포동, 삼우빌딩)', Decimal('37.48893480000000'), Decimal('127.06793520000000'))
(616, 2, '건설회관점', '강남구', '서울 강남구 언주로 711 (논현동)', Decimal('37.5163003000000

In [157]:
driver.close()

---

In [158]:
cursor.execute("DESC COFFEE_STORE;")
cursor.fetchall()

[('id', b'int', 'NO', 'PRI', None, 'auto_increment'),
 ('brand', b'int', 'NO', 'MUL', None, ''),
 ('name', b'varchar(32)', 'NO', '', None, ''),
 ('gu_name', b'varchar(5)', 'NO', '', None, ''),
 ('address', b'varchar(128)', 'NO', '', None, ''),
 ('lat', b'decimal(16,14)', 'NO', '', None, ''),
 ('lng', b'decimal(17,14)', 'NO', '', None, '')]

In [167]:
cursor.execute("SELECT * FROM COFFEE_STORE;")
cursor.fetchall()

[(1,
  1,
  '역삼아레나빌딩',
  '강남구',
  '서울특별시 강남구 언주로 425 (역삼동)',
  Decimal('37.50108700000000'),
  Decimal('127.04306900000000')),
 (2,
  1,
  '논현역사거리',
  '강남구',
  '서울특별시 강남구 강남대로 538 (논현동)',
  Decimal('37.51017800000000'),
  Decimal('127.02222300000000')),
 (3,
  1,
  '신사역성일빌딩',
  '강남구',
  '서울특별시 강남구 강남대로 584 (논현동)',
  Decimal('37.51393090000000'),
  Decimal('127.02060570000000')),
 (4,
  1,
  '국기원사거리',
  '강남구',
  '서울특별시 강남구 테헤란로 125 (역삼동)',
  Decimal('37.49951700000000'),
  Decimal('127.03149500000000')),
 (5,
  1,
  '대치재경빌딩R',
  '강남구',
  '서울특별시 강남구 남부순환로 2947 (대치동)',
  Decimal('37.49466800000000'),
  Decimal('127.06258300000000')),
 (6,
  1,
  '봉은사역',
  '강남구',
  '서울특별시 강남구 봉은사로 619 (삼성동)',
  Decimal('37.51500000000000'),
  Decimal('127.06319600000000')),
 (7,
  1,
  '압구정윤성빌딩',
  '강남구',
  '서울특별시 강남구 논현로 834 (신사동)',
  Decimal('37.52279340000000'),
  Decimal('127.02860090000000')),
 (8,
  1,
  '코엑스별마당',
  '강남구',
  '서울특별시 강남구 영동대로 513 (삼성동)',
  Decimal('37.51015000000000'),
  Decimal('127.0

In [165]:
cursor.execute("DESC COFFEE_BRAND;")
cursor.fetchall()

[('id', b'int', 'NO', 'PRI', None, 'auto_increment'),
 ('name', b'varchar(255)', 'YES', '', None, '')]

In [168]:
cursor.execute("SELECT * FROM COFFEE_BRAND;")
cursor.fetchall()

[(1, 'STARBUCKS'), (2, 'EDIYA')]

In [160]:
# 스타벅스 매장 주요 분포 지역 (매장수가 많은 상위 5개 구이름, 매장 개수 출력)
cursor.execute("SELECT gu_name, COUNT(*) as store_count FROM COFFEE_STORE WHERE brand=1 GROUP BY gu_name ORDER BY store_count DESC LIMIT 5")
cursor.fetchall()

[('강남구', 89), ('중구', 54), ('서초구', 48), ('영등포구', 42), ('종로구', 40)]

In [161]:
# 이디야 매장 주요 분포 지역 (매장수가 많은 상위 5개 구이름, 매장 개수 출력)
cursor.execute("SELECT gu_name, COUNT(*) as store_count FROM COFFEE_STORE WHERE brand=2 GROUP BY gu_name ORDER BY store_count DESC LIMIT 5")
cursor.fetchall()

[('영등포구', 40), ('강남구', 39), ('송파구', 35), ('마포구', 31), ('강서구', 31)]

In [169]:
# 구별 브랜드 각각의 매장 개수 조회 (구이름, 브랜드이름, 매장 개수 출력)
cursor.execute("SELECT s.gu_name, b.name, COUNT(s.brand) FROM COFFEE_BRAND AS b, COFFEE_STORE AS s WHERE b.id=s.brand GROUP BY s.gu_name, b.name ORDER BY s.gu_name, b.name DESC;")
cursor.fetchall()

[('강남구', 'STARBUCKS', 89),
 ('강남구', 'EDIYA', 39),
 ('강동구', 'STARBUCKS', 17),
 ('강동구', 'EDIYA', 23),
 ('강북구', 'STARBUCKS', 6),
 ('강북구', 'EDIYA', 12),
 ('강서구', 'STARBUCKS', 27),
 ('강서구', 'EDIYA', 31),
 ('관악구', 'STARBUCKS', 12),
 ('관악구', 'EDIYA', 24),
 ('광진구', 'STARBUCKS', 18),
 ('광진구', 'EDIYA', 20),
 ('구로구', 'STARBUCKS', 14),
 ('구로구', 'EDIYA', 24),
 ('금천구', 'STARBUCKS', 13),
 ('금천구', 'EDIYA', 19),
 ('노원구', 'STARBUCKS', 14),
 ('노원구', 'EDIYA', 20),
 ('도봉구', 'STARBUCKS', 6),
 ('도봉구', 'EDIYA', 22),
 ('동대문구', 'STARBUCKS', 10),
 ('동대문구', 'EDIYA', 23),
 ('동작구', 'STARBUCKS', 11),
 ('동작구', 'EDIYA', 21),
 ('마포구', 'STARBUCKS', 36),
 ('마포구', 'EDIYA', 31),
 ('서대문구', 'STARBUCKS', 22),
 ('서대문구', 'EDIYA', 16),
 ('서초구', 'STARBUCKS', 48),
 ('서초구', 'EDIYA', 29),
 ('성동구', 'STARBUCKS', 14),
 ('성동구', 'EDIYA', 19),
 ('성북구', 'STARBUCKS', 15),
 ('성북구', 'EDIYA', 26),
 ('송파구', 'STARBUCKS', 36),
 ('송파구', 'EDIYA', 35),
 ('양천구', 'STARBUCKS', 17),
 ('양천구', 'EDIYA', 20),
 ('영등포구', 'STARBUCKS', 42),
 ('영등포구', 'EDIYA', 4

- brand=1 일 때 STARBUCKS / brand=2 일 때 EDIYA
- group by 는 구 이름과 브랜드별로 묶어주면 됨

In [170]:
# 구별 브랜드 각각의 매장 개수 조회 (구이름, 스타벅스 매장 개수, 이디야 매장 개수 출력)
cursor.execute("SELECT s.gu_name, s.count, e.count FROM (SELECT gu_name, COUNT(brand) AS count FROM COFFEE_STORE WHERE brand=1 GROUP BY gu_name) AS s, (SELECT gu_name, COUNT(brand) AS count FROM COFFEE_STORE WHERE brand=2 GROUP BY gu_name) AS e WHERE s.gu_name=e.gu_name")
cursor.fetchall()

[('강남구', 89, 39),
 ('강북구', 6, 12),
 ('강서구', 27, 31),
 ('관악구', 12, 24),
 ('광진구', 18, 20),
 ('금천구', 13, 19),
 ('노원구', 14, 20),
 ('도봉구', 6, 22),
 ('동작구', 11, 21),
 ('마포구', 36, 31),
 ('서대문구', 22, 16),
 ('서초구', 48, 29),
 ('성북구', 15, 26),
 ('송파구', 36, 35),
 ('양천구', 17, 20),
 ('영등포구', 42, 40),
 ('은평구', 13, 23),
 ('종로구', 40, 28),
 ('중구', 54, 29),
 ('강동구', 17, 23),
 ('구로구', 14, 24),
 ('동대문구', 10, 23),
 ('성동구', 14, 19),
 ('용산구', 25, 13),
 ('중랑구', 8, 27)]


Tableau로 시각화를 위하여 쿼리를 통해 csv 파일로 저장하자


- 전체 데이터를 가져오는데, 각 스타벅스 매장별로 이디야 전체 매장정보가 매칭되어 있어야 함 (정렬 : s_id, e_id 순)
- 다음의 형식으로 저장되어야 함 (브랜드 이름, 칼럼 명 주의)
- 데이터 프레임으로 출력해보자

In [171]:
import pandas as pd

sql =  "SELECT * FROM (SELECT s.id AS s_id, b.name AS s_brand, s.name AS s_name, s.gu_name AS s_gu, s.address AS s_address, s.lat AS s_lat, s.lng AS s_lng FROM COFFEE_STORE AS s, COFFEE_BRAND AS b WHERE b.id = s.brand AND b.name LIKE 'STARBUCKS') AS st, (SELECT s.id AS e_id, b.name AS e_brand, s.name AS e_name, s.gu_name AS e_gu, s.address AS e_address, s.lat AS e_lat, s.lng AS e_lng from COFFEE_STORE AS s, COFFEE_BRAND AS b WHERE b.id = s.brand AND b.name LIKE 'EDIYA') AS ed ORDER BY st.s_id, ed.e_id"

cursor.execute(sql)
result = cursor.fetchall()
field_names = [i[0] for i in cursor.description]

df = pd.DataFrame(result)
df.columns = field_names

df.to_csv('coffee_output.csv', index = False, encoding = "utf-8")

---