In [None]:
#### 지도 시각화 : folium 라이브러리, kakao API를 활용

In [2]:
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
from wordcloud import WordCloud 
import platform
from selenium import webdriver 
import pandas as pd
import time
from collections import Counter
from bs4 import BeautifulSoup
import re
import unicodedata



if platform.system() == 'Windows': # 윈도우 경우 
    font_path  = "c:\Windows/Fonts/malgun.ttf"
elif platform.system() == 'Darwin': # 맥의 경우
    font_path = "/Users/$USER/Library/Fonts/AppleGothic.ttf"

In [3]:
### 1. 데이터 준비 
raw_total = pd.read_excel("data_instar/1_crawling_raw.xlsx")

location_counts = raw_total['place'].value_counts()
location_counts

제주도 제주                           6
제주도                              3
제주고산리유적                          3
제주유리박물관                          2
환상의 섬 Jeju Island                2
감천문화마을                           1
제주도 송악산                          1
이중섭 미술관                          1
협재고기부엌                           1
제주 또시랑                           1
사계의시간                            1
그러므로part.2                       1
제주청년센터                           1
아르떼뮤지엄 Arte Museum               1
당케올레국수                           1
월정리해변                            1
그랜드하얏트 제주                        1
Raw Stuff                        1
산양큰엉곶                            1
텐저린맨션                            1
동문시장 Dongmoon Market 東門水産市場      1
제주도 본태박물관                        1
안도르                              1
Jeju Island, South Korea 제주도     1
빌리웍스                             1
남산제빵소                            1
Namhae                           1
전라남도 순천                          1
한림공원 Hallimpark     

In [5]:
location_counts_df = pd.DataFrame(location_counts) 
location_counts_df.info()

location_counts_df.to_excel("data_instar/3_3_location_counts.xlsx") 


<class 'pandas.core.frame.DataFrame'>
Index: 53 entries, 제주도 제주 to 하이엔드 제주
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   place   53 non-null     int64
dtypes: int64(1)
memory usage: 2.9+ KB


In [6]:
### 위치(지명)만 별도로 종류를 확인

locations = list(location_counts_df.index)
locations 

['제주도 제주',
 '제주도',
 '제주고산리유적',
 '제주유리박물관',
 '환상의 섬 Jeju Island',
 '감천문화마을',
 '제주도 송악산',
 '이중섭 미술관',
 '협재고기부엌',
 '제주 또시랑',
 '사계의시간',
 '그러므로part.2',
 '제주청년센터',
 '아르떼뮤지엄 Arte Museum',
 '당케올레국수',
 '월정리해변',
 '그랜드하얏트 제주',
 'Raw Stuff',
 '산양큰엉곶',
 '텐저린맨션',
 '동문시장 Dongmoon Market 東門水産市場',
 '제주도 본태박물관',
 '안도르',
 'Jeju Island, South Korea 제주도',
 '빌리웍스',
 '남산제빵소',
 'Namhae',
 '전라남도 순천',
 '한림공원 Hallimpark',
 '거제도',
 '오가네전복설렁탕 함덕점',
 '우도 牛岛 Udo Island, South Korea',
 '그초록',
 '제주도 제주시',
 '제주공항',
 '사이프러스 CC',
 '제주도 애월읍',
 '제주도 한림',
 '나야나',
 '가파도 청보리밭',
 '우리집 홈카페',
 '너븐 제주',
 '월정여관',
 '뷰스트 Viewst',
 '황우지선녀탕',
 '푸른섬 제주도',
 '사려니숲길',
 'Windstone Jeju',
 '내도바당',
 '수월봉',
 '스누피가든',
 '서울 어딘가',
 '하이엔드 제주']

In [7]:
### 카카오 API사용(로컬/지도 API) : 장소 검색

import requests 

searching = "합정 스타벅스"
url = "https://dapi.kakao.com/v2/local/search/keyword.json?query={}".format(searching)   ## json형태로 받기

header = {
  "Authorization": "KakaoAK 3bce9f16a5ef98d940d29ec848040ac1"
  ## 입력시 반드시 뒤에 한칸 띄고 API키를 적어햐 한다.
}
places = requests.get(url, headers=header).json()['documents']
places




[{'address_name': '서울 마포구 서교동 395-166',
  'category_group_code': 'CE7',
  'category_group_name': '카페',
  'category_name': '음식점 > 카페 > 커피전문점 > 스타벅스',
  'distance': '',
  'id': '26572121',
  'phone': '1522-3232',
  'place_name': '스타벅스 서교점',
  'place_url': 'http://place.map.kakao.com/26572121',
  'road_address_name': '서울 마포구 양화로 78',
  'x': '126.916980454434',
  'y': '37.5514601750423'},
 {'address_name': '서울 마포구 합정동 472',
  'category_group_code': 'CE7',
  'category_group_name': '카페',
  'category_name': '음식점 > 카페 > 커피전문점 > 스타벅스',
  'distance': '',
  'id': '2057327896',
  'phone': '1522-3232',
  'place_name': '스타벅스 합정점',
  'place_url': 'http://place.map.kakao.com/2057327896',
  'road_address_name': '서울 마포구 월드컵로1길 14',
  'x': '126.91253700818196',
  'y': '37.54994959743763'},
 {'address_name': '서울 마포구 서교동 490',
  'category_group_code': 'CE7',
  'category_group_name': '카페',
  'category_name': '음식점 > 카페 > 커피전문점 > 스타벅스',
  'distance': '',
  'id': '288597324',
  'phone': '1522-3232',
  'place_n

In [14]:
### 카카오 로컬 API를 활용한 장소 검색 함수 만들기
## 인자 : searching
## place[첫번째], name - 장소이름, x,y
## 반환값 : [name, x, y, searching] 

def find_places(searching): 

  # 카카오 API접속 url 
  url = "https://dapi.kakao.com/v2/local/search/keyword.json?query={}".format(searching)   ## json형태로 받기
  
  ### header 입력
  header = {
  "Authorization": "KakaoAK 3bce9f16a5ef98d940d29ec848040ac1"
  ## 입력시 반드시 뒤에 한칸 띄고 API키를 적어햐 한다.
}
  ## api요청 및 정보 처리
  places = requests.get(url, headers=header).json()['documents']
  place = places[0]
  name = place['place_name']
  x = place['x']
  y = place['y'] 
  data = [name,x,y,searching]
  return data

find_places("제주공항")    
  

['제주국제공항', '126.492769004244', '33.5070789578184', '제주공항']

In [9]:
## 반복작업 진행시 진행바 표시하기 위한 라이브러리 tqdm활용
# !pip install tqdm 

from tqdm.notebook import tqdm 


In [15]:
from tqdm.notebook import tqdm 
locations_inform = []
locations 

for location in locations:
  try:
    data = find_places(location)
    locations_inform.append(data)
    time.sleep(0.5)
  except:
    pass
locations_inform 

[['제주특별자치도의회 의원회관(1층, 대회의실)', '126.49950229128', '33.4903746154992', '제주도 제주'],
 ['제주도', '126.54587355630036', '33.379777816446165', '제주도'],
 ['제주고산리유적', '126.1666521275124', '33.30508436596465', '제주고산리유적'],
 ['제주유리박물관', '126.370157858943', '33.2785417246746', '제주유리박물관'],
 ['감천문화마을', '129.00942831915552', '35.09630012826786', '감천문화마을'],
 ['송악산', '126.28979142753593', '33.19908293934712', '제주도 송악산'],
 ['이중섭미술관', '126.564887992506', '33.2459037788334', '이중섭 미술관'],
 ['협재고기부엌', '126.24215619124851', '33.39561006682621', '협재고기부엌'],
 ['제주또시랑', '126.553015494777', '33.4954000181644', '제주 또시랑'],
 ['사계의시간', '126.308835189938', '33.2323093356318', '사계의시간'],
 ['그러므로 파트2', '126.4859476928797', '33.46849065901183', '그러므로part.2'],
 ['제주청년센터', '126.52493042249871', '33.51353742766267', '제주청년센터'],
 ['아르떼뮤지엄 제주',
  '126.34501060259869',
  '33.39670048068425',
  '아르떼뮤지엄 Arte Museum'],
 ['당케올레국수', '126.84333600379', '33.32529330026889', '당케올레국수'],
 ['월정리해수욕장', '126.795805057888', '33.556469394054', '월정리해

In [17]:
### 생성된 정보를 DF로 맘들어서 Excel로 저장
locations_inform_df= pd.DataFrame(locations_inform) 
locations_inform_df.columns = ['name_official','경도','위도','인스타위치명'] 
locations_inform_df.to_excel("data_instar/3_locations.xlsx",index=False) 

In [25]:
### 인스타 게시량 파일(3_3_location_count.xlsx), 위치정보 데이터 불러오기
location_counts_df = pd.read_excel("data_instar/3_3_location_counts.xlsx",index_col=0)
location_inform_df = pd.read_excel("data_instar/3_locations.xlsx") 


### 병합하기(위치 데이터 병합)   
location_data = pd.merge(location_inform_df, location_counts_df,
                         how='inner', left_on='name_official', right_index=True) 
location_data.info()
location_data.head()



<class 'pandas.core.frame.DataFrame'>
Int64Index: 20 entries, 1 to 41
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   name_official  20 non-null     object 
 1   경도             20 non-null     float64
 2   위도             20 non-null     float64
 3   인스타위치명         20 non-null     object 
 4   place          20 non-null     int64  
dtypes: float64(2), int64(1), object(2)
memory usage: 960.0+ bytes


Unnamed: 0,name_official,경도,위도,인스타위치명,place
1,제주도,126.545874,33.379778,제주도,3
2,제주고산리유적,126.166652,33.305084,제주고산리유적,3
3,제주유리박물관,126.370158,33.278542,제주유리박물관,2
4,감천문화마을,129.009428,35.0963,감천문화마을,1
7,협재고기부엌,126.242156,33.39561,협재고기부엌,1


In [27]:
### 데이터 중복 점검하기
location_data['name_official'].value_counts() 

제주도        1
제주고산리유적    1
수월봉        1
사려니숲길      1
황우지선녀탕     1
월정여관       1
그초록        1
거제도        1
남산제빵소      1
빌리웍스       1
안도르        1
텐저린맨션      1
산양큰엉곶      1
당케올레국수     1
제주청년센터     1
사계의시간      1
협재고기부엌     1
감천문화마을     1
제주유리박물관    1
스누피가든      1
Name: name_official, dtype: int64

In [30]:
### 장소 이름을 기준으로  병합(pivot_table)
location_data = location_data.pivot_table(index=['name_official','경도','위도'],\
                                          values='place',aggfunc='sum') 

location_data                                   

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,place
name_official,경도,위도,Unnamed: 3_level_1
감천문화마을,129.009428,35.0963,1
거제도,128.629541,34.860981,1
그초록,126.806402,33.556355,1
남산제빵소,128.589456,35.865147,1
당케올레국수,126.843336,33.325293,1
빌리웍스,128.588524,35.883156,1
사계의시간,126.308835,33.232309,1
사려니숲길,126.626497,33.422033,1
산양큰엉곶,126.250631,33.290923,1
수월봉,126.163109,33.29477,1


In [31]:
### 병합 데이터 저장 
location_data.to_excel("data_instar/3_location_inform.xlsx")

In [34]:
### 위에서 사용한 location_data
location_data = pd.read_excel("data_instar/3_location_inform.xlsx") 
location_data
location_data.head()

Unnamed: 0,name_official,경도,위도,place
0,감천문화마을,129.009428,35.0963,1
1,거제도,128.629541,34.860981,1
2,그초록,126.806402,33.556355,1
3,남산제빵소,128.589456,35.865147,1
4,당케올레국수,126.843336,33.325293,1


In [55]:
### folium을 이용한 지도 시각화... 
%pip install folium 


Note: you may need to restart the kernel to use updated packages.


In [68]:
import folium 

MT_Hanla = [33.362500, 126.533694] 
map_jeju = folium.Map(location=MT_Hanla,zoom_start=11)  

for i in range(len(location_data)):
  name = location_data['name_official'][i]   ## 공식 명칭
  count = location_data['place'][i]         ## 게시글 개수 
  size = int(count)*2 
  long = float(location_data['위도'][i])
  lat = float(location_data['경도'][i])   
  folium.CircleMarker((long,lat), radius=size, color="blue", popup=name).add_to(map_jeju)\

map_jeju

In [69]:
map_jeju.save("data_instar/3_jeju.html")

In [76]:
### 마커 집합을 통한 지도 표시

from folium.plugins import MarkerCluster

locations = []
names = [] 

for i in range(len(location_data)):
  data = location_data.iloc[i] # 행 하나씩
  locations.append((float(data['위도']),float(data['경도']))) 
  names.append(data['name_official']) 

MT_Hanla = [33.362500, 126.533694] 
map_jeju2 = folium.Map(location=MT_Hanla, zoom_start=11)

marker_cluster = MarkerCluster(
  locations = locations,popups=names,
  name= "Jeju",
  overlay=True,
  control=True
)
marker_cluster.add_to(map_jeju2)
folium.LayerControl().add_to(map_jeju2)

map_jeju2 

In [77]:
map_jeju2.save("data_instar/3_jeju_cluster.html")

In [79]:
### 특정 단어 포함 게시글 찾기

## 데이터 준비
import pandas as pd 
raw_total = pd.read_excel("data_instar/1_crawling_raw.xlsx")
raw_total 

Unnamed: 0.1,Unnamed: 0,content,data,like,place,tags
0,0,".💖서귀포 ""돗통""💖여기가 그 아이돌티켓팅보다 힘든예약의 난이도를 가지고있는 맛집이...",2022-05-19,1015,,"['#제주맛집', '#제주도맛집', '#제주공항근처맛집', '#제주시맛집', '#애..."
1,1,여름같은 5월🌼,2022-05-19,0,,[]
2,2,#여행다녀왔습니다[🧡 제주도 맛집 총정리! 동서남북 어디로 가도 펼쳐지는 존맛 제주...,2022-05-20,1116,제주도,"['#여행다녀왔습니다[🧡', '#여행다녀왔습니다', '#여행다녀왔습니다', '#제주..."
3,3,제주에서만 먹을 수 있는 디저트.jpg현무암 스콘으로 난리났던 '딜레탕트'사실 딱새...,2022-05-20,702,제주도,"['#제주카페', '#딜레탕트', '#동행스타그램']"
4,4,🌸세계자동차&피아노박물관버베나가 쑥쑥 자라고 있는 야외정원💜💜좀 있으면 사진처럼 만...,2022-05-20,0,,"['#제주도여행', '#제주여행', '#서귀포가볼만한곳', '#중문가볼만한곳', '..."
...,...,...,...,...,...,...
124,44,✔️카모 스커트#DEARMINDAll item Free shippingnew ite...,2022-05-20,0,,['#DEARMINDAll']
125,45,✔️윔블던 볼캡 (3col)#DEARMINDAll item Free shipping...,2022-05-20,0,,['#DEARMINDAll']
126,46,🎉선비꼬마김밥 164호 제주1호노형점 신규OPEN🎉드디어 제주도에도 선비꼬마김밥이!...,2022-05-20,5,,"['#선비꼬마김밥', '#선꼬김', '#꼬마김밥', '#제주1호노형점', '#제주도']"
127,47,🐾...#jeju #그러므로part2,2021-08-14,36,그러므로part.2,"['#jeju', '#그러므로part2']"


In [95]:
### 단어 선택
# 예시 - "전복"  
select_word = "제주핫플"
 
check_list =[]

for content in raw_total['content']: 
  if select_word in content: 
    check_list.append(True) 
  else:
    check_list.append(False)

select_df = raw_total[check_list]
select_df.head() 



Unnamed: 0.1,Unnamed: 0,content,data,like,place,tags
0,0,".💖서귀포 ""돗통""💖여기가 그 아이돌티켓팅보다 힘든예약의 난이도를 가지고있는 맛집이...",2022-05-19,1015,,"['#제주맛집', '#제주도맛집', '#제주공항근처맛집', '#제주시맛집', '#애..."
2,2,#여행다녀왔습니다[🧡 제주도 맛집 총정리! 동서남북 어디로 가도 펼쳐지는 존맛 제주...,2022-05-20,1116,제주도,"['#여행다녀왔습니다[🧡', '#여행다녀왔습니다', '#여행다녀왔습니다', '#제주..."
7,7,"🐠아 쿠 아 플 라 넷 제 주🐠500여 종 2만 8000마리의 생물과 함께하는교육,...",2022-05-20,0,,"['#제주핫플', '#성산가볼만한곳', '#아쿠아플라넷제주', '#성산여행', '#..."
11,11,new🧸제주소호로 #제주옷가게 #제주도 #제주맛집 #제주도여행 #제주가볼만한곳 #제...,2022-05-20,0,,"['#제주옷가게', '#제주도', '#제주맛집', '#제주도여행', '#제주가볼만한..."
12,12,물놀이의 계절! 친한 동생이 새로 오픈한 빠지 추천 드립니다.제주도 여행 계획 이신...,2022-05-20,0,,"['#삼우요트클럽', '#사계제트스키⠀여기가', '#제트보트', '#제주액티비티',..."


In [97]:
### 선택한 데이터 확인
for i in select_df.index:
  print(select_df.loc[i,'content'])
  print("-"*60) 
select_df.head()

.💖서귀포 "돗통"💖여기가 그 아이돌티켓팅보다 힘든예약의 난이도를 가지고있는 맛집이래..!👐하지만 예약성공을 하면 그만한 보람이 크으~야외에서 커~다란 솥에 고기구워먹고 좌글좌글한 기름에 김치까지..이건 먹어봐야 아는맛이라구!!@얼른 티켓팅 잘하는 친구들 불러봐!!!📌서귀포시 안덕면 사계북로41번길 189..#제주맛집 #제주도맛집 #제주공항근처맛집 #제주시맛집 #애월맛집 #중문맛집 #제주공항맛집 #서귀포맛집 #산방산맛집 #신제주맛집 #제주시청맛집 #제주애월맛집 #월정리맛집 #제주여행 #제주핫플
------------------------------------------------------------
#여행다녀왔습니다[🧡 제주도 맛집 총정리! 동서남북 어디로 가도 펼쳐지는 존맛 제주 🧡]아직까지 제주도 맛집 열심히 검색하고 있으신가요?!이제 그럴 필요 노노! 여앵이가 제주 맛집 싹 알아왔다구요😎한눈에 보는 제주 맛집부터동서남북으로 나누어 더 세세하게 정리도 했으니꼭!! 사진 넘겨서 봐주세요>_<솔직히 제주도 여행 가는 이유중에맛있는 거 먹으려고 하는 것도 있잖아요🍽이거 저장해놓고 행복한 제주도 여행 떠나요~~✈️#여행다녀왔습니다 로 남기는 우리들의 여행일기장----------------------------------나의 여행을 제보하고 싶다면? >> 프로필링크 그룹으로!나의 여행 사진에 #여행다녀왔습니다 태그✨여행다녀왔습니다 에디터가 찾아갑니다✨----------------------------------⠀⠀#제주여행 #제주도 #제주맛집 #제주도맛집 #제주맛집추천 #애월맛집 #서귀포맛집 #성산맛집 #구좌맛집 #표선맛집 #서귀포맛집 #중문맛집 #안덕맛집 #대정맛집 #한경맛집 #한림맛집 #제주맛집추천 #제주여행추천 #맛집투어 #제주핫플 #제주가볼만한곳 #제주지도 #제주데이트 #데이트코스 #국내여행코스 #국내여행코스추천 #국내여행
------------------------------------------------------------
🐠아 쿠 아 플 라 넷 제

Unnamed: 0.1,Unnamed: 0,content,data,like,place,tags
0,0,".💖서귀포 ""돗통""💖여기가 그 아이돌티켓팅보다 힘든예약의 난이도를 가지고있는 맛집이...",2022-05-19,1015,,"['#제주맛집', '#제주도맛집', '#제주공항근처맛집', '#제주시맛집', '#애..."
2,2,#여행다녀왔습니다[🧡 제주도 맛집 총정리! 동서남북 어디로 가도 펼쳐지는 존맛 제주...,2022-05-20,1116,제주도,"['#여행다녀왔습니다[🧡', '#여행다녀왔습니다', '#여행다녀왔습니다', '#제주..."
7,7,"🐠아 쿠 아 플 라 넷 제 주🐠500여 종 2만 8000마리의 생물과 함께하는교육,...",2022-05-20,0,,"['#제주핫플', '#성산가볼만한곳', '#아쿠아플라넷제주', '#성산여행', '#..."
11,11,new🧸제주소호로 #제주옷가게 #제주도 #제주맛집 #제주도여행 #제주가볼만한곳 #제...,2022-05-20,0,,"['#제주옷가게', '#제주도', '#제주맛집', '#제주도여행', '#제주가볼만한..."
12,12,물놀이의 계절! 친한 동생이 새로 오픈한 빠지 추천 드립니다.제주도 여행 계획 이신...,2022-05-20,0,,"['#삼우요트클럽', '#사계제트스키⠀여기가', '#제트보트', '#제주액티비티',..."


In [99]:
fpath = f"data_instar/4_select_data_{select_word}.xlsx"
select_df.to_excel(fpath)     

In [100]:
### 여러개의 단어 선택/ 추출/ 저장하세요....
# 선택 단어 리스트 : "해돋이"," 박물관","힐링","게스트 하우스","섭지코지"
# 각 선택 단어를 추출하여 저장(4_select_data_{선택단어}.xlsx)로 저장

select_word_list = ["해돋이","박물관","힐링","게스트하우스","섭지코지"] 
for select_word in select_word_list:
  check_list = []
  for content in raw_total['content']:
    if select_word in content:
      check_list.append(True)
    else: 
      check_list.append(False) 

  select_df = raw_total[check_list] 
  fpath = f'data_instar/4_select_data_{select_word}.xlsx' 
  select_df.to_excel(fpath) 
  

In [None]:
### 스타벅스의 매장 입지에 대한 2가지 가설
# 1. 거주 인구가 많은 지역에 스타벅스 매장이 많이 입지해 있을 것이다. 
# 2. 직장인이 많은 지역에 스타벅스 매장이 많이 입지해 있을 것이다. 


In [None]:
### 데이터 수집(서울) 
# 1. 스타벅스들의 위치
# 2. 인구 통계 데이터 수집 


In [101]:
## 스타벅스 매장 목록 데이터 생성
from selenium import webdriver 
from bs4 import BeautifulSoup
import pandas as pd

### driver = 
driver = webdriver.Chrome("/Users/yunbeen/Downloads/chromedriver")
url = "https://www.starbucks.co.kr/store/store_map.do?disp=locale"
driver.get(url) 




  driver = webdriver.Chrome("/Users/yunbeen/Downloads/chromedriver")


In [105]:
seoul_btn = "#container > div > form > fieldset > div > section > article.find_store_cont > article > article:nth-child(4) > div.loca_step2 > div.result_num_wrap3 > strong"
driver.find_element_by_css_selector(seoul_btn).click() 


  driver.find_element_by_css_selector(seoul_btn).click()


In [106]:
all_btn = "#mCSB_2_container > ul > li:nth-child(1) > a"
driver.find_element_by_css_selector(all_btn).click() 


  driver.find_element_by_css_selector(all_btn).click()


In [48]:
html = driver.page_source
soup = BeautifulSoup(html,"html.parser")

In [107]:
starbucks_soup_list = soup.select("li.quickResultLstCon") 
len(starbucks_soup_list) 

578

In [116]:
### 매장명, 위도, 경도, 매장 타입, 주소, 전화번호
starbucks_soup_list[13] 

<li class="quickResultLstCon" data-code="3564" data-hlytag="null" data-index="13" data-lat="37.511293" data-long="127.048409" data-name="봉은사로선정릉" data-storecd="1348" style="background:#fff"> <strong data-my_siren_order_store_yn="N" data-name="봉은사로선정릉" data-store="1348" data-yn="N">봉은사로선정릉  </strong> <p class="result_details">서울특별시 강남구 봉은사로 446 (삼성동)<br/>1522-3232</p> <i class="pin_general">리저브 매장 2번</i></li>