In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import re, string
from konlpy.tag import Komoran
from collections import Counter

komoran = Komoran()



## 크롤링 데이터

In [4]:
cafe = pd.read_csv('./kakao_review/kakao_cafe.csv', encoding='UTF-8')
motel = pd.read_csv('./kakao_review/kakao_motel.csv', encoding='UTF-8')
pension = pd.read_csv('./kakao_review/kakao_pension.csv', encoding='UTF-8')
resort = pd.read_csv('./kakao_review/kakao_resort.csv', encoding='UTF-8')
food = pd.read_csv('./kakao_review/kakao_food.csv', encoding='UTF-8')
tour = pd.read_csv('./kakao_review/kakao_tour.csv', encoding='UTF-8')
hotel = pd.read_csv('./kakao_review/kakao_hotel.csv', encoding='UTF-8')

In [5]:
print(f"카페의 수는 {cafe.shape[0]}개입니다.")
print(f"모텔의 수는 {motel.shape[0]}개입니다.")
print(f"펜션의 수는 {pension.shape[0]}개입니다.")
print(f"리조트의 수는 {resort.shape[0]}개입니다.")
print(f"식당의 수는 {food.shape[0]}개입니다.")
print(f"관광지의 수는 {tour.shape[0]}개입니다.")
print(f"호텔의 수는 {hotel.shape[0]}개입니다.")

카페의 수는 410개입니다.
모텔의 수는 95개입니다.
펜션의 수는 404개입니다.
리조트의 수는 74개입니다.
식당의 수는 304개입니다.
관광지의 수는 392개입니다.
호텔의 수는 170개입니다.


In [6]:
# 정규화
def preprocess(text):
    text=text.strip()  
    text=re.compile('<.*?>').sub('', text) 
    text = re.compile('[%s]' % re.escape(string.punctuation)).sub(' ', text)  
    text = re.sub('\s+', ' ', text)  
    text = re.sub(r'\[[0-9]*\]',' ',text) 
    text=re.sub(r'[^\w\s]', '', str(text).strip())
    text = re.sub(r'\d',' ',text) 
    text = re.sub(r'\s+',' ',text) 
    return text


# 명사 추출, 한글자 제외, 불용어 제거
def final(text):
    n = []
    word = komoran.nouns(text)
    for w in word:
        if len(w)>1 and w not in stopwords:
            n.append(w)
    return " ".join(n)

# 최종
def finalpreprocess(text):
    return final(preprocess(text))

##  카페

In [5]:
cafe.head()

Unnamed: 0,카페명,분류,주소,별점,별점페이지,별점갯수,리뷰
0,원앤온리,카페,제주특별자치도 서귀포시 안덕면 산방로 141 원앤온리,4.0,https://place.map.kakao.com/217787831#comment,466,"[[3, '시설 보니 커피1만원 할만하네. 맛은 별로\n그라도 딱 한번만은 가볼만함..."
1,퍼시픽리솜 더클리프카페&펍,카페,제주특별자치도 서귀포시 중문관광로 154-17,3.8,https://place.map.kakao.com/1378746048#comment,359,"[[5, ''], [5, '이국적인 분위기에 흠뻑 취할 수 있습니다. 음료, 카테일..."
2,카페나모나모,디저트카페,제주특별자치도 제주시 도두봉6길 4 1~4층,4.6,https://place.map.kakao.com/373077516#comment,351,"[[5, '음료랑 빵이 생각보다 맛있어요\n그리고 뷰도 좋은데 이 날씨에 창문을 사..."
3,울트라마린,커피전문점,제주특별자치도 제주시 한경면 일주서로 4611 지하1층,4.5,https://place.map.kakao.com/1915903142#comment,253,"[[5, '분위기도 좋고 커피도 맛있네요 ㅎ 다음 제주도 여행때도 와야겠네요 ㅎㅎ'..."
4,드르쿰다in성산,테마카페,제주특별자치도 서귀포시 성산읍 섭지코지로25번길 64,4.5,https://place.map.kakao.com/795878887#comment,239,"[[1, '아메가 겁나 맛없음 ㅜㅜ'], [1, '실망스럽네요...\n'], [5,..."


In [7]:
with open('./stopwords.txt', 'r', encoding='cp949') as f:
    list_file = f.readlines() 
stopwords = list_file[0].split(",")

In [9]:
cafe['명사'] = cafe['리뷰'].apply(lambda x: finalpreprocess(x))

In [10]:
cafe.drop('리뷰', axis=1, inplace=True)

In [11]:
cafe_keyword = pd.DataFrame()
cafe_keyword['place'] = cafe['카페명']

### 키워드 등장 횟수 뽑기

In [8]:
def count_keyword(text, keyword):
    noun = text.split(" ")
    num = Counter(noun)[keyword]
    return num

In [13]:
for key in ['환경']:
    cafe_keyword[key] = cafe['명사'].apply(lambda x: count_keyword(x, key))

In [15]:
cafe_keyword.sort_values('환경', ascending=False)

Unnamed: 0,place,환경
292,꼬라지오,2
108,스타벅스 제주노형점,1
122,윈드스톤,1
159,인디고인디드,1
260,수카사,1
...,...,...
139,서귀피안베이커리,0
138,회춘 애월점,0
137,모앙,0
136,간세라운지,0


## 식당

In [17]:
food['명사'] = np.nan

for i in range(len(food)):
    t = food['리뷰'][i]
    try:
        food['명사'][i] = finalpreprocess(t)
    except:
        food['명사'][i] = " "

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  food['명사'][i] = finalpreprocess(t)


In [18]:
food

Unnamed: 0,카페명,분류,주소,별점,별점페이지,별점갯수,리뷰,명사
0,연돈,"돈까스,우동",제주특별자치도 서귀포시 일주서로 968-10 1층,3.9,https://place.map.kakao.com/1890778114#comment,458,"[[3, '22.09.29(목) 방문.\n성산에서 두시간 걸려서 일정변경해가면서 갔...",방문 성산 일정 변경 성산 시내버스 정거장 레게 기억 결론 페이스 리뷰 유명한 나중...
1,숙성도 노형점,"육류,고기",제주특별자치도 제주시 원노형로 41,4.1,https://place.map.kakao.com/316010726#comment,423,"[[2, '너무 기대를했나봐요\n여기가려고 일부러 제주시내 1박 잡았는데\n시간이 ...",기대 제주시 목살 등심 숙성 숙성 목사 짜증 고기 목살 실망 숙성 고기 비계 고기 ...
2,우진해장국,해장국,제주특별자치도 제주시 서사로 11,3.7,https://place.map.kakao.com/11547525#comment,863,"[[3, '8:50에 줄서서 10:40분에 입장했습니다.\n\n고사리육개장을 먹었는...",서서 입장 고사리 육개장 묘사 추어탕 생선 소고기 고사리 된장 장과 청국장 걱정 복...
3,고집돌우럭 제주공항점,"해물,생선",제주특별자치도 제주시 임항로 30,4.8,https://place.map.kakao.com/232056222#comment,986,"[[5, '너무너무너무 맛있어요.. 요번 여행에서 여기가 제일 맛있었고 다음에 또 ...",요번 여행 우럭 양념 환상 전복 대박 무도 최고 옥돔 서버 친절 대접 기분 남편 국...
4,고집돌우럭 함덕점,한식,제주특별자치도 제주시 조천읍 신북로 491-9 2층,4.9,https://place.map.kakao.com/28082185#comment,1090,"[[5, '바닷가 바로 앞이라서 바다 보면서 먹을 수 있어서 너무 좋아요! 해 쨍쨍...",바닷가 바다 친절 말씀 음식 우럭 조림 기와 무우 듯이 제주 맛집 식사 하기 우럭 ...
...,...,...,...,...,...,...,...,...
299,캠퍼트리호텔앤리조트 더뷰,양식,제주특별자치도 제주시 해안마을서4길 100,5.0,https://place.map.kakao.com/317582138#comment,2,"[[5, '아담하고 바다뷰 그리고 조용하고 감성적인 분위기로 그야말로 휴식을 하고 ...",감성 분위기 휴식 충전 호텔 리조트 숙소 커피 테이크아웃 최고 레스토랑 대박 유리창...
300,황가네뚝배기,한식,제주특별자치도 제주시 삼무로11길 24,3.9,https://place.map.kakao.com/14525030#comment,8,"[[5, '내.돈.내.산\n성게미역국 진짜 핵존맛이에요 전복뚝배기도JMT❤ 찐강추입...",미역국 전복 뚝배기 뚝배기 해물 부족 냉동 인지 조개 국물 리뷰 느낌 느낌 고등어 ...
301,씨에스호텔 씨에스다이닝,한식,제주특별자치도 서귀포시 중문관광로 198,5.0,https://place.map.kakao.com/351143149#comment,1,"[[5, '']]",
302,포도호텔 레스토랑,양식,제주특별자치도 서귀포시 안덕면 산록남로 863 1층,3.8,https://place.map.kakao.com/21508783#comment,24,"[[4, '새우튀김 우동 맛있지만 가격 생각하면 당연한 정도. 객주리조림은 쏘쏘. ...",새우 튀김 우동 가격 생각 객주 조림 식전 전복죽 스테이크 짬뽕 우동 별미 값어치 ...


In [37]:
food_keyword = pd.DataFrame()

food_keyword['place'] = food['카페명']
    
for key in ['환경', '친환경']:
    food_keyword[key] = food['명사'].apply(lambda x: count_keyword(x, key))

In [43]:
food_keyword

Unnamed: 0,place,환경,친환경
0,연돈,0,0
1,숙성도 노형점,0,0
2,우진해장국,1,0
3,고집돌우럭 제주공항점,0,0
4,고집돌우럭 함덕점,0,0
...,...,...,...
299,캠퍼트리호텔앤리조트 더뷰,0,0
300,황가네뚝배기,0,0
301,씨에스호텔 씨에스다이닝,0,0
302,포도호텔 레스토랑,0,0


## 관광지

In [9]:
tour['명사'] = np.nan

for i in range(len(tour)):
    t = tour['리뷰'][i]
    try:
        tour['명사'][i] = finalpreprocess(t)
    except:
        tour['명사'][i] = " "

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tour['명사'][i] = finalpreprocess(t)


In [10]:
tour_keyword = pd.DataFrame()

tour_keyword['place'] = tour['카페명']
    
for key in ['야경']:
    tour_keyword[key] = tour['명사'].apply(lambda x: count_keyword(x, key))

In [11]:
tour_keyword

Unnamed: 0,place,야경
0,올레길 7코스(서귀포-월평 올레),0
1,올레길 1코스(시흥-광치기 올레),0
2,올레길 6코스(쇠소깍-서귀포 올레),0
3,올레길 18코스(제주원도심-조천 올레),0
4,올레길 5코스(남원-쇠소깍 올레),0
...,...,...
387,개다리폭포,0
388,세리월드 카트레이싱,0
389,톨칸이해변,0
390,다랑쉬굴,0


In [12]:
tour_keyword.to_csv('./etc_data/tour_night.csv', header=True, index=False, encoding="UTF-8")

## 카페

In [23]:
cafe['명사'] = np.nan

for i in range(len(cafe)):
    t = cafe['리뷰'][i]
    try:
        cafe['명사'][i] = finalpreprocess(t)
    except:
        cafe['명사'][i] = " "

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cafe['명사'][i] = " "


In [24]:
cafe

Unnamed: 0,카페명,분류,주소,별점,별점페이지,별점갯수,리뷰,명사
0,원앤온리,카페,제주특별자치도 서귀포시 안덕면 산방로 141 원앤온리,4.0,https://place.map.kakao.com/217787831#comment,466,"[[3, '시설 보니 커피1만원 할만하네. 맛은 별로\n그라도 딱 한번만은 가볼만함...",
1,퍼시픽리솜 더클리프카페&펍,카페,제주특별자치도 서귀포시 중문관광로 154-17,3.8,https://place.map.kakao.com/1378746048#comment,359,"[[5, ''], [5, '이국적인 분위기에 흠뻑 취할 수 있습니다. 음료, 카테일...",
2,카페나모나모,디저트카페,제주특별자치도 제주시 도두봉6길 4 1~4층,4.6,https://place.map.kakao.com/373077516#comment,351,"[[5, '음료랑 빵이 생각보다 맛있어요\n그리고 뷰도 좋은데 이 날씨에 창문을 사...",
3,울트라마린,커피전문점,제주특별자치도 제주시 한경면 일주서로 4611 지하1층,4.5,https://place.map.kakao.com/1915903142#comment,253,"[[5, '분위기도 좋고 커피도 맛있네요 ㅎ 다음 제주도 여행때도 와야겠네요 ㅎㅎ'...",
4,드르쿰다in성산,테마카페,제주특별자치도 서귀포시 성산읍 섭지코지로25번길 64,4.5,https://place.map.kakao.com/795878887#comment,239,"[[1, '아메가 겁나 맛없음 ㅜㅜ'], [1, '실망스럽네요...\n'], [5,...",
...,...,...,...,...,...,...,...,...
405,프랑제리 켄싱턴리조트 중문점,"제과,베이커리",제주특별자치도 서귀포시 중문관광로72번길 29-29 3층,5.0,https://place.map.kakao.com/1671698321#comment,2,"[[5, '사과빵도 귀엽지만 당근 샌드위치가 진짜 대박이네요\n엄청 큼지막하고 맛있...",
406,더벤티 해비치리조트점,커피전문점,제주특별자치도 서귀포시 표선면 민속해안로 577 1층,5.0,https://place.map.kakao.com/1768944605#comment,4,"[[5, '엄청 친절하세요! 덕분에 당충전 하고 갑니다!'], [5, '사장님 너무...",
407,호텔샌드,카페,제주특별자치도 제주시 한림읍 한림로 339,3.9,https://place.map.kakao.com/1500112810#comment,56,"[[4, '가게 한산할때 왔는데 저녁바다 풍경도 좋고. 차가 맛있네요. '], [5...",
408,해비치호텔앤드리조트 마고,"제과,베이커리",제주특별자치도 서귀포시 표선면 민속해안로 537 1층,4.4,https://place.map.kakao.com/21573685#comment,17,"[[5, '22.09.28(수) 방문.\n\n이것저것 샀는데 솔직히 다른건 다른데 ...",


In [25]:
cafe_keyword = pd.DataFrame()

cafe_keyword['place'] = cafe['카페명']
    
for key in ['야경']:
    cafe_keyword[key] = cafe['명사'].apply(lambda x: count_keyword(x, key))

In [29]:
cafe_keyword.sort_values('야경', ascending=False)

Unnamed: 0,place,야경
0,원앤온리,0
269,카페갤러리,0
279,너는파라다이스길리,0
278,귤당리,0
277,리유니온,0
...,...,...
134,알마커피제작소,0
133,동명정류장,0
132,누옥,0
131,바라나시책골목,0


## 데이터 내보내기

In [47]:
food_keyword.to_csv('./etc_data/food_eco.csv', header=True, index=False, encoding="UTF-8")
tour_keyword.to_csv('./etc_data/tour_eco.csv', header=True, index=False, encoding="UTF-8")

In [11]:
cafe_keyword.to_csv('./etc_data/cafe_eco.csv', header=True, index=False, encoding="UTF-8")