In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import codecs
import pickle
from konlpy.tag import Okt # Okt : 널리사용되는 형태소 분석기
from gensim.models import word2vec 
import pandas as pd
import csv

# 데이터 임포트

In [5]:
df_pre = pd.read_csv('k_g_n_tourist_review_pre.csv', encoding='utf-8')

In [6]:
df_place = pd.read_csv('tourplace_info.csv', encoding='cp949')

In [34]:
df_place.shape

(603, 3)

In [35]:
input_code = 'CONT_000000000500685'
df_place.loc[df_place['ID'] == input_code]['tags'].values

array(['산,걷기/등산,경관/포토,친구,사계절,자연경관,포토스팟,한라산,언택트,단풍,유네스코,공용주차장,화장실,편의점,음료대,저상버스 접근 가능,장애인 화장실,장애인 전용 주차장,아주 어려움,UNESCO 생물권보전지역,UNESCO 세계자연유산,UNESCO 세계지질공원,무장애관광'],
      dtype=object)

In [7]:
df_tour = pd.read_csv('관광지end최종.csv', encoding='CP949')

# 태그 데이터 전처리

In [8]:
df_tour.shape

(1022, 12)

In [9]:
sr1 = pd.Series(df_tour['관련 태그 전체'], name = 'e')
sr2 = pd.Series(df_tour['태그'], name = 'e2')
sr3 = sr1 + ',' + sr2

In [10]:
df_tour['관련 태그 전체'] = df_tour['관련 태그 전체'].str.replace("4.3", "제주4.3")
df_tour['태그'] = df_tour['태그'].str.replace("4.3", "제주4.3")

  df_tour['관련 태그 전체'] = df_tour['관련 태그 전체'].str.replace("4.3", "제주4.3")
  df_tour['태그'] = df_tour['태그'].str.replace("4.3", "제주4.3")


In [11]:
tag_result = []
for tags in sr3:
    data = tags.split(',')
    row = ''
    flag = True
    for tag in data:
        if not (tag in row):
            if flag == True:
                row = tag
                flag = False
            else:
                row = row + ',' + tag
    tag_result.append(row)

In [12]:
df_tour['tags'] = tag_result

In [13]:
df_tour.drop(columns = ['관련 태그 전체','주소','도로명주소','태그','간단소개','위도','경도','우편번호','전화번호','썸네일 이미지경로'],inplace = True )

In [14]:
len(df_tour['콘텐츠 ID'].unique())

1021

In [15]:
df_place2 = pd.DataFrame(df_place['ID'])
df_place2 = df_place2.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)
df_tag2 = pd.merge(df_place2,df_tour, how='left', left_on = 'ID', right_on = '콘텐츠 ID')
df_tag2 = df_tag2.drop(columns = 'ID')

In [16]:
df_tag2 = df_tag2.sort_values(by=["콘텐츠 ID"], ascending=[True])
df_tag2.rename(columns={'콘텐츠 ID':'ID'},inplace=True)
df_tag2.rename(columns={'콘텐츠명':'name'},inplace=True)
len(df_tag2['ID'].unique())

603

In [17]:
df_tag2.drop_duplicates(subset=['name'], inplace=True)
df_tag2.dropna(axis = 0, inplace = True)
df_tag2.reindex()
df_place2 = pd.concat([df_place['ID'], df_place['name']],axis=1)

In [18]:
df4 = pd.merge(df_pre, df_place2, how='inner', left_on = 'ID', right_on = 'ID')

In [19]:
df4.shape

(9583, 4)

# 후기데이터 문자열 파싱

In [20]:
all_data = []

for id in df4['ID'].unique():
    row = []
    row.append(id)
    content_list = ''
    flag_first = True
    for content in df4['CONTENT'].loc[df4['ID'] == id]:
        if flag_first == True:
            if len(content) > 1: 
                content_list = content
                flag_first = False
        else:
            if len(content) > 1: 
                content_list = content_list + '\n' + content
    row.append(content_list)
    all_data.append(row)

---

# 해당 후기 검색어가 가장 많은 업체와 유사한 업체 

In [21]:
okt = Okt()
results = []
rest_id_list = []
for id,text in enumerate(all_data):
    lines = text[1].split("\n")
    rest_id_list.append(text[0])
    rl = ''
    r = ''
    for line in lines:
        # 형태소 분석하기 --- (※3)
        # 단어의 기본형 사용
        malist = okt.pos(line, norm=True, stem=True)
        word_list = ''
        for word in malist:
            # 어미/조사/구두점 등은 대상에서 제외 
            if not word[1] in ["Josa", "Eomi", "Punctuation"]:
                if len(word[0]) > 1 :
                    word_list = word_list + ' ' + word[0]
        r = r + word_list
    rl = rl + r
    results.append(rl)

In [30]:
len(rest_id_list)

603

In [22]:
with open("id_list.pickle","wb") as fw:
    pickle.dump(rest_id_list, fw)

!dir id_list.pickle

 D 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: BC0D-FB82

 D:\Pywork\DataScience\04_AI\04_응용\3차 프로젝트\후기와 추천시스템 디렉터리

2023-02-21  오후 01:12            13,885 id_list.pickle
               1개 파일              13,885 바이트
               0개 디렉터리  518,716,026,880 바이트 남음


# 유사업체 찾기 실행문

In [23]:
stopwords = ['이다','이네','이라고','이나','인가','이고','싶다','으로','인데','에는',
             '하다','하고','에서','비다','알다','라고','달다','다시다','지만','에서는']

In [24]:
vectorizer = TfidfVectorizer(min_df=2, stop_words= stopwords, ngram_range = (1, 2))

In [25]:
X = vectorizer.fit_transform(results)
feature_names = vectorizer.get_feature_names_out()
feature_names
tour_sim = cosine_similarity(X)

# 태그 검색어 유사업체

In [26]:
df_tag2

Unnamed: 0,ID,name,tags
0,CNTS_000000000000597,아라고나이트 고온천,"온천,실내,휴식/힐링,부모,비.눈,겨울,실내관광지,호텔,숙소,어트랙션,공용주차장"
1,CNTS_000000000000614,비체올린,"야영장,캠핑장,액티비티,아이,맑음,체험,레저/체험,어린이,수상레저,언택트,어트랙션,..."
2,CNTS_000000000000970,제주추사관,"미술/박물관,흐림,겨울,실내관광지,어트랙션,공용주차장,현금결제,카드결제,화장실,무료..."
3,CNTS_000000000000976,제주동백마을,"웰니스,만남,즐김,치유,체험,부모,자연경관,마을산책,마을관광,동백,어트랙션,공용주차..."
4,CNTS_000000000001158,메이즈랜드,"부모,아이,테마공원,미술/박물관,경관/포토,전시와 행사,우수관광사업체,실내관광지,포..."
...,...,...,...
599,CONT_000000000500695,헬로키티아일랜드,"실내,테마공원,아이,비.눈,겨울,우수관광사업체,공용주차장,현금결제,카드결제,화장실,..."
600,CONT_000000000500697,협재해수욕장,"일몰,해수욕장,액티비티,아이,맑음,여름,자연경관,체험,레저/체험,해변,물놀이,어린이..."
601,CONT_000000000500698,형제섬,"커플,친구,혼자,경관/포토,일몰,일출,공용주차장,화장실,편의점,음료대,유도 및 안내..."
602,CONT_000000000500699,혼인지,"문화유적지,맑음,문화관광,역사유적,수국,화장실,음료대,유도 및 안내시설,경보 및 피..."


In [27]:
okt = Okt()
tag_results = []
rest_id_list = []
for id,text in enumerate(df_tag2['tags']):
    lines = text.split(",")
    rest_id_list.append(id)
    rl = ''
    r = ''
    for line in lines:
        malist = okt.pos(line, norm=True, stem=True)

        word_list = ''
        for word in malist:
            if not word[1] in ["Josa", "Eomi", "Punctuation"]:
                if len(word[0]) > 1 :
                    word_list = word_list + ' ' + word[0]
        r = r + word_list
    rl = rl + r
    tag_results.append(rl)

In [28]:
X = vectorizer.fit_transform(tag_results)
feature_names = vectorizer.get_feature_names_out()
feature_names
tag_sim = cosine_similarity(X)

# 후기와 태그 유사도 매트릭스를 비율대로 결합

In [31]:
tour_sim2 = (tag_sim * 0.2) + (tour_sim * 0.8)

In [32]:
with open("tour_sim2.pickle","wb") as fw:
    pickle.dump(tour_sim2, fw)

!dir tour_sim2.pickle

 D 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: BC0D-FB82

 D:\Pywork\DataScience\04_AI\04_응용\3차 프로젝트\후기와 추천시스템 디렉터리

2023-02-21  오후 05:14         2,909,035 tour_sim2.pickle
               1개 파일           2,909,035 바이트
               0개 디렉터리  518,692,306,944 바이트 남음


In [33]:
len(tour_sim2)

603