In [5]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer # 문자열 벡터화 라이브러리 
from sklearn.metrics.pairwise import cosine_similarity # 코사인 유사도 라이브러리 

In [6]:
data = pd.read_csv("분류된 일본명소.csv")
data

Unnamed: 0,도시이름,관광지이름,관광지설명,별점,좋아요,카테고리1,카테고리2
0,도쿄,시부야 스카이,넋을 놓고 바라보게 만드는 스카이 라인을 자랑하는 전망대,4.6,12229,휴양,문화
1,도쿄,센소지,"일본 전통 문화가 살아 숨쉬는, 도쿄에서 가장 오래된 사원",4.3,26114,쇼핑,문화
2,도쿄,도쿄 타워,아름다운 전망을 즐길 수 있는 도쿄의 상징,4.4,36266,문화,편의성
3,도쿄,아사쿠사,대도시 속에서 전통 문화를 느낄 수 있는 일본판 인사동,4.4,24646,문화,관광
4,도쿄,시부야 스크램블 교차로,"'사람 홍수'를 카메라에 담을 수 있는, 시부야 대표 포토 스팟",4.1,24946,쇼핑,문화
...,...,...,...,...,...,...,...
85,나가사키,오우라 천주당,뾰족하게 솟은 연둣빛 탑과 신비로운 스테인드글라스가 매력적인 성당,3.8,220,편의성,문화
86,나가사키,후쿠사야 본점,숙련된 손기술로 바닥에 설탕이 박힌 나가사키식 카스텔라를 선보이는 가게,4.0,278,편의성,문화
87,나가사키,시카이로,대표적인 현지 음식 나가사키 짬뽕과 사라 우동의 원조 맛집,4.3,233,편의성,음식
88,나가사키,데지마,에도 시대의 사무라이 복장을 한 가이드를 따라 걸어보는 역사 명소,3.3,113,문화,휴양


In [7]:
# 사용자가 입력한 세 개의 카테고리와 가중치를 고려하여 가장 비슷한 카테고리를 찾는 함수
def recommend_similar_categories(category1, category2, category3, data):

    # 일본 명소에 카테고리 데이터 추출
    category_data = [f"{str(item['카테고리1'])} {str(item['카테고리2'])}" for index, item in data.iterrows()]

    # TF-IDF 벡터화
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(category_data)
    
    # 입력한 카테고리를 TF-IDF 벡터로 변환 
    vector1 = vectorizer.transform([category1])
    vector2 = vectorizer.transform([category2])
    vector3 = vectorizer.transform([category3])

    # 사용자가 입력한 세 개의 카테고리를 합친 벡터
    sumVactor = vector1 + vector2 + vector3

    # 코사인 유사도 계산
    similarities = cosine_similarity(sumVactor, tfidf_matrix)

    # 유사도가 가장 높은 5개 인덱스 찾기
    most_similar = similarities.argsort(axis=1)[0][-5:][::-1]

    # 추천된 상위 5개의 관광지 정보 가져오기
    recommended_spots = data.loc[most_similar]
    
    return recommended_spots

In [12]:
# 사용자가 선택한 카테고리 추천 받기 (step1 사용자 입력)

# 원하는 카테고리를 입력 
print("카테고리 3개를 입력해 주세요")
print("1. 문화, 2. 편의성, 3. 휴양, 4. 관광, 5. 음식, 6. 쇼핑")
print("\n")
category1 = input("카테고리1 : ")
category2 = input("카테고리2 : ")
category3 = input("카테고리2 : ")

print("선택 카테고리 : %s, %s, %s" %(category1, category2, category3))
print("\n")


# 관광지 추천함수 호출 
recommended_spots = recommend_similar_categories(category1, category2, category3, data)

num = 0

for index, spot in recommended_spots.iterrows():
    num = num + 1
    print("\n")
    print("=========================================================================")
    print("%d 번째 추천된 카테고리의 관광지 : %s" %(num, spot['관광지이름']))
    print("도시이름 : %s" %(spot['도시이름']))
    print("관광지 설명 : %s" %(spot['관광지설명']))
    print("별점 : %d" %(spot['별점']))
    print("좋아요 : %s" %(spot['좋아요']))
    print("카테고리1 : %s" %(spot['카테고리1']))
    print("카테고리2 : %s" %(spot['카테고리2']))

카테고리 3개를 입력해 주세요
1. 문화, 2. 편의성, 3. 휴양, 4. 관광, 5. 음식, 6. 쇼핑


카테고리1 : 쇼핑
카테고리2 : 음식
카테고리2 : 편의성
선택 카테고리 : 쇼핑, 음식, 편의성




1 번째 추천된 카테고리의 관광지 : 덴진 지하상가
도시이름 : 후쿠오카
관광지 설명 : 덴진 지역의 쇼핑 플레이스들을 잇는 큰 규모의 지하상가
별점 : 3
좋아요 : 29,274
카테고리1 : 편의성
카테고리2 : 쇼핑


2 번째 추천된 카테고리의 관광지 : 미하마 아메리칸 빌리지
도시이름 : 오키나와
관광지 설명 : 볼거리와 즐길거리가 넘쳐나는 미국풍 복합 쇼핑 타운
별점 : 4
좋아요 : 17,251
카테고리1 : 음식
카테고리2 : 쇼핑


3 번째 추천된 카테고리의 관광지 : 시카이로
도시이름 : 나가사키
관광지 설명 : 대표적인 현지 음식 나가사키 짬뽕과 사라 우동의 원조 맛집
별점 : 4
좋아요 : 233
카테고리1 : 편의성
카테고리2 : 음식


4 번째 추천된 카테고리의 관광지 : 사쿠라지마 용암 나기사 공원 앤 족욕
도시이름 : 가고시마
관광지 설명 : 아름다운 풍경의 해안 산책로와 무료 족욕탕이 있는 힐링 스팟
별점 : 4
좋아요 : 233
카테고리1 : 편의성
카테고리2 : 편의성


5 번째 추천된 카테고리의 관광지 : 노리타케의 숲
도시이름 : 나고야
관광지 설명 : 유명 도자기 브랜드 '노리타케'에서 운영하는 복합 시설
별점 : 3
좋아요 : 1,994
카테고리1 : 음식
카테고리2 : 음식


In [10]:
# 연령대 데이터를 사용하여 관광지 추천하기 (step2 연령대 데이터 사용)

In [13]:
personData = pd.read_excel("연령대 선호도 데이터.xlsx")
personData

Unnamed: 0,구분,여행지 지명도,볼거리 제공,저렴한 여행경비,이동 거리,여행할 수 있는 시간,숙박시설,쇼핑,음식,교통편,체험 프로그램 유무,경험자의 추천,관광지 편의시설,교육성,여행 동반자 유형
0,15~19세,5.5,3.3,6.5,9.8,5.8,1.4,6.8,5.7,5.2,2.4,5.6,4.3,9.5,4.4
1,20대,20.1,21.1,20.6,23.2,23.6,14.7,26.2,27.1,17.2,16.0,18.4,19.1,17.1,16.7
2,30대,24.4,23.6,20.1,24.4,19.9,20.8,21.2,24.1,18.7,21.9,21.0,24.1,23.8,20.9
3,40대,19.2,23.2,19.8,13.2,16.8,23.6,20.2,18.6,29.5,22.4,25.0,19.6,44.4,22.5
4,50대,17.9,18.6,20.3,16.8,22.3,27.6,14.6,14.9,25.5,30.2,15.8,17.0,2.9,20.4
5,60세 이상,13.0,10.2,12.7,12.7,11.6,11.8,11.0,9.6,3.9,7.1,14.1,16.0,2.3,15.1


In [14]:
# 비슷한 컬럼 데이터끼리 rename 하여 6개의 카테고리로 간추리기 
personData.rename(columns={'저렴한 여행경비': '편의성', '이동 거리': '편의성', '여행할 수 있는 시간' : '편의성', '교통편' : '편의성', '관광지 편의시설' : '편의성', '여행 동반자 유형' : '편의성'}, inplace=True)
personData.rename(columns={'숙박시설': '휴양'}, inplace=True)
personData.rename(columns={'체험 프로그램 유무': '문화', '교육성' : '문화'}, inplace=True)
personData.rename(columns={'여행지 지명도': '관광', '볼거리 제공' : '관광', '경험자의 추천': '관광'}, inplace=True)
personData

Unnamed: 0,구분,관광,관광.1,편의성,편의성.1,편의성.2,휴양,쇼핑,음식,편의성.3,문화,관광.2,편의성.4,문화.1,편의성.5
0,15~19세,5.5,3.3,6.5,9.8,5.8,1.4,6.8,5.7,5.2,2.4,5.6,4.3,9.5,4.4
1,20대,20.1,21.1,20.6,23.2,23.6,14.7,26.2,27.1,17.2,16.0,18.4,19.1,17.1,16.7
2,30대,24.4,23.6,20.1,24.4,19.9,20.8,21.2,24.1,18.7,21.9,21.0,24.1,23.8,20.9
3,40대,19.2,23.2,19.8,13.2,16.8,23.6,20.2,18.6,29.5,22.4,25.0,19.6,44.4,22.5
4,50대,17.9,18.6,20.3,16.8,22.3,27.6,14.6,14.9,25.5,30.2,15.8,17.0,2.9,20.4
5,60세 이상,13.0,10.2,12.7,12.7,11.6,11.8,11.0,9.6,3.9,7.1,14.1,16.0,2.3,15.1


In [16]:
# 연령별로 목적 카테고리에 맞는 상위 3개의 데이터 가져오기 
ageData = personData.set_index('구분').apply(lambda row: row.nlargest(3).index.tolist(), axis=1)
ageData = ageData.reset_index(name='카테고리')
ageData


Unnamed: 0,구분,카테고리
0,15~19세,"[편의성, 문화, 쇼핑]"
1,20대,"[음식, 쇼핑, 편의성]"
2,30대,"[관광, 편의성, 음식]"
3,40대,"[문화, 편의성, 관광]"
4,50대,"[문화, 휴양, 편의성]"
5,60세 이상,"[편의성, 편의성, 관광]"


In [17]:
# 사용자가 선택한 카테고리 추천 받기 (step1 사용자 입력)

# 원하는 카테고리를 입력 
print("연령대에 맞는 관광지를 추천해 드립니다.\n")
print("연령대를 입력 해 주세요.")
print("1. 15~19세, 2. 20대, 3. 30대, 4. 40대, 5. 50대, 6. 60세 이상")
print("\n")
age = int(input("연령대(번호로 입력): "))
print("\n")
print("선택한 연령대 : %s " %(ageData['구분'][age-1]))
print("연령대의 카테고리 : %s " %(ageData['카테고리'][age-1]))

# 관광지 추천함수 호출 
recommended_spots = recommend_similar_categories(ageData['카테고리'][age -1][0], ageData['카테고리'][age -1][1], ageData['카테고리'][age -1][2], data)

num = 0

for index, spot in recommended_spots.iterrows():
    num = num + 1
    print("\n")
    print("=========================================================================")
    print("%d 번째 추천된 카테고리의 관광지 : %s" %(num, spot['관광지이름']))
    print("도시이름 : %s" %(spot['도시이름']))
    print("관광지 설명 : %s" %(spot['관광지설명']))
    print("별점 : %d" %(spot['별점']))
    print("좋아요 : %s" %(spot['좋아요']))
    print("카테고리1 : %s" %(spot['카테고리1']))
    print("카테고리2 : %s" %(spot['카테고리2']))

연령대에 맞는 관광지를 추천해 드립니다.

연령대를 입력 해 주세요.
1. 15~19세, 2. 20대, 3. 30대, 4. 40대, 5. 50대, 6. 60세 이상


연령대(번호로 입력): 2


선택한 연령대 : 20대 
연령대의 카테고리 : ['음식', '쇼핑', '편의성'] 


1 번째 추천된 카테고리의 관광지 : 덴진 지하상가
도시이름 : 후쿠오카
관광지 설명 : 덴진 지역의 쇼핑 플레이스들을 잇는 큰 규모의 지하상가
별점 : 3
좋아요 : 29,274
카테고리1 : 편의성
카테고리2 : 쇼핑


2 번째 추천된 카테고리의 관광지 : 미하마 아메리칸 빌리지
도시이름 : 오키나와
관광지 설명 : 볼거리와 즐길거리가 넘쳐나는 미국풍 복합 쇼핑 타운
별점 : 4
좋아요 : 17,251
카테고리1 : 음식
카테고리2 : 쇼핑


3 번째 추천된 카테고리의 관광지 : 시카이로
도시이름 : 나가사키
관광지 설명 : 대표적인 현지 음식 나가사키 짬뽕과 사라 우동의 원조 맛집
별점 : 4
좋아요 : 233
카테고리1 : 편의성
카테고리2 : 음식


4 번째 추천된 카테고리의 관광지 : 사쿠라지마 용암 나기사 공원 앤 족욕
도시이름 : 가고시마
관광지 설명 : 아름다운 풍경의 해안 산책로와 무료 족욕탕이 있는 힐링 스팟
별점 : 4
좋아요 : 233
카테고리1 : 편의성
카테고리2 : 편의성


5 번째 추천된 카테고리의 관광지 : 노리타케의 숲
도시이름 : 나고야
관광지 설명 : 유명 도자기 브랜드 '노리타케'에서 운영하는 복합 시설
별점 : 3
좋아요 : 1,994
카테고리1 : 음식
카테고리2 : 음식
