# RooTrip 추천 시스템 v3
### - 사용자가 좋아요를 누른 해시태그를 점수별로 가중치를 부여하여 게시글 추천

In [32]:
import pandas as pd
import json
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 데이터프레임 생성 (예시)
data = {
    'id': [1, 2, 3, 4],
    'Hashtag': [
        '[{"tag": "어트랙션", "like": 2}, {"tag": "여행", "like": 4}]',
        '[{"tag": "바다", "like": 1}, {"tag": "여행", "like": 4}]',
        '[{"tag": "산", "like": 1}, {"tag": "바다", "like": 1}, {"tag": "관광", "like": 2}]',
        '[{"tag": "부산", "like": 11}, {"tag": "바다", "like": 1}, {"tag": "해운대", "like": 2}]'
    ],
    'user': [1, 2, 3, 4],
    'title': ['어트랙션 여행', '바다 여행', '산 바다 관광', '부산 바다 해운대']
}
import pandas as pd
import numpy as np
import json
import os

# os.chdir('/Users/woojjam/Desktop/study/machine-learning/Projects/rootrip-recommendation')

df1 = pd.read_csv('rootrip-user-like-weight.csv')
print(df1)

df11 = pd.read_csv('rootrip-board.csv')
print(df11)
                  
df2 = pd.DataFrame(data)
print(df2)

   id                                            Hashtag user
0   1   [{"tag":"어트랙션", "like":2},{"tag":"여행","like":4}]   1번
1   2      [{"tag":"바다","like":1},{"tag":"여행","like":4}]   2번
2   3  [{"tag":"산","like":1},{"tag":"바다","like":1},{"...   3번
3   4  [{"tag":"부산","like":11},{"tag":"바다","like":1},...   4번
   id                                    Hashtag        like      title
0   1              [{"tag":"어트랙션"},{"tag":"여행"}]        1234    어트랙션 여행
1   2                [{"tag":"바다"},{"tag":"여행"}]      124124      바다 여행
2   3    [{"tag":"산"},{"tag":"바다"},{"tag":"관광"}]         211    산 바다 여행
3   4  [{"tag":"부산"},{"tag":"바다"},{"tag":"해운대"}]  1232145123  부산 바다 해운대
   id                                            Hashtag  user      title
0   1  [{"tag": "어트랙션", "like": 2}, {"tag": "여행", "li...     1    어트랙션 여행
1   2  [{"tag": "바다", "like": 1}, {"tag": "여행", "like...     2      바다 여행
2   3  [{"tag": "산", "like": 1}, {"tag": "바다", "like"...     3    산 바다 관광
3   4  [{"tag": "부산", "like": 11},

In [33]:
# JSON 데이터를 파이썬 객체로 변환
df1['Hashtag'] = df1['Hashtag'].apply(lambda x: json.loads(x.replace('\'', '\"')))
df1

Unnamed: 0,id,Hashtag,user
0,1,"[{'tag': '어트랙션', 'like': 2}, {'tag': '여행', 'li...",1번
1,2,"[{'tag': '바다', 'like': 1}, {'tag': '여행', 'like...",2번
2,3,"[{'tag': '산', 'like': 1}, {'tag': '바다', 'like'...",3번
3,4,"[{'tag': '부산', 'like': 11}, {'tag': '바다', 'lik...",4번


In [35]:
user_hashtags = '부산, 관광, 산'.split(', ')

In [36]:
def create_soup(x):
    hashtags = []
    for tag in x:
        tag_name = tag['tag']
        like_count = tag['like']
        hashtags.extend([tag_name] * like_count)
    return ' '.join(hashtags)

In [37]:
df1['soup'] = df1['Hashtag'].apply(create_soup)
df1

Unnamed: 0,id,Hashtag,user,soup
0,1,"[{'tag': '어트랙션', 'like': 2}, {'tag': '여행', 'li...",1번,어트랙션 어트랙션 여행 여행 여행 여행
1,2,"[{'tag': '바다', 'like': 1}, {'tag': '여행', 'like...",2번,바다 여행 여행 여행 여행
2,3,"[{'tag': '산', 'like': 1}, {'tag': '바다', 'like'...",3번,산 바다 관광 관광
3,4,"[{'tag': '부산', 'like': 11}, {'tag': '바다', 'lik...",4번,부산 부산 부산 부산 부산 부산 부산 부산 부산 부산 부산 바다 해운대 해운대


In [38]:
# CountVectorizer를 사용하여 단어 벡터화
count = CountVectorizer()
count_matrix = count.fit_transform(df1['soup'])

# 코사인 유사도 매트릭스 계산
cosine_sim = cosine_similarity(count_matrix, count_matrix)
cosine_sim

array([[1.        , 0.86772183, 0.        , 0.        ],
       [0.86772183, 1.        , 0.10846523, 0.02160679],
       [0.        , 0.10846523, 1.        , 0.03984095],
       [0.        , 0.02160679, 0.03984095, 1.        ]])

In [39]:
# 사용자 입력 해시태그와 각 행의 해시태그 간의 유사도 계산
user_hashtag_soup = ' '.join(user_hashtags)
user_hashtag_vector = count.transform([user_hashtag_soup])

# 좋아요를 가중치로 고려한 유사도 계산
similarities = cosine_similarity(user_hashtag_vector, count_matrix)

In [40]:
# 유사도와 영화 제목을 매핑
similarities_with_titles = list(enumerate(similarities[0]))
similarities_with_titles = sorted(similarities_with_titles, key=lambda x: x[1], reverse=True)

In [42]:
# 가장 유사한 영화 추출
recommended_movies = []
for i in range(4):  # 상위 3개 영화 추천
    movie_idx = similarities_with_titles[i][0]
    recommended_movies.append(df1['user'].iloc[movie_idx])

# 사용자에게 추천 목록을 출력
print("추천 영화:")
for movie in recommended_movies:
    print(movie)

추천 영화:
4번
3번
1번
2번
