# RooTrip 추천 시스템 - V4
### - 사용자가 해시태그별 좋아요를 누른 숫자를 바탕으로 가중

In [106]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 데이터프레임 생성
# data = {
#     'id': [1, 2, 3, 4, 5, 6],
#     'hashtag': [
#         [{"tag": "액티비티"}, {"tag": "여행"}, {"tag": "모험"}],
#         [{"tag": "바다"}, {"tag": "여행"}, {"tag": "휴양"}],
#         [{"tag": "산"}, {"tag": "자연"}, {"tag": "풍경"}],
#         [{"tag": "도시"}, {"tag": "음식"}, {"tag": "여행"}],
#         [{"tag": "체험"}, {"tag": "데이트"}, {"tag": "음식"}],
#         [{"tag": "관광"}, {"tag": "문화"}, {"tag": "자연"}, {"tag": "산"}, {"tag": "여행"}],
# 
#     ],
#     'board_id': [1, 2, 3, 4, 5, 6],
#     'title': ['어트랙션 여행', '바다 여행', '산 바다 관광', '부산 바다 해운대', 'aa', 'bb']
# }

data = {
    'id': [1, 2, 3, 4, 5, 6,7,8,9],
    'hashtag' : [
        [{"tag":"액티비티"},{"tag":"여행"},{"tag":"모험"}],
        [{"tag":"바다"},{"tag":"여행"},{"tag":"휴양"}],
        [{"tag":"산"},{"tag":"자연"},{"tag":"풍경"}],
        [{"tag":"도시"},{"tag":"음식"},{"tag":"여행"}],
        [{"tag":"체험"},{"tag":"데이트"},{"tag":"음식"}],
        [{"tag":"관광"},{"tag":"문화"},{"tag":"자연"},{"tag":"산"},{"tag":"여행"}],
        [{"tag": "산"}, {"tag": "여행"}, {"tag":"자연"}],
        [{"tag": "바다"}, {"tag": "여행"}, {"tag": "체험"}],
        [{"tag": "관광"}, {"tag": "바다"}, {"tag": "액티비티"}, {"tag": "풍경"}, {"tag": "모험"}]
    ],
    'board_id': [1, 2, 3, 4, 5, 6, 7,8,9],
    'title': ['어트랙션 여행', '바다 여행', '산 바다 관광', '부산 바다 해운대', 'aa', 'bb', 'Cc', 'dd', 'eq']
}

df1 = pd.DataFrame(data)
# print(df1)

df1= pd.read_csv('rootrip-board-sample.csv')
df1['hashtag'] = df1['hashtag'].apply(json.loads)
print(df1['hashtag'])

user_likes = [100, 1200, 200, 0, 0, 1, 0, 0, 2000, 0, 1000, 4, 0, 0]
          # 액티비티,  여행,   바다, 산,  관광, 자연,음식,문화,도시,모험, 휴양, 풍경, 체험, 데이트
tag_mapping = {
    "액티비티": 0,
    "여행": 1,
    "바다": 2,
    "산": 3,
    "관광": 4,
    "자연": 5,
    "음식": 6,
    "문화": 7,
    "도시": 8,
    "모험": 9,
    "휴양": 10,
    "풍경": 11,
    "체험": 12,
    "데이트": 13
}

def calculate_weights(tags, user_likes):
    weights = [user_likes[tag_mapping.get(tag['tag'], 0)] for tag in tags]
    return ' '.join([str(weight) for weight in weights])

# 각 게시물에 대해 가중치를 계산하여 'weights' 열에 저장
df1['weights'] = df1['hashtag'].apply(calculate_weights, user_likes=user_likes)
print(df1)

# CountVectorizer를 사용하여 단어 벡터화
count = CountVectorizer()
count_matrix = count.fit_transform(df1['weights'])

# 코사인 유사도 매트릭스 계산
cosine_sim = cosine_similarity(count_matrix, count_matrix)

# 사용자 입력 가중치와 각 행의 가중치 간의 유사도 계산
user_weight_vector = count.transform([' '.join([str(user_likes[i]) for i in range(len(user_likes))])])
print(user_weight_vector)
similarities = cosine_similarity(user_weight_vector, count_matrix)

# 유사도와 게시글 제목을 매핑
similarities_with_titles = list(enumerate(similarities[0]))
similarities_with_titles = sorted(similarities_with_titles, key=lambda x: x[1], reverse=True)

# 가장 유사한 게시글 추출
recommended_posts = []
for i in range(4):  # 상위 3개 게시글 추천
    post_idx = similarities_with_titles[i][0]
    recommended_posts.append((df1['content'].iloc[post_idx], df1['board_id'].iloc[post_idx]))

# 사용자에게 추천 목록을 출력
print("추천 게시글:")
for post_title, post_board_id in recommended_posts:
    print(f"{post_title} (게시글 ID: {post_board_id})")


0       [{'tag': '액티비티'}, {'tag': '여행'}, {'tag': '모험'}]
1         [{'tag': '바다'}, {'tag': '여행'}, {'tag': '휴양'}]
2          [{'tag': '산'}, {'tag': '자연'}, {'tag': '풍경'}]
3         [{'tag': '도시'}, {'tag': '음식'}, {'tag': '여행'}]
4        [{'tag': '체험'}, {'tag': '데이트'}, {'tag': '음식'}]
5     [{'tag': '관광'}, {'tag': '문화'}, {'tag': '자연'}, ...
6          [{'tag': '산'}, {'tag': '여행'}, {'tag': '자연'}]
7         [{'tag': '바다'}, {'tag': '여행'}, {'tag': '체험'}]
8     [{'tag': '관광'}, {'tag': '바다'}, {'tag': '액티비티'}...
9       [{'tag': '액티비티'}, {'tag': '휴양'}, {'tag': '도시'}]
10    [{'tag': '음식'}, {'tag': '관광'}, {'tag': '여행'}, ...
Name: hashtag, dtype: object
    id  ...          weights
0    1  ...       100 1200 0
1    2  ...    200 1200 1000
2    3  ...            0 1 4
3    4  ...      2000 0 1200
4    5  ...            0 0 0
5    6  ...     0 0 1 0 1200
6    7  ...         0 1200 1
7    8  ...       200 1200 0
8    9  ...    0 200 100 4 0
9   10  ...    100 1000 2000
10  11  ...  0 0 1200 1 1000

[11 ro

In [31]:
import pickle

In [19]:
df1.head(10)

Unnamed: 0,id,hashtag,board_id,content,weights
0,1,"[{""tag"":""액티비티""},{""tag"":""여행""},{""tag"":""모험""}]",1,액티비티 여행 모험,12314 12314 12314 12314 12314 12314 12314 1231...
1,2,"[{""tag"":""바다""},{""tag"":""여행""},{""tag"":""휴양""}]",2,바다 여행,12314 12314 12314 12314 12314 12314 12314 1231...
2,3,"[{""tag"":""산""},{""tag"":""자연""},{""tag"":""풍경""}]",3,산 자연 풍경,12314 12314 12314 12314 12314 12314 12314 1231...
3,4,"[{""tag"":""도시""},{""tag"":""음식""},{""tag"":""여행""}]",4,부산 바다 해운대,12314 12314 12314 12314 12314 12314 12314 1231...
4,5,"[{""tag"":""체험""},{""tag"":""데이트""},{""tag"":""음식""}]",5,체험 데이트 음식,12314 12314 12314 12314 12314 12314 12314 1231...
5,6,"[{""tag"":""관광""},{""tag"":""문화""},{""tag"":""자연""},{""tag""...",6,관광 문화 자연 산 여행,12314 12314 12314 12314 12314 12314 12314 1231...


In [11]:
recommend_borad = df1[['Hashtag','board_id']].copy()
recommend_borad

Unnamed: 0,Hashtag,board_id
0,"[{'tag': '어트랙션'}, {'tag': '여행'}]",1
1,"[{'tag': '바다'}, {'tag': '여행'}]",2
2,"[{'tag': '산'}, {'tag': '바다'}, {'tag': '관광'}]",3
3,"[{'tag': '부산'}, {'tag': '바다'}, {'tag': '해운대'}]",4


In [13]:
pickle.dump(recommend_borad, open('board.pickle','wb'))

In [15]:
pickle.dump(cosine_sim, open('cosine_sim.pickle','wb'))