In [1]:
import pickle
from sklearn.metrics.pairwise import cosine_similarity
import random
import pandas as pd
import numpy as np

# 저장된 모델 및 인코더, 벡터라이저, TF-IDF 행렬 불러오기
with open('xgboost_model1.pkl', 'rb') as f:
    loaded_model = pickle.load(f)

with open('label_encoder1.pkl', 'rb') as le_file:
    loaded_label_encoder = pickle.load(le_file)

with open('tfidf_vectorizer1.pkl', 'rb') as tv_file:
    loaded_tfidf_vectorizer = pickle.load(tv_file)

with open('tfidf_matrix1.pkl', 'rb') as tm_file:
    loaded_tfidf_matrix = pickle.load(tm_file)

In [2]:
# 데이터 불러오기
data = pd.read_csv('모델링DB용.csv')

# 필요한 열 제외
data = data.drop(columns=['curArtist', 'curTitle'])

# curExplain, curHead, curObject를 결합하여 새로운 컬럼 생성
data['combined'] = data['curExplain'].astype(str) + ' ' + data['curHead'].astype(str) + ' ' + data['curObject'].astype(str)

# 범주형 변수를 category 타입으로 변환
categorical_cols = ['curColor', 'curColor2', 'curColor3', 'genre', 'song']
for col in categorical_cols:
    data[col] = data[col].astype('category')

# 'song' 열을 Label Encoding
data['song'] = loaded_label_encoder.transform(data['song'])

In [3]:
# 예측 수행 및 랜덤 추천 함수
def recommend_random_songs(model, label_encoder, tfidf_vectorizer, tfidf_matrix, data, input_keywords, input_genre, n_recommendations=500, n_random=20):
    # 입력 키워드를 TF-IDF 벡터화
    input_vector = tfidf_vectorizer.transform([input_keywords])
    
    # 코사인 유사도 계산
    cosine_sim = cosine_similarity(input_vector, tfidf_matrix)
    
    # 입력한 장르와 일치하는 인덱스 필터링
    genre_indices = data[data['genre'] == input_genre].index
    
    # 유사도가 높은 순서로 정렬된 인덱스
    sorted_indices = genre_indices[np.argsort(-cosine_sim[0][genre_indices])]
    
    # 상위 n개의 유사한 노래 추천
    recommended_song_indices = sorted_indices[:n_recommendations]
    recommended_songs = label_encoder.inverse_transform(data.loc[recommended_song_indices, 'song'])
    
    # n개의 랜덤 추천 노래 선택
    random_recommendations = random.sample(list(recommended_songs), n_random)
    
    return random_recommendations

In [7]:
# 사용자 입력 예제
input_keywords = ' 설렘 휴가 산 연인'
input_genre = '발라드'

# 랜덤 추천 수행
random_recommendations = recommend_random_songs(loaded_model, loaded_label_encoder, loaded_tfidf_vectorizer, loaded_tfidf_matrix, data, input_keywords, input_genre)

for song in random_recommendations:
    print(song)

hyunghae - Loved you in a different way
박재정 - 헤어지자 말해요
박보람 - 애쓰지 마요
임재현 - 비의 랩소디
태연 - 그대라는 시
박재정 - 헤어지자 말해요
진민호 - 반만
지아 - 술 한잔 해요
김송연 - 사랑인가요
베이지 - 그리워 그리워서
김동률 - 오래된 노래
최유리 - 밤, 바다
태연 - This Christmas
경서 - 비가 내리는 밤이면
세븐틴 - 포옹
새봄 - 비 오는 날이 좋아질 것 같아
카더가든 - 그날, 우리
볼빨간사춘기 - 너는 내 세상이었어
겸 - 운명론
정재호 - 마지막 인사
