#### 라이브러리

In [122]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import LabelEncoder
import xgboost as xgb
import time
from sklearn.metrics import accuracy_score
import warnings
import pickle
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
import random

In [123]:
# 경고 메시지 무시
warnings.filterwarnings(action='ignore', category=UserWarning, module='xgboost')

In [124]:
data = pd.read_csv('모델링DB용.csv')
data.head(5)

Unnamed: 0,curColor,curPer,curColor2,curPer2,curColor3,curPer3,curObject,curHead,curTitle,curExplain,curArtist,song,genre
0,Black,50.38,Grey,22.21,Grey,9.42,바지 시력 관리 고글 색안경 검정색과 흰색 플래시 사진 스타일 안경 단색화 흑백 사진,드라이브 맛 트렌디 세련된 알앤비 국내 힙합,Like I Do,,박재범,박재범 - Like I Do,R&B
1,Black,50.38,Grey,22.21,Grey,9.42,바지 시력 관리 고글 색안경 검정색과 흰색 플래시 사진 스타일 안경 단색화 흑백 사진,드라이브 맛 트렌디 세련된 알앤비 국내 힙합,Rewind,,VVON,VVON - Rewind,R&B
2,Black,50.38,Grey,22.21,Grey,9.42,바지 시력 관리 고글 색안경 검정색과 흰색 플래시 사진 스타일 안경 단색화 흑백 사진,드라이브 맛 트렌디 세련된 알앤비 국내 힙합,Westcoast Marriage,,Austn,Austn - Westcoast Marriage,R&B
3,Black,50.38,Grey,22.21,Grey,9.42,바지 시력 관리 고글 색안경 검정색과 흰색 플래시 사진 스타일 안경 단색화 흑백 사진,드라이브 맛 트렌디 세련된 알앤비 국내 힙합,Unlock,,차다빈,차다빈 - Unlock,R&B
4,Black,50.38,Grey,22.21,Grey,9.42,바지 시력 관리 고글 색안경 검정색과 흰색 플래시 사진 스타일 안경 단색화 흑백 사진,드라이브 맛 트렌디 세련된 알앤비 국내 힙합,Beautiful,,basecamp,basecamp - Beautiful,R&B


In [125]:
# 필요한 열 제외
data = data.drop(columns=['curArtist', 'curTitle'])

# curExplain, curHead, curObject를 결합하여 새로운 컬럼 생성
data['combined'] = data['curExplain'].astype(str) + ' ' + data['curHead'].astype(str) + ' ' + data['curObject'].astype(str)

# 범주형 변수를 category 타입으로 변환
categorical_cols = ['curColor', 'curColor2', 'curColor3', 'genre', 'song']
for col in categorical_cols:
    data[col] = data[col].astype('category')

# 'song' 열을 Label Encoding
label_encoder = LabelEncoder()
data['song'] = label_encoder.fit_transform(data['song'])

# LabelEncoder 저장
with open('label_encoder1.pkl', 'wb') as le_file:
    pickle.dump(label_encoder, le_file)

# TF-IDF 벡터화
tfidf_vectorizer = TfidfVectorizer(max_features=5000, ngram_range=(1, 2), min_df=2, max_df=0.8)
tfidf_matrix = tfidf_vectorizer.fit_transform(data['combined'])

# TF-IDF 결과를 데이터프레임으로 변환
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=tfidf_vectorizer.get_feature_names_out())

# TF-IDF Vectorizer 저장
with open('tfidf_vectorizer1.pkl', 'wb') as tv_file:
    pickle.dump(tfidf_vectorizer, tv_file)

# TF-IDF 행렬 저장
with open('tfidf_matrix1.pkl', 'wb') as tm_file:
    pickle.dump(tfidf_matrix, tm_file)

# 모델 학습에 사용할 데이터 준비 (curExplain, curHead, curObject, combined 열 제거)
X = pd.concat([data[['curColor', 'curPer', 'curColor2', 'curPer2', 'curColor3', 'curPer3', 'genre']].reset_index(drop=True), tfidf_df.reset_index(drop=True)], axis=1)
y = data['song']

# DMatrix 생성
dtrain = xgb.DMatrix(X, label=y, enable_categorical=True)

In [116]:
# LabelEncoder 저장
with open('label_encoder1.pkl', 'wb') as le_file:
    pickle.dump(label_encoder, le_file)
    
    # TF-IDF Vectorizer 저장
with open('tfidf_vectorizer1.pkl', 'wb') as tv_file:
    pickle.dump(tfidf_vectorizer, tv_file)

# TF-IDF 행렬 저장
with open('tfidf_matrix1.pkl', 'wb') as tm_file:
    pickle.dump(tfidf_matrix, tm_file)

#### XGBoost 모델의 특징
- 효율적인 구현: XGBoost는 gradient boosting 알고리즘을 효율적으로 구현한 라이브러리입니다. 이를 통해 빠른 학습 속도와 높은 예측 성능을 달성할 수 있습니다.
- 다양한 작업 지원: XGBoost는 분류, 회귀, 순위 예측 등 다양한 기계학습 작업을 지원합니다.
- 자동 특성 중요도 계산: XGBoost는 자동으로 각 특성의 중요도를 계산하여 제공합니다. 이를 통해 특성 선택 및 모델 해석에 활용할 수 있습니다.
- 병렬 처리 지원: XGBoost는 병렬 처리를 지원하여 대용량 데이터에 대한 학습이 가능합니다.
#### XGBoost 모델의 하이퍼파라미터
- max_depth: 트리의 최대 깊이를 제한하는 하이퍼파라미터입니다. 과적합을 방지하기 위해 적절한 값을 선택해야 합니다.
- learning_rate: 각 트리에서 업데이트되는 가중치의 크기를 조절하는 하이퍼파라미터입니다. 작은 값을 사용하면 과적합을 방지할 수 있습니다.
- n_estimators: 생성할 트리의 개수를 지정하는 하이퍼파라미터입니다. 적절한 값을 선택하여 모델의 성능을 향상시킬 수 있습니다.
- min_child_weight: 리프 노드에서 필요한 최소 샘플 수를 지정하는 하이퍼파라미터입니다. 과적합을 방지하는 데 도움이 됩니다.

In [22]:
# 모델 파라미터 설정
params = {
    'objective': 'multi:softmax',
    'learning_rate': 0.05,
    'max_depth': 6,
    'num_class': len(label_encoder.classes_)
}

# 학습 시간 측정
start_time = time.time()
model = xgb.train(params, dtrain, num_boost_round=100)
end_time = time.time()

# 학습 시간
training_time = end_time - start_time
print(f'학습 시간: {training_time} 초')

학습 시간: 9638.597186088562 초


In [23]:
# 모델 저장
with open('xgboost_model1.pkl', 'wb') as f:
    pickle.dump(model, f)

#### 입력값 예측 함수

In [150]:
# 예측 수행 및 랜덤 추천 함수
def recommend_random_songs(model, label_encoder, tfidf_vectorizer, tfidf_matrix, input_keywords, input_genre, n_recommendations=500, n_random=20):
    # 입력 키워드를 TF-IDF 벡터화
    input_vector = tfidf_vectorizer.transform([input_keywords])
    
    # 코사인 유사도 계산
    cosine_sim = cosine_similarity(input_vector, tfidf_matrix)
    
    # 입력한 장르와 일치하는 인덱스 필터링
    genre_indices = data[data['genre'] == input_genre].index
    
    # 유사도가 높은 순서로 정렬된 인덱스
    sorted_indices = genre_indices[np.argsort(-cosine_sim[0][genre_indices])]
    
    # 상위 n개의 유사한 노래 추천
    recommended_song_indices = sorted_indices[:n_recommendations]
    recommended_songs = label_encoder.inverse_transform(data.loc[recommended_song_indices, 'song'])
    
    # n개의 랜덤 추천 노래 선택
    random_recommendations = random.sample(list(recommended_songs), n_random)
    
    return random_recommendations

In [44]:
# 저장된 모델 불러오기
with open('xgboost_model1.pkl', 'rb') as f:
    loaded_model = pickle.load(f)

In [151]:
# 사용자 입력 예제
input_keywords = '설렘 산책 바다 혼자'
input_genre = '댄스'

# 랜덤 추천 수행
random_recommendations = recommend_random_songs(loaded_model, label_encoder, tfidf_vectorizer, tfidf_matrix, input_keywords, input_genre)

print("랜덤으로 선택된 추천 노래들:")
for song in random_recommendations:
    print(song)

랜덤으로 선택된 추천 노래들:
아일리원 - Shining Sky
JAMIE - Pity Party
NewJeans - Super Shy
폴킴 - 화이트
마틴스미스 - 봄 그리고 너
김아름 - 사이
아이유 - 미리 메리 크리스마스
김아름 - 사이
청하 - PLAY
아이들 - 퀸카
JAMIE - 5가지 Christmas
아이유 - 하루 끝
태연 - Weekend
뉴이스트 - BET BET
스페이스카우보이 - Guardian
BLACKPINK - Don't Know What To Do
다비치 - 화이트
JAMIE - Pity Party
8TURN - GLOW
김아름 - 선


In [152]:
# 추천된 결과를 평가하는 함수
def evaluate_recommendations(recommended_songs, actual_songs):
    intersection = set(recommended_songs).intersection(set(actual_songs))
    accuracy = len(intersection) / len(actual_songs)
    precision = len(intersection) / len(recommended_songs)
    recall = len(intersection) / len(actual_songs)
    if precision + recall == 0:
        f1 = 0
    else:
        f1 = 2 * (precision * recall) / (precision + recall)
    return accuracy, precision, recall, f1

# 실제 장르 내 노래 목록
actual_songs = label_encoder.inverse_transform(data[data['genre'] == input_genre]['song'])

# 평가 수행
accuracy, precision, recall, f1 = evaluate_recommendations(recommended_songs, actual_songs)

# 결과 출력 (소수점 2자리까지)
print(f'추천 시스템 정확도: {accuracy:.2f}')
print(f'추천 시스템 정밀도: {precision:.2f}')
print(f'추천 시스템 재현율: {recall:.2f}')
print(f'추천 시스템 F1 점수: {f1:.2f}')

추천 시스템 정확도: 0.69
추천 시스템 정밀도: 0.69
추천 시스템 재현율: 0.69
추천 시스템 F1 점수: 0.69
