## 데이터 로드

In [22]:
import json
import pandas as pd

with open('../Datasets/train.json', 'r', encoding='utf-8') as f:
    json_data = json.load(f)

In [23]:
train_data = pd.DataFrame(json_data)
train_data = train_data.drop(['id', 'plylst_title', 'updt_date'], axis=1)
train_data.head()

Unnamed: 0,tags,songs,like_cnt
0,[락],"[525514, 129701, 383374, 562083, 297861, 13954...",71
1,"[추억, 회상]","[432406, 675945, 497066, 120377, 389529, 24427...",1
2,"[까페, 잔잔한]","[83116, 276692, 166267, 186301, 354465, 256598...",17
3,"[연말, 눈오는날, 캐럴, 분위기, 따듯한, 크리스마스캐럴, 겨울노래, 크리스마스,...","[394031, 195524, 540149, 287984, 440773, 10033...",33
4,[댄스],"[159327, 553610, 5130, 645103, 294435, 100657,...",9


In [24]:
with open('../Datasets/song_meta.json', 'r', encoding='utf-8') as f:
    json_data = json.load(f)

In [25]:
song_data = pd.DataFrame(json_data)
song_data = song_data.drop(['album_name', 'song_gn_gnr_basket'], axis=1)
song_data.head()

Unnamed: 0,song_gn_dtl_gnr_basket,issue_date,album_id,artist_id_basket,song_name,artist_name_basket,id
0,[GN0901],20140512,2255639,[2727],Feelings,[Various Artists],0
1,"[GN1601, GN1606]",20080421,376431,[29966],"Bach : Partita No. 4 In D Major, BWV 828 - II....",[Murray Perahia],1
2,[GN0901],20180518,4698747,[3361],Solsbury Hill (Remastered 2002),[Peter Gabriel],2
3,"[GN1102, GN1101]",20151016,2644882,[838543],Feeling Right (Everything Is Nice) (Feat. Popc...,[Matoma],3
4,"[GN1802, GN1801]",20110824,2008470,[560160],그남자 그여자,[Jude Law],4


## 데이터 열 이름 변경

In [26]:
train_data.rename(columns={'songs':'song_id'}, inplace=True)
train_data.head()

Unnamed: 0,tags,song_id,like_cnt
0,[락],"[525514, 129701, 383374, 562083, 297861, 13954...",71
1,"[추억, 회상]","[432406, 675945, 497066, 120377, 389529, 24427...",1
2,"[까페, 잔잔한]","[83116, 276692, 166267, 186301, 354465, 256598...",17
3,"[연말, 눈오는날, 캐럴, 분위기, 따듯한, 크리스마스캐럴, 겨울노래, 크리스마스,...","[394031, 195524, 540149, 287984, 440773, 10033...",33
4,[댄스],"[159327, 553610, 5130, 645103, 294435, 100657,...",9


In [27]:
song_data.rename(columns={'id':'song_id', 'song_gn_dtl_gnr_basket': 'gnr'}, inplace=True)
song_data = song_data.astype({'issue_date':'int64'})
song_data.head()

Unnamed: 0,gnr,issue_date,album_id,artist_id_basket,song_name,artist_name_basket,song_id
0,[GN0901],20140512,2255639,[2727],Feelings,[Various Artists],0
1,"[GN1601, GN1606]",20080421,376431,[29966],"Bach : Partita No. 4 In D Major, BWV 828 - II....",[Murray Perahia],1
2,[GN0901],20180518,4698747,[3361],Solsbury Hill (Remastered 2002),[Peter Gabriel],2
3,"[GN1102, GN1101]",20151016,2644882,[838543],Feeling Right (Everything Is Nice) (Feat. Popc...,[Matoma],3
4,"[GN1802, GN1801]",20110824,2008470,[560160],그남자 그여자,[Jude Law],4


## 데이터 추출

- 500개의 플레이리스트 추출

In [28]:
train_data_sample = train_data[:500]

## 태그 병합

- 같은 노래에 부여된 서로 다른 태그들을 합친다
- 그 결과 동일한 태그 리스트가 거의 모든 노래에 부여되었다

In [29]:
train_data_sample = train_data_sample.explode('song_id', ignore_index=True)
train_data_sample.head(30)

Unnamed: 0,tags,song_id,like_cnt
0,[락],525514,71
1,[락],129701,71
2,[락],383374,71
3,[락],562083,71
4,[락],297861,71
5,[락],139541,71
6,[락],351214,71
7,[락],650298,71
8,[락],531057,71
9,[락],205238,71


In [30]:
train_dict = dict()

for i in range(len(train_data_sample)):
    song = train_data_sample['song_id'][i]
    tag = train_data_sample['tags'][i]
    
    if song in train_dict:
        for j in tag:
            train_dict[song].add(j)
    
    else:
        train_dict[song] = set(tag)
        
print(train_dict[157435])

{'kpop', '걸그룹댄스', '댄스', '여자아이돌', '스트레스해소'}


In [31]:
train_data_sample.drop_duplicates(subset='song_id', keep='first',inplace=True)
train_data_sample.shape

(16674, 3)

In [32]:
for i in range(len(train_data_sample)):
    song = train_data_sample['song_id'].iloc[i]
    
    train_data_sample['tags'].iloc[i] = list(train_dict[song])

train_data_sample.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  train_data_sample['tags'].iloc[i] = list(train_dict[song])


Unnamed: 0,tags,song_id,like_cnt
0,[락],525514,71
1,[락],129701,71
2,[락],383374,71
3,[락],562083,71
4,[락],297861,71


In [33]:
song_tag_appended = pd.merge(train_data_sample, song_data)
song_tag_appended = song_tag_appended.astype({'song_id':'int64'})
song_tag_appended.head()

Unnamed: 0,tags,song_id,like_cnt,gnr,issue_date,album_id,artist_id_basket,song_name,artist_name_basket
0,[락],525514,71,"[GN1402, GN1401]",20130506,2200223,[734201],Hey Little Girl,[The Sol]
1,[락],129701,71,"[GN0901, GN0902, GN1001]",20130917,2201802,[536907],Octagon,[Royal Bangs]
2,[락],383374,71,"[GN1012, GN1005, GN1001]",19911021,2216938,[166978],The Road,[Honeymoon Suite]
3,[락],562083,71,"[GN1013, GN0901, GN0902, GN1001]",20000919,43227,[19035],Honeymoon,[Phoenix]
4,[락],297861,71,"[GN1013, GN0901, GN0902, GN1001]",20050306,303657,[170117],High,[James Blunt]


In [34]:
song_tag_appended.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16674 entries, 0 to 16673
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   tags                16674 non-null  object
 1   song_id             16674 non-null  int64 
 2   like_cnt            16674 non-null  int64 
 3   gnr                 16674 non-null  object
 4   issue_date          16674 non-null  int64 
 5   album_id            16674 non-null  int64 
 6   artist_id_basket    16674 non-null  object
 7   song_name           16674 non-null  object
 8   artist_name_basket  16674 non-null  object
dtypes: int64(4), object(5)
memory usage: 1.3+ MB


## Word2Vec 사용

- 태그 리스트들을 word2vec로 학습시켜 태그 하나와 연관된 다른 태그들을 유추

In [35]:
train_data_sample2 = train_data[:500]

In [36]:
from gensim.models.word2vec import Word2Vec

w2v = Word2Vec(sentences = train_data_sample2['tags'], vector_size = 100, 
               window = 5, min_count = 1, workers = 4, sg = 1)

w2v.wv.vectors.shape

(727, 100)

In [37]:
print(w2v.wv.most_similar('락'))

[('새벽', 0.38008394837379456), ('방학', 0.323152095079422), ('기분전환', 0.3221883475780487), ('캐롤', 0.26910120248794556), ('대만', 0.2640238404273987), ('댄스', 0.263297438621521), ('청량한', 0.2608855664730072), ('어쿠스틱', 0.253212571144104), ('우울', 0.24505077302455902), ('명곡', 0.24368607997894287)]


## 코사인 유사도 사용

- 세부 장르를 사용해 코사인 유사도 측정한다
- 그후 유사도를 행렬로 저장한다

In [38]:
from sklearn.feature_extraction.text import CountVectorizer

song_tag_appended['gnr_literal'] = song_tag_appended['gnr'].apply(lambda x : (' ').join(x))

count_vect = CountVectorizer()
gnr_mat = count_vect.fit_transform(song_tag_appended['gnr_literal'])

gnr_mat.shape

(16674, 194)

In [39]:
from sklearn.metrics.pairwise import cosine_similarity

gnr_sim = cosine_similarity(gnr_mat, gnr_mat)
gnr_sim

array([[1.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 1.        , 0.33333333, ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.33333333, 1.        , ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.        , 0.        , 0.        , ..., 1.        , 0.70710678,
        0.70710678],
       [0.        , 0.        , 0.        , ..., 0.70710678, 1.        ,
        0.5       ],
       [0.        , 0.        , 0.        , ..., 0.70710678, 0.5       ,
        1.        ]])

In [40]:
simi_test = gnr_sim[1, :]
simi_test2 = gnr_sim[2, :]
print(simi_test + simi_test2)
print(song_data[song_data['song_id']==525514])
print(song_data[song_data['song_id']==129701])
print(song_data[song_data['song_id']==229622])

[0.         1.33333333 1.33333333 ... 0.         0.         0.        ]
                     gnr  issue_date  album_id artist_id_basket  \
525514  [GN1402, GN1401]    20130506   2200223         [734201]   

              song_name artist_name_basket  song_id  
525514  Hey Little Girl          [The Sol]   525514  
                             gnr  issue_date  album_id artist_id_basket  \
129701  [GN0901, GN0902, GN1001]    20130917   2201802         [536907]   

       song_name artist_name_basket  song_id  
129701   Octagon      [Royal Bangs]   129701  
                                     gnr  issue_date  album_id  \
229622  [GN1402, GN1401, GN0901, GN0902]    20061212    528351   

       artist_id_basket  song_name artist_name_basket  song_id  
229622         [406781]  Say Hello     [Rosie Thomas]   229622  


- 노래 id가 주어지면 유사도 순으로 n개의 노래 추출

In [41]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def get_cv(songs):
    songs['gnr_literal'] = songs['gnr'].apply(lambda x : (' ').join(x))
    count_vect = CountVectorizer()
    gnr_mat = count_vect.fit_transform(songs['gnr_literal'])
    return gnr_mat

def get_sim(song_index, gnr_mat, sim):
    if sim == 'cos':
        gnr_sim = cosine_similarity(gnr_mat[song_index], gnr_mat)
    
    elif sim == 'jac':
        gnr_sim = np.zeros(gnr_mat.shape[0])
        
        song_set = set(gnr_mat[song_index].indices)
    
        for i in range(gnr_mat.shape[0]):
            other_set = set(gnr_mat[i].indices)
            
            union = song_set.union(other_set)
            intersection = song_set.intersection(other_set)
            
            if len(union) != 0:
                gnr_sim[i] = len(intersection)/len(union)
                
    elif sim == 'pea':
        gnr_sim = np.zeros(gnr_mat.shape[0])
    
        a = gnr_mat[song_index].toarray()
    
        for i in range(gnr_mat.shape[0]):
            b = gnr_mat[i].toarray()
            b = b.T
        
            gnr_sim[i] = np.dot((a - np.mean(a)), (b - np.mean(b))) / ((np.linalg.norm(a - np.mean(a))) * (np.linalg.norm(b - np.mean(b))))

    return gnr_sim

In [42]:
import numpy as np

def find_sim_song(df, sim, mat, songs, top_n=10):
    simi = np.zeros(len(df['song_id']))
    minyear = 3000
    
    for song in songs:
        title_song = df[df['song_id'] == song]
        minyear = min(minyear, title_song['issue_date'].values[0]//10000)
    
    for song in songs:
        title_song = df[df['song_id'] == song]
        title_index = title_song.index.values
        
        sim_array = get_sim(title_index, mat, sim)
            
        simi = simi + sim_array
    
    simi /= len(songs)
    
    df['similarity'] = simi.reshape(-1, 1)
    temp = df.sort_values(by="similarity", ascending=False)
    
    # for song in songs:
    #     title_song = df[df['song_id'] == song]
    #     title_index = title_song.index.values
        
    #     temp = temp[temp.index.values != title_index]
    
    temp = temp[temp['issue_date'] > minyear*10000]
        
    # 유사도가 0.5 이하인 경우는 제외
    #temp = temp[temp['similarity'] >= 0.5]
    
    temp = temp.reset_index(drop=True)
    
    # final_index = temp.index.values[ : top_n]
    
    return temp.iloc[ : top_n]

In [43]:
similar_songs = find_sim_song(song_tag_appended, 'cos', gnr_mat, [525514, 129701, 229622], 10)

similar_songs[['song_id', 'similarity', 'issue_date', 'gnr']]

Unnamed: 0,song_id,similarity,issue_date,gnr
0,191430,0.761486,20140407,"[GN1402, GN1401, GN0901, GN0902]"
1,463782,0.761486,20170227,"[GN1402, GN1401, GN0901, GN0902]"
2,229622,0.761486,20061212,"[GN1402, GN1401, GN0901, GN0902]"
3,205238,0.606558,20110124,"[GN0904, GN1402, GN1401, GN0901, GN1001]"
4,701978,0.575727,20101011,"[GN1402, GN1401, GN1001]"
5,513731,0.569036,20111018,"[GN1402, GN1401]"
6,489449,0.569036,20111111,"[GN1402, GN1401]"
7,392798,0.569036,20111018,"[GN1402, GN1401]"
8,525514,0.569036,20130506,"[GN1402, GN1401]"
9,598147,0.569036,20131105,"[GN1402, GN1401]"


## 노래 추천

- w2v로 추출한 태그에 해당하는 플레이리스트
- 세부 장르의 유사도가 높은 노래 리스트
- 히스토리(test 플레이리스트)의 발행 연도와 같은 연도에 발행한 노래

In [44]:
'''
def song_recommend(tags, songs, tag_df, song_df, sim_mat):
    ts = tags
    
    # 태그가 존재할 경우 + 태그의 개수가 3개 미만인경우 w2v로 태그를 3개까지 늘린다
    all_tags = []
    if len(ts) != 0 and len(ts) < 3:
        for tag in ts:
            sim_tags = w2v.wv.most_similar(tag)
            for t in sim_tags:
                all_tags.append(t)
        all_tags = sorted(all_tags, key = lambda x : -x[1])
        i = 0
        while len(ts) != 0 and len(ts) < 3:
            tag = all_tags[i][0]
            if tag not in ts:
                ts.append(tag)
                i += 1

    # 해당 태그가 존재하는 플레이리스트의 노래를 추출하고 등장 빈도수로 정렬한다
    tag_songs = dict()
    
    for tag in ts:
        for i in range(len(tag_df['song_id'])):
            if tag in tag_df['tags'][i]:
                
                for ss in tag_df['song_id'][i]:
                    if not ss in songs:
                        
                        if ss in tag_songs:
                            tag_songs[ss] += 1
                            
                        else:
                            tag_songs[ss] = 1
                        
    tag_songs = sorted(tag_songs.items(), key=lambda x: x[1], reverse=True)
    
    # 기존 노래(히스토리)가 있는 경우 장르 유사도를 계산해
    #상위 100개의 노래를 찾아낸다
    if len(songs) > 0:
        simi_songs = find_sim_song(song_df, sim_mat, songs, 100)
        print(simi_songs)
    
    # 기존 노래(히스토리)가 없는 경우 최신 노래(2018~2023년도)를 찾아낸다
    else:
        simi_songs = song_df
        simi_songs = simi_songs[simi_songs['issue_date'] > 20180000]
        simi_songs = simi_songs[simi_songs['issue_date'] < 20240000]
    
    # 태그로 만들어낸 플레이리스트와 장르 유사도로 만들어낸 노래 목록
    # 둘 모두에 존재하는 노래 10개 추출한다
    recommended = []
    index = 0
    
    while len(recommended) < 10 and index < len(tag_songs):
        tag_song = tag_songs[index][0]
        
        if tag_song in simi_songs:
            recommended.append(tag_song)
            
        index += 1
        
    # 둘 모두에 존재하는 노래가 10개 미만인 경우
    # 각각에서 우선순위가 높은 노래들을 추출한다   
    if len(recommended) < 10:
        
        # 태그와 유사도 두 부분에서 동일한 개수(홀수일 경우 태그 > 유사도) 추출
        # sc = 유사도 부분에서 추출할 노래의 개수
        if len(recommended) % 2 == 0:
            sc = (10-len(recommended)) / 2
        else:
            sc = (10-len(recommended)) // 2
        
        # 태그는 있고 히스토리가 없는 경우 태그 부분에서 10개를 추출하기 위한 코드
        if len(songs) == 0:
            sc = 0
        
        # 이미 추출한 노래를 제외하고 태그 부분에서 정해진 개수만큼 추출한다
        # 태그가 없을 경우 동작하지 않음
        index = 0
        while len(tag_songs) != 0 and len(recommended) < (10 - sc):
            tag_song = tag_songs[index][0]
            
            if not tag_song in recommended:
                recommended.append(tag_song)
            
            index += 1
        
        # 이미 추출한 노래를 제외하고 추천 노래가 10개가 될떄까지
        # 유사도 부분에서 추출한다
        index = 0
        while len(recommended) < 10:
            simi_song = simi_songs['song_id'].values[index]
            
            if not simi_song in recommended:
                recommended.append(simi_song)
            
            index += 1
            
    # 추출된 노래 id를 가지고 데이터프레임을 추출한다
    rec_index = []
    
    for rec in recommended:
        title_song = song_df[song_df['song_id'] == rec]
        title_index = title_song.index
        rec_index.append(title_index[0])
    
    return song_df.iloc[rec_index]
'''

"\ndef song_recommend(tags, songs, tag_df, song_df, sim_mat):\n    ts = tags\n    \n    # 태그가 존재할 경우 + 태그의 개수가 3개 미만인경우 w2v로 태그를 3개까지 늘린다\n    all_tags = []\n    if len(ts) != 0 and len(ts) < 3:\n        for tag in ts:\n            sim_tags = w2v.wv.most_similar(tag)\n            for t in sim_tags:\n                all_tags.append(t)\n        all_tags = sorted(all_tags, key = lambda x : -x[1])\n        i = 0\n        while len(ts) != 0 and len(ts) < 3:\n            tag = all_tags[i][0]\n            if tag not in ts:\n                ts.append(tag)\n                i += 1\n\n    # 해당 태그가 존재하는 플레이리스트의 노래를 추출하고 등장 빈도수로 정렬한다\n    tag_songs = dict()\n    \n    for tag in ts:\n        for i in range(len(tag_df['song_id'])):\n            if tag in tag_df['tags'][i]:\n                \n                for ss in tag_df['song_id'][i]:\n                    if not ss in songs:\n                        \n                        if ss in tag_songs:\n                            tag_songs[ss] += 1\n  

In [45]:
'''
def song_recommend_test(tags, songs, tag_df, song_df, sim_mat):
    ts = tags
    
    # 태그가 존재할 경우 + 태그의 개수가 3개 미만인경우 w2v로 태그를 3개까지 늘린다
    all_tags = []
    if len(ts) != 0 and len(ts) < 3:
        for tag in ts:
            sim_tags = w2v.wv.most_similar(tag)
            for t in sim_tags:
                all_tags.append(t)
        all_tags = sorted(all_tags, key = lambda x : -x[1])
        i = 0
        while len(ts) != 0 and len(ts) < 3:
            tag = all_tags[i][0]
            if tag not in ts:
                ts.append(tag)
                i += 1

    # 해당 태그가 존재하는 플레이리스트의 노래를 추출하고 등장 빈도수로 정렬한다
    tag_songs = dict()
    
    for tag in ts:
        for i in range(len(tag_df['song_id'])):
            if tag in tag_df['tags'][i]:
                
                for ss in tag_df['song_id'][i]:
                    if not ss in songs:
                        
                        if ss in tag_songs:
                            tag_songs[ss] += 1
                            
                        else:
                            tag_songs[ss] = 1
                        
    tag_songs = sorted(tag_songs.items(), key=lambda x: x[1], reverse=True)
    
    # 기존 노래(히스토리)가 있는 경우 장르 유사도를 계산해
    #상위 100개의 노래를 찾아낸다
    if len(songs) > 0:
        simi_songs = find_sim_song(song_df, sim_mat, songs, 100)
    
    # 기존 노래(히스토리)가 없는 경우 최신 노래(2018~2023년도)를 찾아낸다
    else:
        simi_songs = song_df
        simi_songs = simi_songs[simi_songs['issue_date'] > 20180000]
        simi_songs = simi_songs[simi_songs['issue_date'] < 20240000]
    
    # 태그로 만들어낸 플레이리스트와 장르 유사도로 만들어낸 노래 목록
    # 둘 모두에 존재하는 노래 10개 추출한다
    recommended = []
    index = 0
    
    while len(recommended) < 10 and index < len(tag_songs):
        tag_song = tag_songs[index][0]
        
        if tag_song in simi_songs:
            recommended.append(tag_song)
            
        index += 1
    
    
    
    # 둘 모두에 존재하는 노래가 10개 미만인 경우
    # 각각에서 우선순위가 높은 노래들을 추출한다   
    if len(recommended) < 10:
        
        # 이미 추출한 노래를 제외하고 추천 노래가 10개가 될떄까지
        # 유사도 부분에서 추출한다
        index = 0
        while len(recommended) < 10 and len(simi_songs) != 0 and len(simi_songs) > index:
            simi_song = simi_songs['song_id'].values[index]
            
            if not simi_song in recommended:
                recommended.append(simi_song)
            
            index += 1
            
        if len(recommended) < 10:
            index = 0
            while len(tag_songs) != 0 and len(recommended) < 10:
                tag_song = tag_songs[index][0]
                if not tag_song in recommended:
                    recommended.append(tag_song)
                index += 1
            
    # 추출된 노래 id를 가지고 데이터프레임을 추출한다
    rec_index = []
    
    for rec in recommended:
        title_song = song_df[song_df['song_id'] == rec]
        title_index = title_song.index
        rec_index.append(title_index[0])
    
    return song_df.iloc[rec_index]
'''

"\ndef song_recommend_test(tags, songs, tag_df, song_df, sim_mat):\n    ts = tags\n    \n    # 태그가 존재할 경우 + 태그의 개수가 3개 미만인경우 w2v로 태그를 3개까지 늘린다\n    all_tags = []\n    if len(ts) != 0 and len(ts) < 3:\n        for tag in ts:\n            sim_tags = w2v.wv.most_similar(tag)\n            for t in sim_tags:\n                all_tags.append(t)\n        all_tags = sorted(all_tags, key = lambda x : -x[1])\n        i = 0\n        while len(ts) != 0 and len(ts) < 3:\n            tag = all_tags[i][0]\n            if tag not in ts:\n                ts.append(tag)\n                i += 1\n\n    # 해당 태그가 존재하는 플레이리스트의 노래를 추출하고 등장 빈도수로 정렬한다\n    tag_songs = dict()\n    \n    for tag in ts:\n        for i in range(len(tag_df['song_id'])):\n            if tag in tag_df['tags'][i]:\n                \n                for ss in tag_df['song_id'][i]:\n                    if not ss in songs:\n                        \n                        if ss in tag_songs:\n                            tag_songs[ss] += 

# 모델 평가
- [참고](https://chrisjune-13837.medium.com/%EC%B6%94%EC%B2%9C%EC%8B%9C%EC%8A%A4%ED%85%9C-%EC%84%B1%EB%8A%A5%ED%8F%89%EA%B0%80%EB%B0%A9%EB%B2%95-with-python-9932097f0ff9)

# Recall@K

In [46]:
def get_recall_k(y_true, y_pred):
    recall_k = 0
    
    true_items = set(y_true)
    pred_items = set(y_pred)
    intersect_items = len(true_items.intersection(pred_items))
    recall = intersect_items / len(true_items) if len(true_items) > 0 else 0
    return recall

#recall_k = get_recall_k(my_songs1, pred_list)
#print("Recall@K (K=10): {:.2f}".format(recall_k))

# Precision@K

In [47]:
def get_precision_k(y_true, y_pred):
    precision_k = 0
    
    true_items = set(y_true)
    pred_items = set(y_pred)
    intersect_items = len(true_items.intersection(pred_items))
    recall = intersect_items / len(pred_items) if len(pred_items) > 0 else 0
    return recall

#precision_k = get_precision_k(my_songs1, pred_list)
#print("Precision@K (K=10): {:.2f}".format(precision_k))

# Average Precision@K
- 아이템 개수가 매우 적은 경우, 모델의 성능 또한 낮아지는 문제가 발생
    - 해결방법
        1. Thresholding : 사용자 플레이리스트 내 음악이 일정 개수 이상인 경우만 적용
        2. Item Weighting : hits 에 1이 아닌 가중치를 이용. 이 때 precision 이 1 보다 크지 않게 하기 위해, 정규화 필요

In [48]:
def get_ap_k(y_true, y_pred, k):
    pred_items = y_pred[:k]
    hits = []
    for item in pred_items:
        if item in y_true:
            hits.append(1)
        else:
            hits.append(0)
    precision_values = []
    for i in range(1, k+1):
        precision_values.append(sum(hits[:i]) / i)
        
    print(precision_values)
    
    if len(precision_values) == 0:
        return 0
    else:
        return sum(precision_values) / len(precision_values)
    
#ap_k = get_ap_k(my_songs1, pred_list, 10)
#print("AP@K (K=10): {:.2f}".format(ap_k))

# Mean Average Precision@K

In [49]:
def get_map_k(y_true, y_pred, k):
    sum_ap = 0
    for true_item, pred_item in zip(y_true, y_pred):
        ap_k = get_ap_k(true_item, pred_item, k)
        sum_ap += ap_k
    if len(y_true) == 0:
        return 0
    else:
        return sum_ap / len(y_true)
    
#map_k = get_map_k(all_my_songs, all_pred_songs, 10)
#print("MAP@K (K=10): {:.2f}".format(map_k))

In [50]:
train_data.head(10)

Unnamed: 0,tags,song_id,like_cnt
0,[락],"[525514, 129701, 383374, 562083, 297861, 13954...",71
1,"[추억, 회상]","[432406, 675945, 497066, 120377, 389529, 24427...",1
2,"[까페, 잔잔한]","[83116, 276692, 166267, 186301, 354465, 256598...",17
3,"[연말, 눈오는날, 캐럴, 분위기, 따듯한, 크리스마스캐럴, 겨울노래, 크리스마스,...","[394031, 195524, 540149, 287984, 440773, 10033...",33
4,[댄스],"[159327, 553610, 5130, 645103, 294435, 100657,...",9
5,"[운동, 드라이브, Pop, 트로피컬하우스, 힐링, 기분전환, 2017, 팝, 트렌...","[418694, 222305, 96545, 135950, 304687, 457451...",435
6,"[짝사랑, 취향저격, 슬픔, 고백, 사랑, 이별]","[528130, 505036, 398947, 627363, 37748, 376358...",24
7,"[잔잔한, 추억, 회상]","[496913, 632529, 501426, 515574, 411161, 10341...",5
8,"[일렉트로니카, 포크, 메탈, 락, 댄스, 인디]","[634861, 270738, 163936, 692209, 449477, 56342...",0
9,"[록, Metal, 이일우, M에센셜, 메탈, Rock, 락]","[613315, 439294, 230806, 497932, 113479, 93506...",7


# 추천 함수 수정

### 사용자 플레이리스트 내 음악의 태그를 포함하는 노래 중에서 장르 유사도를 측정

In [51]:
def song_recommend(tags, songs, tag_df, song_df, sim):
    
    ts = tags
    '''
    # 태그가 존재할 경우 + 태그의 개수가 3개 미만인경우 w2v로 태그를 3개까지 늘린다
    all_tags = []
    if len(ts) != 0 and len(ts) < 3:
        for tag in ts:
            sim_tags = w2v.wv.most_similar(tag)
            for t in sim_tags:
                all_tags.append(t)
        all_tags = sorted(all_tags, key = lambda x : -x[1])
        i = 0
        while len(ts) != 0 and len(ts) < 3:
            tag = all_tags[i][0]
            if tag not in ts:
                ts.append(tag)
                i += 1
    '''
                
    # 해당 태그가 존재하는 플레이리스트의 노래를 추출하고 등장 빈도수로 정렬한다
    tag_songs = dict()
    
    for tag in ts:
        #print("현재 태그: {}".format(tag))
        for i in range(len(tag_df['song_id'])):
            if tag in tag_df['tags'][i]:
                #print("태그에 맞는 노래: {}".format(tag))
                for ss in tag_df['song_id'][i]:
                    #print(ss)
                    if ss in tag_songs:
                        tag_songs[ss] += 1
                            
                    else:
                        tag_songs[ss] = 1
                        
    #tag_songs = sorted(tag_songs.items(), key=lambda x: x[1], reverse=True)
    tag_songs = {key: value for key, value in tag_songs.items() if value > 0}
    tag_songs = list(tag_songs)
    tag_songs = song_df[song_df['song_id'].isin(tag_songs)]
    tag_songs = tag_songs.reset_index(drop=True)
    
    # 기존 노래(히스토리)가 있는 경우 장르 유사도를 계산해
    #상위 100개의 노래를 찾아낸다
    if len(songs) > 0:
        simi_songs = find_sim_song(tag_songs, sim, get_cv(tag_songs), songs, 100)
    
    # 기존 노래(히스토리)가 없는 경우 최신 노래(2018~2023년도)를 찾아낸다
    else:
        simi_songs = song_df
        simi_songs = simi_songs[simi_songs['issue_date'] > 20180000]
        simi_songs = simi_songs[simi_songs['issue_date'] < 20240000]
    
    # 태그로 만들어낸 플레이리스트와 장르 유사도로 만들어낸 노래 목록
    # 둘 모두에 존재하는 노래 10개 추출한다
    recommended = []
    
    for rec in simi_songs['song_id']:
        title_song = tag_songs[tag_songs['song_id'] == rec]
        title_index = title_song.index
        recommended.append(title_index[0])
    
    return tag_songs.iloc[recommended[:10]]



### 사용자 플레이리스트 내 음악과 높은 유사도를 가진 곡들 중, 태그 유사도가 높은 곡을 추천
- 높은 유사도를 가진 곡을 상위 100개로 할지, 일정 유사도보다 높은 경우로 할지를 나눠서 테스트할 예정

In [96]:
def make_song_num_dict(data):
    song_ids = dict()
    song_num = dict()
    max_num = 0
    
    for i in range(len(data)):
        songs = data['song_id'][i]
        tags = data['tags'][i]
        
        for j in tags:
            if not j in song_ids:
                song_ids[j] = set(songs)
            
            else:
                song_ids[j].update(songs)
    
    for i in song_ids:
        song_num[i] = len(song_ids[i])
        
        max_num = max(song_num[i], max_num)
    
    return song_num, max_num

song_num_dict, song_num_max = make_song_num_dict(train_data_sample2)
tag_weights = {tag: np.log(song_num_max / cnt + 1) for tag, cnt in song_num_dict.items()}
print(tag_weights)


{'락': 2.0216827075276433, '추억': 1.109636022350158, '회상': 1.3889286374859255, '까페': 1.494309492829487, '잔잔한': 0.9021582510106986, '연말': 3.6154754594620084, '눈오는날': 4.227985597958405, '캐럴': 3.6154754594620084, '분위기': 1.6666334864903256, '따듯한': 4.227985597958405, '크리스마스캐럴': 4.227985597958405, '겨울노래': 3.5117343497600797, '크리스마스': 3.040082918778058, '겨울왕국': 4.227985597958405, '크리스마스송': 4.227985597958405, '댄스': 1.3915745141911742, '운동': 1.593432646180186, '드라이브': 0.7700580347496879, 'Pop': 1.3547262627588452, '트로피컬하우스': 4.461299815568389, '힐링': 0.7107335650620211, '기분전환': 0.7099140404170124, '2017': 4.461299815568389, '팝': 1.2204868564468008, '트렌드': 4.461299815568389, '일렉': 2.25758772706331, '짝사랑': 3.9196858781737154, '취향저격': 1.7380301200426234, '슬픔': 1.506961211478803, '고백': 3.440795097647423, '사랑': 0.9464036547315458, '이별': 1.449978800988379, '일렉트로니카': 2.7958929024393266, '포크': 3.003907718569233, '메탈': 3.575226391878101, '인디': 1.2094522700905617, '록': 3.882708617759371, 'Metal': 4.33767513

In [100]:
def get_tag_simi(input_tag, simi_tags, imb_mode):
    if imb_mode == False:
        simi_lst = [w2v.wv.similarity(input_tag, simi_tag) for simi_tag in simi_tags]
        return max(simi_lst)
    else:
        weighted_simi_lst = []
        for tag in simi_tags:
            similarity = w2v.wv.similarity(input_tag, tag)
            if similarity < 0:
                weighted_simi_lst.append(tag_weights.get(tag, 0)/similarity)
            else:
                weighted_simi_lst.append(tag_weights.get(tag, 0)*similarity)
        return max(weighted_simi_lst)
        
def song_recommend2(tags, songs, tag_df, song_df, sim):
    
    # 기존 노래(히스토리)가 있는 경우 장르 유사도를 계산해
    #상위 100개의 노래를 찾아낸다
    if len(songs) > 0:
        simi_songs = find_sim_song(song_df, sim, get_cv(song_df), songs, 100)
    
    # 기존 노래(히스토리)가 없는 경우 최신 노래(2018~2023년도)를 찾아낸다
    else:
        simi_songs = song_df
        simi_songs = simi_songs[simi_songs['issue_date'] > 20180000]
        simi_songs = simi_songs[simi_songs['issue_date'] < 20240000]
    
    #print(simi_songs)
    
    '''

    # 태그가 존재할 경우 + 태그의 개수가 3개 미만인경우 w2v로 태그를 3개까지 늘린다
    all_tags = []
    if len(ts) != 0 and len(ts) < 3:
        for tag in ts:
            sim_tags = w2v.wv.most_similar(tag)
            for t in sim_tags:
                all_tags.append(t)
        all_tags = sorted(all_tags, key = lambda x : -x[1])
        i = 0
        while len(ts) != 0 and len(ts) < 3:
            tag = all_tags[i][0]
            if tag not in ts:
                ts.append(tag)
                i += 1
    '''
       
    ts = tags
    
    # 해당 태그가 존재하는 플레이리스트의 노래를 추출하고 등장 빈도수로 정렬한다
    tag_songs = dict()
    tag_simi_mean = []
    
    for simi_tags in simi_songs['tags']:
        songs_similality = []
        for input_tag in ts:
            songs_similality.append(get_tag_simi(input_tag, simi_tags, True))
        tag_simi_mean.append(sum(songs_similality) / len(songs_similality))
    
    tag_simi_mean = pd.DataFrame(columns = ['tag_simi'], data = tag_simi_mean)
    sorted_idx = tag_simi_mean['tag_simi'].sort_values(ascending = False).index
    #for i in sorted_idx:
    #    print("원본: {} / simi_mean: {}".format(simi_songs.loc[i, 'song_id'], tag_simi_mean.loc[i, 'tag_simi']))
    tag_simi_mean = simi_songs.loc[sorted_idx]
    
    '''
    # 태그로 만들어낸 플레이리스트와 장르 유사도로 만들어낸 노래 목록
    # 둘 모두에 존재하는 노래 10개 추출한다
    recommended = []
    
    for rec in simi_songs['song_id']:
        title_song = tag_songs[tag_songs['song_id'] == rec]
        title_index = title_song.index
        recommended.append(title_index[0])
    
    '''
    
    return tag_simi_mean.iloc[:10]



In [53]:
test_data_sample = train_data[:500]
test_my_tags = test_data_sample['tags'].tolist()
test_my_songs = test_data_sample['song_id'].tolist()

rec1 = song_recommend(test_my_tags[0], test_my_songs[0], train_data_sample2, song_tag_appended, 'cos')

pred_list = rec1['song_id'].tolist()
precision_k = get_precision_k(test_my_songs[0], pred_list)
recall_k = get_recall_k(test_my_songs[0], pred_list)

print("Recall@K (K=10): {:.2f}".format(recall_k))
print("Precision@K (K=10): {:.2f}".format(precision_k))

Recall@K (K=10): 0.16
Precision@K (K=10): 0.30


In [54]:
rec2 = song_recommend2(test_my_tags[0], test_my_songs[0], train_data_sample2, song_tag_appended, 'cos')
rec2.head(10)

Unnamed: 0,tags,song_id,like_cnt,gnr,issue_date,album_id,artist_id_basket,song_name,artist_name_basket,gnr_literal,similarity
76,[락],178323,2,"[GN0901, GN0902, GN1001]",20110125,1187354,[223484],Tree By The River,[iron & wine],GN0901 GN0902 GN1001,0.477692
77,[락],592196,2,"[GN0901, GN0902, GN1001]",20110222,2137908,[101138],You Only Live Once,[The Strokes],GN0901 GN0902 GN1001,0.477692
44,"[락, 빗물같은, 비오는날]",541824,3,"[GN0901, GN0902, GN1001]",20121112,2166466,[597831],Yayo,[Lana Del Rey],GN0901 GN0902 GN1001,0.477692
32,"[신나는, 밴드, 록, 세련된, Rock, 기분업, 락, 스타일]",423626,6,"[GN0901, GN0902, GN1001]",20130422,2182449,[19035],Entertainment,[Phoenix],GN0901 GN0902 GN1001,0.477692
33,"[신나는, 밴드, 록, 세련된, Rock, 기분업, 락, 스타일]",75991,6,"[GN0901, GN0902, GN1001]",20130930,2203239,[459133],Changing Of The Seasons,[Two Door Cinema Club],GN0901 GN0902 GN1001,0.477692
35,"[일상, 인디, 주말, 비오는날, 팝, 새벽, 겨울, 밤, 사랑, 힐링, 감성, 가요]",599123,2,"[GN0901, GN0902, GN1001]",20130506,2184051,[247867],Step,[Vampire Weekend],GN0901 GN0902 GN1001,0.477692
82,"[새벽, 잔잔한, 밤]",85335,13,"[GN0901, GN0902, GN1001]",20130129,2173759,[58796],Cruisin` (Solo),[Sioen],GN0901 GN0902 GN1001,0.477692
64,"[새벽, 잔잔한, 밤]",375010,13,"[GN0901, GN0902, GN1001]",20161007,2684525,[231983],Colors,[OneRepublic],GN0901 GN0902 GN1001,0.477692
85,"[새벽, 비오는날, 밤]",467570,1,"[GN0901, GN0902, GN1001]",20130313,2177904,[474562],Help,[Hurts],GN0901 GN0902 GN1001,0.477692
58,"[믿고듣는, 빌보드, 기분전환, 드라이브, 팝, 명곡]",252277,196,"[GN0901, GN0902, GN1001]",20120625,2130333,[107721],Moves Like Jagger (Studio Recording From The V...,[Maroon 5],GN0901 GN0902 GN1001,0.477692


In [55]:
print(rec1)

                                                  tags  song_id  like_cnt  \
186                                    [락, 빗물같은, 비오는날]   541824         3   
88   [운동, 위대함, 클럽, 팝, Greenday, 스트레스, Coldplay, 기분전...   562575         2   
13                                                 [락]   461973        71   
1                                                  [락]   129701        71   
209               [신나는, 밴드, 록, 세련된, Rock, 기분업, 락, 스타일]    75991         6   
229                                                [락]   178323         2   
237                                                [락]   592196         2   
207               [신나는, 밴드, 록, 세련된, Rock, 기분업, 락, 스타일]   423626         6   
5                                                  [락]   139541        71   
327     [영국, 인디, 1990, 몽환, 기타, 슈게이징, 실험, 드림팝, 센치한날, 락]   266993        42   

                                  gnr  issue_date  album_id artist_id_basket  \
186          [GN0901, GN0902, GN1001]    20121112   2166466         [597

In [56]:
pred_list = []
for plist, tags in zip(test_my_songs, test_my_tags):
    recommended = song_recommend(tags, plist, train_data_sample2, song_tag_appended, 'cos')
    pred_list.append(recommended['song_id'].tolist())
print(pred_list[0])

[541824, 562575, 461973, 129701, 75991, 178323, 592196, 423626, 139541, 266993]


In [57]:
map_k = get_map_k(test_my_songs, pred_list, 10)
print("MAP@K (K=10): {:.2f}".format(map_k))

[0.0, 0.0, 0.3333333333333333, 0.5, 0.4, 0.3333333333333333, 0.2857142857142857, 0.25, 0.3333333333333333, 0.3]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[0.0, 0.0, 0.3333333333333333, 0.25, 0.4, 0.3333333333333333, 0.2857142857142857, 0.375, 0.4444444444444444, 0.5]
[0.0, 0.0, 0.0, 0.25, 0.4, 0.3333333333333333, 0.42857142857142855, 0.375, 0.3333333333333333, 0.3]
[0.0, 0.5, 0.6666666666666666, 0.75, 0.8, 0.6666666666666666, 0.7142857142857143, 0.75, 0.7777777777777778, 0.8]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.14285714285714285, 0.125, 0.1111111111111111, 0.1]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[1.0, 0.5, 0.3333333333333333, 0.25, 0.4, 0.5, 0.5714285714285714, 0.625, 0.5555555555555556, 0.6]
[1.0, 0.5, 0.6666666666666666, 0.5, 0.4, 0.5, 0.42857142857142855, 0.375, 0.3333333333333333, 0.4]
[0.0, 0.5, 0.6666666666666666, 0.75, 0.8, 0.8333333333333334, 0.8571428571428571, 0.875, 0.8888888888888888, 0.9]
[0.0, 0.0, 0

In [101]:
pred_list = []
for plist, tags in zip(test_my_songs, test_my_tags):
    recommended = song_recommend2(tags, plist, train_data_sample2, song_tag_appended, 'cos')
    pred_list.append(recommended['song_id'].tolist())
print(pred_list[0])

[178323, 75991, 423626, 541824, 592196, 442524, 236393, 393817, 405781, 254760]


In [102]:
map_k = get_map_k(test_my_songs, pred_list, 10)
print("MAP@K (K=10): {:.2f}".format(map_k))

[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[1.0, 1.0, 1.0, 0.75, 0.6, 0.5, 0.42857142857142855, 0.375, 0.3333333333333333, 0.3]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[0.0, 0.5, 0.6666666666666666, 0.75, 0.8, 0.8333333333333334, 0.8571428571428571, 0.875, 0.7777777777777778, 0.8]
[1.0, 1.0, 1.0, 1.0, 0.8, 0.6666666666666666, 0.5714285714285714, 0.5, 0.4444444444444444, 0.4]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[1.0, 1.0, 1.0, 1.0, 1.0, 0.8333333333333334, 0.7142857142857143, 0.625, 0.5555555555555556, 0.5]
[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.8571428571428571, 0.75, 0.6666666666666666, 0.6]
[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[1.0, 0.5, 0.33

# nDCG

In [60]:
def ndcg_at_k(y_true, y_pred, k):
    ndcg = 0
    ranking = []
    
    for i in range(k):
        if y_pred[i] in y_true:
            ranking.append(1)
        else:
            ranking.append(0.1)
    print(ranking)
        
    # Ideal ranking을 계산하기 위해 ranking을 내림차순으로 정렬한 별도의 리스트
    ideal_ranking = sorted(ranking, reverse=True)
    
    # DCG 계산
    dcg = ranking[0]
    for i in range(1, min(k, len(ranking))):
        dcg += ranking[i] / np.log2(i + 1)
    
    # Ideal DCG 계산
    ideal_dcg = ideal_ranking[0]
    for i in range(1, min(k, len(ideal_ranking))):
        ideal_dcg += ideal_ranking[i] / np.log2(i + 1)
    
    # nDCG 계산
    if ideal_dcg == 0:
        ndcg = 0
    else:
        ndcg = dcg / ideal_dcg
    
    return ndcg

In [85]:
ndcg = 0
for true_item, pred_item in zip(test_my_songs, pred_list):
    ndcg += ndcg_at_k(true_item, pred_item, k=10)
    
ndcg_result = ndcg / len(test_my_songs)
print(f'nDCG: {ndcg_result:.4f}')

[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
[0.1, 0.1, 0.1, 1, 1, 1, 1, 0.1, 0.1, 0.1]
[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
[0.1, 0.1, 0.1, 0.1, 1, 1, 1, 1, 1, 0.1]
[1, 1, 1, 1, 1, 1, 0.1, 0.1, 0.1, 0.1]
[1, 1, 1, 1, 1, 0.1, 0.1, 0.1, 0.1, 0.1]
[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
[1, 1, 1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 

## 태그 세트 생성

In [62]:
def make_tag_set(data):
    tag_set = set()

    for i in range(len(data)):
        tag = data['tags'][i]
    
        for j in tag:
            tag_set.add(j)

    return tag_set

In [63]:
tag_set = make_tag_set(train_data_sample2)
print(tag_set)

{'안녕', '팝재즈', '인싸', '전지음악', '혼자', '뮤직카로마', '아미라면', '명곡', '칠링', '모두가_흥얼흥얼', '소란', '진원', '바이준', '자기전에', '강렬한사운드', '에너지', '헬스', '콘서트', 'dope', '외로움', '올드팝', '쉼표', '연주곡', '힙합', '햇살', '팝송', '아메리칸클래식', '록', '느낌있는', '흥겨운', 'NewHopeClub', '띵곡들', '추억회상', '내적댄스', '밴드음악', '혼자있을때', '캐롤', '댄스음악', '90년대', '발레', '잠', '가을동화', '어쿠스틱', '댄스본능', '국힙', '신곡', '언플러그드', '1990', '잠결', '6월', 'Rock', '스테파니', '펑크락', 'Summer', '페스티벌음악', 'rockisnotdead', '이별', 'RnB', '빌로우', '휴가', '숨겨진', 'unplugged', '밴드', '광고', '그냥', '봄나물', '수면', '월드뮤직', '우아한', '자연주의', '남녀', '광동', '중국', '필라테스', '사랑', '독서를돕는음악', '걸그룹', '라이징스타', '힘내', '힙합클럽', '사무실', '시험기간집중할때', '최신', '초록빛', '스트레스', '일요일', 'dance', '퓨쳐베이스', '낭만', '남자아이돌', '재즈', '현섭', '나른한', '휴일', 'before1970', '대만', '졸릴때', '편안한', '가요', '젝스키스', '발라드', 'SEX', '드라이브할때신나는노래', '나만들을꺼', '나만알기아까운노래', '마약', 'futurebass', '도입', '아이돌', '좋은곡들', '이태원', '따스한', '출근길', '신인', '댄스곡', '뉴홉클', '드라이브', '아련', '리드미컬', '추천곡', '타이틀곡', '내취향', '피트니스', '몽환한', '청량함', '토요명화', '멜로', '린아', '흥얼흥얼', '이일우', '펍', '8', '

## 태그 dict 생성 함수

## 영어 대소문자 통일

- 소문자로 통일

In [64]:
def make_dict_lower(tag_set):
    tag_dict = dict()
    
    for i in tag_set:
        if not i in tag_dict:
            tag_dict[i] = i.lower()
    
    return tag_dict

In [65]:
tag_lower_dict = make_dict_lower(tag_set)
print(tag_lower_dict)

{'안녕': '안녕', '팝재즈': '팝재즈', '인싸': '인싸', '전지음악': '전지음악', '혼자': '혼자', '뮤직카로마': '뮤직카로마', '아미라면': '아미라면', '명곡': '명곡', '칠링': '칠링', '모두가_흥얼흥얼': '모두가_흥얼흥얼', '소란': '소란', '진원': '진원', '바이준': '바이준', '자기전에': '자기전에', '강렬한사운드': '강렬한사운드', '에너지': '에너지', '헬스': '헬스', '콘서트': '콘서트', 'dope': 'dope', '외로움': '외로움', '올드팝': '올드팝', '쉼표': '쉼표', '연주곡': '연주곡', '힙합': '힙합', '햇살': '햇살', '팝송': '팝송', '아메리칸클래식': '아메리칸클래식', '록': '록', '느낌있는': '느낌있는', '흥겨운': '흥겨운', 'NewHopeClub': 'newhopeclub', '띵곡들': '띵곡들', '추억회상': '추억회상', '내적댄스': '내적댄스', '밴드음악': '밴드음악', '혼자있을때': '혼자있을때', '캐롤': '캐롤', '댄스음악': '댄스음악', '90년대': '90년대', '발레': '발레', '잠': '잠', '가을동화': '가을동화', '어쿠스틱': '어쿠스틱', '댄스본능': '댄스본능', '국힙': '국힙', '신곡': '신곡', '언플러그드': '언플러그드', '1990': '1990', '잠결': '잠결', '6월': '6월', 'Rock': 'rock', '스테파니': '스테파니', '펑크락': '펑크락', 'Summer': 'summer', '페스티벌음악': '페스티벌음악', 'rockisnotdead': 'rockisnotdead', '이별': '이별', 'RnB': 'rnb', '빌로우': '빌로우', '휴가': '휴가', '숨겨진': '숨겨진', 'unplugged': 'unplugged', '밴드': '밴드', '광고': '광고', '그냥': '그냥', '봄나물': '봄나물', '

## 특수문자 제거

In [66]:
import re

def make_dict_special(tag_set):
    tag_dict = dict()
    
    for i in tag_set:
        if not i in tag_dict:
            # 아래를 제외한 문자는 ''로 대체한다
            # \uAC00-WuD7A3 : 모든 한글 음절
            # 0-9 : 숫자
            # a-zA-Z : 모든 영어
            tag_dict[i] = re.sub(r'[^\uAC00-\uD7A30-9a-zA-Z]', '', i)
    
    return tag_dict

In [67]:
tag_special_dict = make_dict_special(tag_set)

# 현재 태그들은 특수문자가 '_'만 존재한다
print(tag_special_dict)

{'안녕': '안녕', '팝재즈': '팝재즈', '인싸': '인싸', '전지음악': '전지음악', '혼자': '혼자', '뮤직카로마': '뮤직카로마', '아미라면': '아미라면', '명곡': '명곡', '칠링': '칠링', '모두가_흥얼흥얼': '모두가흥얼흥얼', '소란': '소란', '진원': '진원', '바이준': '바이준', '자기전에': '자기전에', '강렬한사운드': '강렬한사운드', '에너지': '에너지', '헬스': '헬스', '콘서트': '콘서트', 'dope': 'dope', '외로움': '외로움', '올드팝': '올드팝', '쉼표': '쉼표', '연주곡': '연주곡', '힙합': '힙합', '햇살': '햇살', '팝송': '팝송', '아메리칸클래식': '아메리칸클래식', '록': '록', '느낌있는': '느낌있는', '흥겨운': '흥겨운', 'NewHopeClub': 'NewHopeClub', '띵곡들': '띵곡들', '추억회상': '추억회상', '내적댄스': '내적댄스', '밴드음악': '밴드음악', '혼자있을때': '혼자있을때', '캐롤': '캐롤', '댄스음악': '댄스음악', '90년대': '90년대', '발레': '발레', '잠': '잠', '가을동화': '가을동화', '어쿠스틱': '어쿠스틱', '댄스본능': '댄스본능', '국힙': '국힙', '신곡': '신곡', '언플러그드': '언플러그드', '1990': '1990', '잠결': '잠결', '6월': '6월', 'Rock': 'Rock', '스테파니': '스테파니', '펑크락': '펑크락', 'Summer': 'Summer', '페스티벌음악': '페스티벌음악', 'rockisnotdead': 'rockisnotdead', '이별': '이별', 'RnB': 'RnB', '빌로우': '빌로우', '휴가': '휴가', '숨겨진': '숨겨진', 'unplugged': 'unplugged', '밴드': '밴드', '광고': '광고', '그냥': '그냥', '봄나물': '봄나물', '수

## Stopword 제거

- 현재 태그는 단순 단어나 띄어쓰기가 제거된 단어의 조합으로 구성
- 임의의 Stopword를 선정할 필요가 존재
- 현재 아래 코드는 보류

In [68]:
# 설정 필요
stopwords = {'날려버려'}

In [69]:
def make_dict_stop(tag_set, stopwords):
    tag_dict = dict()
    
    for i in tag_set:
        if not i in tag_dict:
            # 빈 칸으로 만든 뒤 다른 함수로 제거할 예정
            if i in stopwords:
                tag_dict[i] = ''
            else:
                tag_dict[i] = i
                
    return tag_dict

In [70]:
tag_stop_dict = make_dict_stop(tag_set, stopwords)
print(tag_stop_dict)

{'안녕': '안녕', '팝재즈': '팝재즈', '인싸': '인싸', '전지음악': '전지음악', '혼자': '혼자', '뮤직카로마': '뮤직카로마', '아미라면': '아미라면', '명곡': '명곡', '칠링': '칠링', '모두가_흥얼흥얼': '모두가_흥얼흥얼', '소란': '소란', '진원': '진원', '바이준': '바이준', '자기전에': '자기전에', '강렬한사운드': '강렬한사운드', '에너지': '에너지', '헬스': '헬스', '콘서트': '콘서트', 'dope': 'dope', '외로움': '외로움', '올드팝': '올드팝', '쉼표': '쉼표', '연주곡': '연주곡', '힙합': '힙합', '햇살': '햇살', '팝송': '팝송', '아메리칸클래식': '아메리칸클래식', '록': '록', '느낌있는': '느낌있는', '흥겨운': '흥겨운', 'NewHopeClub': 'NewHopeClub', '띵곡들': '띵곡들', '추억회상': '추억회상', '내적댄스': '내적댄스', '밴드음악': '밴드음악', '혼자있을때': '혼자있을때', '캐롤': '캐롤', '댄스음악': '댄스음악', '90년대': '90년대', '발레': '발레', '잠': '잠', '가을동화': '가을동화', '어쿠스틱': '어쿠스틱', '댄스본능': '댄스본능', '국힙': '국힙', '신곡': '신곡', '언플러그드': '언플러그드', '1990': '1990', '잠결': '잠결', '6월': '6월', 'Rock': 'Rock', '스테파니': '스테파니', '펑크락': '펑크락', 'Summer': 'Summer', '페스티벌음악': '페스티벌음악', 'rockisnotdead': 'rockisnotdead', '이별': '이별', 'RnB': 'RnB', '빌로우': '빌로우', '휴가': '휴가', '숨겨진': '숨겨진', 'unplugged': 'unplugged', '밴드': '밴드', '광고': '광고', '그냥': '그냥', '봄나물': '봄나물', '

## Stemming 제거

- 한글에서 동일한 의미여도 표현이 다른 경우를 자동적으로 찾는 것은 불가능하다
- 임의로 동일한 의미의 단어 묶음을 만들 필요가 있다
- 현재 아래 코드는 보류

In [71]:
# 설정 필요
stemmings = {
    '락' : {'락', '록'}
}

In [72]:
def make_dict_stem(tag_set, stemmings):
    tag_dict = dict()
    
    for i in tag_set:
        if not i in tag_dict:
            
            # stemming으로 설정한 단어가 존재하는지 확인
            for j in stemmings:
                if i in stemmings[j]:
                    tag_dict[i] = j
                    break
            
            # 존재하지 않는 경우
            if not i in tag_dict:
                tag_dict[i] = i
    
    return tag_dict

In [73]:
tag_stem_dict = make_dict_stem(tag_set, stemmings)
print(tag_stem_dict)

{'안녕': '안녕', '팝재즈': '팝재즈', '인싸': '인싸', '전지음악': '전지음악', '혼자': '혼자', '뮤직카로마': '뮤직카로마', '아미라면': '아미라면', '명곡': '명곡', '칠링': '칠링', '모두가_흥얼흥얼': '모두가_흥얼흥얼', '소란': '소란', '진원': '진원', '바이준': '바이준', '자기전에': '자기전에', '강렬한사운드': '강렬한사운드', '에너지': '에너지', '헬스': '헬스', '콘서트': '콘서트', 'dope': 'dope', '외로움': '외로움', '올드팝': '올드팝', '쉼표': '쉼표', '연주곡': '연주곡', '힙합': '힙합', '햇살': '햇살', '팝송': '팝송', '아메리칸클래식': '아메리칸클래식', '록': '락', '느낌있는': '느낌있는', '흥겨운': '흥겨운', 'NewHopeClub': 'NewHopeClub', '띵곡들': '띵곡들', '추억회상': '추억회상', '내적댄스': '내적댄스', '밴드음악': '밴드음악', '혼자있을때': '혼자있을때', '캐롤': '캐롤', '댄스음악': '댄스음악', '90년대': '90년대', '발레': '발레', '잠': '잠', '가을동화': '가을동화', '어쿠스틱': '어쿠스틱', '댄스본능': '댄스본능', '국힙': '국힙', '신곡': '신곡', '언플러그드': '언플러그드', '1990': '1990', '잠결': '잠결', '6월': '6월', 'Rock': 'Rock', '스테파니': '스테파니', '펑크락': '펑크락', 'Summer': 'Summer', '페스티벌음악': '페스티벌음악', 'rockisnotdead': 'rockisnotdead', '이별': '이별', 'RnB': 'RnB', '빌로우': '빌로우', '휴가': '휴가', '숨겨진': '숨겨진', 'unplugged': 'unplugged', '밴드': '밴드', '광고': '광고', '그냥': '그냥', '봄나물': '봄나물', '

## 태그 dict 적용 함수

In [74]:
def apply_tag_dict(data, tag_dict):
    apply_data = data.copy()
    
    for i in range(len(apply_data)):
        tag = apply_data['tags'][i]
        apply_tag = []
        
        for j in tag:
            if not tag_dict[j] in apply_tag and tag_dict[j] != "":
                apply_tag.append(tag_dict[j])
        
        apply_data['tags'][i] = apply_tag

    return apply_data

In [75]:
stop_data = apply_tag_dict(train_data_sample2, tag_stop_dict)
stop_data.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  apply_data['tags'][i] = apply_tag


Unnamed: 0,tags,song_id,like_cnt
0,[락],"[525514, 129701, 383374, 562083, 297861, 13954...",71
1,"[추억, 회상]","[432406, 675945, 497066, 120377, 389529, 24427...",1
2,"[까페, 잔잔한]","[83116, 276692, 166267, 186301, 354465, 256598...",17
3,"[연말, 눈오는날, 캐럴, 분위기, 따듯한, 크리스마스캐럴, 겨울노래, 크리스마스,...","[394031, 195524, 540149, 287984, 440773, 10033...",33
4,[댄스],"[159327, 553610, 5130, 645103, 294435, 100657,...",9


In [76]:
# stopword가 제거됨
stop_tag_set = make_tag_set(stop_data)
print(stop_tag_set)

{'안녕', '팝재즈', '인싸', '전지음악', '혼자', '뮤직카로마', '아미라면', '명곡', '칠링', '모두가_흥얼흥얼', '소란', '진원', '바이준', '자기전에', '강렬한사운드', '에너지', '헬스', '콘서트', 'dope', '외로움', '올드팝', '쉼표', '연주곡', '힙합', '햇살', '팝송', '아메리칸클래식', '록', '느낌있는', '흥겨운', 'NewHopeClub', '띵곡들', '추억회상', '내적댄스', '밴드음악', '혼자있을때', '캐롤', '댄스음악', '90년대', '발레', '잠', '가을동화', '어쿠스틱', '댄스본능', '국힙', '신곡', '언플러그드', '1990', '잠결', '6월', 'Rock', '스테파니', '펑크락', 'Summer', '페스티벌음악', 'rockisnotdead', '이별', 'RnB', '빌로우', '휴가', '숨겨진', 'unplugged', '밴드', '광고', '그냥', '봄나물', '수면', '월드뮤직', '우아한', '자연주의', '남녀', '광동', '중국', '필라테스', '사랑', '독서를돕는음악', '걸그룹', '라이징스타', '힘내', '힙합클럽', '사무실', '시험기간집중할때', '최신', '초록빛', '스트레스', '일요일', 'dance', '퓨쳐베이스', '낭만', '남자아이돌', '재즈', '현섭', '나른한', '휴일', 'before1970', '대만', '졸릴때', '편안한', '가요', '젝스키스', '발라드', 'SEX', '드라이브할때신나는노래', '나만들을꺼', '나만알기아까운노래', '마약', 'futurebass', '도입', '아이돌', '좋은곡들', '이태원', '따스한', '출근길', '신인', '댄스곡', '뉴홉클', '드라이브', '아련', '리드미컬', '추천곡', '타이틀곡', '내취향', '피트니스', '몽환한', '청량함', '토요명화', '멜로', '린아', '흥얼흥얼', '이일우', '펍', '8', '

## 태그 불균형 데이터

## 불균형 정도 측정

- 한 태그를 가지는 음악의 최대 개수, 한 태그를 가지는 음악의 개수를 추출
- 가중치 부여에 관해서는 논의가 필요

In [77]:
def make_song_num_dict(data):
    song_ids = dict()
    song_num = dict()
    max_num = 0
    
    for i in range(len(data)):
        songs = data['song_id'][i]
        tags = data['tags'][i]
        
        for j in tags:
            if not j in song_ids:
                song_ids[j] = set(songs)
            
            else:
                song_ids[j].update(songs)
    
    for i in song_ids:
        song_num[i] = len(song_ids[i])
        
        max_num = max(song_num[i], max_num)
    
    return song_num, max_num

In [78]:
song_num_dict, song_num_max = make_song_num_dict(train_data_sample2)
print(song_num_max)
print(song_num_dict)

2568
{'락': 392, '추억': 1263, '회상': 853, '까페': 743, '잔잔한': 1753, '연말': 71, '눈오는날': 38, '캐럴': 71, '분위기': 598, '따듯한': 38, '크리스마스캐럴': 38, '겨울노래': 79, '크리스마스': 129, '겨울왕국': 38, '크리스마스송': 38, '댄스': 850, '운동': 655, '드라이브': 2214, 'Pop': 893, '트로피컬하우스': 30, '힐링': 2480, '기분전환': 2484, '2017': 30, '팝': 1075, '트렌드': 30, '일렉': 300, '짝사랑': 52, '취향저격': 548, '슬픔': 731, '고백': 85, '사랑': 1629, '이별': 787, '일렉트로니카': 167, '포크': 134, '메탈': 74, '인디': 1092, '록': 54, 'Metal': 34, '이일우': 15, 'M에센셜': 15, 'Rock': 119, 'kpop': 157, '걸그룹댄스': 157, '스트레스해소': 166, '새해': 45, '여행': 1065, '프로필음악': 45, '카카오톡': 45, '소원': 45, '프로필': 45, '소망': 45, '다짐': 45, '카톡': 45, '듣고': 21, '우울': 294, '이거': 21, '힘내': 90, '힙합': 1316, '느낌있는': 425, '밤': 1498, '새벽': 1603, 'RnB': 310, '감각적인': 217, '국내': 66, '그루브한': 66, '가을': 569, '재즈': 401, '감성': 1871, '질리지않는': 31, '나만알고싶은': 79, '봄': 432, '설렘': 940, '비오는날': 1087, '누군가생각날때': 18, '스밍': 16, '목록': 16, '폐막식': 16, '올림픽': 16, '엑소': 16, '조용히': 44, '혼자': 190, '또는': 44, '새벽감성': 54, '고민': 44, '맥주한잔': 44, '카

## 장르 데이터

## 불균형 데이터 처리

In [79]:
def make_genre_num_dict(appended_data):
    song_ids = dict()
    song_num = dict()
    max_num = 0
    
    for i in range(len(appended_data)):
        song = appended_data['song_id'][i]
        gnrs = appended_data['gnr'][i]
        
        for j in gnrs:
            if not j in song_ids:
                song_ids[j] = {song}
            
            else:
                song_ids[j].add(song)
    
    for i in song_ids:
        song_num[i] = len(song_ids[i])
        
        max_num = max(song_num[i], max_num)
    
    return song_num, max_num

In [80]:
genre_num_dict, genre_num_max = make_genre_num_dict(song_tag_appended)
print(genre_num_max)
print(genre_num_dict)

3049
{'GN1402': 102, 'GN1401': 180, 'GN0901': 1783, 'GN0902': 353, 'GN1001': 953, 'GN1012': 80, 'GN1005': 22, 'GN1013': 276, 'GN1003': 102, 'GN1304': 218, 'GN1301': 766, 'GN1302': 605, 'GN0904': 27, 'GN1912': 138, 'GN1904': 25, 'GN1901': 143, 'GN1102': 361, 'GN1101': 942, 'GN0101': 3049, 'GN0103': 175, 'GN0601': 1118, 'GN0605': 266, 'GN0104': 612, 'GN0508': 101, 'GN0501': 1731, 'GN0503': 562, 'GN0805': 514, 'GN0502': 468, 'GN0801': 670, 'GN0509': 1506, 'GN0105': 1710, 'GN0606': 680, 'GN1701': 657, 'GN1706': 88, 'GN1803': 63, 'GN1801': 661, 'GN1608': 31, 'GN1601': 439, 'GN1501': 1004, 'GN1504': 600, 'GN2601': 175, 'GN2603': 91, 'GN2602': 54, 'GN1708': 12, 'GN1502': 71, 'GN0401': 974, 'GN0403': 626, 'GN0402': 250, 'GN0303': 756, 'GN0301': 1363, 'GN1703': 107, 'GN0504': 70, 'GN0908': 303, 'GN1509': 33, 'GN2207': 25, 'GN1506': 47, 'GN0907': 33, 'GN1702': 117, 'GN0506': 214, 'GN0702': 10, 'GN0708': 11, 'GN0701': 24, 'GN2502': 630, 'GN2506': 793, 'GN2501': 1358, 'GN0203': 133, 'GN0201': 1267