# 음악 추천 시스템

## 강의 소개
본 강의는 Python을 이용하여 `음악 추천 시스템`을 제작하는 과정을 설명한다.

## 목적

- 최대한 Python기본 기능을 활용하여 통계적인 방법을 이용한 `음악 추천 시스템`을 제작하고 단계적으로 개선하는 과정을 설명한다. 
- 그리고 주피터 노트북을 사용하여 웹브라우저에서도 쉽게 읽으면서 강의 내용을 따라 갈 수 있게 돕는다. 
- 또한, `음악 추천 시스템`을 제작하는데 필요한 코드를 모두 포함하고 있어서 적절한 환경만 갖춘다면 바로 웹브라우저에서도 바로 실행해서 결과를 확인할 수 있다. 
- 단순히 강의 내용을 읽고 실행해보는 것에 그치지 않고, 강의 내용에 포함된 직접 코드를 수정해 볼 수 있어서, 본인의 아이디어를 적용하여, 그 결과가 어떻게 기존의 강의 내용과 어떻게 다른지 확인해 볼 수 있다.


## 대상
Python의 기본적인 문법과 프로그램의 기본 구조(예: 반복문, 조건문 등)을 이해하고 있다면, 본 강의를 이해할 수 있다. 본 강의는 Python의 기본 기능을 위주로 사용하고 별도의 데이터 공학, 인공지능 라이브러리를 사용하지 않는다. 

## 음악 추천 시스템 소개

### 음악 스트리밍 서비스

음악을 듣는 방법이 기존의 CD, Vinyl과 같은 물리적 매체에서 벗어나 mp3파일을 받아서 휴대용 기기에서 재생하는 것을 지나서 최근에는 스마트폰으로 스트리밍 받아서 듣는 방식으로 진화해 왔다. 이런 방식으로 음악을 듣는 경우, 물리적인 매체나 음원을 소유하는 것이 아니라, 매월 일정 금액을 내고 기간내에는 무제한으로 음악을 스트리밍 받아서 청취하는 경우가 일반적이다. 아래 그림에 나온 것과 같은 다양한 음원 스트리밍 서비스가 이런 구독 방식을 채택하고 있다.

![음원스트리밍](./images/mrs1.png)


### 음악 추천
음악, 영화, 드라마와 같은 미디어를 제공하는 서비스는 고객/구독자가 계속 그 서비스를 사용 할 수 있도록 관심이 있을 만한 새로운 미디어를 지속적으로 추천한다. 음악 스트리밍 서비스의 경우, 아래 그림과 같이 어떤 사용자가 지금까지 청취하였던 음악의 목록을 기반으로 그 사용자가 관심을 가질 만한 비슷한 음악의 목록을 추천하여서 계속 같은 서비스를 이용 할 수 있도록 한다.


![음원추천](./images/mrs2.png)


위와 같은 과정을 정형화하면, 다음과 같은 함수로 모델링이 가능하다.
***
$
S_r = Recommend( S_u ) \\
S_u = \{S_i , S_j , S_k , \ldots , S_m \} \\
S_r = \{S_a , S_b , S_c , \ldots , S_m \} \\
S_u \bigcap S_r = \emptyset \\
$
***

사용자가 지금까지 청취한 음악의 집합을 $S_u = \{S_i , S_j , S_k , \ldots , S_m \}$라고 했을 때, 추천 함수 $Recommend( S_u )$는 주어진 집합을 기반으로 그 사용자가 듣고 싶어 할만한 음악의 집합을 $S_r = \{S_a , S_b , S_c , \ldots , S_m \}$와 같은 형태로 제시한다. 이 때, 두 집합 $S_u$와 $S_r$은 서로 소이다. 위와 같은 함수를 Python으로 구현하면 다음과 같다.

In [None]:
def recommend(song_list):
    """
    :song_list: 사용자가 지금까지 청취한 음악의 집합
    """
    pass


# userid 에 해당하는 사용자의 음악 청취 기록 집합
list_of_songs = get_song_list(userid)

# 추천받은 음악 집합
recommended_songs = recommend(list_of_songs)

위 함수에서 입력 값과 출력 값은 모두 집합이다. 일반적으로 청취 기록에서 음악을 청취한 순서는 추천시스템에서 중요한 정보가 아니므로 중복이 있을 수 있는 리스트가 아니라, 중복이 허용되지 않는 집합이다. 이 과목의 목표는 `def recommend(song_list)`를 효과적으로 구현하는데 있다.


## 일반적인 음악 추천 시스템의 아키텍처

![음원추천](./images/mrs3.png)

음악 추천 시스템은 일반적으로 위와 같은 아키텍처를 갖는다.

### 인터페이스
웹 (또는 모바일 앱) 인터페이스를 통해서 추천 요청을 생성하면, 추천 시스템이 그 요청을 받아서 사용자가 관심이 있어할 만한 음악의 집합을 다시 인터페이스를 통해서 전달한다. 

### 음악 추천 시스템
추천할 음악을 결정하는 단계에서 다양한 방법을 사용할 수 있다. 단순히 통계적으로 모든 사람들이 많이 듣는 음악을 추천해 줄 수 도 있고(가장 간단한 방법중에 하나이다), 비슷한 사용자를 찾아서 그 사용자가 들었던 음악중에 중복되지 않는 음악을 추천해 줄 수도 있다. 그외에는 다양한 기계학습 방법을 이용하여 추천 모델을 학습한 다음에 그 모델이 생성하는 음악의 집합중에 중복되지 않는 부분 집합을 추천하는 것도 방법이다. 

### 데이터베이스 
다른 사용들이 이제까지 들었던 음악의 청취 기록을 저장하기 위해서 데이터베이스가 아키텍처에 포함되어야 한다. 이 기록은 통계적인 방법이나 기계학습 기술을 이용한 음악 추천 모델을 학습 시키는데 필요한 정보이다.

## 음악 청취 기록 (데이터)
본 강의에서는 공개된 [멜론 플레이리스트 데이터](https://arena.kakao.com/c/8/data)를 이용하여 음악 추천 시스템을 구현한다.
그래서 해당 데이터의 구조를 파악하는 것이 중요하다. 위 링크에서 여러가지 파일을 받을 수 있는데 우선 `train.json`의 구조를 살펴보면 다음과 같다.


In [None]:
[
    {
        "tags": [
            "음악태그1",
            "음악태그2",
            "음악태그3",
            "음악태그4",
            ...
            "음악태그m",
        ],
        "id": "플레이리스트ID",
        "plylst_title": "플레이리스트 제목",
        "songs": [
            노래ID1,
            노래ID2,
            노래ID3,
            ...
            노래IDn
        ],
        "like_cnt": "좋아요개수",
        "updt_date": "해당 플레이리스트가 최종 변경된 시간"
    },
    
    ...
    
    {
        ...
    }
]

위 구조는 `train.json` 파일의 구조를 보여준다. 실제로는 `val.json`, `test.json`도 같은 구조를 가진다.
최상위 구조는 플레이리스트의 배열이다.
각 플레이리스트는 다음과 같은 속성을 가진다.

- `tags`: 플레이리스트를 설명할 수 있는 자연어로 된 태크들의 리스트. 빈 리스트도 허용됨.
- `id`: 플레이리스트를 구분하는 고유 ID.
- `plylst_title`: 플레이리스트의 제목. 빈 문자열도 허용됨.
- `songs`: 플레이리스트에 속해 있는 노래ID의 리스트. 중복 허용 안됨.
- `like_cnt`: 다른 사람들이 해당 플레이리스트에 `좋아요`를 누른 횟수
- `updt_date`: 해당 플레이리스트가 최종 변경된 시간

실제 예제는 다음과 같다.

In [None]:
[
  {
    "tags": [
      "<ED><9E><90><EB><A7><81>",
      "<ED><9C><B4><EC><8B><9D>",
      "<EB><B0><A4>",
      "<EC><83><88><EB><B2><BD>"
    ],
    "id": 147668,
    "plylst_title": "To. <ED><9E><98><EB><93><A4><EA><B3><A0> <EC><A7><80><EC><B9><9C> <EB><B6><84><EB><93><A4><EC><97><90><EA><B2><8C>",
    "songs": [
      663185,
      649626,
      6855,
      188486,
      348451,
      169945,
      512599,
      532114,
      454528,
      418935,
      124485,
      517372,
      549950,
      540588,
      500931,
      233641,
      331055,
      490266,
      268515,
      531820,
      413762,
      422713,
      522895,
      6925,
      615815,
      672550,
      379112,
      80972,
      227036,
      112153
    ],
    "like_cnt": 12,
    "updt_date": "2016-06-23 10:06:27.000"
  },

  ...
    
]

한글로 된 태그나 플레이리스트 제목은 unicode로 인코딩되어 있어서 위와 같이 나온다. 참고로, 태그나 플레이리스트에 있는 명사나 동사등을 파싱에서 사용할 예정이라면, 추천 시스템에서 unicode를 디코딩해서 사용해야 한다.

### 노래 메타 데이터
위 플레이리스트에는 각 노래의 ID만 기록되어 있다. 개별 노래는 여러가지 속성을 가지는데, 그 정보는 `song_meta.json`파일에 다음과 같은 형태로 기록되어 있다.

In [None]:
[
    {
        "song_gn_dtl_gnr_basket": [
            "세부장르ID1",
            "세부장르ID2",
            ...
            "세부장르IDk"
        ],
        "issue_date": "노래발표날짜",
        "album_name": "노래가 수록된 앨범 제목",
        "album_id": "노래가 수록된 앨범 ID",
        "artist_id_basket": [
            "아티스트ID1",
            "아티스트ID2",
            ...
            "아티스트IDn"
        ],
        "song_name": "노래 제목",
        "song_gn_gnr_basket": [
            "장르ID1",
            "장르ID2",
            ...
            "장르IDm"
        ],
        "artist_name_basket": [
            "아티스트이름1",
            "아티스트이름2",
            ...
            "아티스트이름p",
        ],
        "id": 장르ID
    },
    ...
]

최상위 구조는 노래의 배열이다. 각 노래는 다음과 같은 속성을 가진다.

In [None]:
[
    {
        "song_gn_dtl_gnr_basket": [
            "GN0901"
        ],
        "issue_date": "20140512",
        "album_name": "\ubd88\ud6c4\uc758 \uba85\uace1 - 7080 \ucd94\uc5b5\uc758 \uc584\uac1c\uc2dc\ub300 \ud31d\uc1a1\ubca0\uc2a4\ud2b8",
        "album_id": 2255639,
        "artist_id_basket": [
            2727
        ],
        "song_name": "Feelings",
        "song_gn_gnr_basket": [
            "GN0900"
        ],
        "artist_name_basket": [
            "Various Artists"
        ],
        "id": 0
    },
