# 10. 추천 시스템 구축에서의 이슈

<br>

#### 실제 추천 시스템 구축에서 고려해야할 주요 이슈
1. 아이템에 대한 평가가 없는 신규 사용자나 처음 시장에 나온 신제품의 경우
2. 대규모 사용자와 아이템을 대상으로 추천 알고리즘을 적용하기 위한 확장성 (Scalability)
3. 추천 알고리즘을 활용 방식
4. 데이터가 연속값이 아닌 이진값인 경우
5. 사용자의 선호 데이터를 구하기 어려운 경우

<br>

## 10.01. 신규 사용자와 아이템 (Cold Start Problem)
- 협업 필터링은 기본적으로는 데이터가 없는 사용자나 아이템에 대해서는 추천을 만들어낼 수 없음

    $\rightarrow$ 데이터가 없는 사용자나 아이템에 대해서 어떻게 할지를 결정해야 함


<br>

#### 사용자

- **보통은 추천을 위한 충분한 데이터가 없는 사용자에게는 모든 사용자에게 인기 있는 제품을 추천하는 방법을 사용**

    $\rightarrow$ **개인의 특성을 고려하지 않고 전체적으로 가장 인기 있는 '베스트 셀러'를 추천**
    
    $\rightarrow$ **사용자에 대한 데이터를 충분히 확보한 이후, 실제 협업 필터링을 적용하는 방식**
    


<br>

#### 아이템
- **아이템의 경우, 실제로 추천 시스템에서는 신규 아이템은 평가가 없어서 추천 리스트에 포함되지 않고,**
    
    **추천 리스트에 포함되지 않았기 때문에 평가를 더욱더 받기 어려운 '빈익빈 부익부'현상이 발생**
    
- **보통은 시간이 지나면서 신규 아이템에 대한 데이터가 축적되며 자연스럽게 추천이 가능하나,**
    
    **시간을 단축해야하는 필요가 있을 때, 사용자들에게 제시되는 추천 리스트에 신규 아이템을 임의로 투입하여, 사용자의 클리과 평가를 유도하는 방법을 적용 가능**
    

<br>

## 10.02. 확장성 (Stability)
- 현실에서 적용되는 추천 시스템은 많게는 수억 명의 사용자 데이터를 다뤄야 하는 경우가 존재
- 빠른 계산을 위한 근본적인 해결책은 Spark와 같은 병렬처리 기술
- 계산 능력을 높여도 사용자와 아이템이 많은 경우에는, 실시간으로 추천을 하는 것이 불가능할 떄가 존재

    $\rightarrow$ **주요 계산 (예: 사용자별 추천 리스트에 대한 계산을 배치방식으로 미리 해놓고 결과를 저장)을 먼저 시행**
    
- **배치 처리 방식으로도 구현하기가 어렵다면, 계산량이 적은 알고리즘을 고려**
    - CF의 경우 Item-Based가 User-Based보다 계산량이 적음

<br>

## 10.03 추천의 활용 (Presentation)
- 추천 시스템은 고객에게 추천 리스트를 제공하는 일에 사용되지만,

    어떤 고객이 선호할만한 아이템 리스트를 산출한 후에, 이를 고객에게 보이는 페이지의 한쪽에 표시하거나, 검색의 자동완성 기능에 반영할 할 수 있음
    
- 디지털 광고에서 각 사용자별로 맞춤형 광고를 제공함에 있어, 각 사용자가 가장 관심을 가질만한 광고를 추천 알고리즘으로 제공할 수 있으며,
    
    각 사용자와 각 광고에 대한 선호도 (혹은 클릭 가능성)를 추천 알고리즘으로 예측 후, 예측 선호도가 가장 높은 광고를 사용자에게 제시하도록 시스템을 구축 할 수 있음

- **도메인과 고객의 특성에 따라 추천 알고리즘의 활용은 달라질 수 있음**

<br>

## 10.04 이진 데이터 (Binary Data)
- 데이터가 연속형이 아닌 범주형 (예: 'click' / 'no click' 등)인 경우, 
    
    - **CF의 경우 : Cosine 유사도가 아닌 Jaccard 유사도 등을 사용**
    - **DL의 경우 : 각 층의 활성화 함수를 변형**

<br>

## 10.05. 사용자의 간접 평가 (Indirect Evaluation)
- **사용자들은 일반적으로 직접적인 평가 데이터를 제공하기 꺼림**
    
    $\rightarrow$ **범용성 있는 시스템을 구축하기 위해서는, 직접적인 데이터 외에도 간접적인 데이터를 활용하는 방식이 필요**
    
     - 간접적 데이터 : 사용자의 행동에서 유추할 수 있는 사용자의 암묵적인 선호 데이터
     
         예) 이커머스의 특정 페이지 방문 빈도, 체류 시간 등
     