# 문제4: 추천시스템의 주요 알고리즘

## 수행목표

- 추천시스템의 주요 알고리즘을 이해한다.


## 수행단계

- 다음 추천시스템의 주요 알고리즘을 조사하라.
  - 통계 기반의 추천
  - 연관 규칙 (Association Rule)
  - 콘텐츠 기반 필터링 (Content-Based Filtering)
  - 협업 필터링 (Collaborative Filtering)
  - 행렬 분해 (Matrix Factorization)
  - 하이브리드 방법(Hybrid Methods)
  - 딥러닝 기반의 추천 (Deep Learning)
- 조사한 추천시스템의 주요 알고리즘에 대해 설명할 수 있도록 문서화하고 공유하라.

## 추천시스템의 주요 알고리즘

- 개인적으로 '주요 알고리즘' 보다는 '주요 접근 방향' 이라고 생각함
   - 예를 들어 행렬 분해 자체만으로는 매핑이나 선호도 등을 제공하지 않으므로, 일반적으로 Content-based Filtering이나 Collaborative Filtering과 결합하여 사용됨

### 통계 기반의 추천

#### 정의
- 유저와 아이템 간의 관계 / 패턴을 파악하기 위한 통계적 방법 전반 (확률분포, 회귀, 상관관계, 클러스터링 등)
#### 적용
- 초창기의 추천시스템은 대부분 통계 기반으로 이루어짐
  - 사용자 평점 혹은 구매 횟수로 추천된 "인기 상품" 등
#### 비고
- 협업 필터링의 많은 알고리즘들이 통계 기반의 접근 방식을 사용함
- 베이즈 정리, 확률론적 접근 등도 통계 기반의 추천 시스템의 분류에 포함됨


### 연관 규칙 (Association Rule)

#### 정의
- 아이템 간의 동시 발생 (co-occurrence) 관계를 규칙 (rule) 형태로 표현
  - 예: "상품 X를 구매한 사람은 상품 Y도 구매할 확률이 높다"
#### 대표 알고리즘
- Apriori, FP-Growth 등
#### 적용
- 상품 추천, 광고 타겟팅, 장바구니 분석 등
#### 비고
- 아이템 간 연관성을 탐색하는 데 탁월
- 장점: 특정 아이템을 본 사용자가 구매 가능성이 높은 다른 아이템을 제시
- 단점: 사용자 취향(개인화) 관점이 약하고, 아이템 동시구매 빈도가 낮으면 유의미한 규칙을 찾기 어려움


### 콘텐츠 기반 필터링 (Content-Based Filtering)

#### 정의
- 아이템의 메타데이터 (장르, 카테고리, 특징 등) 와 사용자의 과거 선호 아이템 특성을 비교해 유사한 새로운 아이템을 추천.
  - 예: 영화 추천 시 장르·감독·배우·시놉시스 등을 분석, 사용자가 좋아했던 영화들과 “속성”이 비슷한 영화를 추천.
#### 비고
- 사용자 선호 ‘프로필’을 만들고, 이에 부합하는 아이템을 찾아줌.
- 콜드 스타트에서 협업 필터링보다 상대적으로 유리 (새로운 사용자도 “취향 태그” 만 입력하면 추천 가능)
- 장점: 사용자 개별 취향을 세밀히 분석 가능, 새로운 타입의 사용자 (신규 유저) 에 비교적 빨리 대응 가능
- 단점: 사용자가 본 적 없는 새로운 아이템을 추천하기 어려울 수 있음 (좋아했던 아이템과 비슷한 아이템만 추천)


### 협업 필터링 (Collaborative Filtering)

#### 정의
- “비슷한 취향의 사용자들은 유사한 아이템을 좋아한다” 는 가정에 기반
- 대규모 사용자-아이템 상호작용 (평점, 클릭, 구매 등) 데이터를 이용해, 유사도 기반으로 아이템을 추천
  - 사용자 기반: “나와 취향이 비슷한 다른 사용자들이 좋아한 아이템”을 추천.
  - 아이템 기반: “내가 좋아하는 아이템과 유사한 다른 아이템”을 추천.

#### 특징
- 별도의 도메인 지식(콘텐츠 메타데이터)이 없이, “사용자 행동 패턴”만으로 추천 가능

#### 비고
- 장점: 아이템 특성 정보가 없어도 (오직 사용자 행동 데이터로) 높은 개인화 성능을 낼 수 있음
- 단점: 콜드 스타트 (신규 사용자/아이템에 대한 데이터 부족 시 정확도가 내려가는 문제), 데이터 희소성 문제 (사용자가 아이템에 대한 평점을 많이 주지 않는 경우) 등
- `협업 필터링` 이라는 큰 틀 안에서 `행렬 분해` 같은 구체적 알고리즘이 자주 사용됨


### 행렬 분해 (Matrix Factorization)

#### 정의
- 사용자-아이템 평점 행렬(또는 상호작용 행렬)을, 두 개의 저차원 행렬로 분해하여, 잠재요인(latent factors)을 추출하는 기법
  - 예: 영화평점 행렬을 분해하면, 하나는 사용자 잠재요인(‘액션 선호도’, ‘로맨스 선호도’ 등), 다른 하나는 아이템 잠재요인(‘영화가 가진 장르적 특성’)이 됨

#### 적용
- 협업 필터링의 대표적인 알고리즘 중 하나

#### 비고
- 넷플릭스가 유명해진 계기 중 하나로 (Neflix Prize), 대규모 행렬에서 강력한 예측력을 보여줌
- 장점: 데이터가 큰 경우에도 효과적이며, 사용자-아이템 잠재 구조를 간결히 파악 가능.
- 단점: 해석력이 떨어질 수 있고 (추출된 잠재 요인이 무엇을 의미하는지 명시적이지 않음 - 블랙박스 문제) , 여전히 초기 평점 (또는 상호작용) 이 없는 경우 취향을 파악하기 어려움
- `행렬 분해` 는 `협업 필터링` 을 구현하는 하위 알고리즘 (또는 방법론) 으로 분류됨


### 하이브리드 방법 (Hybrid Methods)

#### 정의
- 여러 접근 방식 (협업 필터링, 콘텐츠 기반, 지식 기반 등) 을 결합하여, 각각의 단점을 보완하고 정확도를 높이는 방식.
#### 비고
- 서로 다른 추천 기법에서 나온 결과를 가중치, 앙상블로 합치거나, 단계별 파이프라인으로 연결함.
  - 예: 협업 필터링 + 콘텐츠 기반 필터링 → 사용자 선호 속성과 “다른 사용자”의 행동 데이터 모두 반영.
- 장점: 한쪽 기법의 한계를 다른 기법이 보완, 전반적으로 추천 품질 향상.
- 단점:
  - 구현 복잡성이 증가함
  - 여러 모델을 동시에 관리해야 하므로 리소스가 더 많이 필요함


### 딥러닝 기반의 추천 (Deep Learning)

#### 정의
- 인공신경망(Deep Neural Networks, CNN, RNN 등)을 활용하여, 대규모/복잡한 데이터를 분석하고 더 풍부한 특징(feature)을 추출해 추천에 활용하는 방식
  - 예: 세션 기반 추천, 이미지·텍스트·오디오·영상 등을 통합 분석하는 멀티모달 추천 등.

#### 대표 알고리즘
- Neural Collaborative Filtering(NCF), Wide & Deep, Transformers 기반 모델, 오토인코더(Autoencoder) 등

#### 비고
- 복합적인 입력(사용자 행동, 텍스트 리뷰, 시청 히스토리 + 이미지 등)을 End-to-End로 처리 가능.
- 장점: 매우 큰 데이터에서도 높은 예측 성능 가능, 복잡한 상호작용/패턴을 학습 가능
- 단계: 모델 해석력이 낮고 (블랙박스 문제), 대규모 데이터·연산 자원이 필요.
- `딥러닝 기반의 추천`도 사실 `협업 필터링`이나 `콘텐츠 기반` 기법을 “딥러닝 방식으로 구현” 하는 형태라고 볼 수 있음.
  - 즉, 기존 방법론을 더 깊게, 복잡하게 확장한 것.