# 목표
- [MovieLens](https://grouplens.org/datasets/movielens/)
- [KMRD](https://github.com/lovit/kmrd)
- [Netflix]https://archive.org/details/nf_prize_dataset.tar)

각 데이터에서 제공하는 항목이 개발하려고 하는 추천 시스템에서 활용하기 쉬운지 파악한다.
영화, 사용자, 장르, 출연배우, 제작국가, 제작일, 출시일, 평점, 평가일 등 제공하는 정보를 확인하고 조합해 보면서 확인이 필요하다.

In [9]:
# MovieLens 데이터 확인

import pandas as pd
import zipfile

# zip 파일 경로
zip_path = 'data/ml-latest-small.zip'

# zip 파일 압축 해제
with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    zip_ref.extractall('./data')


# 압축 해제한 파일 목록 확인
movies = pd.read_csv('./data/ml-latest-small/movies.csv')
ratings = pd.read_csv('./data/ml-latest-small/ratings.csv')
tags = pd.read_csv('./data/ml-latest-small/tags.csv')
links = pd.read_csv('./data/ml-latest-small/links.csv')

Unnamed: 0,userId,movieId,tag,timestamp
0,2,60756,funny,1445714994
1,2,60756,Highly quotable,1445714996
2,2,60756,will ferrell,1445714992
3,2,89774,Boxing story,1445715207
4,2,89774,MMA,1445715200


## MoviesLens README.txt

### MovieLens 데이터셋의 파일 구조:
#### 1. ratings.csv
- 사용자의 영화 평점 데이터
- 구조: userId, movieId, rating, timestamp
- 5점 척도(0.5-5.0)로 평가
- timestamp는 1970년 1월 1일 자정 UTC 기준 초 단위
#### 2. tags.csv  
- 사용자가 영화에 부여한 태그 데이터
- 구조: userId, movieId, tag, timestamp
- 태그는 사용자가 생성한 단어나 짧은 구문
#### 3. movies.csv
- 영화 정보 데이터
- 구조: movieId, title, genres
- title에는 개봉연도 포함
- genres는 파이프(|)로 구분된 장르 목록
#### 4. links.csv
- 외부 영화 데이터베이스 연결을 위한 ID 정보
- 구조: movieId, imdbId, tmdbId
- MovieLens, IMDB, TMDB의 영화 ID 매핑 정보


# KMRD 데이터 확인
MovieLens style synthetic dataset built from Naver Movie rating systems with Naver Movie Scraper
https://github.com/lovit/kmrd?tab=readme-ov-file


# Netflix 데이터 확인


> This dataset was constructed to support participants in the Netflix Prize.  See
http://www.netflixprize.com for details about the prize.

> The movie rating files contain over 100 million ratings from 480 thousand
randomly-chosen, anonymous Netflix customers over 17 thousand movie titles.  The
data were collected between October, 1998 and December, 2005 and reflect the
distribution of all ratings received during this period.  The ratings are on a
scale from 1 to 5 (integral) stars. To protect customer privacy, each customer
id has been replaced with a randomly-assigned id.  The date of each rating and
the title and year of release for each movie id are also provided.

### 개요
- 48만 사용자의 1억+ 평점 데이터
- 기간: 1998.10 - 2005.12
- 평점: 1-5점 (정수)

### 파일 구조
1. **training_set.tar**
   ```
   MovieID:
   CustomerID,Rating,Date
   ```
   - MovieID: 1-17770
   - CustomerID: 1-2649429 (48만 사용자)
   - Date: YYYY-MM-DD

2. **movie_titles.txt**
   ```
   MovieID,YearOfRelease,Title
   ```
   - 개봉연도: 1890-2005
   - 영어 제목만 제공

### 특이사항
- MovieID는 Netflix/IMDB ID와 불일치
- 상업적 사용 시 Netflix 허가 필요
- 재배포 불가
- 연구 목적 사용만 가능

### MovieLens와 주요 차이점
1. 데이터 규모 차이 (1억+ vs 10만)
2. 장르 정보 없음
3. 태그 시스템 없음
4. 정수 평점만 가능 (vs 0.5 단위)