# 영화 관련 데이터셋 비교하기
- MovieLens, KMRD, Netflix 데이터셋을 비교한다.
- 영화, 사용자, 장르, 출연배우, 제작국가, 제작일, 출시일, 평점, 평가일 등 제공하는 정보를 확인하고 조합해 보면서 확인한다.

In [14]:
import pandas as pd
import os

def display_dataset_heads(dataset_path, encoding="utf-8"):
    try:
        # List all files in the dataset directory
        files = os.listdir(dataset_path)

        # Loop through each file
        for file in files:
            file_path = os.path.join(dataset_path, file)

            # Check for .csv or .txt files
            if file.endswith(".csv"):
                print(f"\nLoading {file}...")
                data = pd.read_csv(file_path, engine='c', encoding=encoding)
                print(data.head())
            elif file.endswith(".txt"):
                print(f"\nLoading {file}...")
                data = pd.read_csv(file_path, delimiter='[|\t]', engine='python', header=None, encoding=encoding)
                print(data.head())
    except FileNotFoundError as e:
        print(f"Error: {e}")
    except Exception as e:
        print(f"An unexpected error occurred: {e}")


# MovieLens Dataset


In [15]:
movielens_path = "../../../../Downloads/ml-latest-small"
display_dataset_heads(movielens_path)


Loading links.csv...
   movieId  imdbId   tmdbId
0        1  114709    862.0
1        2  113497   8844.0
2        3  113228  15602.0
3        4  114885  31357.0
4        5  113041  11862.0

Loading tags.csv...
   userId  movieId              tag   timestamp
0       2    60756            funny  1445714994
1       2    60756  Highly quotable  1445714996
2       2    60756     will ferrell  1445714992
3       2    89774     Boxing story  1445715207
4       2    89774              MMA  1445715200

Loading ratings.csv...
   userId  movieId  rating  timestamp
0       1        1     4.0  964982703
1       1        3     4.0  964981247
2       1        6     4.0  964982224
3       1       47     5.0  964983815
4       1       50     5.0  964982931

Loading README.txt...
                                                   0
0                                            Summary
2  This dataset (ml-latest-small) describes 5-sta...
3  Users were selected at random for inclusion. A...
4  The data ar

- MovieLens에서는 영화, 장르, 사용자별 평점, timestamp, tags를 볼 수 있음 -> 사용자 평점과 영화 내용을 파악할 수 있음

# KMRD Dataset

In [20]:
kmrd_path = "../../../../Downloads/kmrd-small"
display_dataset_heads(kmrd_path)


Loading countries.csv...
   movie country
0  10001    이탈리아
1  10001     프랑스
2  10002      미국
3  10003      미국
4  10004      미국

Loading movies.txt...
       0           1                                   2     3        4
0  movie       title                           title_eng  year    grade
1  10001      시네마 천국              Cinema Paradiso , 1988  2013   전체 관람가
2  10002    빽 투 더 퓨쳐           Back To The Future , 1985  2015  12세 관람가
3  10003  빽 투 더 퓨쳐 2    Back To The Future Part 2 , 1989  2015  12세 관람가
4  10004  빽 투 더 퓨쳐 3  Back To The Future Part III , 1990  1990   전체 관람가

Loading genres.csv...
   movie   genre
0  10001     드라마
1  10001  멜로/로맨스
2  10002      SF
3  10002     코미디
4  10003      SF

Loading rates.csv...
   user  movie  rate        time
0     0  10003     7  1494128040
1     0  10004     7  1467529800
2     0  10018     9  1513344120
3     0  10021     9  1424497980
4     0  10022     7  1427627340

Loading peoples.txt...
        0         1               2
0  people   

- 영화, 사용자, 장르, 출연배우, 제작국가, 제작일, 출시일, 평점, 평가일 전부 확인할 수 있음

# Netflix Dataset

In [21]:

netfilx_path = "../../../../Downloads/nf_prize"
display_dataset_heads(netfilx_path, encoding="latin1")


Loading qualifying.txt...
                    0
0                  1:
1  1046323,2005-12-19
2  1080030,2005-12-23
3  1830096,2005-03-14
4   368059,2005-05-26

Loading movie_titles.txt...
                                     0
0               1,2003,Dinosaur Planet
1    2,2004,Isle of Man TT 2004 Review
2                     3,1997,Character
3  4,1994,Paula Abdul's Get Up & Dance
4      5,2004,The Rise and Fall of ECW

Loading probe.txt...
         0
0       1:
1    30878
2  2647871
3  1283744
4  2488120


- 영화, 사용자, 출시일, 평점, 평가일 확인할 수 있음 -> 사용자의 평점에 집중한 데이터

MOVIES FILE DESCRIPTION   
MovieID,YearOfRelease,Title   

QUALIFYING AND PREDICTION DATASET FILE DESCRIPTION    
MovieID1:      
CustomerID11,Date11     
     
THE PROBE DATASET FILE DESCRIPTION   
MovieID1:   
CustomerID11   
CustomerID12  
  
TRAINING DATASET FILE DESCRIPTION  
CustomerID,Rating,Date  
