# 수행목표
- KMRD 데이터셋을 다운로드하고 각 파일 스키마를 확인한다.
# 수행단계
- KMRD
    - KMRD 데이터 다운로드
        - 위 github 경로에서 데이터를 확인하고 다운로드 한다.
        - kmr_dataset/datafile/kmrd-small 폴더에 필요한 데이터가 있다.
    - KMRD 데이터 준비 및 로딩
        - 각 파일에는 어떤 데이터가 저장되어 있고 어떤 데이터 필드로 구성되어 있는지 파악하라.
        - Pandas를 이용해서 데이터를 로딩해서 데이터를 확인하라.
    - 기본 통계 확인
        - 사용자 수, 영화 수, 평점 수, 제작국가 수, 출연진 수, 장르 개수 등의 기본 통계를 확인하라.

# 라이브러리 설치

In [2]:
import pandas as pd

# KMRD 데이터셋

In [3]:
# kmrd

kmrd_castings = pd.read_csv("data/kmrd/castings.csv")
kmrd_countries = pd.read_csv("data/kmrd/countries.csv")
kmrd_genres = pd.read_csv("data/kmrd/genres.csv")
kmrd_movies = pd.read_csv("data/kmrd/movies.txt", sep="\t")
kmrd_peoples = pd.read_csv("data/kmrd/peoples.txt", sep="\t")
kmrd_rates = pd.read_csv("data/kmrd/rates.csv")

kmrd_castings.head(), kmrd_countries.head(), kmrd_genres.head(), kmrd_movies.head(), kmrd_peoples.head(), kmrd_rates.head()


(   movie  people  order  leading
 0  10001    4374      1        1
 1  10001     178      2        1
 2  10001    3241      3        1
 3  10001   47952      4        1
 4  10001   47953      5        0,
    movie country
 0  10001    이탈리아
 1  10001     프랑스
 2  10002      미국
 3  10003      미국
 4  10004      미국,
    movie   genre
 0  10001     드라마
 1  10001  멜로/로맨스
 2  10002      SF
 3  10002     코미디
 4  10003      SF,
    movie                 title                           title_eng    year  \
 0  10001                시네마 천국              Cinema Paradiso , 1988  2013.0   
 1  10002              빽 투 더 퓨쳐           Back To The Future , 1985  2015.0   
 2  10003            빽 투 더 퓨쳐 2    Back To The Future Part 2 , 1989  2015.0   
 3  10004            빽 투 더 퓨쳐 3  Back To The Future Part III , 1990  1990.0   
 4  10005  스타워즈 에피소드 4 - 새로운 희망                    Star Wars , 1977  1997.0   
 
      grade  
 0   전체 관람가  
 1  12세 관람가  
 2  12세 관람가  
 3   전체 관람가  
 4       PG  ,
    people    ko

In [4]:
# kmrd_castings

kmrd_castings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9776 entries, 0 to 9775
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   movie    9776 non-null   int64
 1   people   9776 non-null   int64
 2   order    9776 non-null   int64
 3   leading  9776 non-null   int64
dtypes: int64(4)
memory usage: 305.6 KB


In [5]:
# kmrd_countries

kmrd_countries.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1109 entries, 0 to 1108
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   movie    1109 non-null   int64 
 1   country  1109 non-null   object
dtypes: int64(1), object(1)
memory usage: 17.5+ KB


In [6]:
# kmrd_genres

kmrd_genres.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2025 entries, 0 to 2024
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   movie   2025 non-null   int64 
 1   genre   2025 non-null   object
dtypes: int64(1), object(1)
memory usage: 31.8+ KB


In [7]:
# kmrd_movies

kmrd_movies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   movie      999 non-null    int64  
 1   title      992 non-null    object 
 2   title_eng  991 non-null    object 
 3   year       609 non-null    float64
 4   grade      957 non-null    object 
dtypes: float64(1), int64(1), object(3)
memory usage: 39.1+ KB


In [8]:
# kmrd_peoples

kmrd_peoples.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7172 entries, 0 to 7171
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   people    7172 non-null   int64 
 1   korean    7172 non-null   object
 2   original  6305 non-null   object
dtypes: int64(1), object(2)
memory usage: 168.2+ KB


In [9]:
# kmrd_rates

kmrd_rates.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 140710 entries, 0 to 140709
Data columns (total 4 columns):
 #   Column  Non-Null Count   Dtype
---  ------  --------------   -----
 0   user    140710 non-null  int64
 1   movie   140710 non-null  int64
 2   rate    140710 non-null  int64
 3   time    140710 non-null  int64
dtypes: int64(4)
memory usage: 4.3 MB


In [11]:
# user 수

# user 수는 `user` column의 unique한 값의 수와 같다.
# `user` column은 `kmrd_rates` dataframe에 존재한다.

user_count = kmrd_rates["user"].nunique()
user_count

52028

In [13]:
# movie 수

# movie 수는 `movie` column의 unique한 값의 수와 같다.
# `movie` column은 `kmrd_movies` dataframe에 존재한다.

movie_count = kmrd_movies["movie"].nunique()
movie_count

999

In [15]:
# rating 수

# rating 수는 kmrd_rates dataframe의 row 수와 같다.

rating_count = kmrd_rates.shape[0]
rating_count

140710

In [16]:
# country 수

# country 수는 `country` column의 unique한 값의 수와 같다.

country_count = kmrd_countries["country"].nunique()
country_count

36

In [17]:
# people 수

# people 수는 `people` column의 unique한 값의 수와 같다.
# `people` column은 `kmrd_peoples` dataframe에 존재한다.

people_count = kmrd_peoples["people"].nunique()
people_count

7172

In [18]:
# genre 수

# genre 수는 `genre` column의 unique한 값의 수와 같다.
# `genre` column은 `kmrd_genres` dataframe에 존재한다.

genre_count = kmrd_genres["genre"].nunique()
genre_count

20