# KMRD 데이터셋 탐색하기
사용자 수, 영화 수, 평점 수, 제작국가 수, 출연진 수, 장르 개수 등의 기본 통계를 확인하라.

In [2]:
import pandas as pd
import os

def get_dataframe(dataset_path, encoding="utf-8"):
    try:
        # List all files in the dataset directory
        files = os.listdir(dataset_path)

        # Dictionary to store DataFrames
        dataframes = {}

        # Loop through each file
        for file in files:
            file_path = os.path.join(dataset_path, file)

            # Check for .csv or .txt files
            if file.endswith(".csv"):
                data = pd.read_csv(file_path, engine='c', encoding=encoding)
                dataframes[file] = data
            elif file.endswith(".txt"):
                data = pd.read_csv(file_path, delimiter='[|\t]', engine='python', header=None, encoding=encoding)
                dataframes[file] = data
        return dataframes
    except FileNotFoundError as e:
        print(f"Error: {e}")
    except Exception as e:
        print(f"An unexpected error occurred: {e}")

In [3]:
kmrd_path = "../../kmrd-small"
dataframes = get_dataframe(kmrd_path)
print(f"{dataframes.keys()}")

dict_keys(['countries.csv', 'movies.txt', 'genres.csv', 'rates.csv', 'peoples.txt', 'castings.csv'])


In [5]:
for file_name, df in dataframes.items():
    print(f"\nCheck {file_name}:\n")
    print(f"head:\n{df.head(3)}\n")
    print(f"shape:\n {df.shape}\n")
    print(df.info())
    print(f"describe:\n {df.describe()}\n")



Check countries.csv:

head:
   movie country
0  10001    이탈리아
1  10001     프랑스
2  10002      미국

shape:
 (1109, 2)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1109 entries, 0 to 1108
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   movie    1109 non-null   int64 
 1   country  1109 non-null   object
dtypes: int64(1), object(1)
memory usage: 17.5+ KB
None
describe:
               movie
count   1109.000000
mean   10496.257890
std      285.409915
min    10001.000000
25%    10253.000000
50%    10492.000000
75%    10746.000000
max    10999.000000


Check movies.txt:

head:
       0         1                          2     3        4
0  movie     title                  title_eng  year    grade
1  10001    시네마 천국     Cinema Paradiso , 1988  2013   전체 관람가
2  10002  빽 투 더 퓨쳐  Back To The Future , 1985  2015  12세 관람가

shape:
 (1000, 5)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (tota

describe() 매서드는 오직 숫자형(int, float 등) 칼럼의 분포도만 조사하며 자동으로 object 타입의 칼럼은 출력에서 제외시킨다.

In [11]:
countries_df = dataframes['countries.csv']
countries = countries_df['country']
print(countries)
print(len(set(countries)))

0       이탈리아
1        프랑스
2         미국
3         미국
4         미국
        ... 
1104      미국
1105      미국
1106      미국
1107      미국
1108      미국
Name: country, Length: 1109, dtype: object
36
