## MRD 데이터셋 탐색
### 수행단계

- KMRD 데이터 다운로드 (https://github.com/lovit/kmrd/tree/master/kmr_dataset/datafile/kmrd-small)
kmr_dataset/datafile/kmrd-small 폴더에 필요한 데이터가 있다.
- KMRD 데이터 준비 및 로딩
- 각 파일에는 어떤 데이터가 저장되어 있고 어떤 데이터 필드로 구성되어 있는지 파악하라.
- Pandas를 이용해서 데이터를 로딩해서 데이터를 확인하라.
- 사용자 수, 영화 수, 평점 수, 제작국가 수, 출연진 수, 장르 개수 등의 기본 통계를 확인하라.

- movies.txt (movie, title, title_eng, year, grade)
- casting.csv (movie, people, order, leading)
- countries.csv (movie, country)
- genres.csv (movie, genre)
- peoples.txt (people, korean, original)
- rates.csv (user,movie,rate,time)

In [None]:
import pandas as pd
movies = pd.read_csv('kmrd-small/movies.txt', sep = "\t", engine='python') # sep = "\t" 행에서 컬럼 데이터간 구분을 tab 기호를 활용했다는 의미 (탭으로 분리된 파일은  tsv 라고 함, tab-separated values 의 약자)
users = pd.read_csv('kmrd-small/rates.csv')
countries = pd.read_csv('kmrd-small/countries.csv')
people = pd.read_csv('kmrd-small/peoples.txt', sep = "\t", engine='python')
genres = pd.read_csv('kmrd-small/genres.csv')

movies.head(100)
print(f"영화 수: { len(movies) }")
print(f"중복 제외 등록 된 유저 수: { users['user'].nunique()}")
print(f"등록 된 평점(리뷰) 수: { len(users) }")
print(f"중복 제외 등록 된 국가 수: { countries['country'].nunique() }")

top_3_countries = country['country'].value_counts().head(3)
result = " / ".join([f"{country}: {count}" for country, count in top_3_countries.items()])
print(f"등록 된 국가 중 TOP 3: {result}")

print(f"등록 된 출연진 수: { len(people) }")
print(f"중복 제외 등록된 장르 수: { genres['genre'].nunique()}") # '멜로/로맨스' 도 장르 한 개로 취급 (멜로, 로맨스만 등록 된 영화 없음)


영화 수: 999
중복 제외 등록 된 유저 수: 52028
등록 된 평점(리뷰) 수: 140710
중복 제외 등록 된 국가 수: 36
등록 된 국가 중 TOP 3: 미국: 654 / 영국: 94 / 한국: 94
등록 된 출연진 수: 7172
중복 제외 등록된 장르 수: 20


In [45]:
# 영화에서 가장 많은 출연진과 가장 많은 주연배우(people, leading)가 등록된 영화의 제목 찾기

# 데이터 불러오기
casting = pd.read_csv('kmrd-small/castings.csv')

# 영화별 출연진 수 계산
movie_cast_count = casting.groupby('movie')['people'].count()

# 영화별 주연배우 수 계산
movie_cast_leading_count = casting.groupby('movie')['leading'].sum()

# 출연진이 가장 많이 등록된 영화 Id 찾기
most_people_movie_id = movie_cast_count.idxmax() # idmax() 는 max()를 가지는 인덱스 값

# 주연배우가 가장 많이 등록된 영화 Id 찾기
most_cast_leading_id = movie_cast_leading_count.idxmax()

# 출연진이 가장 많이 등록된 영화 Id의 제목 찾기
most_people_movie_title = movies.loc[movies['movie'] == most_people_movie_id, 'title'].values[0]

# 주연 배우가 가장 많이 등록된 영화 Id의 제목 찾기
most_leading_movie_title = movies.loc[movies['movie'] == most_cast_leading_id, 'title'].values[0]

# 결과 출력
print(f"출연진이 가장 많이 등록된 영화의 Id: { most_people_movie_id }")
print(f"출연진이 가장 많이 등록된 영화의 제목: { most_people_movie_title }")
print(f"출연진이 가장 많이 등록된 영화의 출연진 수: { movie_cast_count.max() }")
print('---------')
print(f"주연 배우가 가장 많이 등록된 영화의 Id: { most_cast_leading_id }")
print(f"주연 배우가 가장 많이 등록된 영화의 제목: { most_leading_movie_title }")
print(f"주연 배우가 가장 많이 등록된 영화의 주연 배우 수: { movie_cast_leading_count.max() }")


출연진이 가장 많이 등록된 영화의 Id: 10924
출연진이 가장 많이 등록된 영화의 제목: 세계사
출연진이 가장 많이 등록된 영화의 출연진 수: 101
---------
주연 배우가 가장 많이 등록된 영화의 Id: 10177
주연 배우가 가장 많이 등록된 영화의 제목: 남과 북 2
주연 배우가 가장 많이 등록된 영화의 주연 배우 수: 17
