<a href="https://colab.research.google.com/github/JakeOh/202208_itw_java134_lab_python/blob/main/py25_movielens.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Imports

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Movielens 데이터 셋

* https://github.com/wesm/pydata-book/tree/3rd-edition/datasets/movielens
* movies.dat: "MovieID::Title::Genres"을 컬럼으로 하는 데이터 셋. 영화 정보.
* ratings.dat: "UserID::MovieID::Rating::Timestamp"을 컬럼으로 하는 데이터 셋. 영화 별점.
* users.dat: "UserID::Gender::Age::Occupation::Zip-code"을 컬럼으로 하는 데이터 셋. 사용자 정보.



* movies.dat 파일을 읽고 DataFrame 생성 - `pd.read_csv()`
* DataFrame 탐색 - `head, tail, info, ...`
* 장르가 'Animation'인 영화는 몇 개? - genres(장르들) 컬럼의 문자열이 'Animation'을 포함.
* 장르가 로맨틱 코미디인 영화는 몇 개? - genres 컬럼의 문자열이 'Comedy'와 'Romance'를 포함.
* 어떤 장르의 영화가 가장 많은가? - genres의 문자열을 '|'를 구분자로 분리(split)
* 연도별 영화 수 - title(제목) 컬럼에 영화 개봉 연도가 포함.


In [2]:
# movies.dat 파일이 저장된 경로
movies_file = 'https://github.com/wesm/pydata-book/raw/3rd-edition/datasets/movielens/movies.dat'

In [3]:
# movies 데이터프레임의 컬럼 이름
movies_colnames = ['movie_id', 'title', 'genres']

In [5]:
movies = pd.read_csv(movies_file, sep='::', names=movies_colnames, engine='python')

In [None]:
movies.head()

In [None]:
movies.tail()

In [None]:
movies.info()

## 장르 분석 - 애니메이션 찾기

In [13]:
animations = movies[movies.genres.str.contains('Animation')]  # boolean indexing

In [None]:
animations.head()

In [None]:
len(animations)

In [None]:
animations.info()

## 장르 분석 - 로맨틱 코미디 찾기

In [17]:
romantic_comedies = movies[movies.genres.str.contains('Romance') &
                           movies.genres.str.contains('Comedy')]

In [None]:
romantic_comedies.head()

In [None]:
len(romantic_comedies)

## 장르 분석 - 가장 빈번한 장르

In [27]:
genres = []  # 개별 영화의 장르를 저장할 리스트
for s in movies.genres:
    genres.extend(s.split(sep='|'))  # 1차원 리스트를 만들기 위해서.

In [None]:
print(genres)

In [None]:
genre_counts = pd.value_counts(genres)  # values의 내림차순 정렬.
genre_counts

In [None]:
genre_counts.index[0]  # 가장 빈도수가 많은 영화 장르

빈도수 상위 7개의 장르를 시각화

In [None]:
genre_top7 = genre_counts.head(n=7)  # iloc[:7]
genre_top7

In [None]:
sns.barplot(y=genre_top7.index, x=genre_top7.values)
plt.show()

장르 빈도수 시각화

In [None]:
sns.barplot(y=genre_counts.index, x=genre_counts.values)
plt.show()

## 연도별 영화 개수 분석

In [None]:
movies.head()

In [44]:
# 데이터프레임에 파생변수(새로운 컬럼)을 추가
movies['year'] = movies.title.str[-5:-1].astype('int')

In [None]:
movies.head()

In [47]:
year_counts = movies.year.value_counts()
year_counts

1996    345
1995    342
1998    337
1997    315
1999    283
       ... 
1923      3
1919      3
1922      2
1920      2
1921      1
Name: year, Length: 81, dtype: int64

In [None]:
# sns.barplot(x=year_counts.index, y=year_counts.values)
plt.bar(x=year_counts.index, height=year_counts.values)
# plt.xticks(array-like)
plt.show()

In [None]:
sns.lineplot(x=year_counts.index, y=year_counts.values)
plt.xlabel('Year')
plt.ylabel('# of movies')
plt.show()

In [None]:
plt.plot(year_counts.index, year_counts.values)
plt.show()

In [None]:
year_counts2 = year_counts.sort_index()
# print(year_counts2)
plt.plot(year_counts2.index, year_counts2.values)
plt.show()