## MovieLens 1M Dataset

- Tập dữ liệu "Movie ratings" được cung cấp bởi GroupLens Research(https://grouplens.org/datasets/movielens/).
- Dữ liệu được thu thập từ người dùng MovieLens vào cuối những năm 1990 và đầu những năm 2000.
- Tập dữ liệu bao gồm: movie ratings, movie metadata (genres (thể loại) và year), và demographic data của người dùng ((age, zip code, gender identification, và occupation (nghề nghiệp)).
- Dữ liệu này thường được quan tâm, sử dụng trong việc phát triển các hệ thống đề xuất dựa trên thuật toán học máy.

- Bộ dữ liệu MovieLens 1M chứa 1 triệu xếp hạng được thu thập từ 6.000 người dùng trên 4.000 bộ phim. Nó được chia thành ba bảng: ratings, user information, và movie information.

### Nhiệm vụ
1. Tính điểm rating trung bình cho từng bộ phim theo độ tuổi và giới tính.
2. Lọc ra những bộ phim có số lượt rating cao:
    - 2.1 Lọc ra những bộ phim có số lượt rating >=250.
    - 2.2 Lọc ra những bộ phim đứng top đối với khán giả nữ.
    - 2.3 Lọc ra những bộ phim mà điểm rating chênh lệch giữa nam và nữ cao.
    - 2.4 Lọc ra những bộ phim có nhiều sự bất đồng ý kiến nhất giữa người xem, không phụ thuộc vào giới tính.

### READ ME

**USERS FILE DESCRIPTION**<br>
================================================================================<br>
<br>
User information is in the file "users.dat" and is in the following format:<br>
<br>
UserID::Gender::Age::Occupation::Zip-code<br>
<br>
All demographic information is provided voluntarily by the users and is not checked for accuracy. Only users who have provided some demographic information are included in this data set.<br>
<br>
- Gender is denoted by a "M" for male and "F" for female
- Age is chosen from the following ranges:
<br>
	*  1:  "Under 18"
	* 18:  "18-24"
	* 25:  "25-34"
	* 35:  "35-44"
	* 45:  "45-49"
	* 50:  "50-55"
	* 56:  "56+"
<br>
- Occupation is chosen from the following choices:
<br>
	*  0:  "other" or not specified
	*  1:  "academic/educator"
	*  2:  "artist"
	*  3:  "clerical/admin"
	*  4:  "college/grad student"
	*  5:  "customer service"
	*  6:  "doctor/health care"
	*  7:  "executive/managerial"
	*  8:  "farmer"
	*  9:  "homemaker"
	* 10:  "K-12 student"
	* 11:  "lawyer"
	* 12:  "programmer"
	* 13:  "retired"
	* 14:  "sales/marketing"
	* 15:  "scientist"
	* 16:  "self-employed"
	* 17:  "technician/engineer"
	* 18:  "tradesman/craftsman"
	* 19:  "unemployed"
	* 20:  "writer"

**RATINGS FILE DESCRIPTION**<br>
================================================================================<br>
<br>
All ratings are contained in the file "ratings.dat" and are in the following format:<br>
<br>
UserID::MovieID::Rating::Timestamp<br>
<br>
- UserIDs range between 1 and 6040 
- MovieIDs range between 1 and 3952
- Ratings are made on a 5-star scale (whole-star ratings only)
- Timestamp is represented in seconds since the epoch as returned by time(2)
- Each user has at least 20 ratings

**MOVIES FILE DESCRIPTION**<br>
================================================================================<br>
<br>
Movie information is in the file "movies.dat" and is in the following format:<br>
<br>
MovieID::Title::Genres<br>
<br>
- Titles are identical to titles provided by the IMDB (including year of release)
- Genres are pipe-separated and are selected from the following genres:
<br>
	* Action
	* Adventure
	* Animation
	* Children's
	* Comedy
	* Crime
	* Documentary
	* Drama
	* Fantasy
	* Film-Noir
	* Horror
	* Musical
	* Mystery
	* Romance
	* Sci-Fi
	* Thriller
	* War
	* Western
<br>
- Some MovieIDs do not correspond to a movie due to accidental duplicate entries and/or test entries
- Movies are mostly entered by hand, so errors and inconsistencies may exist

In [None]:
#Load data vào DataFrame
import pandas as pd

# Make display smaller
pd.options.display.max_rows = 10

unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table('datasets/movielens/users.dat', sep='::',
                      header=None, names=unames)

rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table('datasets/movielens/ratings.dat', sep='::',
                        header=None, names=rnames)

mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table('datasets/movielens/movies.dat', sep='::',
                       header=None, names=mnames)

In [None]:
users[:5]

In [None]:
ratings[:5]

In [None]:
ratings

In [None]:
movies[:5]

#### Task 1
- Giả sử bạn muốn tính điểm rating trung bình cho một bộ phim cụ thể theo giới tính và độ tuổi.

##### B1:
- Trước tiên, ta merge ratings với users, sau đó merge với movies.
- Mặc định: phương thức merge sẽ join 2 bảng dựa trên những cột có cùng tên với nhau.

In [None]:
data = pd.merge(pd.merge(ratings, users), movies)

In [None]:
data

In [None]:
#Chọn (selection) ra dòng thứ 0
data.iloc[0]

##### B2:
- Để có điểm rating phim trung bình cho mỗi bộ phim được nhóm theo giới tính, ta sử dụng phương thức pivot_table:

In [None]:
mean_ratings = data.pivot_table('rating', index='title', columns='gender', aggfunc='mean')
mean_ratings[:5]

#### Task 2.1
- Giả sử ta muốn lọc ra những bộ phim có ít nhất 250 lượt rating.

##### B1:
- Group data theo title, gọi phương thức size() để thống kê kích thước mỗi group.

In [None]:
ratings_by_title = data.groupby('title').size()

In [None]:
ratings_by_title[:10]

##### B2:
- Lọc những bộ phim có số rating (số dòng dữ liệu) >= 250

In [None]:
active_titles = ratings_by_title.index[ratings_by_title >= 250]
active_titles

##### B3:
Tính điểm rating trung bình cho những bộ phim có số lượt rating ít nhất là 250

In [None]:
# Select rows on the index
mean_ratings = mean_ratings.loc[active_titles]
mean_ratings

#### Task 2.2
- Để lọc ra các bộ phim đứng top đối với khán giả nữ, ta sort theo cột F theo thứ tự giảm dần:

In [None]:
top_female_ratings = mean_ratings.sort_values(by='F', ascending=False)
top_female_ratings[:10]

In [None]:
mean_ratings = mean_ratings.rename(index={'Seven Samurai (The Magnificent Seven) (Shichinin no samurai) (1954)':
                           'Seven Samurai (Shichinin no samurai) (1954)'})

### Measuring Rating Disagreement

#### Task 2.3
- Giả sử ta muốn lọc ra những bộ phim mà điểm số rating chênh lệch giữa nam và nữ cao.

In [None]:
mean_ratings['diff'] = mean_ratings['M'] - mean_ratings['F']

In [None]:
sorted_by_diff = mean_ratings.sort_values(by='diff')
sorted_by_diff[:10]

- Đảo ngược thứ tự của các dòng và cắt ra 10 dòng đầu,
- ta nhận được những bộ phim mà đàn ông ưa thích mà phụ nữ không xếp hạng cao.

In [None]:
# Reverse order of rows, take first 10 rows
sorted_by_diff[::-1][:10]

#### Task 2.4
- Giả sử ta muốn lọc ra những bộ phim có nhiều sự bất đồng ý kiến nhất giữa những người xem, không phụ thuộc vào giới tính.
Bất đồng có thể được đo bằng phương sai hoặc độ lệch chuẩn của điểm rating.

In [None]:
# Standard deviation of rating grouped by title
rating_std_by_title = data.groupby('title')['rating'].std()
rating_std_by_title

In [None]:
# Filter down to active_titles
rating_std_by_title = rating_std_by_title.loc[active_titles]
rating_std_by_title

In [None]:
# Order Series by value in descending order
rating_std_by_title.sort_values(ascending=False)[:10]