# <font color=blue> Đọc dữ liệu từ file csv vào dataframe </font> 

Dữ liệu: [MovieLens 20M Dataset](https://grouplens.org/datasets/movielens/). Để chạy được các phần code bên dưới, bạn cần download bộ dữ liệu này (file `ml-20m.zip`), giải nén, rồi đặt các file csv vào thư mục chứa notebook. Có tất cả 6 file csv, trong phần demo bên dưới chỉ dùng 2 file.

Theo [file mô tả dữ liệu](http://files.grouplens.org/datasets/movielens/ml-20m-README.html):
>This dataset (ml-20m) describes 5-star rating and free-text tagging activity from MovieLens, a movie recommendation service. It contains 20000263 ratings and 465564 tag applications across 27278 movies. These data were created by 138493 users between January 09, 1995 and March 31, 2015. This dataset was generated on October 17, 2016.
>
>Users were selected at random for inclusion. All selected users had rated at least 20 movies. No demographic information is included. Each user is represented by an id, and no other information is provided.

In [1]:
%matplotlib inline
# Theo document:
# "This performs the necessary behind-the-scenes setup 
#  for IPython to work correctly hand in hand with matplotlib"

In [2]:
import numpy as np
import pandas as pd

In [3]:
# !dir

In [4]:
movies_df = pd.read_csv("movies.csv")
ratings_df = pd.read_csv("ratings.csv")

FileNotFoundError: ignored

# <font color=blue>Xem dữ liệu ở dataframe</font>

## df/s.head/tail 

In [None]:
# Xem 10 dòng đầu tiên của movies_df (nếu không truyền vào 10 thì mặc định là 5)
movies_df.head(10)

In [None]:
movies_df.tail()

In [None]:
ratings_df.head()

## df.info

In [None]:
# Mình hay dùng df.head() khi mình cần nhớ lại mặt mũi của df
movies_df.head()

In [None]:
movies_df.info()

Kiểu dữ liệu "object" trong Pandas là gì?

Đọc thử [ở đây](https://stackoverflow.com/questions/21018654/strings-in-a-dataframe-but-dtype-is-object).

In [None]:
# Để lấy ra phần dữ liệu (Numpy array) từ dataframe df: df.values
# Numpy array này có dtype là gì?
movies_df.values

In [None]:
ratings_df.info()

Tại sao `df.info` không cho biết thông tin về giá trị thiếu (null)?

In [None]:
ratings_df.info(null_counts=True)

In [None]:
# Nếu muốn xem chắc số dòng của movies_df thì làm sao?
len(movies_df)

In [None]:
# Nếu muốn xem chắc số dòng và số cột của movies_df thì làm sao?
movies_df.shape

In [None]:
# Nếu muốn xem chắc tên cột của movies_df thì làm sao?
movies_df.columns

In [None]:
# Nếu muốn xem chắc tên dòng của movies_df thì làm sao?
movies_df.index

In [None]:
# Nếu muốn xem chắc kiểu dữ liệu của các cột của movies_df thì làm sao?
movies_df.dtypes

# <font color=blue>Truy xuất dữ liệu ở dataframe</font>

## df.iloc[...]

`df.iloc[r, c]`

- `r` có thể là:
    - Một chỉ số vị trí (0, 1, 2, ...)
    - List/array/series các chỉ số vị trí
    - Slicing theo chỉ số vị trí
    - List/array các giá trị True/False (hiện tại thì `iloc` không chạy được với series True/False)
- `c` tương tự như `r`
- Dùng một chỉ số vị trí (một con số) thì kết quả sẽ bị giảm chiều
    - Nếu hoặc `r` hoặc `c` là một chỉ số vị trí (một con số) thì kết quả là series
    - Nếu cả `r` và `c` đều là một chỉ số vị trí (một con số) thì kết quả là một giá trị

In [None]:
movies_df.head()

In [None]:
# Lấy ra phần tử ở dòng có chỉ số vị trí 2 và cột có chỉ số vị trí 1 ở movies_df
movies_df.iloc[2, 1]

In [None]:
# Lấy ra các phần tử ở dòng có chỉ số vị trí 2 và 4 và cột có chỉ số vị trí 1 và 2 ở movies_df
movies_df.iloc[[2, 4], [1, 2]]

In [None]:
# Lấy ra các phần tử từ dòng có chỉ số vị trí 2 đến 4 và từ cột có chỉ số vị trí 1 đến 2 ở movies_df
movies_df.iloc[2:5, 1:3]

In [None]:
# Lấy ra dòng ở chỉ số vị trí 2 của movies_df
movies_df.iloc[2, :] # Hoặc: movies_df.iloc[2] 

In [None]:
# Lấy ra dòng ở chỉ số vị trí 2 của movies_df và làm sao để kết quả là dataframe
movies_df.iloc[[2], :]

In [None]:
# Lấy ra cột ở chỉ số vị trí 1 của movies_df
movies_df.iloc[:, 1]

In [None]:
# Lấy ra cột ở chỉ số vị trí 1 của movies_df và làm sao để kết quả là dataframe
movies_df.iloc[:, [1]]

In [None]:
# Lấy ra các dòng của ratings_df mà có rating >= 3 và <= 4
ratings_df.iloc[(ratings_df.iloc[:, 2] >= 3).values & (ratings_df.iloc[:, 2] <= 4).values, :]

## df.loc[...]

`df.loc[r, c]`

- `r` có thể là: 
    - Một tên
    - List/array/series các tên
    - Slicing theo tên (khác với slicing theo chỉ số vị trí, slicing theo tên bao gồm cả start **và end**)
    - List/array/series các giá trị True/False
- `c` tương tự như `r`
- Dùng một tên thì kết quả sẽ bị giảm chiều
    - Nếu hoặc `r` hoặc `c` là một tên thì kết quả là series
    - Nếu cả `r` và `c` đều là một tên thì kết quả là một giá trị

In [None]:
movies_df.head()

In [None]:
# Lấy ra phần tử ở dòng có tên 2 và cột có tên 'title' ở movies_df
movies_df.loc[2, 'title']

In [None]:
# Lấy ra các phần tử ở dòng có tên 2 và 4 và cột có tên 'title' và 'genres' ở movies_df
movies_df.loc[[2, 4], ['title', 'genres']]

In [None]:
# Lấy ra các phần tử từ dòng có tên 2 đến tên 4 và từ cột có tên 'title' đến tên 'genres' ở movies_df
movies_df.loc[2:4, 'title':'genres']

In [None]:
# Lấy ra dòng có tên là 2 của movies_df
movies_df.loc[2, :] # Hoặc: movies_df.loc[2]

In [None]:
# Lấy ra dòng có tên là 2 của movies_df và làm sao để kết quả là dataframe
movies_df.loc[[2], :]

In [None]:
# Lấy ra cột có tên là 'title' của movies_df
movies_df.loc[:, 'title']

In [None]:
# Lấy ra cột có tên là 'title' của movies_df và làm sao để kết quả là dataframe
movies_df.loc[:, ['title']]

In [None]:
# Lấy ra các dòng của ratings_df mà có rating >= 3 và <= 4
ratings_df.loc[(ratings_df.loc[:, 'rating'] >= 3) & (ratings_df.loc[:, 'rating'] <= 4), :]

## df[...]

- `df[tên hoặc list các tên]` là shortcut của `df.loc[:, tên hoặc list các tên]`
- `df[list/array/series các giá trị True/False]` là shortcut của `df.loc[list/array/series các giá trị True/False, :]`
- `df[slicing]` là shortcut của `df.iloc[slicing, :]`

In [None]:
temp = movies_df['title']
temp.head()

In [None]:
temp = ratings_df[ratings_df['rating'] > 4]
temp.head()

In [None]:
temp = movies_df[2:4]
temp

# Tóm tắt dữ liệu ở dataframe

## df/s.describe

In [None]:
# Mặc định thì chỉ "describe" các cột có giá trị số
movies_df.describe() 

In [None]:
# "Describe" các cột có giá trị không phải số
movies_df.describe(include=np.object) 

In [None]:
# Để thấy rõ hơn về các cột có giá trị không phải số, ví dụ cột 'genres'
movies_df['genres'].value_counts()

In [None]:
# pd.set_option('display.float_format', lambda x: '%.1f' %x) # Để kết quả dễ nhìn hơn thì uncomment dòng này
ratings_df.describe()

## df/s.hist

In [None]:
# Nếu gọi .hist() từ df thì sẽ vẽ các histogram cho các cột số của df
ratings_df.hist()

Để hiểu rõ hơn về histogram, dưới đây ta sẽ xem histogram của cột `rating` trong `rating_df`.

In [None]:
# - Nếu tham số bins = [0, 1, 2, 3] thì câu lệnh hist sẽ tạo ra 3 bin:
#   [0, 1), [1, 2), [2, 3] (để ý bin cuối bao gồm cả 3)
# - Nếu tham số density = False (mặc định) thì chiều cao của cột là số
#   lượng phần tử thuộc về bin tương ứng
ax = ratings_df['rating'].hist(bins=np.arange(0, 5.1, 0.5), grid=False, 
                       ec="black", density=False)
ax.set_xlabel("rating")
ax.set_ylabel("num elements");

In [None]:
# Nếu tham số density = True thì số lượng phần tử thuộc mỗi bin sẽ
# được chuẩn hóa về tỉ lệ % (cộng hết các bin lại sẽ bằng 1, 1 nghĩa
# là 100%). Lưu ý: tỉ lệ % = diện tích cột (không phải chiều cao cột).
# Với ví dụ bên dưới, các cột có độ rộng bằng nhau nên diện tích cột
# cũng tỉ lệ với chiều cao cột; nếu các cột có độ rộng không bằng nhau
# (histogram cho phép như vậy) thì bạn sẽ cần phải lưu ý.
ax = ratings_df['rating'].hist(bins=np.arange(0, 5.1, 0.5), grid=False, 
                       ec="black", density=True)
ax.set_xlabel("rating")
ax.set_ylabel("density");

Thử tóm tắt điểm môn Khoa Học Dữ Liệu năm trước bằng histogram. 

In [None]:
# Bạn lấy file "dsgrades.csv" ở thùng chứa trên moodle
df = pd.read_csv("dsgrades.csv")
df.head()

In [None]:
ax = df["Trung bình"].hist(bins=np.arange(0, 11.1, 1), grid=False, 
                       ec="black", density=False)
ax.set_xlabel("grade")
ax.set_ylabel("num students");

Tóm tắt dữ liệu bằng histogram giúp ta thấy dữ liệu rõ ràng hơn nhiều so với chỉ dùng mean:

In [None]:
df["Trung bình"].mean()

Histogram chỉ dùng được cho dữ liệu dạng số. Với dữ liệu không phải dạng số (ví dụ: thể loại phim) thì làm sao để vẽ được biều đồ tương tự?

Một cách là dùng `s.value_counts()` để thống kê số lần xuất hiện của các giá trị, rồi vẽ bar chart bằng `.plot.bar()` hoặc `.plot.barh()`.

# <font color=blue>Xử lý dữ liệu chuỗi ở dataframe</font>

## s.str.xử-lý-x 

*Gần đây có movie gì?*

Các bước:
1. Thêm cột year vào movies_df
2. Từ kết quả ở bước trước, sort theo year

In [None]:
# 1. Thêm cột year vào movies_df
df = movies_df
df = df.assign(year=df.title.str.extract(r'\((\d{4})\)'))
movies_with_year_df = df # Lưu lại kết quả vào một tên dễ nhớ vì lúc sau sẽ cần dùng đến kết quả này nhiều lần
movies_with_year_df.head()

# Nếu bạn nhớ thì khi demo trên lớp, để thêm cột year vào df thì mình không dùng câu lệnh df.assign
# mà dùng: df['year'] = df.title.str.extract(r'\((\d{4})\)')
# Câu hỏi: df.assign(year=...) khác gì với df['year'] = ...

In [None]:
# Luôn luôn quan sát kết quả một cách cẩn thận
movies_with_year_df.info()

In [None]:
# Có 2 vấn đề ở cột year vừa thêm vào:
# Vấn đề 1: Cột year có kiểu dữ liệu là object (ở đây là string) chứ không phải là số
# Vấn đề 2: Cột year có giá trị thiếu!

In [None]:
# Vấn đề 1: Cột year có kiểu dữ liệu là object (ở đây là string) chứ không phải là số
df = movies_with_year_df
df['year'] = df.year.astype('float64') # Không chuyển qua int64 được do có NaN
                                       # Lưu ý: câu lệnh này cũng sẽ làm thay đổi kiểu dữ liệu
                                       # cột year của movies_with_year_df; đây là điều ta mong 
                                       # muốn nên không có vấn đề gì cả
movies_with_year_df.info()

In [None]:
# Vấn đề 2: Cột year có giá trị thiếu!
df = movies_with_year_df
df[df.year.isnull()]

# <font color=blue>Xử lý giá trị thiếu ở dataframe</font>

## df/s.dropna 

In [None]:
# Vấn đề 2: Cột year có giá trị thiếu!
df = movies_with_year_df
df = df.dropna() # Bỏ các dòng có giá trị thiếu (tùy ngữ cảnh mà bạn phải xem xét là có nên bỏ hay không)
df.info()

## df/s.fillna

In [None]:
# Vấn đề 2: Cột year có giá trị thiếu!
df = movies_with_year_df
df = df.fillna(-1) # Một cách khác để xử lý giá trị thiếu là điền bằng một giá trị nào đó
                   # Tùy ngữ cảnh mà bạn phải xem xét là có nên dùng cách này không
                   # và nếu dùng thì điền giá trị nào
df.info()

Ở trên là giới thiệu 2 cách có thể để xử lý giá trị thiếu.
Tạm thời thì ta vẫn để nguyên movies_with_year_df có giá trị thiếu, chứ chưa xử lý gì.

In [None]:
movies_with_year_df.info()

# <font color=blue>Sắp xếp dữ liệu ở dataframe</font>

## df/s.sort_values

*Gần đây có movie gì?*

Các bước:
1. Thêm cột year vào movies_df
2. Từ kết quả ở bước trước, sort theo year

In [None]:
# 2. Từ kết quả ở bước trước, sort theo year
movies_with_year_df.sort_values('year', ascending=False)

## df/s.sort_index

*Vẽ đồ thị thể hiện sự thay đổi số lượng movie được sản xuất qua các năm.*

In [None]:
# 1. Từ movies_with_year_df, đếm số lượng movie của mỗi năm
df = movies_with_year_df
s = df.year.value_counts()
# 2. Từ kết quả ở bước trước, vẽ đồ thị dạng line
s = s.sort_index() # Trước khi vẽ, cần sort index
s.plot.line() 

Tại sao ở cuối đồ thị, số lượng movie lại giảm xuống một cách đột ngột? 

*Vẽ đồ thị thể hiện sự thay đổi số lượng movie thuộc thể loại action được sản xuất qua các năm.*

In [None]:
# Tương tự như câu trên 
# nhưng làm trên movies_with_year_df được giới hạn lại là chỉ gồm các movie thuộc thể loại Action
df = movies_with_year_df
df = df[df.genres.str.contains('Action')]
df.head()

# <font color=blue>Xử lý dữ liệu thời gian ở dataframe</font>

## pd.to_datetime

*Vẽ đồ thị thể hiện sự thay đổi số lượng người đánh giá movies qua các năm.*

In [None]:
# 1. Chuyển cột timestamp trong ratings_df sang dạng date time
df = ratings_df
df = df.assign(timestamp=pd.to_datetime(df.timestamp, unit='s'))
df.head()

In [None]:
df.info()

## s.dt.xử-lý-x

In [None]:
# 1. Chuyển cột timestamp trong ratings_df sang dạng date time
df = ratings_df
df = df.assign(timestamp=pd.to_datetime(df.timestamp, unit='s'))
# 2. Từ kết quả ở bước trước, lấy thông tin về year và thêm cột year vào kết quả
df = df.assign(year=df.timestamp.dt.year)
ratings_with_year_df = df # Lưu lại kết quả vào một tên dễ nhớ vì lúc sau sẽ cần dùng đến kết quả này nhiều lần
ratings_with_year_df.head()

In [None]:
# 3. Từ kết quả ở bước trước, vẽ đồ thị dạng line
df = ratings_with_year_df
df.year.value_counts().sort_index().plot.line()

# <font color=blue>Kết hợp dữ liệu từ nhiều dataframe</font>

## df.merge

*Cho biết mỗi movie (dùng title để biểu diễn movie) có bao nhiêu người đánh giá và điểm TB là bao nhiêu?*

In [None]:
# 1. Từ ratings_df, lấy thêm thông tin về title của movie ở movies_df
df = ratings_df.merge(movies_df[['movieId', 'title']], on='movieId')
df.head()

# <font color=blue>Gom nhóm và tính toán trong mỗi nhóm</font>

## df.groupby(tên-cột hoặc list-tên-cột).tính-toán-x

In [None]:
# 1. Từ ratings_df, lấy thêm thông tin về title của movie ở movies_df
df = ratings_df.merge(movies_df[['movieId', 'title']], on='movieId')
# 2. Từ kết quả ở bước trước, gom nhóm các dòng theo title;
#    với mỗi nhóm, tính số lượng người đánh giá và điểm TB
df = df.groupby('title')['rating'].agg(['size', 'mean'])
df.head()

# <font color=blue>Tổ chức lại dữ liệu ở DataFrame</font>

## df/s.unstack (và df.stack)

*Với mỗi năm, movie nào là movie của năm (được nhiều người đánh giá nhất)?*

In [None]:
# 1. Từ ratings_with_year_df, lấy thông tin về title của movie ở movies_df
df = ratings_with_year_df.merge(movies_df[['movieId', 'title']])
# 2. Từ kết quả ở bước trước, gom nhóm theo year, title; với mỗi nhóm, tính size
s = df.groupby(['year', 'title']).size()
# 3. Từ kết quả ở bước trước, kéo các giá trị của index title lên thành các cột
df = s.unstack('title').fillna(0)
# 4. Từ kết quả ở bước trước, tính idxmax của mỗi dòng
df.idxmax(axis=1)