### **Task 3: Preprocess Data**

<hr/>

#### TIỀN XỬ LÝ VÀ KHÁM PHÁ DỮ LIỆU **MOVIES INFOR**

##### 1. Import thư viện

In [1]:
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi
import json
import pandas as pd
import os

##### CHUẨN BỊ DỮ LIỆU

##### KẾT NỐI VỚI LOCAL MONGODB

In [2]:
# Đọc dữ liệu từ Local MongoDB
client = MongoClient('mongodb://localhost:27017/')
db = client['T2_RawData']

In [3]:
# Collection
collection = db['Movies_Infor']

##### 2. Đọc dữ liệu và chuyển đổi thành dataframe

In [4]:
cursor = collection.find()
data_list = list(cursor)

raw_mi_df = pd.DataFrame(data_list, index = None)
# Remove the _id column
raw_mi_df = raw_mi_df.drop('_id', axis=1, errors='ignore')
raw_mi_df.head(5)

Unnamed: 0,movie_id,title,introduction,runtime,runtimeSeconds,rating,award,genre,releaseDate,releaseLocation,actors,directors
0,tt0012349,The Kid,"The Tramp cares for an abandoned child, but ev...",1h 8m,4080,"{'count': 134289, 'star': 8.2}","{'wins': 2, 'nominations': 0}","[Comedy, Drama, Family]",1921-02-06,United States,"[Charles Chaplin, Edna Purviance, Jackie Coogan]",[Charles Chaplin]
1,tt0015864,The Gold Rush,A prospector goes to the Klondike during the 1...,1h 35m,5700,"{'count': 118269, 'star': 8.1}","{'wins': 5, 'nominations': 3}","[Adventure, Comedy, Drama, Romance, Western]",1925-08-16,United States,"[Charles Chaplin, Mack Swain, Tom Murray]",[Charles Chaplin]
2,tt0017136,Metropolis,In a futuristic city sharply divided between t...,2h 33m,9180,"{'count': 184863, 'star': 8.3}","{'wins': 6, 'nominations': 6}","[Drama, Sci-Fi]",1927-03-13,United States,"[Brigitte Helm, Alfred Abel, Gustav Fröhlich]",[Fritz Lang]
3,tt0017925,The General,After being rejected by the Confederate milita...,1h 18m,4680,"{'count': 97815, 'star': 8.1}","{'wins': 2, 'nominations': 1}","[Action, Adventure, Comedy, Drama, War]",1927-01-02,United States,"[Buster Keaton, Marion Mack, Glen Cavender]","[Clyde Bruckman, Buster Keaton]"
4,tt0019109,Lonesome,Two lonely people in the big city meet and enj...,1h 9m,4140,"{'count': 2586, 'star': 7.8}","{'wins': 1, 'nominations': 0}","[Comedy, Drama, Romance]",1928-11-22,Hungary,"[Barbara Kent, Glenn Tryon, Fay Holderness]",[Pál Fejös]


In [5]:
# Preprocessing
db = client['T2_PreprocessedData']
collection = db['Movies_Infor']

cursor = collection.find()
data_list = list(cursor)

mi_df = pd.DataFrame(data_list, index = None)
# Remove the _id column
mi_df = mi_df.drop('_id', axis=1, errors='ignore')

existed_movies_id = mi_df['movie_id'].tolist()

raw_mi_df = raw_mi_df[~raw_mi_df['movie_id'].isin(existed_movies_id)]
raw_mi_df.reset_index(drop=True, inplace=True)

In [6]:
raw_mi_df.to_csv('movie_info_raw.csv', index = False)

In [7]:
raw_mi_df = pd.read_csv('movie_info_raw.csv')

##### BẮT ĐẦU KHÁM PHÁ VÀ TIỀN XỬ LÝ DỮ LIỆU

##### 3. Tính số dòng và cột

In [8]:
#Dòng & cột
n_rows, n_cols = raw_mi_df.shape
print(f'Số dòng: {n_rows}\nSố cột: {n_cols}')

Số dòng: 87
Số cột: 12


##### 4. Mỗi dòng có ý nghĩa gì? Có vấn đề các dòng có ý nghĩa khác nhau không?

Mỗi dòng trong tập dữ liệu tương ứng với một bản ghi các thông tin về một bộ phim gồm các thuộc tính như: tên phim, giới thiệu sơ lược, độ dài phim, thể loại, diễn viên, đạo diễn,...
Và không có vấn đề các dòng có ý nghĩa khác nhau.

##### 5. Dữ liệu có các dòng bị lặp không?

In [9]:
n_duplicate = raw_mi_df.duplicated().sum()
print('Số dòng bị lặp:', n_duplicate)

Số dòng bị lặp: 0


##### 6. Mỗi cột có ý nghĩa gì?

Mỗi cột có ý nghĩa:
- movie_id: mã phim
- title: tên phim
- introduction: giới thiệu ngắn gọn nội dung phim
- runtime: độ dài phim tính theo giờ và phút
- runtimeSeconds: độ dài phim tính theo giây
- rating: đánh giá của người xem về phim, bao gồm số lượt đánh giá và số sao đánh giá trung bình
- award: các giải thưởng và đề cử mà bộ phim có được
- genre: thể loại phim
- releaseDate: ngày phát hành
- releaseLocation: nơi phát hành phim
- actors: diễn viên trong phim
- directors: đạo diễn của bộ phim

##### 7. Xử lý tách các cột có kiểu dictionary thành nhiều cột

Nếu lấy data từ file movie_info_raw.csv, thì dữ liệu dict được coi như là string, do đó phải chuyển kiểu dữ liệu về đúng định dạng ban đầu

In [10]:
for i in raw_mi_df.select_dtypes(include = 'object'):
    if raw_mi_df[i][0].find('{') != -1:
        raw_mi_df[i] = raw_mi_df[i].apply(eval)

Nếu đọc dataframe từ file .json thì trực tiếp tách cột

In [11]:
dict_col = []
for col in raw_mi_df.columns:
    if isinstance(raw_mi_df[col][0], dict):
        dict_col.append(col)

print('Cột có kiểu dữ liệu dictionary:', dict_col)

Cột có kiểu dữ liệu dictionary: ['rating', 'award']


In [12]:
raw_mi_df = pd.concat([raw_mi_df, raw_mi_df['rating'].apply(pd.Series), raw_mi_df['award'].apply(pd.Series)],axis = 1)
raw_mi_df.rename(columns = {'count': 'totalRatings', 'star':'ratingStar', 'wins': 'totalAwards',
                         'nominations': 'totalNominations'}, inplace = True)
raw_mi_df.head(3)

Unnamed: 0,movie_id,title,introduction,runtime,runtimeSeconds,rating,award,genre,releaseDate,releaseLocation,actors,directors,totalRatings,ratingStar,totalAwards,totalNominations
0,tt0011742,Sumurun,The favorite slave girl of a tyrannical sheik ...,1h 25m,5100,"{'count': 819, 'star': 6.1}","{'wins': 1, 'nominations': 0}","['Adventure', 'Drama', 'Romance']",1921-09-25,United States,"['Ernst Lubitsch', 'Pola Negri', 'Paul Wegener']",['Ernst Lubitsch'],819.0,6.1,1,0
1,tt0020112,The Love Parade,The queen of mythical Sylvania marries a court...,1h 47m,6420,"{'count': 2608, 'star': 7}","{'wins': 1, 'nominations': 6}","['Comedy', 'Musical', 'Romance']",1930-01-18,United States,"['Maurice Chevalier', 'Jeanette MacDonald', 'L...",['Ernst Lubitsch'],2608.0,7.0,1,6
2,tt0020414,The Skeleton Dance,"The clock strikes midnight, the bats fly from ...",6m,360,"{'count': 6277, 'star': 7.6}","{'wins': 0, 'nominations': 0}","['Animation', 'Short', 'Comedy', 'Family', 'Fa...",1929-08-29,United States,"['Walt Disney', 'Carl W. Stalling']",['Walt Disney'],6277.0,7.6,0,0


##### 8. Loại bỏ một số cột không cần thiết

- Sau khi tìm hiểu các thuộc tính của dữ liệu, ta thấy rằng cột `runtime` và `runtimeSeconds` đều có ý nghĩa là độ dài của bộ phim, do vậy để tránh việc dư thừa, ta tiến hành xóa cột `runtime` và giữ lại `runtimeSeconds`
- Ngoài ra, các cột có kiểu dữ liệu dict ban đầu (`rating` và `award`), sau khi đã tách cột cũng sẽ được xóa khỏi dataframe

In [13]:
raw_mi_df = raw_mi_df.drop(columns = ['runtime', 'rating', 'award'])
raw_mi_df.columns

Index(['movie_id', 'title', 'introduction', 'runtimeSeconds', 'genre',
       'releaseDate', 'releaseLocation', 'actors', 'directors', 'totalRatings',
       'ratingStar', 'totalAwards', 'totalNominations'],
      dtype='object')

##### 9. Mỗi cột hiện có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu không phù hợp để xử lý tiếp không?

In [14]:
raw_mi_df.dtypes

movie_id             object
title                object
introduction         object
runtimeSeconds        int64
genre                object
releaseDate          object
releaseLocation      object
actors               object
directors            object
totalRatings        float64
ratingStar          float64
totalAwards           int64
totalNominations      int64
dtype: object

Ta thấy rằng nên đưa cột `releaseDate` về dạng datetime để tiếp tục khám phá thêm ở cột này.

In [15]:
raw_mi_df['releaseDate'] = pd.to_datetime(raw_mi_df['releaseDate'])

Kiểm tra lại

In [16]:
raw_mi_df.dtypes

movie_id                    object
title                       object
introduction                object
runtimeSeconds               int64
genre                       object
releaseDate         datetime64[ns]
releaseLocation             object
actors                      object
directors                   object
totalRatings               float64
ratingStar                 float64
totalAwards                  int64
totalNominations             int64
dtype: object

##### 10. Xem xét sự phân bố giá trị của các cột dữ liệu dạng số

In [17]:
numeric_df = raw_mi_df.select_dtypes(exclude = 'object')
numeric_df.columns

Index(['runtimeSeconds', 'releaseDate', 'totalRatings', 'ratingStar',
       'totalAwards', 'totalNominations'],
      dtype='object')

Các cột dữ liệu dạng số là: runtimeSeconds, releaseDate, totalRatings, ratingStar, totalAwards, totalNominations

Thực hiện thống kê trên các cột này và lưu vào một dataframe với các dòng đại diện cho các giá trị:
- Tỉ lệ % (từ 0 đến 100) các giá trị thiếu (missing_ratio).
- Giá trị min (min).
- Giá trị lower quartile (phân vị 25) (lower_quartile).
- Giá trị median (phân vị 50) (median).
- Giá trị upper quartile (phân vị 75) (upper_quartile).
- Giá trị max (max).

In [18]:
def missing_ratio(x):
    res = x.isnull().sum()* 100.0 / len(x)
    return res

def lower_quartile(x):
    return x.quantile(0.25)

def median(x):
    return x.quantile(0.5)

def upper_quartile(x):
    return x.quantile(0.75)

numeric_df = numeric_df.agg([missing_ratio, "min", lower_quartile, median, upper_quartile, "max"]).round(1)
numeric_df

Unnamed: 0,runtimeSeconds,releaseDate,totalRatings,ratingStar,totalAwards,totalNominations
missing_ratio,0.0,0.0,0.0,0.0,0.0,0.0
min,0.0,1921-09-25 00:00:00,35.0,3.4,0.0,0.0
lower_quartile,420.0,1945-11-23 12:00:00,587.0,6.1,0.0,0.0
median,2700.0,1951-12-01 00:00:00,2291.0,7.0,0.0,0.0
upper_quartile,5400.0,1999-11-14 12:00:00,8510.5,7.6,1.0,2.0
max,7680.0,2022-02-25 00:00:00,654553.0,9.2,135.0,458.0


Các cột có kiểu dữ liệu dạng numeric không có giá trị thiếu, do những giá trị thuộc tính này là những giá trị cần thiết, thông dụng và dễ có được của một bộ phim

##### 11. Xem xét sự phân bố giá trị của các cột dữ liệu không phải dạng số

In [19]:
category_df = raw_mi_df.select_dtypes(include = 'object')
category_df.columns

Index(['movie_id', 'title', 'introduction', 'genre', 'releaseLocation',
       'actors', 'directors'],
      dtype='object')

Các cột dữ liệu không phải dạng số là: movie_id, title, introduction, genre, releaseLocation, actors, directors

Thực hiện thống kê và lưu vào một dataframe với các dòng có giá trị mang ý nghĩa:
- Tỉ lệ % (từ 0 đến 100) các giá trị thiếu (missing_ratio).
- Số lượng các giá trị khác nhau (không xét giá trị thiếu) (num_values).
- Tỉ lệ % (từ 0 đến 100) của mỗi giá trị được sort theo tỉ lệ % giảm dần (tỉ lệ là tỉ lệ so với số lượng các giá trị không thiếu): dùng dictionary để lưu, key là giá trị, value là tỉ lệ % (value_ratios)

In [20]:
#pd.set_option('display.max_columns', None)
#pd.set_option('display.max_rows', None)

def missing_ratio(x):
    res = x.isnull().sum()* 100.0 / len(x)
    return res

def num_values(x):
    return x.dropna().nunique()

def value_ratios(x):
    d = {}
    value_cnt = x.value_counts()
    value_list = list(value_cnt.keys())
    n = x.dropna().count()
    for val in value_list:
        d[val] = round(value_cnt[val] / n * 100.0, 3)
        d = dict(sorted(d.items(), key=lambda item: item[1]))
    return d

category_df = category_df.agg([missing_ratio, num_values, value_ratios])
category_df

Unnamed: 0,movie_id,title,introduction,genre,releaseLocation,actors,directors
missing_ratio,0.0,0.0,0.0,0.0,0.0,0.0,0.0
num_values,87,87,87,63,8,78,49
value_ratios,"{'tt0011742': 1.149, 'tt0114194': 1.149, 'tt01...","{'Sumurun': 1.149, 'The Prophecy': 1.149, 'The...",{'The favorite slave girl of a tyrannical shei...,"{'['Comedy', 'Horror']': 1.149, '['Animation',...","{'Taiwan': 1.149, 'Australia': 1.149, 'Italy':...","{'['Ernst Lubitsch', 'Pola Negri', 'Paul Wegen...","{'['William Wyler']': 1.149, '['René Clément']..."


Các cột có kiểu dữ liệu dạng category không có giá trị thiếu, do những giá trị thuộc tính này là những giá trị cần thiết, thông dụng và dễ có được của một bộ phim

##### ĐẨY DỮ LIỆU LÊN LOCAL MONGODB VÀ MONGODB ATLAS

In [21]:
# Local MongoDB:
client = MongoClient('mongodb://localhost:27017/')
db = client['T2_PreprocessedData']

In [22]:
# Movie Infor
# Collection
collection = db['Movies_Infor']
# Push data
dict_df = raw_mi_df.to_dict('records')
result = collection.insert_many(dict_df)
print ('=> Inserted document IDs successfuly:', result.inserted_ids) 

=> Inserted document IDs successfuly: [ObjectId('661b4584a683ccff501e7334'), ObjectId('661b4584a683ccff501e7335'), ObjectId('661b4584a683ccff501e7336'), ObjectId('661b4584a683ccff501e7337'), ObjectId('661b4584a683ccff501e7338'), ObjectId('661b4584a683ccff501e7339'), ObjectId('661b4584a683ccff501e733a'), ObjectId('661b4584a683ccff501e733b'), ObjectId('661b4584a683ccff501e733c'), ObjectId('661b4584a683ccff501e733d'), ObjectId('661b4584a683ccff501e733e'), ObjectId('661b4584a683ccff501e733f'), ObjectId('661b4584a683ccff501e7340'), ObjectId('661b4584a683ccff501e7341'), ObjectId('661b4584a683ccff501e7342'), ObjectId('661b4584a683ccff501e7343'), ObjectId('661b4584a683ccff501e7344'), ObjectId('661b4584a683ccff501e7345'), ObjectId('661b4584a683ccff501e7346'), ObjectId('661b4584a683ccff501e7347'), ObjectId('661b4584a683ccff501e7348'), ObjectId('661b4584a683ccff501e7349'), ObjectId('661b4584a683ccff501e734a'), ObjectId('661b4584a683ccff501e734b'), ObjectId('661b4584a683ccff501e734c'), ObjectId('6

In [23]:
# MongoDB Atlas:
password = 'dsa123456'
uri = f"mongodb+srv://DSA_Project:{password}@cluster0.gdtn4g6.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


In [24]:
db = client['T2_PreprocessedData']

In [25]:
# Movie Infor
# Collection
collection = db['Movies_Infor']
# Push data
dict_df = raw_mi_df.to_dict('records')
result = collection.insert_many(dict_df)
print ('=> Inserted document IDs successfuly:', result.inserted_ids) 

=> Inserted document IDs successfuly: [ObjectId('661b4585a683ccff501e738c'), ObjectId('661b4585a683ccff501e738d'), ObjectId('661b4585a683ccff501e738e'), ObjectId('661b4585a683ccff501e738f'), ObjectId('661b4585a683ccff501e7390'), ObjectId('661b4585a683ccff501e7391'), ObjectId('661b4585a683ccff501e7392'), ObjectId('661b4585a683ccff501e7393'), ObjectId('661b4585a683ccff501e7394'), ObjectId('661b4585a683ccff501e7395'), ObjectId('661b4585a683ccff501e7396'), ObjectId('661b4585a683ccff501e7397'), ObjectId('661b4585a683ccff501e7398'), ObjectId('661b4585a683ccff501e7399'), ObjectId('661b4585a683ccff501e739a'), ObjectId('661b4585a683ccff501e739b'), ObjectId('661b4585a683ccff501e739c'), ObjectId('661b4585a683ccff501e739d'), ObjectId('661b4585a683ccff501e739e'), ObjectId('661b4585a683ccff501e739f'), ObjectId('661b4585a683ccff501e73a0'), ObjectId('661b4585a683ccff501e73a1'), ObjectId('661b4585a683ccff501e73a2'), ObjectId('661b4585a683ccff501e73a3'), ObjectId('661b4585a683ccff501e73a4'), ObjectId('6

##### 12. Lưu dữ liệu có được vào file .csv để phục vụ cho các phần sau của đồ án

In [26]:
# raw_mi_df.to_csv('movies_info_clean.csv', index = False)

#### TIỀN XỬ LÝ VÀ KHÁM PHÁ DỮ LIỆU **USERS INFOR & RATINGS**

##### 0. Import thư viện

In [27]:
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi
import json
import pandas as pd
import os

##### 📂 KHÁM PHÁ DỮ LIỆU 

##### KẾT NỐI VỚI LOCAL MONGODB

In [28]:
# Đọc dữ liệu từ Local MongoDB
client = MongoClient('mongodb://localhost:27017/')
db = client['T2_RawData']

##### 1. Đọc dữ liệu từ Local MongoDB vào dataframe

###### User Infor

In [29]:
# Collection UI
collection = db['Users_Infor']

In [30]:
cursor = collection.find()
data_list = list(cursor)

raw_ui_df = pd.DataFrame(data_list, index = None)
# Remove the _id column
raw_ui_df = raw_ui_df.drop('_id', axis=1, errors='ignore')
raw_ui_df.head(5)

Unnamed: 0,user_id,user_name,member_since
0,ur0028288,merrywood,November 2000
1,ur0032412,Buckywunder,January 2000
2,ur0033913,Sylviastel,January 2001
3,ur0035229,Spleen,January 2001
4,ur0035641,pk-2,February 2001


###### Ratings

In [31]:
# Collection Ratings (1U-nM)
collection = db["UMR_data"]

In [32]:
cursor = collection.find()
data_list = list(cursor)

raw_umr_df = pd.DataFrame(data_list, index = None)
# Remove the _id column
raw_umr_df = raw_umr_df.drop('_id', axis=1, errors='ignore')
raw_umr_df.head(5)

Unnamed: 0,user_id,movie_id,user_rating
0,ur0028288,tt2392830,8
1,ur0028288,tt4635282,6
2,ur0028288,tt0470752,9
3,ur0028288,tt3681794,6
4,ur0028288,tt0063442,9


In [33]:
# Collection Ratings (1M-nU)
collection = db["MUR_data"]

In [34]:
cursor = collection.find()
data_list = list(cursor)

raw_mur_df = pd.DataFrame(data_list, index = None)
# Remove the _id column
raw_mur_df = raw_mur_df.drop('_id', axis=1, errors='ignore')
raw_mur_df.head(5)

Unnamed: 0,user_id,movie_id,user_rating
0,ur1174211,tt0012349,
1,ur4103165,tt0012349,9.0
2,ur4445210,tt0012349,9.0
3,ur1888886,tt0012349,9.0
4,ur0679729,tt0012349,


In [35]:
raw_r_df = pd.concat([raw_umr_df, raw_mur_df])
raw_r_df

Unnamed: 0,user_id,movie_id,user_rating
0,ur0028288,tt2392830,8
1,ur0028288,tt4635282,6
2,ur0028288,tt0470752,9
3,ur0028288,tt3681794,6
4,ur0028288,tt0063442,9
...,...,...,...
195254,ur39164584,tt5753856,10
195255,ur71436587,tt5753856,9
195256,ur81410993,tt5753856,10
195257,ur106698538,tt5753856,9


In [36]:
raw_r_df = raw_r_df.drop_duplicates()
raw_r_df = raw_r_df.reset_index(drop=True)
raw_r_df

Unnamed: 0,user_id,movie_id,user_rating
0,ur0028288,tt2392830,8
1,ur0028288,tt4635282,6
2,ur0028288,tt0470752,9
3,ur0028288,tt3681794,6
4,ur0028288,tt0063442,9
...,...,...,...
369652,ur39164584,tt5753856,10
369653,ur71436587,tt5753856,9
369654,ur81410993,tt5753856,10
369655,ur106698538,tt5753856,9


##### 2. Dữ liệu gồm bao nhiêu dòng và bao nhiêu cột?

In [37]:
#=======================================USERS INFOR===============================================
print('USERS DATASET')
num_rows_users = raw_ui_df.shape[0]
num_cols_users = raw_ui_df.shape[1]
print('Số dòng của dữ liệu: ', num_rows_users)
print('Số cột của dữ liệu: ', num_cols_users)

#=======================================RATINGS=============================================
print('RATING DATASET')
num_rows_rating = raw_r_df.shape[0]
num_cols_rating = raw_r_df.shape[1]
print('Số dòng của dữ liệu: ', num_rows_rating)
print('Số cột của dữ liệu: ', num_cols_rating)

USERS DATASET
Số dòng của dữ liệu:  2567
Số cột của dữ liệu:  3
RATING DATASET
Số dòng của dữ liệu:  369657
Số cột của dữ liệu:  3


##### 3. Mỗi dòng có ý nghĩa gì? Có vấn đề các dòng có ý nghĩa khác nhau không?

Theo quan sát sơ bộ về bộ dữ liệu:
- Bộ dữ liệu thông tin người dùng: mỗi dòng cho biết các thông tin liên quan đến người dùng và thời gian tham gia vào hệ thống.
- Bộ dữ liệu đánh giá phim: mỗi dòng cho biết thông tin liên quan đến người dùng, bộ phim, và điểm đánh giá của người dùng với bộ phim tương ứng. 

Có vẻ không có dòng nào không phù hợp.

##### 4. Dữ liệu có các dòng bị lặp không? 

In [38]:
def check_duplicated(data):
    check = data.duplicated().sum()
    if check == 0:
        print('Dữ liệu không bị lặp!')
    else:
        print('Có dòng bị lặp, kiểm tra lại!')

#=======================================USERS===============================================
print('USERS DATASET')
check_duplicated(raw_ui_df)

#=======================================RATINGS=============================================
print('RATING DATASET')
check_duplicated(raw_r_df)

USERS DATASET
Dữ liệu không bị lặp!
RATING DATASET
Dữ liệu không bị lặp!


##### 5. Mỗi cột có ý nghĩa gì?

- Bộ dữ liệu thông tin người dùng: 
    - **user_id**: id của người dùng.
    - **user_name**: tên của người dùng.
    - **member_since**: Tháng và năm tham gia.
- Bộ dữ liệu đánh giá phim:
    - **user_id**: id của người dùng.
    - **movie_id**: id của bộ phim.
    - **user_rating**: điểm đánh giá của người dùng cho bộ phim tương ứng. Điểm này sẽ giao động trong khoảng thừ 1 - 10 điểm.

##### 6. Mỗi cột hiện đang có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu chưa phù hợp để có thể xử lý tiếp không?

In [39]:
#=======================================USERS===============================================
print('USERS DATASET')
col_dtypes_users = pd.Series(raw_ui_df.dtypes)
col_dtypes_users

USERS DATASET


user_id         object
user_name       object
member_since    object
dtype: object

In [40]:
#=======================================RATINGS=============================================
print('RATING DATASET')
col_dtypes_rating = pd.Series(raw_r_df.dtypes)
col_dtypes_rating

RATING DATASET


user_id        object
movie_id       object
user_rating    object
dtype: object

##### 🔎 Tìm hiểu về các cột có kiểu object

In [41]:
def object_dtype(s):
    dtypes = set()
    s.apply(lambda x : dtypes.add(type(x)))
    return dtypes

In [42]:
#=======================================USERS===============================================
print('USERS DATASET')
list_object_users= list(col_dtypes_users.loc[col_dtypes_users.values == object].index)
list_type_users = []
for i in list_object_users:
    list_type_users.insert(len(list_type_users), object_dtype(raw_ui_df[i]))
type_object_users = pd.Series(list_type_users,list_object_users)
type_object_users

USERS DATASET


user_id         {<class 'str'>}
user_name       {<class 'str'>}
member_since    {<class 'str'>}
dtype: object

In [43]:
#=======================================RATINGS=============================================
print('RATING DATASET')
list_object_rating= list(col_dtypes_rating.loc[col_dtypes_rating.values == object].index)
list_type_rating = []
for i in list_object_rating:
    list_type_rating.insert(len(list_type_rating), object_dtype(raw_r_df[i]))
type_object_rating = pd.Series(list_type_rating,list_object_rating)
type_object_rating

RATING DATASET


user_id        {<class 'str'>}
movie_id       {<class 'str'>}
user_rating    {<class 'str'>}
dtype: object

💡 **Ta thấy rằng**: 
+ Đối với *User Infor*: Nên đưa cột `member_since` về dạng `datetime` để tiếp tục khám phá thêm ở cột này.
+ Đối với *Ratings*: Nên đưa cột `user_rating` về dạng `float64` để dễ dàng xử lý trong các quá trình sau

---

##### 📂 TIỀN XỬ LÝ DỮ LIỆU 

In [44]:
raw_ui_df.loc[raw_ui_df['member_since'] == '', 'member_since'] = "January 2024"

###### Chuyển dtype các cột **member_since** về `datetime`

In [45]:
# raw_ui_df['member_since'] = pd.to_datetime(raw_ui_df['member_since']).dt.to_period('M');
raw_ui_df['member_since'] = pd.to_datetime(raw_ui_df['member_since'], format='%B %Y')
# raw_ui_df['member_since'] = raw_ui_df['member_since'].dt.strftime('%m-%Y')
# raw_ui_df['member_since'] = pd.to_datetime(raw_ui_df['member_since'], format='%m-%Y')

In [46]:
raw_ui_df

Unnamed: 0,user_id,user_name,member_since
0,ur0028288,merrywood,2000-11-01
1,ur0032412,Buckywunder,2000-01-01
2,ur0033913,Sylviastel,2001-01-01
3,ur0035229,Spleen,2001-01-01
4,ur0035641,pk-2,2001-02-01
...,...,...,...
2562,ur9009737,fanan450,2006-01-01
2563,ur9082278,im_veritas_photo,2006-01-01
2564,ur9114385,mheuermann,2006-01-01
2565,ur92148629,JoseyWales0,2018-09-01


###### Chuyển dtype các cột **user_rating** về `float64`

In [47]:
raw_r_df['user_rating'] = pd.to_numeric(raw_r_df['user_rating'], errors='coerce')

##### 📂 QUAY LẠI BƯỚC KHÁM PHÁ DỮ LIỆU 

##### 7. Với mỗi cột có kiểu dữ liệu dạng numeric, ta tìm hiểu sự phân bố các giá trị.

🔎 Hiện tại có các cột là `member_since` trong dataframe thông tin người dùng và cột `user_rating` trong dataframe thông tin đánh giá phim thuộc nhóm `Numeric`. Với mỗi cột ta sẽ tính tỉ lệ % giá trị thiếu (từ 0 đến 100), min, max. Sau đó lưu kết quả vào dataframe có 6 dòng là `"missing_ratio", "min", "lower_quartile", "median", "upper_quartile", "max"` và có tên cột là các cột thuộc nhóm `Numeric` 

In [48]:
row_info = ["missing_ratio", "min", "lower_quartile", "median", "upper_quartile", "max"]

def find_data(col_name, df):
    missing_ratios = (df[col_name].isna().sum() / len(df) * 100)
    min_value = df[col_name].min()
    median = df[col_name].median()
    lower_quartile = df[col_name].quantile(q = 0.25, interpolation = 'lower')
    upper_quartile = df[col_name].quantile(q = 0.75, interpolation = 'higher')
    max_value = df[col_name].max()
    return missing_ratios, min_value, lower_quartile,median,upper_quartile, max_value

In [49]:
#=======================================USERS===============================================
print('USERS DATASET')
col_info_users = ['member_since']
nume_col_profiles_df_users = pd.DataFrame(columns = col_info_users, index = row_info)
for name in col_info_users:
    nume_col_profiles_df_users[name] = find_data(name, raw_ui_df)
nume_col_profiles_df_users

USERS DATASET


Unnamed: 0,member_since
missing_ratio,0.0
min,1999-02-01 00:00:00
lower_quartile,2003-04-01 00:00:00
median,2008-05-01 00:00:00
upper_quartile,2017-01-01 00:00:00
max,2024-02-01 00:00:00


In [50]:
#=======================================RATINGS=============================================
print('RATING DATASET')
col_info_rating = ['user_rating']
nume_col_profiles_df_rating = pd.DataFrame(columns = col_info_rating, index = row_info)
for name in col_info_rating:
    nume_col_profiles_df_rating[name] = find_data(name, raw_r_df)
nume_col_profiles_df_rating

RATING DATASET


Unnamed: 0,user_rating
missing_ratio,8.630163
min,1.0
lower_quartile,5.0
median,7.0
upper_quartile,9.0
max,10.0


💡 **Ta thấy rằng**: Cột `user_rating` có gần 8.5% dữ liệu bị thiếu. Ta sẽ tiến hành lấp đầy các dữ liệu thiếu này bằng giá trị trung vị của cột `user_rating`.

---

##### Xử lý giá trị thiếu trong cột `user_rating` của dữ liệu **rating**

In [51]:
median_value = int(raw_r_df['user_rating'].median())
raw_r_df['user_rating'].fillna(value = median_value, inplace = True)

---

##### 8. Với mỗi cột có kiểu dữ liệu dạng categorical, ta tìm hiểu sự phân bố các giá trị.

🔎 Ngoài các cột có dữ liệu thuộc nhóm `Numeric` đã nêu ở trên ta xét các cột còn lại.
Với mỗi cột `categorical`, ta thực hiện tính % giá trị thiếu(từ 0 - 100), số lượng giá trị khác nhau(không xét giá trị thiếu), list/array các giá trị khác nhau(không xét giá trị thiếu) và lưu kết quả vào dataframe có 3 dòng là `"missing_ratio", "num_diff_vals", "diff_vals"`; và có các cột là các cột dữ liệu thuộc nhóm categorical.

In [52]:
row_names = ["missing_ratio", "num_diff_vals", "diff_vals"]

def info_col(col_name,df):
    missing_ratios = df[col_name].isna().sum()/len(df)*100
    num_diff = df[col_name].dropna().nunique()
    diff_value = list(df[col_name].dropna().unique())
    return missing_ratios, num_diff, diff_value

In [53]:
#=======================================USERS===============================================
print('USERS DATASET')
col_names_users = ['user_id', 'user_name']
cate_col_profiles_df_users = pd.DataFrame(columns=col_names_users,index=row_names)

for name in col_names_users:
    cate_col_profiles_df_users[name] = info_col(name, raw_ui_df)
cate_col_profiles_df_users

USERS DATASET


Unnamed: 0,user_id,user_name
missing_ratio,0.0,0.0
num_diff_vals,2567,2567
diff_vals,"[ur0028288, ur0032412, ur0033913, ur0035229, u...","[merrywood, Buckywunder, Sylviastel, Spleen, p..."


In [54]:
#=======================================RATINGS=============================================
print('RATING DATASET')
col_names_rating = ['user_id', 'movie_id']
cate_col_profiles_df_rating = pd.DataFrame(columns=col_names_rating,index=row_names)

for name in col_names_rating:
    cate_col_profiles_df_rating[name] = info_col(name, raw_r_df)
cate_col_profiles_df_rating

RATING DATASET


Unnamed: 0,user_id,movie_id
missing_ratio,0.0,0.0
num_diff_vals,73432,46886
diff_vals,"[ur0028288, ur0032412, ur0033913, ur0035229, u...","[tt2392830, tt4635282, tt0470752, tt3681794, t..."


---

##### 9. Sau khi khám phá & tiền xử lý dữ liệu xong, ta sẽ xuất ra một file .csv khác để phục vụ cho các bước tiếp theo.

In [55]:
# raw_ui_df.to_csv('data/users_infor_explored.csv', index = False)  

In [56]:
# raw_r_df.to_csv('data/users_rating_explored.csv', index = False)  

---

##### 10. Đẩy dữ liệu lên Local MongoDB và MongoDB Atlas

###### User Infor

In [57]:
# Preprocessing
db = client['T2_PreprocessedData']
collection = db['Users_Infor']
cursor = collection.find()

data_list = list(cursor)

ui_df = pd.DataFrame(data_list, index = None)
# Remove the _id column
ui_df = ui_df.drop('_id', axis=1, errors='ignore')

existed_users_id = ui_df['user_id'].tolist()

raw_ui_df = raw_ui_df[~raw_ui_df['user_id'].isin(existed_users_id)]

raw_ui_df.reset_index(drop=True, inplace=True)

In [58]:
# Local MongoDB:
client = MongoClient('mongodb://localhost:27017/')
db = client['T2_PreprocessedData']

In [59]:
# User Infor
# Collection
collection = db['Users_Infor']
# Push data
dict_df = raw_ui_df.to_dict('records')
result = collection.insert_many(dict_df)
print ('=> Inserted document IDs successfuly:', result.inserted_ids) 

=> Inserted document IDs successfuly: [ObjectId('661b4598a683ccff501e73e5'), ObjectId('661b4598a683ccff501e73e6'), ObjectId('661b4598a683ccff501e73e7'), ObjectId('661b4598a683ccff501e73e8'), ObjectId('661b4598a683ccff501e73e9'), ObjectId('661b4598a683ccff501e73ea'), ObjectId('661b4598a683ccff501e73eb'), ObjectId('661b4598a683ccff501e73ec'), ObjectId('661b4598a683ccff501e73ed'), ObjectId('661b4598a683ccff501e73ee'), ObjectId('661b4598a683ccff501e73ef'), ObjectId('661b4598a683ccff501e73f0'), ObjectId('661b4598a683ccff501e73f1'), ObjectId('661b4598a683ccff501e73f2'), ObjectId('661b4598a683ccff501e73f3'), ObjectId('661b4598a683ccff501e73f4'), ObjectId('661b4598a683ccff501e73f5'), ObjectId('661b4598a683ccff501e73f6'), ObjectId('661b4598a683ccff501e73f7'), ObjectId('661b4598a683ccff501e73f8'), ObjectId('661b4598a683ccff501e73f9'), ObjectId('661b4598a683ccff501e73fa'), ObjectId('661b4598a683ccff501e73fb'), ObjectId('661b4598a683ccff501e73fc'), ObjectId('661b4598a683ccff501e73fd'), ObjectId('6

In [60]:
# MongoDB Atlas:
password = 'dsa123456'
uri = f"mongodb+srv://DSA_Project:{password}@cluster0.gdtn4g6.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


In [61]:
db = client['T2_PreprocessedData']

In [62]:
# User Infor
# Collection
collection = db['Users_Infor']
# Push data
dict_df = raw_ui_df.to_dict('records')
result = collection.insert_many(dict_df)
print ('=> Inserted document IDs successfuly:', result.inserted_ids) 

=> Inserted document IDs successfuly: [ObjectId('661b4599a683ccff501e747c'), ObjectId('661b4599a683ccff501e747d'), ObjectId('661b4599a683ccff501e747e'), ObjectId('661b4599a683ccff501e747f'), ObjectId('661b4599a683ccff501e7480'), ObjectId('661b4599a683ccff501e7481'), ObjectId('661b4599a683ccff501e7482'), ObjectId('661b4599a683ccff501e7483'), ObjectId('661b4599a683ccff501e7484'), ObjectId('661b4599a683ccff501e7485'), ObjectId('661b4599a683ccff501e7486'), ObjectId('661b4599a683ccff501e7487'), ObjectId('661b4599a683ccff501e7488'), ObjectId('661b4599a683ccff501e7489'), ObjectId('661b4599a683ccff501e748a'), ObjectId('661b4599a683ccff501e748b'), ObjectId('661b4599a683ccff501e748c'), ObjectId('661b4599a683ccff501e748d'), ObjectId('661b4599a683ccff501e748e'), ObjectId('661b4599a683ccff501e748f'), ObjectId('661b4599a683ccff501e7490'), ObjectId('661b4599a683ccff501e7491'), ObjectId('661b4599a683ccff501e7492'), ObjectId('661b4599a683ccff501e7493'), ObjectId('661b4599a683ccff501e7494'), ObjectId('6

###### Ratings

In [63]:
# Preprocessing
db = client['T2_PreprocessedData']
collection = db['Ratings']

cursor = collection.find()
data_list = list(cursor)

r_df = pd.DataFrame(data_list, index = None)
# Remove the _id column
r_df = r_df.drop('_id', axis=1, errors='ignore')

# Concatenate the DataFrames
concatenated_df = pd.concat([r_df, raw_r_df])

# Drop duplicates 
raw_r_df = concatenated_df.drop_duplicates(keep=False)

raw_r_df.reset_index(drop=True, inplace=True)
raw_r_df

Unnamed: 0,user_id,movie_id,user_rating
0,ur0078703,tt0120324,8.0
1,ur0078703,tt0117101,7.0
2,ur0078703,tt0120660,7.0
3,ur0078703,tt0166396,8.0
4,ur0078703,tt0120812,6.0
...,...,...,...
12330,ur39164584,tt5753856,10.0
12331,ur71436587,tt5753856,9.0
12332,ur81410993,tt5753856,10.0
12333,ur106698538,tt5753856,9.0


In [64]:
# Local MongoDB:
client = MongoClient('mongodb://localhost:27017/')
db = client['T2_PreprocessedData']

In [65]:
# Ratings
# Collection
collection = db['Ratings']
# Push data
dict_df = raw_r_df.to_dict('records')
result = collection.insert_many(dict_df)
print ('=> Inserted document IDs successfuly:', result.inserted_ids) 

=> Inserted document IDs successfuly: [ObjectId('661b45b2a683ccff501e7513'), ObjectId('661b45b2a683ccff501e7514'), ObjectId('661b45b2a683ccff501e7515'), ObjectId('661b45b2a683ccff501e7516'), ObjectId('661b45b2a683ccff501e7517'), ObjectId('661b45b2a683ccff501e7518'), ObjectId('661b45b2a683ccff501e7519'), ObjectId('661b45b2a683ccff501e751a'), ObjectId('661b45b2a683ccff501e751b'), ObjectId('661b45b2a683ccff501e751c'), ObjectId('661b45b2a683ccff501e751d'), ObjectId('661b45b2a683ccff501e751e'), ObjectId('661b45b2a683ccff501e751f'), ObjectId('661b45b2a683ccff501e7520'), ObjectId('661b45b2a683ccff501e7521'), ObjectId('661b45b2a683ccff501e7522'), ObjectId('661b45b2a683ccff501e7523'), ObjectId('661b45b2a683ccff501e7524'), ObjectId('661b45b2a683ccff501e7525'), ObjectId('661b45b2a683ccff501e7526'), ObjectId('661b45b2a683ccff501e7527'), ObjectId('661b45b2a683ccff501e7528'), ObjectId('661b45b2a683ccff501e7529'), ObjectId('661b45b2a683ccff501e752a'), ObjectId('661b45b2a683ccff501e752b'), ObjectId('6

In [66]:
# MongoDB Atlas:
password = 'dsa123456'
uri = f"mongodb+srv://DSA_Project:{password}@cluster0.gdtn4g6.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


In [67]:
db = client['T2_PreprocessedData']

In [68]:
# Ratings
# Collection
collection = db['Ratings']
# Push data
dict_df = raw_r_df.to_dict('records')
result = collection.insert_many(dict_df)
print ('=> Inserted document IDs successfuly:', result.inserted_ids) 

=> Inserted document IDs successfuly: [ObjectId('661b45b3a683ccff501ea543'), ObjectId('661b45b3a683ccff501ea544'), ObjectId('661b45b3a683ccff501ea545'), ObjectId('661b45b3a683ccff501ea546'), ObjectId('661b45b3a683ccff501ea547'), ObjectId('661b45b3a683ccff501ea548'), ObjectId('661b45b3a683ccff501ea549'), ObjectId('661b45b3a683ccff501ea54a'), ObjectId('661b45b3a683ccff501ea54b'), ObjectId('661b45b4a683ccff501ea54c'), ObjectId('661b45b4a683ccff501ea54d'), ObjectId('661b45b4a683ccff501ea54e'), ObjectId('661b45b4a683ccff501ea54f'), ObjectId('661b45b4a683ccff501ea550'), ObjectId('661b45b4a683ccff501ea551'), ObjectId('661b45b4a683ccff501ea552'), ObjectId('661b45b4a683ccff501ea553'), ObjectId('661b45b4a683ccff501ea554'), ObjectId('661b45b4a683ccff501ea555'), ObjectId('661b45b4a683ccff501ea556'), ObjectId('661b45b4a683ccff501ea557'), ObjectId('661b45b4a683ccff501ea558'), ObjectId('661b45b4a683ccff501ea559'), ObjectId('661b45b4a683ccff501ea55a'), ObjectId('661b45b4a683ccff501ea55b'), ObjectId('6