In [None]:
import pandas as pd

# Đọc dữ liệu từ các tệp CSV
book = pd.read_csv('./Books.csv', low_memory=False)
rating = pd.read_csv('./Ratings.csv', low_memory=False)
users = pd.read_csv('./Users.csv', low_memory=False)

# Kết hợp các bảng dữ liệu
df1 = book.merge(rating, how="left", on="ISBN")
df_ = df1.merge(users, how="left", on="User-ID")

# Tạo một bản sao của dữ liệu đã kết hợp
df = df_.copy()

# Xem trước dữ liệu
print(df.head())


: 

In [None]:
df.shape

In [None]:
#Deleting missing observations in the dataset
df.info()
df.dropna(inplace=True)

In [None]:
#Converting User-ID and Age variable types to int
df['User-ID'] = df['User-ID'].astype('int')
df['Age'] = df['Age'].astype('int')

In [None]:
#Author of The Da Vinci Code written in two different ways
df["Book-Author"]=df["Book-Author"].astype("string")
df["Book-Author"]=df["Book-Author"].str.replace("DAN BROWN","Dan Brown")

In [None]:
################################################################################
import pandas as pd
from unidecode import unidecode

# Giả sử bạn đã có dataframe df với cột "Book-Author"
df["Book-Author"] = df["Book-Author"].astype("string")

# 1. Sửa lỗi mã hóa
df["Book-Author"] = df["Book-Author"].apply(lambda x: unidecode(x))

# 2. Loại bỏ khoảng trắng thừa ở đầu và cuối chuỗi
df["Book-Author"] = df["Book-Author"].str.strip()

# 3. Loại bỏ khoảng trắng thừa giữa các từ
df["Book-Author"] = df["Book-Author"].str.replace(r'\s+', ' ', regex=True)

# 4. Chuyển đổi thành Title Case (chữ đầu viết hoa)
df["Book-Author"] = df["Book-Author"].str.title()

# In lại các tác giả độc nhất
unique_authors = df["Book-Author"].unique()

# Xuất lại thành file CSV hoặc text sau khi chuẩn hóa
authors_df = pd.DataFrame(unique_authors, columns=["Book-Author"])
authors_df.to_csv('unique_authors_cleaned.csv', index=False)

In [None]:
################################################################################
import pandas as pd
import re
from unidecode import unidecode

# Giả sử bạn đã có dataframe df với cột "Book-Author"
df["Book-Author"] = df["Book-Author"].astype("string")

# 1. Sửa lỗi mã hóa và chuyển đổi ký tự đặc biệt
df["Book-Author"] = df["Book-Author"].apply(lambda x: unidecode(x))

# 2. Loại bỏ khoảng trắng thừa ở đầu và cuối chuỗi
df["Book-Author"] = df["Book-Author"].str.strip()

# 3. Loại bỏ khoảng trắng thừa giữa các từ
df["Book-Author"] = df["Book-Author"].str.replace(r'\s+', ' ', regex=True)

# 4. Chuyển đổi thành Title Case (chữ đầu viết hoa)
df["Book-Author"] = df["Book-Author"].str.title()

# 5. Thay thế các ký tự đặc biệt như "(C)" bằng các ký tự chuẩn
df["Book-Author"] = df["Book-Author"].str.replace(r'\(C\)', 'C', regex=True)  # Thay "(C)" bằng 'C'

# 6. Các trường hợp đặc biệt cần thay thế
# Ví dụ: "Fra(C)Da(C)Ric" => "Frédéric"
df["Book-Author"] = df["Book-Author"].replace({
    "Fra(C)Da(C)Ric": "Frédéric",
    "Rush H., Iii Limbaugh": "Rush H. Limbaugh"
}, regex=True)

# In lại các tác giả độc nhất
unique_authors = df["Book-Author"].unique()

# Xuất lại thành file CSV hoặc text sau khi chuẩn hóa
authors_df = pd.DataFrame(unique_authors, columns=["Book-Author"])



In [None]:
#Author of Dreamcatcher book correcting incorrect entries
df["Book-Author"]=df["Book-Author"].str.replace("Audrey Osofsky","Stephen King")
df["Book-Author"]=df["Book-Author"].str.replace("Dinah McCall","Stephen King")

In [None]:
#Extracting Image URL from dataset
df.drop(columns=["Image-URL-S","Image-URL-M"],inplace=True)

In [None]:
#Removing books with zero ratings from the data set
df=df[df["Book-Rating"]>0]
df["Book-Rating"].describe()

In [None]:
#Unique reader count
df["User-ID"].nunique()

In [None]:
unique_counts_df = df[['ISBN']].value_counts().reset_index(name='Count')

print(unique_counts_df)

In [None]:
#Unique number of books
df["Book-Title"].nunique()



In [None]:
df["ISBN"].nunique()


In [None]:
#We found how many books users read
df.groupby('User-ID')['Book-Title'].agg('count').sort_values()

In [None]:
#How many times have we read which book?
book_counts = pd.DataFrame(df["ISBN"].value_counts())

In [None]:
book_counts.sort_values("count", ascending=False, inplace=True)


In [None]:
# Tìm các sách hiếm (được đọc ít hơn hoặc bằng 90 lần)
rare_book = book_counts[book_counts["count"] <= 80].index


In [None]:
#Number of rarely read books
rare_book.nunique()

In [None]:

# common_book = df[~df["ISBN"].isin(rare_book)]
# # Lấy danh sách các sách không hiếm (unique titles)
# common_books_list = common_book["ISBN"].unique().tolist()
# print(common_books_list)
# # Đếm tổng số lần xuất hiện của các sách không hiếm (có thể có lặp lại)
# total_common_books = len(common_book)
# print("Tổng số lần xuất hiện của sách không hiếm:", total_common_books)
# # Đếm số lượng tựa sách không hiếm (unique titles)
# unique_common_books_count = common_book["ISBN"].nunique()
# print("Số lượng tựa sách không hiếm:", unique_common_books_count)





In [None]:
#By removing the rare books from the dataset, we found the widely read books
common_book = df[~df["Book-Title"].isin(rare_book)]
common_book.head()
common_book.to_csv("common_book", index=False)

In [None]:
isbn_and_title = common_book[["ISBN", "Book-Title"]]

# Lưu vào file CSV
isbn_and_title.to_csv("common_book_isbn_and_title.csv", index=False)


In [None]:
#User-Book matrix
user_book_df = common_book.pivot_table(index=["User-ID"], columns=["Book-Title"], values="Book-Rating")
user_book_df.to_csv("user_book_matrix.csv")


In [None]:
#We chose a book
book_name="The Da Vinci Code"

In [None]:
#We found the points given to the book
book_name=user_book_df[book_name]
book_name.sort_values(ascending=False)

In [None]:
user_book_df.corrwith(book_name).sort_values(ascending=False).head()

In [None]:
rec_book=user_book_df.corrwith(book_name).sort_values(ascending=False).head()
rec_book_list=list(rec_book.index)

rec_book_list

In [None]:
#Authors of 5 books we recommend
df_author=df[["Book-Title","Book-Author"]]
df_author.head()

df1 = df_author.loc[df_author["Book-Title"].isin(rec_book_list)]

df2=df1.drop_duplicates(subset=["Book-Author","Book-Author"], keep="first")
df2

In [None]:
df2.shape