DATA 1

In [8]:
import pandas as pd
import chardet

def read_csv_auto_encoding(file_path, delimiter):
    # Phát hiện mã hóa tự động
    with open(file_path, 'rb') as f:
        result = chardet.detect(f.read(10000))
    
    encoding = result['encoding']
    print(f"Detected encoding: {encoding}")
    
    # Đọc tệp CSV với mã hóa được phát hiện
    try:
        df = pd.read_csv(file_path, delimiter=delimiter, encoding=encoding)            
        return df
    except Exception as e:
        print(f"Error with detected encoding {encoding}:", e)
        # Thử mã hóa phổ biến khác
        for enc in ['latin1', 'iso-8859-1', 'cp1252']:
            try:
                df = pd.read_csv(file_path, delimiter=delimiter, encoding=enc)
                print(f"Successfully read the file with encoding: {enc}")
                return df
            except Exception as e:
                print(f"Error with encoding {enc}:", e)
                
        return None

In [9]:
df1 = read_csv_auto_encoding('data/Goodreads-books/books_corrected.csv', ",")
print(df1.info())


Detected encoding: utf-8
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11123 entries, 0 to 11122
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   bookID              11123 non-null  int64  
 1   title               11123 non-null  object 
 2   authors             11123 non-null  object 
 3   average_rating      11123 non-null  float64
 4   isbn                11123 non-null  object 
 5   isbn13              11123 non-null  int64  
 6   language_code       11123 non-null  object 
 7   num_pages           11123 non-null  int64  
 8   ratings_count       11123 non-null  int64  
 9   text_reviews_count  11123 non-null  int64  
 10  publication_date    11123 non-null  object 
 11  publisher           11123 non-null  object 
dtypes: float64(1), int64(5), object(6)
memory usage: 1.0+ MB
None


1.bookID: ID của sách trong cơ sở dữ liệu. Đây là một giá trị duy nhất cho mỗi cuốn sách.

2.title: Tiêu đề của cuốn sách.

3.authors: Tên tác giả hoặc các tác giả của cuốn sách.

4.average_rating: Điểm đánh giá trung bình của cuốn sách, được tính từ các đánh giá của người đọc.

5.isbn: Mã số chuẩn quốc tế của sách phiên bản 10 chữ số (International Standard Book Number).

6.isbn13: Mã số chuẩn quốc tế của sách phiên bản 13 chữ số.

7.language_code: Mã ngôn ngữ của cuốn sách (ví dụ: 'en' cho tiếng Anh, 'fr' cho tiếng Pháp).

8.num_pages: Số trang của cuốn sách.

9.ratings_count: Tổng số lần cuốn sách được đánh giá bởi người đọc.

10.text_reviews_count: Tổng số bài đánh giá (dạng văn bản) của người đọc về cuốn sách.

11.publication_date: Ngày xuất bản của cuốn sách.

12.publisher: Tên nhà xuất bản của cuốn sách.

DATA 2

In [10]:
df2_Books = read_csv_auto_encoding("data/Book Recommendation Dataset/Book reviews/BX_Books.csv" , ";")
print(df2_Books.info())

Detected encoding: ISO-8859-1
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 271379 entries, 0 to 271378
Data columns (total 8 columns):
 #   Column               Non-Null Count   Dtype 
---  ------               --------------   ----- 
 0   ISBN                 271379 non-null  object
 1   Book-Title           271379 non-null  object
 2   Book-Author          271377 non-null  object
 3   Year-Of-Publication  271379 non-null  int64 
 4   Publisher            271377 non-null  object
 5   Image-URL-S          271379 non-null  object
 6   Image-URL-M          271379 non-null  object
 7   Image-URL-L          271379 non-null  object
dtypes: int64(1), object(7)
memory usage: 16.6+ MB
None


ISBN: Mã số chuẩn quốc tế dùng để xác định duy nhất mỗi cuốn sách.

Book-Title: Tiêu đề của cuốn sách.

Book-Author: Tên tác giả của cuốn sách.

Year-Of-Publication: Năm xuất bản của cuốn sách.

Publisher: Tên nhà xuất bản của cuốn sách.

Image-URL-S: URL của ảnh bìa sách kích thước nhỏ.

Image-URL-M: URL của ảnh bìa sách kích thước trung bình.

Image-URL-L: URL của ảnh bìa sách kích thước lớn.


In [4]:
df2_Book_Ratings = read_csv_auto_encoding("data/Book Recommendation Dataset/Book reviews/BX-Book-Ratings.csv" , ";")
print(df2_Book_Ratings.info())

Detected encoding: ascii
Error with detected encoding ascii: 'ascii' codec can't decode byte 0xba in position 183549: ordinal not in range(128)
Successfully read the file with encoding: latin1
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1149780 entries, 0 to 1149779
Data columns (total 3 columns):
 #   Column       Non-Null Count    Dtype 
---  ------       --------------    ----- 
 0   User-ID      1149780 non-null  int64 
 1   ISBN         1149780 non-null  object
 2   Book-Rating  1149780 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 26.3+ MB
None


User-ID: ID của người dùng đã đánh giá sách.

ISBN: Mã số chuẩn quốc tế của sách, dùng để xác định duy nhất từng cuốn sách.

Book-Rating: Đánh giá của người dùng cho cuốn sách, có thể nằm trong khoảng từ 0 đến 10 (hoặc một hệ số đánh giá khác tùy thuộc vào hệ thống).

In [5]:
df2_Users = read_csv_auto_encoding("data/Book Recommendation Dataset/Book reviews/BX-Users.csv" , ";")
print(df2_Users.info())

Detected encoding: ISO-8859-1
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 278858 entries, 0 to 278857
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype  
---  ------    --------------   -----  
 0   User-ID   278858 non-null  int64  
 1   Location  278858 non-null  object 
 2   Age       168096 non-null  float64
dtypes: float64(1), int64(1), object(1)
memory usage: 6.4+ MB
None


User-ID : ID người dùng đã đánh giá sách

Location : Địa điểm địa lý của người dùng, bao gồm thông tin về thành phố, bang hoặc tỉnh, và quốc gia mà họ đang sinh sống hoặc đăng ký tài khoản.

Age  : tuổi , có nhiều giá trị null


In [30]:
df2_Preprocessed = read_csv_auto_encoding("data/Book Recommendation Dataset/Books Data with Category Language and Summary/Preprocessed_data.csv" , ",")
print(df2_Preprocessed.info())

Detected encoding: ascii
Error with detected encoding ascii: 'ascii' codec can't decode byte 0xc3 in position 19794: ordinal not in range(128)
Successfully read the file with encoding: latin1
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1031175 entries, 0 to 1031174
Data columns (total 19 columns):
 #   Column               Non-Null Count    Dtype  
---  ------               --------------    -----  
 0   Unnamed: 0           1031175 non-null  int64  
 1   user_id              1031175 non-null  int64  
 2   location             1031175 non-null  object 
 3   age                  1031175 non-null  float64
 4   isbn                 1031175 non-null  object 
 5   rating               1031175 non-null  int64  
 6   book_title           1031175 non-null  object 
 7   book_author          1031174 non-null  object 
 8   year_of_publication  1031175 non-null  float64
 9   publisher            1031175 non-null  object 
 10  img_s                1031175 non-null  object 
 11  img_m         

File gộp

DATA 3


In [7]:
df3 = read_csv_auto_encoding("data/BooksDataset/BooksDatasetClean.csv" , ",")
print(df3.info())

Detected encoding: ascii
Error with detected encoding ascii: 'ascii' codec can't decode byte 0xe2 in position 43809: ordinal not in range(128)
Successfully read the file with encoding: latin1
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103063 entries, 0 to 103062
Data columns (total 8 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   Title                    103063 non-null  object 
 1   Authors                  103063 non-null  object 
 2   Description              70204 non-null   object 
 3   Category                 76902 non-null   object 
 4   Publisher                103055 non-null  object 
 5   Price Starting With ($)  103063 non-null  float64
 6   Publish Date (Month)     103063 non-null  object 
 7   Publish Date (Year)      103063 non-null  int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 6.3+ MB
None
