In [1]:
from django_for_jupyter import init_django
init_django()

In [7]:
import pandas as pd

# Thay 'ten_file_cua_ban.csv' bằng đường dẫn thực tế tới file CSV

try:
    # Đọc file CSV
    df = pd.read_csv(r'C:\Users\thait\Downloads\exact_matched_books (2).csv')

    # Tạo một từ điển để lưu độ dài lớn nhất của mỗi cột
    max_lengths = {}

    # Duyệt qua từng cột
    for col in df.columns:
        # Chuyển cột sang kiểu chuỗi, tính độ dài và tìm max
        # fillna('') để xử lý các ô trống (NaN) - coi chúng có độ dài 0
        max_len = df[col].astype(str).fillna('').map(len).max()
        max_lengths[col] = max_len

    # In kết quả
    print("Chiều dài lớn nhất của dữ liệu trong mỗi cột:")
    for col, length in max_lengths.items():
        print(f"- Cột '{col}': {length}")

except FileNotFoundError:
    print(f"Lỗi: Không tìm thấy file tại đường dẫn '{file_path}'")
except Exception as e:
    print(f"Đã xảy ra lỗi: {e}")

Chiều dài lớn nhất của dữ liệu trong mỗi cột:
- Cột 'book_id': 4
- Cột 'book_title': 146
- Cột 'book_author': 240
- Cột 'book_publish': 67
- Cột 'parent_asin': 10
- Cột 'average_rating': 3
- Cột 'rating_number': 4
- Cột 'img_large': 87
- Cột 'isbn_10': 11
- Cột 'isbn_13': 13


In [None]:
import pandas as pd
import requests
from io import BytesIO
from django.core.files.base import ContentFile
from home.models import Book

# Đọc file exact_matched_books.csv
books_df = pd.read_csv(r'C:\Users\thait\Downloads\exact_matched_books (2).csv')

# Hàm tải hình ảnh từ URL và lưu vào ImageField
def download_image(url, book_id):
    if not url or not isinstance(url, str):  # Kiểm tra URL rỗng hoặc không phải chuỗi
        return None
    try:
        response = requests.get(url, timeout=5)
        if response.status_code == 200:
            file_name = f'book_{book_id}.jpg'
            image_content = ContentFile(response.content)
            return (file_name, image_content)
        return None
    except Exception as e:
        print(f"Lỗi khi tải hình ảnh từ URL {url}: {e}")
        return None

# Hàm chuyển isbn_13 thành số nguyên cho book_MFN
def isbn_to_mfn(isbn_13):
    if not isbn_13 or not isinstance(isbn_13, str):  # Kiểm tra isbn_13 rỗng hoặc không phải chuỗi
        return 0
    # Loại bỏ ký tự không phải số
    digits = ''.join(filter(str.isdigit, isbn_13))
    return int(digits) if digits else 0

# Insert dữ liệu vào bảng Book
for _, row in books_df.iterrows():
    # Tải hình ảnh từ URL
    image_data = download_image(row['img_large'], row['book_id'])
    
    # Tạo đối tượng Book
    book = Book(
        book_id=row['book_id'],
        book_title=row['book_title'],
        book_author=row['book_author'],
        book_position='Unknown',  # Giá trị mặc định
        book_MFN=isbn_to_mfn(row['isbn_13']),  # Chuyển isbn_13 thành số nguyên
        book_publish=row['book_publish'] if row['book_publish'] else 'No information',
        isbn_10=row['isbn_10'] if row['isbn_10'] else '',
        isbn_13=row['isbn_13'] if row['isbn_13'] else '',
    )
    
    # Nếu tải được hình ảnh, lưu vào book_image
    if image_data:
        file_name, image_content = image_data
        book.bookImage.save(file_name, image_content, save=True)
    # Nếu không tải được, book_image sẽ tự động dùng giá trị mặc định (imgBooks/nothumb.jpg)
    
    # Lưu đối tượng Book vào database
    book.save()

print("Đã nhập dữ liệu thành công vào bảng Book!")

In [9]:
# Script chạy trên máy local để xử lý dataset Amazon-Reviews-2023 (raw_review_Books)

# Bước 1: Cài đặt các thư viện cần thiết
# Chạy các lệnh sau trong terminal để cài đặt:
# pip install pandas datasets tenacity

# Bước 2: Import các thư viện
import pandas as pd
from datasets import load_dataset
from datetime import datetime
import json
import time
import os
from tenacity import retry, wait_exponential, stop_after_attempt, retry_if_exception_type
from requests.exceptions import HTTPError

# Bước 3: Thiết lập HF_TOKEN
# Cách 1: Đặt HF_TOKEN trực tiếp trong code (không khuyến nghị vì lý do bảo mật)
# HF_TOKEN = "hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"  # Thay bằng token của bạn

# Cách 2: Đặt HF_TOKEN qua biến môi trường (khuyến nghị)
# Trên Windows: set HF_TOKEN=hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
# Trên macOS/Linux: export HF_TOKEN=hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
HF_TOKEN = "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"
if not HF_TOKEN:
    raise ValueError("HF_TOKEN không được tìm thấy. Vui lòng đặt HF_TOKEN trong biến môi trường hoặc trong code.")

# Đường dẫn file (thay đổi theo máy local của bạn)
EXACT_MATCHED_BOOKS_PATH = r"C:\Users\thait\LABS\NC\cit-meta\exact_matched_books.csv"
AMAZON_USER_PATH = r"C:\Users\thait\LABS\NC\cit-meta\AmazonUser.csv"
AMAZON_RATING_PATH = r"C:\Users\thait\LABS\NC\cit-meta\AmazonRating.csv"
PRETRAIN_DATA_PATH = r"C:\Users\thait\LABS\NC\cit-meta\PretrainData.csv"
CHECKPOINT_PATH = r"C:\Users\thait\LABS\NC\cit-meta\checkpoint.json"

# Tạo thư mục nếu chưa tồn tại
os.makedirs(os.path.dirname(EXACT_MATCHED_BOOKS_PATH), exist_ok=True)

# Đọc exact_matched_books.csv và tạo tập hợp parent_asin
print("Đang đọc file exact_matched_books.csv...")
exact_matched_books = pd.read_csv(EXACT_MATCHED_BOOKS_PATH)
asin_to_book_id = dict(zip(exact_matched_books['parent_asin'], exact_matched_books['book_id']))
parent_asins = set(asin_to_book_id.keys())
print(f"Đã đọc {len(parent_asins)} parent_asin")

# Tải dataset với streaming và retry
@retry(
    retry=retry_if_exception_type(HTTPError),
    wait=wait_exponential(multiplier=1, min=4, max=120),  # Chờ tối đa 120s
    stop=stop_after_attempt(10),  # Thử lại tối đa 10 lần
    before=lambda retry_state: print(f"Thử lại lần {retry_state.attempt_number} sau lỗi 429..."),
    after=lambda retry_state: print(f"Thử lại thành công sau {retry_state.attempt_number} lần")
)
def load_dataset_with_retry():
    print("Đang tải dataset Amazon-Reviews-2023 (raw_review_Books) với streaming...")
    return load_dataset(
        "McAuley-Lab/Amazon-Reviews-2023",
        "raw_review_Books",
        trust_remote_code=True,
        streaming=True,
        token=HF_TOKEN  # Sử dụng HF_TOKEN để tăng giới hạn rate limit
    )

start_time = time.time()
try:
    dataset = load_dataset_with_retry()
except Exception as e:
    print(f"Lỗi không thể khắc phục khi tải dataset: {str(e)}")
    raise

# Khởi tạo checkpoint
checkpoint = {
    'processed_reviews': 0,
    'user_mapping': {},
    'next_user_id': 1,
    'last_chunk_processed': 0
}
try:
    with open(CHECKPOINT_PATH, 'r') as f:
        checkpoint = json.load(f)
    print(f"Đã khôi phục checkpoint: {checkpoint['processed_reviews']} reviews đã được xử lý trước đó")
except FileNotFoundError:
    print("Không tìm thấy checkpoint, bắt đầu từ đầu")

user_mapping = checkpoint['user_mapping']
next_user_id = checkpoint['next_user_id']
processed_reviews = checkpoint['processed_reviews']
last_chunk_processed = checkpoint['last_chunk_processed']

# Tạo file CSV nếu chưa tồn tại hoặc append mode
def initialize_csv_files():
    if last_chunk_processed == 0:
        pd.DataFrame(columns=['id', 'amazon_user_id']).to_csv(AMAZON_USER_PATH, index=False)
        pd.DataFrame(columns=['amazon_user_id', 'book_id', 'rating', 'timestamp']).to_csv(AMAZON_RATING_PATH, index=False)
        pd.DataFrame(columns=['user_id', 'book_id', 'rating']).to_csv(PRETRAIN_DATA_PATH, index=False)

initialize_csv_files()

# Xử lý dữ liệu theo chunks
CHUNK_SIZE = 10000
chunk_reviews = []
iterator = iter(dataset['full'])
chunk_count = 0
total_reviews_processed = 0

# Bỏ qua các chunk đã xử lý
for _ in range(last_chunk_processed * CHUNK_SIZE):
    try:
        next(iterator)
        total_reviews_processed += 1
    except StopIteration:
        break

while True:
    start_chunk_time = time.time()
    chunk_reviews = []
    try:
        for _ in range(CHUNK_SIZE):
            review = next(iterator)
            if review['parent_asin'] in parent_asins:
                chunk_reviews.append(review)
            total_reviews_processed += 1
    except StopIteration:
        if not chunk_reviews:
            break

    chunk_count += 1
    print(f"\nBắt đầu xử lý chunk {chunk_count} (tổng số reviews đã duyệt: {total_reviews_processed})...")

    if not chunk_reviews:
        print("Chunk rỗng, tiếp tục...")
        continue

    # Chuyển chunk thành DataFrame để xử lý nhanh hơn
    chunk_df = pd.DataFrame(chunk_reviews)
    chunk_df['book_id'] = chunk_df['parent_asin'].map(asin_to_book_id)
    chunk_df['rating'] = chunk_df['rating'].astype(float)
    chunk_df['timestamp'] = chunk_df['timestamp'].apply(lambda x: datetime.fromtimestamp(x / 1000.0).strftime('%Y-%m-%d %H:%M:%S.%f'))

    # Lọc các rating không hợp lệ
    invalid_ratings = chunk_df[~chunk_df['rating'].between(1, 5)]
    for _, row in invalid_ratings.iterrows():
        print(f"Cảnh báo: Rating không hợp lệ ({row['rating']}) cho user {row['user_id']}, book_id {row['book_id']}, bỏ qua...")
    chunk_df = chunk_df[chunk_df['rating'].between(1, 5)]

    # Xử lý người dùng mới
    new_users = chunk_df[~chunk_df['user_id'].isin(user_mapping.keys())]['user_id'].unique()
    new_users_df = pd.DataFrame({
        'id': range(next_user_id, next_user_id + len(new_users)),
        'amazon_user_id': new_users
    })
    if not new_users_df.empty:
        new_user_mapping = dict(zip(new_users, new_users_df['id']))
        user_mapping.update(new_user_mapping)
        next_user_id += len(new_users)
        # Append vào file CSV
        new_users_df.to_csv(AMAZON_USER_PATH, mode='a', header=False, index=False)

    # Tạo dữ liệu amazon_ratings và pretrain_data
    chunk_df['user_id_mapped'] = chunk_df['user_id'].map(user_mapping)
    amazon_ratings_df = chunk_df[['user_id', 'book_id', 'rating', 'timestamp']].copy()
    amazon_ratings_df.rename(columns={'user_id': 'amazon_user_id'}, inplace=True)
    pretrain_data_df = pd.DataFrame({
        'user_id': chunk_df['user_id_mapped'].apply(lambda x: f"AMZ_{x}"),
        'book_id': chunk_df['book_id'],
        'rating': chunk_df['rating']
    })

    # Append vào file CSV
    amazon_ratings_df.to_csv(AMAZON_RATING_PATH, mode='a', header=False, index=False)
    pretrain_data_df.to_csv(PRETRAIN_DATA_PATH, mode='a', header=False, index=False)

    processed_reviews += len(chunk_df)
    print(f"Đã xử lý chunk {chunk_count}: {len(chunk_df)} đánh giá hợp lệ, {len(new_users)} người dùng mới được thêm")
    print(f"Tổng số reviews đã xử lý: {processed_reviews}")
    print(f"Tổng số người dùng hiện tại: {len(user_mapping)}")
    print(f"Thời gian xử lý chunk: {time.time() - start_chunk_time:.2f} giây")

    # Cập nhật checkpoint
    checkpoint['processed_reviews'] = processed_reviews
    checkpoint['user_mapping'] = user_mapping
    checkpoint['next_user_id'] = next_user_id
    checkpoint['last_chunk_processed'] = chunk_count
    with open(CHECKPOINT_PATH, 'w') as f:
        json.dump(checkpoint, f)
    print(f"Đã lưu checkpoint tại {CHECKPOINT_PATH}")

    # Thêm thời gian chờ để tránh lỗi 429
    print("Chờ 10 giây trước khi xử lý chunk tiếp theo...")
    time.sleep(10)

# Xử lý chunk cuối (nếu có)
if chunk_reviews:
    start_chunk_time = time.time()
    chunk_count += 1
    print(f"\nBắt đầu xử lý chunk cuối {chunk_count} (tổng số reviews đã duyệt: {total_reviews_processed})...")

    chunk_df = pd.DataFrame(chunk_reviews)
    chunk_df['book_id'] = chunk_df['parent_asin'].map(asin_to_book_id)
    chunk_df['rating'] = chunk_df['rating'].astype(float)
    chunk_df['timestamp'] = chunk_df['timestamp'].apply(lambda x: datetime.fromtimestamp(x / 1000.0).strftime('%Y-%m-%d %H:%M:%S.%f'))

    invalid_ratings = chunk_df[~chunk_df['rating'].between(1, 5)]
    for _, row in invalid_ratings.iterrows():
        print(f"Cảnh báo: Rating không hợp lệ ({row['rating']}) cho user {row['user_id']}, book_id {row['book_id']}, bỏ qua...")
    chunk_df = chunk_df[chunk_df['rating'].between(1, 5)]

    new_users = chunk_df[~chunk_df['user_id'].isin(user_mapping.keys())]['user_id'].unique()
    new_users_df = pd.DataFrame({
        'id': range(next_user_id, next_user_id + len(new_users)),
        'amazon_user_id': new_users
    })
    if not new_users_df.empty:
        new_user_mapping = dict(zip(new_users, new_users_df['id']))
        user_mapping.update(new_user_mapping)
        next_user_id += len(new_users)
        new_users_df.to_csv(AMAZON_USER_PATH, mode='a', header=False, index=False)

    chunk_df['user_id_mapped'] = chunk_df['user_id'].map(user_mapping)
    amazon_ratings_df = chunk_df[['user_id', 'book_id', 'rating', 'timestamp']].copy()
    amazon_ratings_df.rename(columns={'user_id': 'amazon_user_id'}, inplace=True)
    pretrain_data_df = pd.DataFrame({
        'user_id': chunk_df['user_id_mapped'].apply(lambda x: f"AMZ_{x}"),
        'book_id': chunk_df['book_id'],
        'rating': chunk_df['rating']
    })

    amazon_ratings_df.to_csv(AMAZON_RATING_PATH, mode='a', header=False, index=False)
    pretrain_data_df.to_csv(PRETRAIN_DATA_PATH, mode='a', header=False, index=False)

    processed_reviews += len(chunk_df)
    print(f"Đã xử lý chunk cuối: {len(chunk_df)} đánh giá hợp lệ, {len(new_users)} người dùng mới được thêm")
    print(f"Tổng số reviews đã xử lý: {processed_reviews}")
    print(f"Tổng số người dùng hiện tại: {len(user_mapping)}")
    print(f"Thời gian xử lý chunk cuối: {time.time() - start_chunk_time:.2f} giây")

    checkpoint['processed_reviews'] = processed_reviews
    checkpoint['user_mapping'] = user_mapping
    checkpoint['next_user_id'] = next_user_id
    checkpoint['last_chunk_processed'] = chunk_count
    with open(CHECKPOINT_PATH, 'w') as f:
        json.dump(checkpoint, f)
    print(f"Đã lưu checkpoint cuối tại {CHECKPOINT_PATH}")

print(f"\nHoàn tất quá trình xử lý! Tổng thời gian: {(time.time() - start_time) / 60:.2f} phút")

Đang đọc file exact_matched_books.csv...
Đã đọc 204 parent_asin
Thử lại lần 1 sau lỗi 429...
Đang tải dataset Amazon-Reviews-2023 (raw_review_Books) với streaming...
Không tìm thấy checkpoint, bắt đầu từ đầu

Bắt đầu xử lý chunk 1 (tổng số reviews đã duyệt: 10000)...
Đã xử lý chunk 1: 1 đánh giá hợp lệ, 1 người dùng mới được thêm
Tổng số reviews đã xử lý: 1
Tổng số người dùng hiện tại: 1
Thời gian xử lý chunk: 2.71 giây
Đã lưu checkpoint tại C:\Users\thait\LABS\NC\cit-meta\checkpoint.json
Chờ 10 giây trước khi xử lý chunk tiếp theo...

Bắt đầu xử lý chunk 2 (tổng số reviews đã duyệt: 20000)...
Đã xử lý chunk 2: 5 đánh giá hợp lệ, 1 người dùng mới được thêm
Tổng số reviews đã xử lý: 6
Tổng số người dùng hiện tại: 2
Thời gian xử lý chunk: 1.16 giây
Đã lưu checkpoint tại C:\Users\thait\LABS\NC\cit-meta\checkpoint.json
Chờ 10 giây trước khi xử lý chunk tiếp theo...

Bắt đầu xử lý chunk 3 (tổng số reviews đã duyệt: 30000)...
Đã xử lý chunk 3: 1 đánh giá hợp lệ, 1 người dùng mới được thêm
Tổ

KeyboardInterrupt: 

In [11]:
# Script chạy trên máy local để xử lý dataset Amazon-Reviews-2023 (raw_review_Books) với streaming

# Bước 1: Import các thư viện
import pandas as pd
from datasets import load_dataset
from datetime import datetime
import json
import os
import time

# Bước 2: Thiết lập HF_TOKEN
# Cách 1: Đặt HF_TOKEN trực tiếp trong code (không khuyến nghị vì lý do bảo mật)
# HF_TOKEN = "hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"  # Thay bằng token của bạn

# Cách 2: Đặt HF_TOKEN qua biến môi trường (khuyến nghị)
# Trên Windows: set HF_TOKEN=hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
# Trên macOS/Linux: export HF_TOKEN=hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
HF_TOKEN = "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"
if not HF_TOKEN:
    raise ValueError("HF_TOKEN không được tìm thấy. Vui lòng đặt HF_TOKEN trong biến môi trường hoặc trong code.")

# Đường dẫn file (thay đổi theo máy local của bạn)
EXACT_MATCHED_BOOKS_PATH = r"C:\Users\thait\LABS\NC\cit-meta\exact_matched_books.csv"
AMAZON_USER_PATH = r"C:\Users\thait\LABS\NC\cit-meta\AmazonUser.csv"
AMAZON_RATING_PATH = r"C:\Users\thait\LABS\NC\cit-meta\AmazonRating.csv"
PRETRAIN_DATA_PATH = r"C:\Users\thait\LABS\NC\cit-meta\PretrainData.csv"
CHECKPOINT_PATH = r"C:\Users\thait\LABS\NC\cit-meta\checkpoint.json"

# Tạo thư mục nếu chưa tồn tại
os.makedirs(os.path.dirname(EXACT_MATCHED_BOOKS_PATH), exist_ok=True)

# Bước 3: Đọc exact_matched_books.csv và tạo tập hợp parent_asin
print("Đang đọc file exact_matched_books.csv...")
exact_matched_books = pd.read_csv(EXACT_MATCHED_BOOKS_PATH)
asin_to_book_id = dict(zip(exact_matched_books['parent_asin'], exact_matched_books['book_id']))
parent_asins = set(asin_to_book_id.keys())
print(f"Đã đọc {len(parent_asins)} parent_asin")

# Bước 4: Tải dataset với streaming
start_time = time.time()
print("Đang tải dataset Amazon-Reviews-2023 (raw_review_Books) với streaming...")
dataset = load_dataset(
    "McAuley-Lab/Amazon-Reviews-2023",
    "raw_review_Books",
    trust_remote_code=True,
    streaming=True,
    token=HF_TOKEN  # Sử dụng HF_TOKEN để tăng giới hạn rate limit
)

# Bước 5: Khởi tạo checkpoint
checkpoint = {
    'processed_reviews': 0,
    'user_mapping': {},
    'next_user_id': 1,
    'last_chunk_processed': 0
}
try:
    with open(CHECKPOINT_PATH, 'r') as f:
        checkpoint = json.load(f)
    print(f"Đã khôi phục checkpoint: {checkpoint['processed_reviews']} reviews đã được xử lý trước đó")
except FileNotFoundError:
    print("Không tìm thấy checkpoint, bắt đầu từ đầu")

user_mapping = checkpoint['user_mapping']
next_user_id = checkpoint['next_user_id']
processed_reviews = checkpoint['processed_reviews']
last_chunk_processed = checkpoint['last_chunk_processed']

# Tạo file CSV nếu chưa tồn tại hoặc append mode
def initialize_csv_files():
    if last_chunk_processed == 0:
        pd.DataFrame(columns=['id', 'amazon_user_id']).to_csv(AMAZON_USER_PATH, index=False)
        pd.DataFrame(columns=['amazon_user_id', 'book_id', 'rating', 'timestamp']).to_csv(AMAZON_RATING_PATH, index=False)
        pd.DataFrame(columns=['user_id', 'book_id', 'rating']).to_csv(PRETRAIN_DATA_PATH, index=False)

initialize_csv_files()

# Bước 6: Xử lý dữ liệu theo chunks với streaming
CHUNK_SIZE = 20000
chunk_reviews = []
iterator = iter(dataset['full'])
chunk_count = 0
total_reviews_processed = 0

# Bỏ qua các chunk đã xử lý
for _ in range(last_chunk_processed * CHUNK_SIZE):
    try:
        next(iterator)
        total_reviews_processed += 1
    except StopIteration:
        break

while True:
    start_chunk_time = time.time()
    chunk_reviews = []
    try:
        for _ in range(CHUNK_SIZE):
            review = next(iterator)
            if review['parent_asin'] in parent_asins:
                chunk_reviews.append(review)
            total_reviews_processed += 1
    except StopIteration:
        if not chunk_reviews:
            break

    chunk_count += 1
    print(f"\nBắt đầu xử lý chunk {chunk_count} (tổng số reviews đã duyệt: {total_reviews_processed})...")

    if not chunk_reviews:
        print("Chunk rỗng, tiếp tục...")
        continue

    # Chuyển chunk thành DataFrame để xử lý nhanh hơn
    chunk_df = pd.DataFrame(chunk_reviews)
    chunk_df['book_id'] = chunk_df['parent_asin'].map(asin_to_book_id)
    chunk_df['rating'] = chunk_df['rating'].astype(float)
    chunk_df['timestamp'] = chunk_df['timestamp'].apply(lambda x: datetime.fromtimestamp(x / 1000.0).strftime('%Y-%m-%d %H:%M:%S.%f'))

    # Lọc các rating không hợp lệ
    invalid_ratings = chunk_df[~chunk_df['rating'].between(1, 5)]
    for _, row in invalid_ratings.iterrows():
        print(f"Cảnh báo: Rating không hợp lệ ({row['rating']}) cho user {row['user_id']}, book_id {row['book_id']}, bỏ qua...")
    chunk_df = chunk_df[chunk_df['rating'].between(1, 5)]

    # Xử lý người dùng mới
    new_users = chunk_df[~chunk_df['user_id'].isin(user_mapping.keys())]['user_id'].unique()
    new_users_df = pd.DataFrame({
        'id': range(next_user_id, next_user_id + len(new_users)),
        'amazon_user_id': new_users
    })
    if not new_users_df.empty:
        new_user_mapping = dict(zip(new_users, new_users_df['id']))
        user_mapping.update(new_user_mapping)
        next_user_id += len(new_users)
        # Append vào file CSV
        new_users_df.to_csv(AMAZON_USER_PATH, mode='a', header=False, index=False)

    # Tạo dữ liệu amazon_ratings và pretrain_data
    chunk_df['user_id_mapped'] = chunk_df['user_id'].map(user_mapping)
    amazon_ratings_df = chunk_df[['user_id', 'book_id', 'rating', 'timestamp']].copy()
    amazon_ratings_df.rename(columns={'user_id': 'amazon_user_id'}, inplace=True)
    pretrain_data_df = pd.DataFrame({
        'user_id': chunk_df['user_id_mapped'].apply(lambda x: f"AMZ_{x}"),
        'book_id': chunk_df['book_id'],
        'rating': chunk_df['rating']
    })

    # Append vào file CSV
    amazon_ratings_df.to_csv(AMAZON_RATING_PATH, mode='a', header=False, index=False)
    pretrain_data_df.to_csv(PRETRAIN_DATA_PATH, mode='a', header=False, index=False)

    processed_reviews += len(chunk_df)
    print(f"Đã xử lý chunk {chunk_count}: {len(chunk_df)} đánh giá hợp lệ, {len(new_users)} người dùng mới được thêm")
    print(f"Tổng số reviews đã xử lý: {processed_reviews}")
    print(f"Tổng số người dùng hiện tại: {len(user_mapping)}")
    print(f"Thời gian xử lý chunk: {time.time() - start_chunk_time:.2f} giây")

    # Cập nhật checkpoint
    checkpoint['processed_reviews'] = processed_reviews
    checkpoint['user_mapping'] = user_mapping
    checkpoint['next_user_id'] = next_user_id
    checkpoint['last_chunk_processed'] = chunk_count
    with open(CHECKPOINT_PATH, 'w') as f:
        json.dump(checkpoint, f)
    print(f"Đã lưu checkpoint tại {CHECKPOINT_PATH}")

# Xử lý chunk cuối (nếu có)
if chunk_reviews:
    start_chunk_time = time.time()
    chunk_count += 1
    print(f"\nBắt đầu xử lý chunk cuối {chunk_count} (tổng số reviews đã duyệt: {total_reviews_processed})...")

    chunk_df = pd.DataFrame(chunk_reviews)
    chunk_df['book_id'] = chunk_df['parent_asin'].map(asin_to_book_id)
    chunk_df['rating'] = chunk_df['rating'].astype(float)
    chunk_df['timestamp'] = chunk_df['timestamp'].apply(lambda x: datetime.fromtimestamp(x / 1000.0).strftime('%Y-%m-%d %H:%M:%S.%f'))

    invalid_ratings = chunk_df[~chunk_df['rating'].between(1, 5)]
    for _, row in invalid_ratings.iterrows():
        print(f"Cảnh báo: Rating không hợp lệ ({row['rating']}) cho user {row['user_id']}, book_id {row['book_id']}, bỏ qua...")
    chunk_df = chunk_df[chunk_df['rating'].between(1, 5)]

    new_users = chunk_df[~chunk_df['user_id'].isin(user_mapping.keys())]['user_id'].unique()
    new_users_df = pd.DataFrame({
        'id': range(next_user_id, next_user_id + len(new_users)),
        'amazon_user_id': new_users
    })
    if not new_users_df.empty:
        new_user_mapping = dict(zip(new_users, new_users_df['id']))
        user_mapping.update(new_user_mapping)
        next_user_id += len(new_users)
        new_users_df.to_csv(AMAZON_USER_PATH, mode='a', header=False, index=False)

    chunk_df['user_id_mapped'] = chunk_df['user_id'].map(user_mapping)
    amazon_ratings_df = chunk_df[['user_id', 'book_id', 'rating', 'timestamp']].copy()
    amazon_ratings_df.rename(columns={'user_id': 'amazon_user_id'}, inplace=True)
    pretrain_data_df = pd.DataFrame({
        'user_id': chunk_df['user_id_mapped'].apply(lambda x: f"AMZ_{x}"),
        'book_id': chunk_df['book_id'],
        'rating': chunk_df['rating']
    })

    amazon_ratings_df.to_csv(AMAZON_RATING_PATH, mode='a', header=False, index=False)
    pretrain_data_df.to_csv(PRETRAIN_DATA_PATH, mode='a', header=False, index=False)

    processed_reviews += len(chunk_df)
    print(f"Đã xử lý chunk cuối: {len(chunk_df)} đánh giá hợp lệ, {len(new_users)} người dùng mới được thêm")
    print(f"Tổng số reviews đã xử lý: {processed_reviews}")
    print(f"Tổng số người dùng hiện tại: {len(user_mapping)}")
    print(f"Thời gian xử lý chunk cuối: {time.time() - start_chunk_time:.2f} giây")

    checkpoint['processed_reviews'] = processed_reviews
    checkpoint['user_mapping'] = user_mapping
    checkpoint['next_user_id'] = next_user_id
    checkpoint['last_chunk_processed'] = chunk_count
    with open(CHECKPOINT_PATH, 'w') as f:
        json.dump(checkpoint, f)
    print(f"Đã lưu checkpoint cuối tại {CHECKPOINT_PATH}")

print(f"\nHoàn tất quá trình xử lý! Tổng thời gian: {(time.time() - start_time) / 60:.2f} phút")

Đang đọc file exact_matched_books.csv...
Đã đọc 204 parent_asin
Đang tải dataset Amazon-Reviews-2023 (raw_review_Books) với streaming...
Không tìm thấy checkpoint, bắt đầu từ đầu

Bắt đầu xử lý chunk 1 (tổng số reviews đã duyệt: 20000)...
Đã xử lý chunk 1: 6 đánh giá hợp lệ, 2 người dùng mới được thêm
Tổng số reviews đã xử lý: 6
Tổng số người dùng hiện tại: 2
Thời gian xử lý chunk: 3.37 giây
Đã lưu checkpoint tại C:\Users\thait\LABS\NC\cit-meta\checkpoint.json

Bắt đầu xử lý chunk 2 (tổng số reviews đã duyệt: 40000)...
Đã xử lý chunk 2: 1 đánh giá hợp lệ, 1 người dùng mới được thêm
Tổng số reviews đã xử lý: 7
Tổng số người dùng hiện tại: 3
Thời gian xử lý chunk: 2.60 giây
Đã lưu checkpoint tại C:\Users\thait\LABS\NC\cit-meta\checkpoint.json

Bắt đầu xử lý chunk 3 (tổng số reviews đã duyệt: 60000)...
Chunk rỗng, tiếp tục...

Bắt đầu xử lý chunk 4 (tổng số reviews đã duyệt: 80000)...
Chunk rỗng, tiếp tục...

Bắt đầu xử lý chunk 5 (tổng số reviews đã duyệt: 100000)...
Đã xử lý chunk 5: 2 

In [None]:
# tạo dataframe content chứa dữ liệu cho gợi ý dựa trên thể loại
from home.models import Book_Topic, Book
from home.models import ContentBook
import pandas as pd
books = Book.objects.all().order_by('book_id')
bookTopic = Book_Topic.objects.prefetch_related('topic_id').order_by('book_id')
check = True
dics = []
for book in books:
    content = book.book_title
    topics = bookTopic.filter(book_id = book.book_id)
    for topic in topics:
        content+=' '+topic.topic_id.topic_name
    dic = {'book_id': book.book_id,
            'content': content
           }
    dics.append(dic) 
book_df = pd.DataFrame(dics)
print(book_df)

    book_id                                            content
0      3001  CDMA capacity and quality optimization code di...
1      3002  Image databases : Search and retrieval of digi...
2      3003  Practical handbook on image processing for sci...
3      3004  Analytics, data science, & artificial intellig...
4      3005  Composing cyberspace : Identity, community, an...
..      ...                                                ...
74     3075  Digital image processing Image processing Digi...
75     3076  Digital image processing using MATLAB Image pr...
76     3078  Database systems the complete book Database de...
77     3080  Data structures and abstractions with Java Jav...
78     3081  MySQL/PHP database applications database appli...

[79 rows x 2 columns]


In [3]:
from home.models import ContentBook
import pandas as pd
bookContent = ContentBook.objects.all().order_by('book_id')
dics = []
for book in bookContent:
    dic = {
        'book_id': book.book_id,
        'content': book.content
    }
    dics.append(dic)
book_df = pd.DataFrame(dics)
print(book_df)


    book_id                                            content
0      3001  CDMA capacity and quality optimization code di...
1      3002  Image databases : Search and retrieval of digi...
2      3003  Practical handbook on image processing for sci...
3      3004  Analytics, data science, & artificial intellig...
4      3005  Composing cyberspace : Identity, community, an...
..      ...                                                ...
74     3075  Digital image processing Image processing Digi...
75     3076  Digital image processing using MATLAB Image pr...
76     3078  Database systems the complete book Database de...
77     3080  Data structures and abstractions with Java App...
78     3081  MySQL/PHP database applications Database desig...

[79 rows x 2 columns]


In [7]:
import pickle

# Lưu TF-IDF Vectorizer
with open('./home/recommend/book_tfidf_vectorizer.pkl', 'wb') as f:
    pickle.dump(book_tfidf, f)

with open('./home/recommend/book_cosine_similarity.pkl', 'wb') as f:
    pickle.dump(cosine_similarity, f)

In [8]:
from home.models import ContentBook
import pickle
with open('./home/recommend/book_tfidf_vectorizer.pkl', 'rb') as f:
    book_tfidf = pickle.load(f)
bookContents = ContentBook.objects.all().order_by('book_id')
book_df = pd.DataFrame(bookContents)   
book_content_matrix = book_tfidf.fit_transform(book_df['content'])  

KeyError: 'content'

In [1]:
# Thao tac tinh toan va dua ra goi y
choice = 67
similarity_scores = list(enumerate(cosine_similarity[choice-1]))
similarity_scores = sorted(similarity_scores, key=lambda x: x[1], reverse=True)
similarity_scores = similarity_scores[1:6]

# Get the similar books index
books_index = [i[0] for i in similarity_scores]
books = Book.objects.all().order_by('book_id')
# printing the top 5 most similar books using integer-location based indexing (iloc)
print(f'The choice is: {books[choice-1].book_id} {books[choice-1].book_title}')
for i in books_index:
    print(f'{books[i].book_id} - {books[i].book_title} ')


NameError: name 'cosine_similarity' is not defined

In [68]:
# Giả sử bạn có dữ liệu về sách mới
new_books_df['content'] = new_books_df['content'].fillna('')

# Vector hóa nội dung sách mới
new_book_content_matrix = book_tfidf.transform(new_books_df['content'])

# Cập nhật ma trận cosine similarity
new_cosine_similarity = linear_kernel(new_book_content_matrix, book_content_matrix)

# Gộp ma trận cũ và mới lại để cập nhật toàn bộ hệ thống
cosine_similarity = linear_kernel(book_content_matrix, book_content_matrix)

# Lưu lại các dữ liệu đã cập nhật
with open('book_tfidf_vectorizer.pkl', 'wb') as f:
    pickle.dump(book_tfidf, f)

with open('book_cosine_similarity.pkl', 'wb') as f:
    pickle.dump(cosine_similarity, f)


In [3]:
from django_for_jupyter import init_django
init_django()

In [143]:
from home.models import ContentBook, Book, Book_Topic
import pandas as pd
latest_book = Book.objects.latest('book_id')
content = latest_book.book_title
topics = Book_Topic.objects.filter(book_id=latest_book.book_id).select_related('topic_id')
for topic in topics:
    content+=' '+ topic.topic_id.topic_name
print(content)
# newContent = ContentBook(book = latest_book, content = content)
# newContent.save()
newContentDic ={
    'book_id': latest_book.book_id,
    'content': content
}
newContent_df = pd.DataFrame(newContentDic, index=[0])
print(newContent_df['content'][0])


Database systems the complete book Database design (Thiết kế database) Database management (Quản trị database)
Database systems the complete book Database design (Thiết kế database) Database management (Quản trị database)


In [9]:
from home.models import ContentBook
from sklearn.metrics.pairwise import linear_kernel
import pickle
import pandas as pd
    
    
with open('./home/recommend/book_tfidf_vectorizer.pkl', 'rb') as f:
    book_tfidf = pickle.load(f)

bookContents = ContentBook.objects.all().order_by('book_id').values('book_id', 'content')
book_df = pd.DataFrame(bookContents)
book_df['content'] = book_df['content'].fillna('')
book_df['content'] = book_df['content'].astype(str)

    
book_content_matrix = book_tfidf.fit_transform(book_df['content']) 
    
cosine_similarity = linear_kernel(book_content_matrix, book_content_matrix)
print(enumerate(cosine_similarity))

<enumerate object at 0x000001F519857790>


In [7]:
from home.models import ContentBook
import pickle
import pandas as pd


bookContents = ContentBook.objects.all().order_by('book_id').values('book_id')
book_df = pd.DataFrame(bookContents)
book_id = 3032
book_df.set_index('book_id', inplace=True)
print(book_df)
book_index = book_df.index.get_loc(book_id)
print(book_index)
with open('./home/recommend/book_cosine_similarity.pkl', 'rb') as f:
    cosine_similarity = pickle.load(f)


Empty DataFrame
Columns: []
Index: [3001, 3002, 3003, 3004, 3005, 3006, 3007, 3008, 3009, 3010, 3011, 3012, 3013, 3014, 3015, 3016, 3017, 3018, 3019, 3020, 3021, 3022, 3023, 3024, 3025, 3026, 3027, 3028, 3029, 3030, 3031, 3032, 3033, 3034, 3035, 3036, 3037, 3038, 3039, 3040, 3041, 3042, 3043, 3044, 3045, 3046, 3047, 3048, 3049, 3050, 3051, 3052, 3053, 3054, 3055, 3056, 3057, 3058, 3059, 3060, 3061, 3062, 3063, 3064, 3065, 3066, 3067, 3068, 3069, 3070, 3071, 3072, 3073, 3074, 3075, 3076, 3078, 3079, 3080, 3081]

[80 rows x 0 columns]
31


In [24]:
from home.models import ContentBook
import pandas as pd
from sklearn.metrics.pairwise import linear_kernel
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction import text

books = ContentBook.objects.all().order_by('book_id').values('book_id', 'content')
book_df = pd.DataFrame(books)
book_df['content'] = book_df['content'].fillna('')

enlish_stop_words = text.ENGLISH_STOP_WORDS
vietnamese_stop_words = ["và", "là", "của", "những", "với", "từ", "một", "được", "khi", "đã", "cho", "vì", "ở", "này", "giáo", "trình", "lập", "trình"]
combine_stop_words = list(enlish_stop_words) + vietnamese_stop_words
book_tfidf = TfidfVectorizer(stop_words=combine_stop_words)
book_content_matrix = book_tfidf.fit_transform(book_df['content']) 

cosine_similarities = linear_kernel(book_content_matrix, book_content_matrix)

In [8]:
# Thao tac tinh toan va dua ra goi y


choice = book_index
similarity_scores = list(enumerate(cosine_similarity[choice]))
similarity_scores = sorted(similarity_scores, key=lambda x: x[1], reverse=True)
similarity_scores = similarity_scores[2:7]

# Get the similar books index
books_index = [i[0] for i in similarity_scores]
from home.models import Book
books = Book.objects.all().order_by('book_id')
# printing the top 5 most similar books using integer-location based indexing (iloc)
print(f'The choice is: {books[choice].book_id} {books[choice].book_title}')
for i in books_index:
    print(f'{books[i].book_id} - {books[i].book_title} ')

The choice is: 3032 Cisco The complete reference
3045 - Giáo trình mạng máy tính 
3013 - Data communications, computer networks and open systems 
3062 - Giáo trình quản trị hệ thống mạng 
3064 - Giáo trình các hệ thống phân tán 
3031 - The complete reference Java 2 


: 

In [14]:
# ham update content book khi update bôok
# lay ra title, topics của cuốn sách mới nhất được cập nhật thông qua created_at
# chạy lại vòng lặp topic và cập nhật content dựa vào book_id
from home.models import ContentBook, Book, Book_Topic
import pandas as pd
lasted_update = Book.objects.latest('created_at')

content = lasted_update.book_title
content = str(content)
topics = Book_Topic.objects.filter(book_id_id = lasted_update.book_id).select_related('topic_id')
for topic in topics:
    print(str(topic.topic_id.topic_name))
    content+=' '+ str(topic.topic_id.topic_name)
    print(content)
content_update = ContentBook.objects.get(book_id = lasted_update.book_id)
content_update.content = content
content_update.save()

updateContentDic = {
    'book_id': lasted_update.book_id,
    'content': content
}
updateContent_df = pd.DataFrame(updateContentDic, index=[0])
print(updateContent_df)


Data structure (cấu trúc dữ liệu)
Perl database programming Data structure (cấu trúc dữ liệu)
Database structure
Perl database programming Data structure (cấu trúc dữ liệu) Database structure
   book_id                                            content
0     3079  Perl database programming Data structure (cấu ...


In [9]:
from home.models import Book
book_id = 3076
bookList = Book.objects.all().order_by('book_id')
detail = bookList.filter(book_id = book_id).first()
print(type(bookList))

<class 'django.db.models.query.QuerySet'>


In [11]:
from home.models import FavList, Book
userID = 1
books = FavList.objects.filter(user_id=userID).select_related('book')
bookList = [fav.book for fav in books]
for book in bookList:
    print(book)

46-Giáo trình kiểm thử phần mềm,Trần, Cao Đệ,Cần Thơ: Nxb. Đại học Cần Thơ, 2012,004.63 / H513,179794,True
48-Giáo trình phân tích hệ thống hướng đối tượng,Phạm, Thị Xuân Lộc,Cần Thơ: Nxb. Đại học Cần Thơ, 2014,004.65 / H516,190026,True
4-Analytics, data science, & artificial intelligence,Sharda, Ramesh,Harlow, United Kingdom: Pearson, 2021,658.403 / S531,244700,True
