# Công Cụ Tải Dữ Liệu Đánh Giá Amazon

Notebook này tải xuống bộ dữ liệu Amazon Reviews từ Kaggle và lưu trữ cục bộ trong thư mục data.

**URL Dataset**: https://www.kaggle.com/datasets/kritanjalijain/amazon-reviews/data

## Yêu Cầu Tiên Quyết
- Tài khoản Kaggle và API key
- File API key Kaggle (`kaggle.json`) được đặt trong thư mục `~/.kaggle/`

## 1. Cài Đặt Thư Viện Cần Thiết

Cài đặt Kaggle API và các thư viện cần thiết khác để tải xuống và xử lý dữ liệu.

In [1]:
# Cài đặt các gói cần thiết
!pip install kaggle pandas numpy matplotlib seaborn



## 2. Import Thư Viện và Thiết Lập

Import các thư viện cần thiết bao gồm kaggle, os, zipfile, và pandas để xử lý dữ liệu.

In [2]:
import os
import zipfile
import pandas as pd
import numpy as np
from pathlib import Path
import shutil
from kaggle.api.kaggle_api_extended import KaggleApi

print("Thư viện đã được import thành công!")

Thư viện đã được import thành công!


## 3. Cấu Hình Kaggle API

Thiết lập thông tin xác thực Kaggle API và cấu hình để truy cập dataset.

**Lưu ý**: Đảm bảo bạn có file `kaggle.json` trong thư mục `~/.kaggle/`. Bạn có thể tải xuống từ cài đặt tài khoản Kaggle của mình.

In [3]:
# Khởi tạo Kaggle API
api = KaggleApi()
api.authenticate()

print("Kaggle API đã được xác thực thành công!")

# Tên định danh dataset
dataset_name = "kritanjalijain/amazon-reviews"
print(f"Dataset mục tiêu: {dataset_name}")

Kaggle API đã được xác thực thành công!
Dataset mục tiêu: kritanjalijain/amazon-reviews


## 4. Tạo Thư Mục Dữ Liệu

Tạo thư mục 'data' cục bộ để lưu trữ dataset đã tải xuống, đảm bảo nó tồn tại và có cấu trúc phù hợp.

In [None]:
# Định nghĩa đường dẫn thư mục dữ liệu
data_dir = Path("../data")
amazon_data_dir = data_dir / "amazon_reviews"

# Tạo thư mục nếu chúng không tồn tại
data_dir.mkdir(exist_ok=True)
amazon_data_dir.mkdir(exist_ok=True)

print(f"Thư mục dữ liệu đã được tạo: {data_dir.absolute()}")
print(f"Thư mục đánh giá Amazon: {amazon_data_dir.absolute()}")

# Liệt kê nội dung hiện có
print("\nNội dung hiện tại của thư mục data:")
for item in data_dir.iterdir():
    print(f"  - {item.name}")

Thư mục dữ liệu đã được tạo: /Users/ducqhle/Documents/UIT_workspace/Project_Python_For_AI/notebook/data
Thư mục đánh giá Amazon: /Users/ducqhle/Documents/UIT_workspace/Project_Python_For_AI/notebook/data/amazon_reviews

Nội dung hiện tại của thư mục data:
  - amazon_reviews


## 5. Tải Dataset Đánh Giá Amazon

Sử dụng Kaggle API để tải xuống dataset Amazon Reviews từ URL đã chỉ định vào thư mục data cục bộ.

In [5]:
# Tải xuống dataset
print(f"Đang tải dataset: {dataset_name}")
print(f"Đích đến: {amazon_data_dir.absolute()}")

try:
    api.dataset_download_files(
        dataset_name, 
        path=str(amazon_data_dir), 
        unzip=True
    )
    print("✅ Dataset đã được tải xuống và giải nén thành công!")
except Exception as e:
    print(f"❌ Lỗi khi tải dataset: {e}")
    print("Vui lòng kiểm tra thông tin xác thực Kaggle API và kết nối internet.")

Đang tải dataset: kritanjalijain/amazon-reviews
Đích đến: /Users/ducqhle/Documents/UIT_workspace/Project_Python_For_AI/notebook/data/amazon_reviews
Dataset URL: https://www.kaggle.com/datasets/kritanjalijain/amazon-reviews
✅ Dataset đã được tải xuống và giải nén thành công!


## 6. Giải Nén và Tổ Chức Dữ Liệu

Giải nén các file zip đã tải xuống và tổ chức các file dữ liệu trong cấu trúc thư mục phù hợp.

In [6]:
# Kiểm tra các file zip còn lại và giải nén chúng
zip_files = list(amazon_data_dir.glob("*.zip"))

if zip_files:
    print(f"Tìm thấy {len(zip_files)} file zip để giải nén:")
    for zip_file in zip_files:
        print(f"  - {zip_file.name}")
        
        # Giải nén file zip
        with zipfile.ZipFile(zip_file, 'r') as zip_ref:
            zip_ref.extractall(amazon_data_dir)
        
        # Xóa file zip sau khi giải nén
        zip_file.unlink()
        print(f"    ✅ Đã giải nén và xóa {zip_file.name}")
else:
    print("Không tìm thấy file zip bổ sung nào để giải nén.")

print("\n📁 Hoàn thành tổ chức dữ liệu!")

Không tìm thấy file zip bổ sung nào để giải nén.

📁 Hoàn thành tổ chức dữ liệu!


## 7. Kiểm Tra Dữ Liệu Đã Tải

Kiểm tra các file đã tải xuống, hiển thị kích thước file, và xem trước cấu trúc dữ liệu để xác nhận tải xuống thành công.

In [7]:
# Liệt kê tất cả file trong thư mục amazon reviews
print("📋 Các file đã tải:")
print("=" * 50)

total_size = 0
file_count = 0

for file_path in amazon_data_dir.rglob("*"):
    if file_path.is_file():
        file_size = file_path.stat().st_size
        total_size += file_size
        file_count += 1
        
        # Chuyển đổi bytes sang định dạng dễ đọc
        if file_size < 1024:
            size_str = f"{file_size} B"
        elif file_size < 1024**2:
            size_str = f"{file_size/1024:.1f} KB"
        elif file_size < 1024**3:
            size_str = f"{file_size/(1024**2):.1f} MB"
        else:
            size_str = f"{file_size/(1024**3):.1f} GB"
        
        rel_path = file_path.relative_to(amazon_data_dir)
        print(f"  📄 {rel_path} ({size_str})")

# Tổng kích thước
if total_size < 1024**3:
    total_size_str = f"{total_size/(1024**2):.1f} MB"
else:
    total_size_str = f"{total_size/(1024**3):.1f} GB"

print("\n" + "=" * 50)
print(f"📊 Tóm tắt: {file_count} file, Tổng kích thước: {total_size_str}")

📋 Các file đã tải:
  📄 test.csv (167.9 MB)
  📄 amazon_review_polarity_csv.tgz (656.5 MB)
  📄 train.csv (1.5 GB)

📊 Tóm tắt: 3 file, Tổng kích thước: 2.3 GB
