In [1]:
import os
import requests
import gzip
import shutil

# 1. Cấu hình thư mục
data_dir = 'NLP_PROJECT/data'
if not os.path.exists(data_dir):
    os.makedirs(data_dir)
    print(f"Đã tạo thư mục: {data_dir}")

# 2. Danh sách link file NÉN (.gz) chính thức hiện tại
# Lưu ý: Các file này đều có đuôi .gz
urls = {
    "train.en": "https://raw.githubusercontent.com/multi30k/dataset/master/data/task1/raw/train.en.gz",
    "train.fr": "https://raw.githubusercontent.com/multi30k/dataset/master/data/task1/raw/train.fr.gz",
    "val.en": "https://raw.githubusercontent.com/multi30k/dataset/master/data/task1/raw/val.en.gz",
    "val.fr": "https://raw.githubusercontent.com/multi30k/dataset/master/data/task1/raw/val.fr.gz",
    "test.en": "https://raw.githubusercontent.com/multi30k/dataset/master/data/task1/raw/test_2016_flickr.en.gz",
    "test.fr": "https://raw.githubusercontent.com/multi30k/dataset/master/data/task1/raw/test_2016_flickr.fr.gz"
}

print("Đang bắt đầu tải và giải nén dữ liệu...")

for filename, url in urls.items():
    # Đường dẫn file nén (.gz) và file đích (txt)
    gz_path = os.path.join(data_dir, filename + ".gz") # ví dụ: train.en.gz
    final_path = os.path.join(data_dir, filename)      # ví dụ: train.en
    
    # Kiểm tra nếu file đích chưa có thì mới tải
    if not os.path.exists(final_path):
        print(f"--> Đang tải: {filename}...")
        
        try:
            # 1. Tải file .gz về
            response = requests.get(url)
            if response.status_code == 200:
                with open(gz_path, 'wb') as f:
                    f.write(response.content)
                
                # 2. Giải nén file .gz thành file text
                with gzip.open(gz_path, 'rb') as f_in:
                    with open(final_path, 'wb') as f_out:
                        shutil.copyfileobj(f_in, f_out)
                
                # 3. Xóa file .gz cho nhẹ máy
                os.remove(gz_path)
                print(f"    Đã tải và giải nén xong: {filename}")
            else:
                print(f"    LỖI: Link hỏng hoặc file không tồn tại (Status {response.status_code})")
                
        except Exception as e:
            print(f"    Lỗi ngoại lệ khi xử lý {filename}: {e}")
    else:
        print(f"--> File {filename} đã tồn tại, bỏ qua.")

# 3. Kiểm tra kết quả
print("\nDanh sách file trong thư mục data/ (Kiểm tra xem dung lượng có > 0KB không):")
files = os.listdir(data_dir)
for f in files:
    size = os.path.getsize(os.path.join(data_dir, f))
    print(f"- {f}: {size/1024:.2f} KB")

# Test thử nội dung file train.en xem có phải tiếng Anh không
print("\n--- Kiểm tra nội dung file train.en (5 dòng đầu) ---")
try:
    with open(os.path.join(data_dir, 'train.en'), 'r', encoding='utf-8') as f:
        for i in range(5):
            print(f.readline().strip())
except Exception as e:
    print(f"Chưa đọc được file: {e}")

Đang bắt đầu tải và giải nén dữ liệu...
--> File train.en đã tồn tại, bỏ qua.
--> File train.fr đã tồn tại, bỏ qua.
--> File val.en đã tồn tại, bỏ qua.
--> File val.fr đã tồn tại, bỏ qua.
--> File test.en đã tồn tại, bỏ qua.
--> File test.fr đã tồn tại, bỏ qua.

Danh sách file trong thư mục data/ (Kiểm tra xem dung lượng có > 0KB không):
- test.en: 60.62 KB
- test.fr: 70.57 KB
- train.en: 1759.02 KB
- train.fr: 2061.82 KB
- val.en: 61.81 KB
- val.fr: 72.19 KB

--- Kiểm tra nội dung file train.en (5 dòng đầu) ---
Two young, White males are outside near many bushes.
Several men in hard hats are operating a giant pulley system.
A little girl climbing into a wooden playhouse.
A man in a blue shirt is standing on a ladder cleaning a window.
Two men are at the stove preparing food.


In [2]:
# Chạy thử đoạn này để xem nội dung file
path = 'NLP_PROJECT/data/train.en' # Đảm bảo đường dẫn đúng với thư mục bạn lưu

try:
    with open(path, 'r', encoding='utf-8') as f:
        print("--- 5 dòng đầu tiên của file train.en ---")
        for i in range(5):
            print(f.readline().strip())
    print("\n=> ĐÂY LÀ FILE TEXT, KHÔNG PHẢI RAR. BẠN CÓ THỂ DÙNG TRỰC TIẾP!")
except Exception as e:
    print(f"Có lỗi: {e}")

--- 5 dòng đầu tiên của file train.en ---
Two young, White males are outside near many bushes.
Several men in hard hats are operating a giant pulley system.
A little girl climbing into a wooden playhouse.
A man in a blue shirt is standing on a ladder cleaning a window.
Two men are at the stove preparing food.

=> ĐÂY LÀ FILE TEXT, KHÔNG PHẢI RAR. BẠN CÓ THỂ DÙNG TRỰC TIẾP!


In [3]:
# 1. Gỡ cài đặt các bản đang bị xung đột
!pip uninstall -y torch torchtext torchvision

!pip install spacy torch torchtext

# 3. Tải mô hình ngôn ngữ cho Spacy (nếu chưa có)
!python -m spacy download en_core_web_sm
!python -m spacy download fr_core_news_sm

print("--- ĐÃ CÀI ĐẶT XONG ---")
print("Vui lòng nhấn nút 'Restart' (mũi tên vòng tròn) trên thanh công cụ của Notebook để áp dụng thay đổi!")

Found existing installation: torch 2.9.1
Uninstalling torch-2.9.1:
  Successfully uninstalled torch-2.9.1
Found existing installation: torchtext 0.18.0
Uninstalling torchtext-0.18.0:
  Successfully uninstalled torchtext-0.18.0




Collecting torch
  Using cached torch-2.9.1-cp310-cp310-win_amd64.whl.metadata (30 kB)
Collecting torchtext
  Using cached torchtext-0.18.0-cp310-cp310-win_amd64.whl.metadata (7.9 kB)
Using cached torch-2.9.1-cp310-cp310-win_amd64.whl (111.0 MB)
Using cached torchtext-0.18.0-cp310-cp310-win_amd64.whl (1.9 MB)
Installing collected packages: torch, torchtext

   ---------------------------------------- 0/2 [torch]
   ---------------------------------------- 0/2 [torch]
   ---------------------------------------- 0/2 [torch]
   ---------------------------------------- 0/2 [torch]
   ---------------------------------------- 0/2 [torch]
   ---------------------------------------- 0/2 [torch]
   ---------------------------------------- 0/2 [torch]
   ---------------------------------------- 0/2 [torch]
   ---------------------------------------- 0/2 [torch]
   ---------------------------------------- 0/2 [torch]
   ---------------------------------------- 0/2 [torch]
   ---------------------


[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


Collecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl (12.8 MB)
     ---------------------------------------- 0.0/12.8 MB ? eta -:--:--
     -- ------------------------------------- 0.8/12.8 MB 5.6 MB/s eta 0:00:03
     ------- -------------------------------- 2.4/12.8 MB 10.3 MB/s eta 0:00:02
     ---------------- ----------------------- 5.2/12.8 MB 10.0 MB/s eta 0:00:01
     --------------------- ------------------ 6.8/12.8 MB 10.5 MB/s eta 0:00:01
     ------------------------------- ------- 10.2/12.8 MB 10.8 MB/s eta 0:00:01
     ------------------------------------- - 12.3/12.8 MB 10.6 MB/s eta 0:00:01
     ---------------------------------------- 12.8/12.8 MB 10.4 MB/s  0:00:01
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')



[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


Collecting fr-core-news-sm==3.8.0--- ĐÃ CÀI ĐẶT XONG ---
Vui lòng nhấn nút 'Restart' (mũi tên vòng tròn) trên thanh công cụ của Notebook để áp dụng thay đổi!

  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.8.0/fr_core_news_sm-3.8.0-py3-none-any.whl (16.3 MB)
     ---------------------------------------- 0.0/16.3 MB ? eta -:--:--
     - -------------------------------------- 0.5/16.3 MB 5.6 MB/s eta 0:00:03
     ----- ---------------------------------- 2.4/16.3 MB 11.2 MB/s eta 0:00:02
     ------------ --------------------------- 5.2/16.3 MB 10.3 MB/s eta 0:00:02
     ---------------- ----------------------- 6.8/16.3 MB 11.0 MB/s eta 0:00:01
     ------------------------- ------------- 10.5/16.3 MB 11.3 MB/s eta 0:00:01
     ------------------------------ -------- 12.8/16.3 MB 11.3 MB/s eta 0:00:01
     ------------------------------------ -- 15.2/16.3 MB 11.1 MB/s eta 0:00:01
     ---------------------------------------- 16.3/16.3 MB 10.9 M


[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [5]:
import torch
from torch.utils.data import Dataset, DataLoader
from torch.nn.utils.rnn import pad_sequence
from collections import Counter
from torchtext.vocab import vocab
import spacy
import io

# --- 1. CÀI ĐẶT TOKENIZER (SPACY) ---
# Tải model ngôn ngữ (nếu chưa tải ở bước trước thì bỏ comment dòng dưới)
# !python -m spacy download en_core_web_sm
# !python -m spacy download fr_core_news_sm

print("Đang tải Spacy models...")
spacy_en = spacy.load("en_core_web_sm")
spacy_fr = spacy.load("fr_core_news_sm")

def tokenize_en(text):
    """Tách từ tiếng Anh và đảo ngược (để tăng hiệu suất LSTM nếu muốn - tùy chọn)"""
    return [tok.text for tok in spacy_en.tokenizer(text)]

def tokenize_fr(text):
    """Tách từ tiếng Pháp"""
    return [tok.text for tok in spacy_fr.tokenizer(text)]

# --- 2. XÂY DỰNG TỪ ĐIỂN (VOCABULARY) ---
def build_vocab(filepath, tokenizer):
    counter = Counter()
    with io.open(filepath, encoding="utf8") as f:
        for string_ in f:
            counter.update(tokenizer(string_.lower().strip()))
    
    # Tạo vocab object
    # min_freq=2: Từ nào xuất hiện dưới 2 lần sẽ coi là <unk> để giảm nhiễu
    v = vocab(counter, min_freq=2, specials=['<unk>', '<pad>', '<sos>', '<eos>'])
    
    # Gán index mặc định cho từ lạ (unknown)
    v.set_default_index(v['<unk>']) 
    return v

print("Đang xây dựng từ điển (Vocabulary)...")
en_vocab = build_vocab('NLP_PROJECT/data/train.en', tokenize_en)
fr_vocab = build_vocab('NLP_PROJECT/data/train.fr', tokenize_fr)

print(f"- Số lượng từ vựng Tiếng Anh: {len(en_vocab)}")
print(f"- Số lượng từ vựng Tiếng Pháp: {len(fr_vocab)}")

# Lưu các index đặc biệt để dùng sau này
PAD_IDX = en_vocab['<pad>']
SOS_IDX = en_vocab['<sos>']
EOS_IDX = en_vocab['<eos>']

# --- 3. CUSTOM DATASET CLASS ---
class Multi30kDataset(Dataset):
    def __init__(self, src_path, trg_path, src_vocab, trg_vocab, src_tokenizer, trg_tokenizer):
        self.src_data = open(src_path, encoding='utf-8').read().split('\n')
        self.trg_data = open(trg_path, encoding='utf-8').read().split('\n')
        
        # Đồng bộ số lượng dòng (bỏ dòng rỗng cuối file)
        min_len = min(len(self.src_data), len(self.trg_data))
        self.src_data = self.src_data[:min_len]
        self.trg_data = self.trg_data[:min_len]
        
        # Lọc bỏ các cặp câu rỗng
        self.src_data, self.trg_data = zip(*[(s, t) for s, t in zip(self.src_data, self.trg_data) if s.strip() and t.strip()])

        self.src_vocab = src_vocab
        self.trg_vocab = trg_vocab
        self.src_tokenizer = src_tokenizer
        self.trg_tokenizer = trg_tokenizer

    def __len__(self):
        return len(self.src_data)

    def __getitem__(self, idx):
        src_text = self.src_data[idx].lower().strip()
        trg_text = self.trg_data[idx].lower().strip()

        # Tokenize -> List of strings -> List of Indices
        src_indices = [self.src_vocab[token] for token in self.src_tokenizer(src_text)]
        trg_indices = [self.trg_vocab[token] for token in self.trg_tokenizer(trg_text)]

        # Thêm <sos> vào đầu và <eos> vào cuối
        src_indices = [SOS_IDX] + src_indices + [EOS_IDX]
        trg_indices = [SOS_IDX] + trg_indices + [EOS_IDX]

        return torch.tensor(src_indices), torch.tensor(trg_indices)

# --- 4. COLLATE FUNCTION (PADDING) ---
def collate_fn(batch):
    src_batch, trg_batch = [], []
    for src_item, trg_item in batch:
        src_batch.append(src_item)
        trg_batch.append(trg_item)
    
    # Pad các câu về cùng độ dài lớn nhất trong batch
    # padding_value=PAD_IDX: Điền vào chỗ trống bằng index của <pad>
    src_batch = pad_sequence(src_batch, padding_value=PAD_IDX, batch_first=False) 
    trg_batch = pad_sequence(trg_batch, padding_value=PAD_IDX, batch_first=False)
    
    return src_batch, trg_batch

# --- 5. KHỞI TẠO DATALOADER ---
BATCH_SIZE = 128
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

print(f"Đang tạo DataLoaders (Batch Size: {BATCH_SIZE})...")

train_dataset = Multi30kDataset(
    'NLP_PROJECT/data/train.en', 'NLP_PROJECT/data/train.fr', 
    en_vocab, fr_vocab, tokenize_en, tokenize_fr
)
val_dataset = Multi30kDataset(
    'NLP_PROJECT/data/val.en', 'NLP_PROJECT/data/val.fr', 
    en_vocab, fr_vocab, tokenize_en, tokenize_fr
)
test_dataset = Multi30kDataset(
    'NLP_PROJECT/data/test.en', 'NLP_PROJECT/data/test.fr', 
    en_vocab, fr_vocab, tokenize_en, tokenize_fr
)

train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True, collate_fn=collate_fn)
val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE, shuffle=False, collate_fn=collate_fn)
test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False, collate_fn=collate_fn)

# --- 6. KIỂM TRA THỬ 1 BATCH ---
src, trg = next(iter(train_loader))
print("\n--- Kiểm tra cấu trúc Batch ---")
print(f"Shape Source (seq_len, batch_size): {src.shape}")
print(f"Shape Target (seq_len, batch_size): {trg.shape}")
print("Done! Dữ liệu đã sẵn sàng để train.")

OSError: Could not load this library: C:\Users\Admin\anaconda3\Lib\site-packages\torchtext\lib\libtorchtext.pyd