In [13]:
import torch
from torchvision import transforms #hàm để thực hiện các phép biến đổi ảnh
from torchvision import datasets  #chứa lớp ImageFolder 
from torch.utils.data import DataLoader #tạo trình tải dữ liệu theo batch
import numpy as np
import os #làm việc với đường dẫn thư mục 
import matplotlib.pyplot as plt
print(f"Đã import các thư viện")

Đã import các thư viện


# Định  nghĩa đường dẫn tới các file dữ liệu 

In [None]:
#định nghĩa đường dẫn
data_folder='../data'
train_dir=os.path.join(data_folder,'train')
validation_dir=os.path.join(data_folder,'validation')

#kích thước ảnh mục tiêu
img_size=224

#kích thước lô dữ liệu 
batch_size=8

#giá trị trung bình và độ lệch chuẩn để chuẩn hoá ảnh theo chuẩn (imagenet)
normalize_mean=[0.485, 0.456, 0.406]
normalize_std=[0.229, 0.224, 0.225]

print(f"Thư mục train : {os.path.abspath(train_dir)}")
print(f"Thư mục validation : {os.path.abspath(validation_dir)}")
print(f":Kích thước ảnh chuẩn hoá : {img_size*img_size}")
print(f"Kích thước lô dữ liệu : {batch_size}")

Thư mục train : /Users/namtran/practice.py/mini_project_cats_dogs/data/train
Thư mục validation : /Users/namtran/practice.py/mini_project_cats_dogs/data/validation
:Kích thước ảnh chuẩn hoá : 50176
Kích thước lô dữ liệu : 35


# Định nghĩa các phép biến đổi (transforms)

In [15]:
train_transforms=transforms.Compose([
    transforms.RandomResizedCrop(img_size),
    transforms.RandomHorizontalFlip(p=0.5),
    transforms.RandomRotation(10),
    transforms.ToTensor(),
    transforms.Normalize(mean=normalize_mean, std=normalize_std)
])

validation_transforms=transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(img_size),
    transforms.ToTensor(),
    transforms.Normalize(mean=normalize_mean,std=normalize_std)
])# chúng ta sẽ không dùng augmentation cho tập validation
print(f"Đã định nghĩa các phép biến đổi cho tập train và validation")

Đã định nghĩa các phép biến đổi cho tập train và validation


# Tạo đối tượng dataset bằng ImageFolder

In [16]:
try:
    #tạo dataset cho tập train và áp dụng train_transforms
    train_dataset=datasets.ImageFolder(train_dir,transform=train_transforms)
    #tạo dataset cho tập validation và áp dụng validation_transforms
    validation_dataset=datasets.ImageFolder(validation_dir,transform=validation_transforms)
    print(f"Tạo đối tượng thành công")
    
    #lấy danh sách tên các lớp
    class_names=train_dataset.classes
    #chuyển từ tên sang chỉ số
    class_to_index=train_dataset.class_to_idx
    #tổng số lớp
    num_classes=len(class_names)
    print(f"Số lớp : {num_classes}")
    print(f"Tên lớp : {class_names}")
    print(f"Chỉ số lớp : {class_to_index}")
    if len(train_dataset)==0 or len(validation_dataset)==0:
        print("Không có ảnh trong tập train hoặc validation")
        raise ValueError("Không có ảnh trong tập train hoặc validation")
except FileNotFoundError as e:
    print(f"Không tìm thấy thư mục ảnh : {e}")
    raise
except Exception as e:
    print(f"Có lỗi xảy ra khi tạo dataset : {e}")
    raise

Tạo đối tượng thành công
Số lớp : 2
Tên lớp : ['cats', 'dogs']
Chỉ số lớp : {'cats': 0, 'dogs': 1}


# Tạo đối tượng DataLoader


In [17]:
train_loader=DataLoader(train_dataset, #dataset để tải
                        batch_size=batch_size, #kích thước lô dữ liệu
                        shuffle=True, #xáo trộn dữ liệu train sau mỗi epoch
                        num_workers=0) #số luồng

validation_loader=DataLoader(validation_dataset, #dataset để tải
                             batch_size=batch_size, #kích thước lô dữ liệu
                             shuffle=False, #không xáo trộn dữ liệu validation
                             num_workers=0) #số luồng
print(f"Đã tạo thành công DataLoader cho tập train và validation")

Đã tạo thành công DataLoader cho tập train và validation


# Kiểm tra DataLoader

In [18]:
try:
    print(f"Kiểm tra dataloader")
    images_check,labels_check=next(iter(train_loader)) #lấy 1 batch từ dataloader
    print(f"Kích thước ảnh kiểm tra : {images_check.size()}")
    print(f"Kích thước nhãn kiểm tra : {labels_check.size()}")
    print(f"Kiểm tra dataloader thành công")
except Exception as e:
    print(f"Có lỗi xảy ra khi kiểm tra dataloader : {e}")
    raise
print(f"Đã kiểm tra dataloader thành công")

Kiểm tra dataloader
Kích thước ảnh kiểm tra : torch.Size([35, 3, 224, 224])
Kích thước nhãn kiểm tra : torch.Size([35])
Kiểm tra dataloader thành công
Đã kiểm tra dataloader thành công
