# Download AI generated images by diffusion models

In [12]:
# Import necessary libraries
import requests
import zipfile
import os
import sys
import shutil
from tqdm import tqdm 

In [13]:
sys.path.append("..")  # Thêm thư mục cha vào sys.path để nhập các mô-đun tùy chỉnh nếu cần thiết

In [15]:
# --- CONFIG ---
DOWNLOAD_URL = "https://zenodo.org/records/17062365/files/sd35-ip-adapter-sdxl.zip?download=1"
ZIP_FILENAME = "sd35-ip-adapter-sdxl.zip"
EXTRACT_DIR = os.path.join("..", "data", "raw", "fairfacegen", "diffusion_images")
if not os.path.exists(EXTRACT_DIR):
    os.makedirs(EXTRACT_DIR)
# The chunk size to use when downloading the file (4 MB)
CHUNK_SIZE = 4 * 1024 * 1024

In [10]:
# Download function
def download_file(url, filename):
    """
    Tải file từ URL và lưu vào đĩa, hiển thị thanh tiến trình.
    """
    print(f"Bắt đầu tải xuống: {filename}")
    try:
        # Sử dụng stream=True để tải xuống từng khối, không tải toàn bộ vào bộ nhớ
        with requests.get(url, stream=True) as r:
            r.raise_for_status() # Kiểm tra lỗi HTTP
            
            total_size = int(r.headers.get('content-length', 0))
            
            with open(filename, 'wb') as f:
                # Sử dụng tqdm để hiển thị thanh tiến trình
                with tqdm(
                    desc=filename,
                    total=total_size,
                    unit='iB',
                    unit_scale=True,
                    unit_divisor=1024,
                ) as bar:
                    for chunk in r.iter_content(chunk_size=CHUNK_SIZE):
                        f.write(chunk)
                        bar.update(len(chunk))
            
            print(f"Tải xuống thành công: {filename}")
            return True

    except requests.exceptions.RequestException as e:
        print(f"Lỗi khi tải xuống: {e}")
        return False
    except Exception as e:
        print(f"Đã xảy ra lỗi không xác định: {e}")
        return False


def extract_zip(zip_path, extract_to):
    """
    Giải nén tệp ZIP.
    """
    print(f"\nBắt đầu giải nén: {zip_path} vào thư mục {extract_to}")
    
    # Tạo thư mục giải nén nếu chưa tồn tại
    if os.path.exists(extract_to):
        print(f"Thư mục giải nén '{extract_to}' đã tồn tại. Đang xóa và tạo lại.")
        try:
            shutil.rmtree(extract_to)
        except OSError as e:
            print(f"Lỗi: Không thể xóa thư mục '{extract_to}'. {e}")
            return False
            
    os.makedirs(extract_to, exist_ok=True)
    
    try:
        with zipfile.ZipFile(zip_path, 'r') as zip_ref:
            # zip_ref.extractall(extract_to) # Cách giải nén đơn giản
            
            # Hiển thị tiến trình giải nén
            file_list = zip_ref.namelist()
            print(f"Tổng số tệp cần giải nén: {len(file_list)}")
            for file in tqdm(file_list, desc="Giải nén"):
                zip_ref.extract(file, extract_to)
                
        print(f"Giải nén thành công! Nội dung nằm trong thư mục: {extract_to}")
        return True
    except FileNotFoundError:
        print(f"Lỗi: Không tìm thấy tệp ZIP tại {zip_path}.")
        return False
    except zipfile.BadZipFile:
        print(f"Lỗi: Tệp {zip_path} không phải là tệp ZIP hợp lệ hoặc bị hỏng.")
        return False
    except Exception as e:
        print(f"Lỗi trong quá trình giải nén: {e}")
        return False

In [None]:
# Main execution
# if download_file(DOWNLOAD_URL, ZIP_FILENAME):
#     extract_zip(ZIP_FILENAME, EXTRACT_DIR)
# else:
#     print("Tải xuống thất bại, không thể giải nén.")

In [5]:
# Optionnal: Clean up by deleting the ZIP file after extraction
# print(f"\nXóa tệp ZIP: {ZIP_FILENAME}")
# os.remove(ZIP_FILENAME)
# print("Hoàn tất.")

## The code in real life spends total 18~19 days to fully downloaded, so we just go to the link below and download it mannualy, it's easier

Link : https://zenodo.org/records (Choose sd35-ip-adapter-sdxl.zip)

Then unzip the file in data/raw/fairfacegen/diffusion_images folder.