# Лабораторная работа №1:
SDXL – гибридная модель для для генерации изображений

In [None]:
# --- A) INSTALL ---------------------------------------------------------------
!pip -q install --upgrade diffusers transformers accelerate safetensors \
                controlnet_aux peft datasets sentencepiece hf_xet \
                fsspec==2025.3.2 gcsfs==2025.3.2 --progress-bar off

from huggingface_hub import login
login("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")   # ← ваш токен HF

print("✅ Библиотеки установлены. Перезапустите runtime: Runtime → Restart.")


Инициализируем пайплайн SDXL-Turbo и генерируем тестовое изображение с помощью DDIM-шедулера

In [None]:
# =============================================================================
# 2) Imports & helpers
# =============================================================================
import torch, gc, cv2, numpy as np
from PIL import Image
from IPython.display import Image, display
from diffusers import (
    DiffusionPipeline, StableDiffusionXLControlNetPipeline,
    ControlNetModel, DDIMScheduler, AutoencoderKL
)
from huggingface_hub import login
login("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")

device = "cuda" if torch.cuda.is_available() else "cpu"

def free():
    torch.cuda.empty_cache(); gc.collect()

# =============================================================================
# 3) Text‑to‑Image · SDXL‑Turbo + DDIM (50 steps, 768²)
# =============================================================================
prompt = "a photograph of a snowy mountain landscape at sunrise"
neg    = "blurry, low resolution, bad quality"

pipe_turbo = DiffusionPipeline.from_pretrained(
    "stabilityai/sdxl-turbo",
    torch_dtype=torch.float16,
    variant="fp16",
    device_map="balanced",
    low_cpu_mem_usage=True
)
pipe_turbo.enable_attention_slicing()
pipe_turbo.scheduler = DDIMScheduler.from_config(pipe_turbo.scheduler.config)

img = pipe_turbo(prompt, negative_prompt=neg,
                 height=768, width=768,
                 num_inference_steps=50, guidance_scale=0.0).images[0]
img.save("01_turbo_ddim.png"); img.show()

del pipe_turbo; free()

# =============================================================================
# 4) ControlNet (Canny) over SDXL‑Base 1.0
# =============================================================================
# 4-a) ControlNet on CPU (exactly как было)
ctrl = ControlNetModel.from_pretrained(
    "diffusers/controlnet-canny-sdxl-1.0",
    torch_dtype=torch.float16, variant="fp16"
)                          # ← остаётся на CPU

# 4-b) SDXL-Base 1.0 on CPU

vae = AutoencoderKL.from_pretrained("madebyollin/sdxl-vae-fp16-fix", torch_dtype=torch.float16)
pipe_cn = StableDiffusionXLControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    controlnet=ctrl, vae=vae,
    torch_dtype=torch.float16, variant="fp16"
)                          # всё ещё на CPU
pipe_cn.enable_model_cpu_offload()

Подготавливаем ControlNet-Canny поверх SDXL-Base (B–C), загружая модель контуров на CPU и используя CPU-offload-хуки, чтобы слои мигрировали на GPU и обратно. Получаем результат по Canny-контурной карте.

In [None]:
# --- C-finish : запуск ControlNet --------------------------------------------
import cv2, numpy as np
from PIL import Image
base = Image.open("01_turbo_ddim.png").convert("RGB").resize((640, 640))
edge = Image.fromarray(cv2.Canny(np.array(base), 100, 200))

res = pipe_cn(prompt, image=edge, negative_prompt=neg,
              height=640, width=640,
              num_inference_steps=100, guidance_scale=6.0).images[0]
res.save("02_controlnet_canny.png"); res.show()

del pipe_cn, ctrl; free()
print("✅ 02_controlnet_canny.png готово — сделайте Runtime → Restart.")

после перезапустить среду выполнения

In [None]:
!pip -q install "datasets==2.14.6" --no-deps --progress-bar off

In [None]:
!pip -q install multiprocess xxhash tqdm pyarrow --progress-bar off

In [None]:
!pip -q install --upgrade \
    diffusers transformers accelerate safetensors controlnet_aux \
    peft datasets sentencepiece xformers

In [None]:
from huggingface_hub import login
login("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")  # ваш токен
print("✅ Установлено — теперь Runtime → Restart runtime")

после перезапустить сеанс

In [None]:
from datasets import load_dataset
import os
ds = load_dataset("Dasool/VERI-Emergency", split="train[:200]")
os.makedirs("pokemon_images", exist_ok=True)
for i, ex in enumerate(ds):
    ex["image"].convert("RGB").save(f"pokemon_images/{i:04d}.jpg")
    with open(f"pokemon_images/{i:04d}.txt", "w") as f:
        f.write(ex["caption"])
print("✅ Скачано 200 изображений в папку pokemon_images/")


In [None]:
!git clone https://github.com/huggingface/diffusers.git

In [None]:
# 1. Удаляем старую версию diffusers
!pip uninstall -y diffusers

# 2. Устанавливаем PyTorch (если ещё не установлен), Accelerate и Transformers
!pip install torch accelerate transformers
# перезапускаем сеанс

# LoRa fine-tuning
LoRA нацелен на решение проблемы тонкой настройки LLM. Она представляет обновление весов двумя меньшими матрицами обновления с помощью низкоранговой декомпозиции, со значительно меньшим количеством параметров. Она замораживает веса модели замораживаются на протяжение всего процесса, позволяя обучить новые матрицы, после чего адаптированные веса объединяются с исходными весами.Затем эти матрицы могут быть обучены для адаптации новых данных.
Это занимает куда меньше времени чем полноценна настройка модели и допускает комбинацию с другими техниками

In [None]:
# Устанавливаем последнюю версию библиотеки прямо из GitHub
!pip install --upgrade git+https://github.com/huggingface/diffusers.git

In [None]:
# Скачивание и сохранение датасета с покемонами для последующего fine-tuning.
!mkdir pokemon_images_jpg
!mv pokemon_images/*.jpg pokemon_images_jpg/

In [None]:
!!pip install --upgrade bitsandbytes

Проводим fine-tuning LoRA-адаптера с рангом 4 на SDXL (DreamBooth-скрипт из примеров diffusers), используя градиентный чекпоинтинг, смешанную точность и memory-efficient attention.

In [None]:
!git clone https://github.com/facebookresearch/bitsandbytes.git
!pip install ./bitsandbytes
# перезапускаем сеанс

перезапускаем сеанс

In [None]:
!python diffusers/examples/advanced_diffusion_training/train_dreambooth_lora_sdxl_advanced.py \
  --pretrained_model_name_or_path stabilityai/stable-diffusion-xl-base-1.0 \
  --instance_data_dir ./pokemon_images_jpg \
  --instance_prompt "fire in the house" \
  --output_dir ./pokemon_lora \
  --resolution 128 \
  --train_batch_size 1 \
  --max_train_steps 5 \
  --learning_rate 1e-4 \
  --gradient_checkpointing \
  --mixed_precision fp16 \
  --enable_xformers_memory_efficient_attention \
  --validation_epochs 1 \
  --num_validation_images 0

Применяем дообученный адаптер к SDXL-Base (E), включаем оптимизации (attention- и VAE-slicing) и генерируем финальное изображение с guidance scale ≈ 7.5

In [None]:
# ───── E) INFERENCE: применение LoRA в SDXL-Base ──────────────────────────────
import torch
from diffusers import StableDiffusionXLPipeline
from IPython.display import Image, display
from PIL import Image as PILImage
device = "cuda" if torch.cuda.is_available() else "cpu"
from huggingface_hub import login
login("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")  # ваш токен
# 1) Загружаем оригинальный SDXL-Base (fp16) и переносим на GPU
pipe = StableDiffusionXLPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16,
    variant="fp16",
).to(device)

# 2) Подгружаем дообученные LoRA-веса
pipe.unet.load_attn_procs("pokemon_lora")

# 3) Включаем оптимизации для инференса
pipe.enable_attention_slicing()
pipe.enable_vae_slicing()
pipe.enable_vae_tiling()

# 4) Генерируем изображение
prompt = "engulfing fire realistic 4K"
image = pipe(
    prompt,
    height=768,                   # можно увеличить до 768, если хватает VRAM
    width=768,
    num_inference_steps=200,       # больше шагов — выше качество
    guidance_scale=7.5            # сила влияния guidance
).images[0]

# 5) Сохраняем и отображаем результат
image.save("pokemon_lora_result.png")
image.show()
display(Image(filename='/content/pokemon_lora_result.png'))
print("✅ Результат сохранён как pokemon_lora_result.png")


Изображения, сгенерированные диффузионными моделями, могут использоваться для обучения моделей, например, решающих задачу классификации, если сохранить промпты

# Генерация датасета:

In [None]:
import os
import csv
from diffusers import StableDiffusionXLPipeline
import torch

# Сколько изображений для датасета вам надо
num_images = 10
# Укажите промпты для генерации
base_prompts = [
    "кошка",
]

# Генерируем список подсказок для 10 изображений
prompts = [base_prompts[i % len(base_prompts)] + f", вариация {i+1}" for i in range(num_images)]

# Папка для сохранения изображений
output_dir = "my_sdxl_dataset"
os.makedirs(output_dir, exist_ok=True)

# CSV-файл для хранения соответствия изображение-подсказка
csv_path = os.path.join(output_dir, "dataset.csv")

# Загрузка пайплайна SDXL
pipe = StableDiffusionXLPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16,
    use_safetensors=True
).to("cuda")

# Генерация и сохранение изображений + запись в CSV
with open(csv_path, mode="w", newline='', encoding="utf-8") as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(["filename", "prompt"])
    for idx, prompt in enumerate(prompts):
        image = pipe(prompt, num_inference_steps=30, guidance_scale=7.0).images[0]
        filename = f"image_{idx:03d}.png"
        image.save(os.path.join(output_dir, filename))
        writer.writerow([filename, prompt])
        print(f"Сохранено: {filename}")

print("Генерация датасета завершена! Все подсказки сохранены в dataset.csv")
display(Image(filename='/content/my_sdxl_dataset/image_000.png'))

# Задание:
1) Найти датасет или сделать свой, и провести на нем файнтюн модели. Предоставить два изображения, отличающиеся количеством изображений в датасете (32 и 128) чтобы пронаблюдать влияние размера датасета на результат.  
2) Пронаблюдать и описать влияние параметров height&width,num_inference_steps, guidance_scale.  
3) Сгенерировать свой датасет на опредленную тему и загрузить его на hugging face.  