## 루브릭 1
텍스트 프롬프트 2 개를 설정하고 LDM 에 넣어 이미지를 생성한 후, 생성 이미지 안에서
점차 변화되는 특성들에 대한 분석 결과를 기록하였다.

In [None]:
!pip install --upgrade pip
!pip install torch torchvision torchaudio diffusers transformers accelerate --upgrade --quiet

In [None]:
import torch
from diffusers import StableDiffusionPipeline
import matplotlib.pyplot as plt
import numpy as np
import math
from PIL import Image

# GPU가 사용 가능한지 확인하고, 사용 가능한 경우 GPU와 float16을 설정합니다.
device = "cuda" if torch.cuda.is_available() else "cpu"

# Pre-trained Stable Diffusion 모델을 불러옵니다.
# 모델 아이디는 원하는 버전(예: "CompVis/stable-diffusion-v1-4" 또는 "runwayml/stable-diffusion-v1-5")에 따라 조정할 수 있습니다.
model_id = "CompVis/stable-diffusion-v1-4"

pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)

# 이제 pipe를 사용하여 텍스트-투-이미지 생성 등을 수행할 수 있습니다.
prompt = "A futuristic cityscape, vibrant and detailed"
image = pipe(prompt).images[0]

# 생성된 이미지를 출력합니다.
plt.imshow(np.array(image))
plt.axis("off")
plt.show()

In [None]:
# 프롬프트와 보간 단계 수 정의
prompt_1 = "A futuristic cityscape, vibrant and detailed"
prompt_2 = "A cheerful young girl with big sparkling eyes, standing in a magical forest, accompanied by a talking animal, soft lighting, Disney-style, whimsical and heartwarming atmosphere"
interpolation_steps = 3

# 토크나이저를 사용해 텍스트를 토큰화합니다.
inputs_1 = pipe.tokenizer(prompt_1, padding="max_length", max_length=pipe.tokenizer.model_max_length, return_tensors="pt")
inputs_2 = pipe.tokenizer(prompt_2, padding="max_length", max_length=pipe.tokenizer.model_max_length, return_tensors="pt")

# CPU에 있는 텐서를 GPU로 이동
inputs_1 = {k: v.to(device) for k, v in inputs_1.items()}
inputs_2 = {k: v.to(device) for k, v in inputs_2.items()}

# 텍스트 인코더를 사용해 프롬프트의 임베딩을 얻습니다.
with torch.no_grad():
    encoding_1 = pipe.text_encoder(**inputs_1).last_hidden_state  # shape: (1, seq_len, emb_dim)
    encoding_2 = pipe.text_encoder(**inputs_2).last_hidden_state

# 배치 차원 제거 (1, seq_len, emb_dim) -> (seq_len, emb_dim)
encoding_1 = encoding_1.squeeze(0)
encoding_2 = encoding_2.squeeze(0)

# 두 인코딩 사이를 선형 보간합니다.
alphas = torch.linspace(0, 1, steps=interpolation_steps, device=encoding_1.device)
# 각 보간 단계마다 encoding_1과 encoding_2의 가중 평균을 계산합니다.
interpolated_encodings = [(1 - alpha) * encoding_1 + alpha * encoding_2 for alpha in alphas]
# 보간 결과를 하나의 텐서로 스택 (shape: (interpolation_steps, seq_len, emb_dim))
interpolated_encodings = torch.stack(interpolated_encodings)

# 임베딩의 shape 출력
print(f"Encoding shape: {encoding_1.shape}")

In [None]:
# 시드 설정 및 생성기 초기화
seed = 12345
generator = torch.Generator(device=device).manual_seed(seed)

# latent 공간 크기: (batch_size, 4, height, width)
latent_height = 512 // 8  # 64
latent_width = 512 // 8   # 64

# interpolation_steps 만큼의 노이즈(초기 잠재 변수)를 생성
latents = torch.randn(
    (interpolation_steps, 4, latent_height, latent_width),
    generator=generator,
    dtype=torch.float16,
    device=device
)

# latents에 미리 생성한 노이즈를 전달합니다.
images = pipe(
    prompt_embeds=interpolated_encodings,
    latents=latents,
    generator=generator
).images

In [None]:
def export_as_gif(filename, images, frames_per_second=10, rubber_band=False):
    if rubber_band:
        images += images[2:-1][::-1]
    images[0].save(
        filename,
        save_all=True,
        append_images=images[1:],
        duration=1000 // frames_per_second,
        loop=0,
    )

export_as_gif(
    "picture_5.gif",
    images,
    frames_per_second=2,
    rubber_band=True,
)

## 결과분석
- 디즈니스타일의 캐릭터 뒷면에 future city 형상이 보간을 채우는 사진이 형성되었다.

In [None]:
from IPython.display import Image, display

# 생성된 GIF 보기
display(Image(filename="picture_5.gif"))

In [None]:
images = pipe(
    prompt_embeds=interpolated_encodings,
    latents=latents,
    generator=generator
).images


def show_images_grid(images, cols=5, title="Interpolation Grid", rubber_band=False):
    # rubber_band 효과 적용 시 대칭 이미지 추가
    if rubber_band:
        images = images + images[2:-1][::-1]

    total = len(images)
    rows = (total + cols - 1) // cols

    plt.figure(figsize=(cols * 2.5, rows * 2.5))
    plt.suptitle(title, fontsize=16)

    for i, img in enumerate(images):
        plt.subplot(rows, cols, i + 1)
        plt.imshow(img)
        plt.axis('off')

    plt.tight_layout()
    plt.subplots_adjust(top=0.9)
    plt.show()

# GIF를 위한 rubber_band 옵션이 True인 경우 시각화도 동일하게 적용
show_images_grid(images, cols=interpolation_steps, title="Prompt Interpolation", rubber_band=True)


In [None]:
# 설정
interpolation_steps = 150  # 원래 생성할 샘플 수
batch_size = 3

# interpolated_encodings는 이전에 (interpolation_steps, 77, 768) 모양으로 생성됨
total = interpolated_encodings.shape[0]
num_batches = math.ceil(total / batch_size)
padding_size = num_batches * batch_size - total

if padding_size > 0:
    # 마지막 샘플을 복제해서 패딩 (여기서는 마지막 샘플을 반복)
    pad_encodings = interpolated_encodings[-1:].expand(padding_size, -1, -1)
    interpolated_encodings = torch.cat([interpolated_encodings, pad_encodings], dim=0)

# 이제 전체 샘플 수는 num_batches * batch_size가 됨
batched_encodings = torch.split(interpolated_encodings, batch_size)

# 잠재(latent) 공간의 크기 계산 (일반적으로 512/8 = 64)
latent_height = 512 // 8  # 64
latent_width = 512 // 8   # 64

# 각 보간 단계마다 사용할 노이즈(초기 잠재 변수)를 생성합니다. noise 텐서의 shape: (interpolation_steps, 4, latent_height, latent_width)
noise = torch.randn(
    (total, 4, latent_height, latent_width),
    generator=generator,
    dtype=torch.float16,
    device=device
)
# noise도 배치 크기의 배수가 아니면 패딩
if padding_size > 0:
    pad_noise = noise[-1:].expand(padding_size, 4, latent_height, latent_width)
    noise = torch.cat([noise, pad_noise], dim=0)

batched_latents = torch.split(noise, batch_size)

# 배치별로 이미지를 생성합니다.
images = []
for i in range(len(batched_encodings)):
    output = pipe(
        prompt_embeds=batched_encodings[i],
        latents=batched_latents[i],
        num_inference_steps=25,
        generator=generator
    )
    images += output.images

export_as_gif("picture-150.gif", images, rubber_band=True)

In [None]:
from IPython.display import Image, display

# GIF를 정적 이미지처럼 표시
display(Image(filename="picture-150.gif"))

In [None]:
alphas = torch.linspace(0, 1, steps=150, device=pipe.device)
interpolated_encodings = torch.stack([
    (1 - alpha) * encoding_1 + alpha * encoding_2 for alpha in alphas
])

images = []
for i in range(len(batched_encodings)):
    output = pipe(
        prompt_embeds=batched_encodings[i],
        latents=batched_latents[i],
        num_inference_steps=25,
        generator=generator
    )
    images += output.images


show_images_grid(images, cols=15, title="150 Interpolations", rubber_band=False)


## 루브릭 2
미세조정에 사용할 대상의 모습이 담긴 Instance 와 class 이미지를 각각 마련하여 알맞은
경로에 저장하고, 데이터를 모델을 학습시켜 대상이 담긴 이미지를 생성하였다.

In [None]:
!pip uninstall -y peft
!pip install peft==0.15.0

In [None]:
!mkdir -p ~/.huggingface
HUGGINGFACE_TOKEN = "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"
!echo -n "{HUGGINGFACE_TOKEN}" > ~/.huggingface/token

In [None]:
!git clone https://github.com/huggingface/diffusers ./diffusers_git

In [None]:
!cd diffusers_git && git checkout main

In [None]:
!pip install -e ./diffusers_git

In [None]:
!pip list | grep diffusers

In [None]:
!pip install -r ./diffusers_git/examples/dreambooth/requirements.txt bitsandbytes xformers accelerate triton --upgrade --quiet

In [None]:
!accelerate config default

In [None]:
from huggingface_hub import snapshot_download

local_dir = "./diffusers_git/examples/dreambooth/dog"
snapshot_download(
    "diffusers/dog-example",
    local_dir=local_dir, repo_type="dataset",
    ignore_patterns=".gitattributes",
)

In [None]:
script_content = """#!/bin/bash
export MODEL_NAME="CompVis/stable-diffusion-v1-4"
export INSTANCE_DIR="./diffusers_git/examples/dreambooth/dog"
export CLASS_DIR="./diffusers_git/examples/dreambooth/dog"
export OUTPUT_DIR="./diffusers_git/examples/dreambooth/data"

echo $MODEL_NAME

accelerate launch ./diffusers_git/examples/dreambooth/train_dreambooth.py \\
  --pretrained_model_name_or_path=$MODEL_NAME  \\
  --instance_data_dir=$INSTANCE_DIR \\
  --class_data_dir=$CLASS_DIR \\
  --output_dir=$OUTPUT_DIR \\
  --instance_prompt="a photo of sks dog" \\
  --class_prompt="a photo of dog" \\
  --resolution=512 \\
  --train_batch_size=1 \\
  --with_prior_preservation --prior_loss_weight=1.0 \\
  --gradient_accumulation_steps=1 --gradient_checkpointing \\
  --use_8bit_adam \\
  --enable_xformers_memory_efficient_attention \\
  --set_grads_to_none \\
  --learning_rate=2e-6 \\
  --lr_scheduler="constant" \\
  --lr_warmup_steps=0 \\
  --num_class_images=5 \\
  --max_train_steps=100
"""

with open("train_dreambooth.sh", "w") as f:
    f.write(script_content)

print("=3")

In [None]:
# 약 10분 정도 소요됩니다.
%reset -f

!rm -rf ./diffusers_git/examples/dreambooth/dog/.cache
!sh ./train_dreambooth.sh

print('----'*64)
print('학습 완료!!')

In [None]:
%reset -f

# 의존성 모듈을 삭제 후 다시 설치합니다.
!pip uninstall -y diffusers
!pip install diffusers

from diffusers import DiffusionPipeline, UNet2DConditionModel
from transformers import CLIPTextModel
import torch

# huggingface에 미리 등록된 base 모델을 다운로드하여 사용합니다.
model_id = "CompVis/stable-diffusion-v1-4"

# 앞서 학습 코드로 만들어진 파라미터들을 로드합니다.
unet = UNet2DConditionModel.from_pretrained("./diffusers_git/examples/dreambooth/data/unet")
text_encoder = CLIPTextModel.from_pretrained("./diffusers_git/examples/dreambooth/data/text_encoder")

# stable diffusion 의 전체 파이프라인을 구성해줍니다.
pipeline = DiffusionPipeline.from_pretrained(model_id, unet=unet, text_encoder=text_encoder, dtype=torch.float16)
pipeline.to("cuda")

In [None]:
prompt = "a 3D render of sks person as a superhero, studio lighting"
image = pipeline(prompt, num_inference_steps=50
, guidance_scale=7.5).images[0]

image.save("dog-bucket.png")
image

## 루브릭 3
웹사이트에서 원하는 Checkpoint 와 Lora 파일을 다운로드하고, 생성 모델 파이프라인을
구축하여 이미지를 생성하였다.


In [None]:
!wget https://civitai.com/api/download/models/116417 -O lora_example.safetensors

In [None]:
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
import torch

pipeline = StableDiffusionPipeline.from_pretrained("digiplay/hellofantasytime_v1.22", torch_dtype=torch.float16)   # 알맞은 모델 ID 를 입력합니다.
pipeline.scheduler = DPMSolverMultistepScheduler.from_config(pipeline.scheduler.config)
pipeline.to("cuda")

pipeline.load_lora_weights("./lora_example.safetensors")   # 다운로드한 LoRA 를 로드합니다.

In [None]:
image = pipeline(
    prompt="masterpiece, high quality ,<lora:fat:0.5> blue bird, in a bucket, bokeh background, <lora:add_detail:0.2>",
    negative_prompt="easynegative,(((pubic))), ((((pubic_hair)))),sketch, no ears, duplicate, ugly, huge eyes, text, logo, monochrome, worst face, (bad and mutated hands:1.3), (worst quality:2.0), (low quality:2.0), (blurry:2.0), horror, geometry, (bad hands), (missing fingers), multiple limbs, bad anatomy, (interlocked fingers:1.2), Ugly Fingers, (extra digit and hands and fingers and legs and arms:1.4), crown braid, ((2girl)), (deformed fingers:1.2), (long fingers:1.2),succubus wings,horn,succubus horn,succubus hairstyle,girl,",
    num_inference_steps=28,
    guidance_scale=7,
).images[0]

image.save("sd_lora_sample.png")
image