# AutoPipeline

- 작성일 : 24.07.30  
- 작성자 : 유소영  
- 출처 : https://huggingface.co/docs/diffusers/tutorials/basic_training


Diffusers는 이미지, 비디오, 오디오 생성 및 인페인팅과 같은 기본 작업을 위한 다양한 파이프라인을 제공합니다. 

이외에도 업스케일링, 초해상도 등의 기능을 위한 특수 파이프라인도 있습니다. 서로 다른 파이프라인 클래스가 동일한 사전 훈련된 모델을 공유하기 때문에 같은 체크포인트를 사용할 수도 있습니다. 이렇게 다양한 파이프라인이 있어 어떤 파이프라인 클래스를 사용해야 할지 결정하기 어려울 수 있습니다. AutoPipeline 클래스는 Diffusers의 다양한 파이프라인을 단순화하기 위해 설계되었습니다.   

이는 작업 중심의 일반적인 파이프라인으로, 특정 파이프라인 클래스를 알 필요 없이 작업(AutoPipelineForText2Image, AutoPipelineForImage2Image, AutoPipelineForInpainting)에 집중할 수 있게 해줍니다. 
  
AutoPipeline은 자동으로 올바른 파이프라인 클래스를 감지하여 사용합니다.
예를 들어, dreamlike-art/dreamlike-photoreal-2.0 체크포인트를 사용해 보겠습니다.
내부적으로 AutoPipeline은 다음과 같이 작동합니다:

**model_index.json 파일에서 "stable-diffusion" 클래스를 감지합니다.**

원하는 작업에 따라 <u>(1) StableDiffusionPipeline, (2) StableDiffusionImg2ImgPipeline, 또는 (3) StableDiffusionInpaintPipeline을 로드합니다.</u>

이러한 특정 파이프라인에 전달할 수 있는 모든 매개변수(strength, num_inference_steps 등)를 
AutoPipeline에도 전달할 수 있습니다.

**주요 작업:**

- 텍스트-이미지 변환 (text-to-image)
- 이미지-이미지 변환 (image-to-image)
- 인페인팅 (inpainting)


In [None]:
# text-to-text

In [None]:
from diffusers import AutoPipelineForText2Image
import torch

pipe_txt2img = AutoPipelineForText2Image.from_pretrained(
    "dreamlike-art/dreamlike-photoreal-2.0", torch_dtype=torch.float16, use_safetensors=True
).to("cuda")

prompt = "cinematic photo of Godzilla eating sushi with a cat in a izakaya, 35mm photograph, film, professional, 4k, highly detailed"
generator = torch.Generator(device="cpu").manual_seed(37)
image = pipe_txt2img(prompt, generator=generator).images[0]
image

In [None]:
#  image-to-image 

In [None]:
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch

pipe_img2img = AutoPipelineForImage2Image.from_pretrained(
    "dreamlike-art/dreamlike-photoreal-2.0", torch_dtype=torch.float16, use_safetensors=True
).to("cuda")

init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/autopipeline-text2img.png")

prompt = "cinematic photo of Godzilla eating burgers with a man in a fast food restaurant, 35mm photograph, film, professional, 4k, highly detailed"
generator = torch.Generator(device="cpu").manual_seed(53)
image = pipe_img2img(prompt, image=init_image, generator=generator).images[0]

init_image.show()

print(prompt)
image.show()