Skip to content

4juneko/Generated_BookCover

 
 

Repository files navigation

아티커버

  • 과업 : 책 제목, 장르, 내용, 요구사항을 입력하면 그에 맞는 책표지의 생성(Stable Diffusion 기반)
  • 기간 : Jun.30. 2023 ~ Aug.11.2023
  • 장소 : 온라인(gathertown)

목차

기술적 목표

  • 책내용에 적합한 이미지
    책의 제목과 내용에 어울리는 책표지를 생성함과 동시에 출판될 책의 크기를 고려해이미지를 원하는 비율의 이미지로 생성
  • 텍스트 편집
    생성 이미지 모델에서 취약한 정확하지 않은 텍스트 생성을 극복하고자 알맞게 내용을 수정 가능하도록 함.
  • 적합한 해상도
    이미지 생성 모델의 대부분 출력물은 512512 or 10241024이다 하지만 인쇄하여 책을 출판하기 위해서는 보다 높은 해상도의 결과물이 필요하다

관련 선행 기술

  • Book Cover Synthesis from the Summary(https://arxiv.org/abs/2211.02138) image image

    • Accepted as a full paper in AICCSA2022 (19th ACS/IEEE International Conference on Computer Systems and Applications)
    • StyleGAN, AttnGAN, DF-GAN, DALL-E 모델을 이용하여 책 표지 생성
    • ~25,000개의 데이터 셋
    • 결과물이 어떤 내용의 책인지 알 수 없음.
  • 마이크로소프트 디자이너

    image (2)

    • 가장 목표치에 근접하는 생성 툴
    • 텍스트 또는 이미지를 input을 받아 이미지를 생성
    • 텍스트 위치 변경 및 내용 변경 가능
    • 이미지 비율은 지정 불가
    • 책표지보단 엽서 이미지 같은 사진도 많이 출력
    • 다른 탬플릿 또는 추가 이미지 부착 가능
    • 텍스트 위치 변경 및 내용 변경 가능
  • FontFits

    Untitled (1)

    • 책 표지에 필요한 텍스트 생성
    • 20만개 이상의 dataset 필요
    • 복잡한 전처리 과정( 책 표지에서 텍스트 지우기, 마스크 제작 등)

프로젝트 흐름

화면 캡처 2023-08-09 180730

구현 방법

1. Generate


2. Edit Text

  • 책 표지를 생성하면 이미지 생성 모델의 특징으로 의미 없는 유사 글자가 만들어져 텍스트 수정이 필요.

  • SRNet, MOSTEL, SSTE, STEFANN, Imp2Font 등 Scene text editing Model을 시도하였으나 미리 학습된 DIffSTE 모델을 이용하기로 함.

  • DiffSTE(Diffusion-based Scene Text Editing) 소개

    • 듀얼 인코더 디자인을 사용하여 그림에 있는 글자를 수정하는 목적으로 pretrained diffusion을 개선하기 위해 DiffSTE 모델이 만들어짐.

    • 문자 인코더와 스타일 제어를 위한 명령 인코더를 포함하는 듀얼 인코더 설계로 사전 훈련된 확산 모델을 개선한 후 지정된 스타일이나 주변 텍스트의 스타일을 배경으로 텍스트 명령에서 해당 이미지로의 매핑을 학습 Untitled (1)

    • Dataset

      • the synthetic dataset (Synthetic) and three real-world datasets (ArT[9], COCOText[13], and TextOCR [44]) for instruction tuning.
      • 100 font families from the google fonts library2 and 954 XKCD colors3 for text rendering
      • randomly select 200 images for validation and 1000 images for testing from each dataset.
    • DiffSTE를 이용하기 위한 Input

      • All the images are cropped/resized to 256×256 resolution
      • 새로운 텍스트가 들어갈 마스크
      • 새로운 텍스트
    • DiffSTE의 결과물
      Untitled (2)

  • Reference


3. Remove Text


4. Upscale

요구 사항

팀원들

AI학교 AIFFEL 온라인 코어 3기 소속의 고주은, 한기혁, 이호규

About

AI book cover maker, Arti Cover.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages

  • Jupyter Notebook 94.8%
  • Python 5.2%