Skip to content

AmericanPresidentJimmyCarter/Paellaaa

 
 

Repository files navigation

Paellaaa

A conditional text-to-image generative model based on Paella by Jimmy and Hlky. It incorporates cross attention in addition to using LayerNorm conditioning. It uses both the conditionings from CLIP and T5, similar to the dual conditioning from Kadinsky-2.0.

  ┌───────────────────────────────────────┐
  │                                       │
  │  ┌──────────┐           ┌─────────┐   │
  │  │          ├──────────►│         │   │
  │  │          │           │ Layer   ├───┘
  │  │ OpenCLIP │           │ Norm    │
  │  │          │        ┌─►│         │
  │  │          ├─────┐  │  │         ├────────┐
  │  └──────────┘     │  │  └─────────┘        │
  │                   │  │                     │
  │  ┌──────────┐     │  │  ┌─────────┐        │
  │  │          ├─────┼──┘  │         │        │
  │  │          │     │     │ Cross   │        │
  │  │ T5       │     └────►│ Attn    │        │
  │  │          │           │         │        │
  │  │          ├──────────►│         │        │
  │  └──────────┘           └─┬─────┬─┘        │
  │                           │     │          │
  │                  ┌────────┘     └──────┐   │
  │   UNet Down      │      UNet Up        │   │
  │  ┌────────────┐  │     ┌────────────┐  │   │
  ├─►│            ├──┼─────►            │◄─┼───┤
  │  └─────▲──────┘  │     └─────┬──────┘  │   │
  │        │         │           │         │   │
  │    ┌───┴────┐    │       ┌───▼────┐    │   │
  ├───►│        │    │       │        │◄───┼───┤
  │    └───▲────┘    │       └───┬────┘    │   │
  │        │         │           │         │   │
  │      ┌─┴──┐      │         ┌─▼──┐◄─────┘   │
  └─────►│    │◄─────┘         │    │          │
         └─▲──┘                └─┬──┘◄─────────┘
           │                     │
      ┌────┴─────┐          ┌────▼─────┐
      │          │          │          │
      │Latent in │          │Latent Out│
      │          │          │          │
      │          │          │          │
      │          │          │          │
      └──────────┘          └──────────┘

Weights are forthcoming.

Train your own Paella

The main file for training will be paella.py. During training we use HF dataset.

From Scratch

python3 paella.py

License

The model code and weights are released under the MIT license.

About

Official Implementation of Paella (https://arxiv.org/abs/2211.07292v1)

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%