Pour tester les exemples pr√©sent√©s dans ce chapitre:

::: {.cell .markdown}

In [None]:
#| echo: false
#| output: 'asis'
#| include: true
#| eval: true

import sys
sys.path.insert(1, '../../../../') #insert the utils module
from utils import print_badges

#print_badges(__file__)
print_badges("content/course/modern-ds/dallE.qmd", GPU = True)

:::

::: {.cell .markdown}

```{=html}
<div class="alert alert-info" role="alert">
<h3 class="alert-heading"><i class="fa-solid fa-comment"></i> Note</h3>
```


L'utilisation de ce tutoriel est assez exigeante en termes d'infrastructure
car il est n√©cessaire de disposer de __GPU__.
Les GPU sont des __ressources rares et assez ch√®res__, elle ne sont donc pas mises √† disposition de fa√ßon
aussi ais√©es que les CPU dans les _cloud providers_. Il s'agit de plus
de ressources __plus polluantes__ que les CPU.

Des GPU sont disponibles sur `Google Colab`, la proc√©dure pour les activer
est expliqu√©e ci-dessous. Des GPU sont √©galement disponibles sur le `SSPCloud`
mais sont √† utiliser avec parcimonie. Elles ne sont pas mises √† disposition
par d√©faut car il s'agit d'une ressource rare. Ce chapitre, lanc√© depuis le 
bouton en d√©but de chapitre, active cette option pour permettre la r√©plication
des exemples. 


```{=html}
</div>
```

:::

::: {.cell .markdown}

```{=html}
<div class="alert alert-warning" role="alert">
<h3 class="alert-heading"><i class="fa-solid fa-lightbulb"></i> Hint</h3>
```


Par d√©faut, `Colab` n'utilise pas de GPU mais de la CPU. Il est donc n√©cessaire
d'√©diter les param√®tres d'ex√©cution du Notebook

- Dans le menu `Ex√©cution`, cliquer sur `Modifier le type d'ex√©cution` ;
- S√©lectionner `GPU` sous `Acc√©l√©rateur mat√©riel`.


```{=html}
</div>
```

:::

# Contexte

La publication en avril 2022 par l'organisation [Open AI](https://openai.com/) de
son mod√®le de g√©n√©ration de contenu cr√©atif [`Dall-E-2`](https://openai.com/dall-e-2/)
(un jeu de mot m√©langeant Dali et Wall-E) a cr√©√© un bruit in√©dit dans
le monde de la _data-science_.
A propos de `Dall-E`, le bloggeur _tech_ Casey Newton a pu parler d'une 
[r√©volution cr√©ative dans le monde de l'IA](https://www.platformer.news/p/how-dall-e-could-power-a-creative).
_[The Economist](https://www.economist.com/news/2022/06/11/how-a-computer-designed-this-weeks-cover)_ a par consacr√©
un num√©ro au sujet de l'√©mergence de ces intelligences artificielles
cr√©atrices de contenu. 

Ce bruit sur la capacit√© des
intelligences artificielle √† g√©n√©rer du contenu cr√©atif
a d'ailleurs √©t√© amplifi√© plus r√©cemment
avec la publication du _chatbot_ `chatGPT`
(voir [cet √©ditorial du _Guardian_](https://www.theguardian.com/commentisfree/2022/dec/10/i-wrote-this-column-myself-but-how-long-before-a-chatbot-could-do-it-for-me)).


L'inconv√©nient principal de `Dall-E`
pour g√©n√©rer facilement du contenu
est que le nombre de contenu pouvant √™tre cr√©√©
avec un acc√®s gratuit est limit√© (50 cr√©dits gratuits par mois).
Depuis le 22 Ao√ªt 2022, un g√©n√©rateur de contenu 
similaire est disponible gratuitement,
avec une licence plus permissive[^3]. Ce g√©n√©rateur, d√©velopp√©
par une √©quipe de chercheurs [@Rombach_2022_CVPR], 
s'appelle `Stable Diffusion` ([d√©p√¥t `Github` pour le code source](https://github.com/CompVis/stable-diffusion) et
[d√©p√¥t `HuggingFace` pour le mod√®le mis √† disposition](https://huggingface.co/CompVis/stable-diffusion-v1-4)[^4]).
Un [excellent article de blog](https://huggingface.co/blog/stable_diffusion) d√©crit la d√©marche de `Stable Diffusion`. La plupart des exemples originaux
dans cette partie seront bas√©s sur `Stable Diffusion`.


[^3]: Il est notamment possible de r√©utiliser l'image g√©n√©r√©e √† des fins commerciales. En revanche, il est interdit de chercher √† nuire √† une personne. Pour cette raison, il est fr√©quent que les visages de personnes c√©l√®bres soient flout√©s pour √©viter la cr√©ation de contenu nuisant √† leur r√©putation.

::: {.cell .markdown}

```{=html}
<div class="alert alert-info" role="alert">
<h3 class="alert-heading"><i class="fa-solid fa-comment"></i> <code>HuggingFace</code></h3>
```


`Huggingface` est une plateforme de partage de mod√®les de type r√©seau de neurone. Les utilisateurs de r√©seaux de neurone peuvent
ainsi mettre √† disposition le r√©sultat de leurs travaux sous forme d'API pour faciliter la r√©utilisation de leurs
mod√®les ou r√©utiliser facilement des mod√®les, ce qui √©vite de les r√©-entra√Æner (ce qui aurait un co√ªt √©cologique non 
n√©gligeable comme expliqu√© dans le chapitre introductif).


```{=html}
</div>
```

:::


`Dall-E-2` et `StableDiffusion`
sont des mod√®les g√©n√©ralistes. 
D'autres mod√®les, plus sp√©cialis√©s, 
existent √©galement. 
Le mod√®le [`Midjourney`](https://en.wikipedia.org/wiki/Midjourney) 
(produit propri√©taire de la soci√©t√© du m√™me nom)
permet la production de contenu
artistique, [DreamBooth](https://dreambooth.github.io/) (d√©velopp√© par Google)
est sp√©cialis√© dans la g√©n√©ration de contenu dans un nouveau
contexte. 

Le principe de tous ces mod√®les est le m√™me: un utilisateur
donne une instruction (une ou plusieurs phrases) et l'intelligence
artificielle l'interpr√®te et g√©n√®re une image cens√©e √™tre
coh√©rente avec l'instruction. 

Voici par exemple l'une des productions possibles de `DALL-E-2`

![](https://upload.wikimedia.org/wikipedia/commons/2/2b/A_Shiba_Inu_dog_wearing_a_beret_and_black_turtleneck_DALLE2.jpg)

_"A Shiba Inu dog wearing a beret and black turtleneck"_


`Midjourney`, sp√©cialis√© dans le contenu esth√©tique,
g√©n√®rera l'image suivante avec l'instruction  _"mechanical dove"_:

![](https://upload.wikimedia.org/wikipedia/commons/thumb/a/a9/A_mechanical_dove_8274822e-52fe-40fa-ac4d-f3cde5a332ae.png/250px-A_mechanical_dove_8274822e-52fe-40fa-ac4d-f3cde5a332ae.png)

`StableDiffusion`, mod√®le g√©n√©raliste comme `Dall-E`,
cr√©√©ra le contenu suivant avec
l'instruction _"A photograph of an astronaut riding a horse"_:

!["A photograph of an astronaut riding a horse"](https://upload.wikimedia.org/wikipedia/commons/thumb/3/32/A_photograph_of_an_astronaut_riding_a_horse_2022-08-28.png/250px-A_photograph_of_an_astronaut_riding_a_horse_2022-08-28.png)

Enfin, `DreamBooth` pourra lui introduire un chien dans une grande vari√©t√©
de contextes:

![](https://dreambooth.github.io/DreamBooth_files/teaser_static.jpg)


Un compte _Twitter_ ([Weird AI Generations](https://twitter.com/weirddalle))
propose de nombreuses g√©n√©rations de contenu dr√¥les ou incongrues. 
Voici un premier exemple de production humoristique faite √† partir de Mini Dall-E, la version
publique: 

::: {.cell .markdown}

```{=html}
<blockquote class="twitter-tweet"><p lang="zxx" dir="ltr"><a href="https://t.co/DIerJPtXGE">pic.twitter.com/DIerJPtXGE</a></p>&mdash; Weird Ai Generations (@weirddalle) <a href="https://twitter.com/weirddalle/status/1556027692163760130?ref_src=twsrc%5Etfw">August 6, 2022</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> 
```

:::

Ainsi qu'un deuxi√®me:

::: {.cell .markdown}

```{=html}
<blockquote class="twitter-tweet"><p lang="zxx" dir="ltr"><a href="https://t.co/Ju0Pdcokth">pic.twitter.com/Ju0Pdcokth</a></p>&mdash; Weird Ai Generations (@weirddalle) <a href="https://twitter.com/weirddalle/status/1556573904600268801?ref_src=twsrc%5Etfw">August 8, 2022</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> 
```

:::

Les mod√®les `Dall-E-2` et `Stable Diffusion`
s'appuient sur des r√©seaux de neurone √† diff√©rents niveaux :

- le contenu de la phrase est analys√© par un r√©seau de neurone similaire (mais bien s√ªr plus √©volu√©) que 
ceux que nous avons pr√©sent√© dans la partie [NLP](#nlp)
- les √©l√©ments importants de la phrase (recontextualis√©s) sont ensuite transform√©s en image √† partir de
mod√®les entra√Æn√©s √† reconna√Ætre des images

![](https://raw.githubusercontent.com/patrickvonplaten/scientific_images/master/stable_diffusion.png)

Illustration du fonctionnement de ce type de g√©n√©rateur d'image (ici √† partir de `Stable Diffusion`)

# G√©n√©rer du contenu avec Dall-E via l'API d'OpenAI

::: {.cell .markdown}

```{=html}
<div class="alert alert-danger" role="alert">
<i class="fa-solid fa-triangle-exclamation"></i> Warning</h3>
```


Les services d'`OpenAI` ne sont gratuits que dans une certaine
limite. Votre cl√© d'API est donc assez pr√©cieuse car si elle
est usurp√©e, elle peut permettre √† certaines personnes
d'√©puiser vos cr√©dits gratuits voire d'utiliser des cr√©dits
payants √† votre place. 

Si vous √™tes enregistr√©s r√©cemment dans le service d'API 
d'`OpenAI`, vous avez acc√®s √† des cr√©dits gratuits. Ne les
utilisez n√©anmoins pas avec trop de l√©g√®ret√© en ne contr√¥lant
pas les param√®tres de vos appels aux API car ces cr√©dits
sont pour l'ensemble des services d'`OpenAI`(`chatGPT`,
`Dall-E`, `DaVinci`...)



```{=html}
</div>
```

:::


Le contenu de cette partie s'appuie sur 
le tutoriel du site [realpython](https://realpython.com/generate-images-with-dalle-openai-api/)
L'utilisation de `Dall-E` sera faite via le package `openai` qui donne
acc√®s √† l'[API d'OpenAI](https://beta.openai.com/docs/api-reference?lang=python).
Pour l'installer depuis la cellule d'un `Notebook`:


In [None]:
#| eval: false
!pip install openai

Apr√®s avoir obtenu votre [cl√© d'API](https://realpython.com/generate-images-with-dalle-openai-api/#get-your-openai-api-key), on va supposer que celle-ci
est stock√©e dans une variable `key`:


In [None]:
key = "sk-XXXXXXXXXX" #remplacer avec votre cl√©

Ensuite, l'utilisation de l'API est assez directe:


In [None]:
#| eval: false
openai.api_key = key
openai.Image.create(
  prompt="Teddy bears working on new AI research underwater with 1990s technology",
  n=2,
  size="1024x1024"
)

L'_output_ est un JSON avec les URL des images g√©n√©r√©es.
Voici les deux images g√©n√©r√©es:

![](dallE.png)

![](dallE2.png)

Pour aller plus loin, vous pouvez consulter
le [tutoriel de `realpython`](https://realpython.com/generate-images-with-dalle-openai-api/#get-your-openai-api-key)

# Comment utiliser `Stable Diffusion` ?

[`Stable Diffusion`](https://github.com/CompVis/stable-diffusion) est
une intelligence artificielle cr√©atrice de contenu qui permet de 
g√©n√©rer du contenu √† partir d'une phrase - ce pour quoi nous allons
l'utiliser - mais aussi modifier des images √† partir d'instructions. 

`Stable Diffusion` est un mod√®le plus pratique √† utiliser depuis `Python`
que `Dall-E`. Celui-ci
est _open source_ et peut √™tre t√©l√©charg√© et r√©utilis√© directement depuis `Python`. 
La m√©thode la plus pratique est d'utiliser le mod√®le mis
√† disposition sur `HuggingFace`. Le mod√®le est impl√©ment√©
√† travers le _framework_ [`PyTorch`](https://pytorch.org/). 

[`PyTorch`](https://pytorch.org/), librairie d√©velopp√©e
par `Meta`, n'est pas implement√© directement en `Python`
pour des raisons de performance mais en `C++` - `Python` √©tant un
langage lent, le revers de la m√©daille de sa facilit√© 
d'usage. A travers `Python`, on va utiliser une API haut niveau
qui va contr√¥ler la structure des r√©seaux de neurone ou 
cr√©er une interface entre des
donn√©es (sous forme d'array `Numpy`) et le mod√®le. 
Pour ce type de _packages_ qui utilisent un langage compil√©, 
l'installation via `Pandas` 

::: {.cell .markdown}

```{=html}
<details><summary>Configuration sp√©cifique √† <code>Colab</code> üëá</summary>
```



Sur `Colab`, `conda` n'est pas disponible par d√©faut.
Pour pouvoir
installer un package en utilisant `conda` sur `Colab`,
on utilise donc l'astuce
suivante:

```python
!pip install -q condacolab
import condacolab
condacolab.install()
```


```{=html}
</details>
```

:::


## Installation de `PyTorch`

Pour installer `PyTorch`, la librairie de _Deep Learning_
d√©velopp√©e par `Meta`, il suffit de suivre les recommandations
sur le [site web officiel](https://pytorch.org/).
Dans un `Notebook`, cela prendra la forme suivante:


In [None]:
#| eval: false
!conda install mamba
!mamba install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch

::: {.cell .markdown}

```{=html}
<div class="alert alert-info" role="alert">
<h3 class="alert-heading"><i class="fa-solid fa-comment"></i> Note</h3>
```


Je propose ici d'utiliser `mamba` pour acc√©l√©rer l'installation.
Des √©l√©ments sur `mamba` sont disponibles dans l'introduction de ce cours.


```{=html}
</div>
```

:::


## Acc√®s √† `HuggingFace`

La question - non n√©gligeable - de l'acc√®s √†
de la GPU mise √† part,
la r√©utilisation des mod√®les de `Stable Diffusion` est
tr√®s facile car la documentation mise √† disposition sur 
`HuggingFace` est tr√®s bien faite.

La premi√®re √©tape est de se cr√©er un compte sur `HuggingFace`
et se cr√©er un _token_[^4]. Ce _token_ sera donn√© √† l'API
de `HuggingFace` pour s'authentifier. 

[^4]: Comme les autres plateformes du monde de la _data-science_,
`HuggingFace` a adopt√© l'utilisation standardis√©e des
jetons (_token_) comme m√©thode d'authentification. Le jeton est
comme un mot de passe sauf qu'il n'est pas invent√© par l'utilisateur
(ce qui permet qu'il ne soit pas partag√© avec d'autres sites web potentiellement
moins s√©curis√©s), est r√©vocable (date d'expiration ou choix de l'utilisateur)
et dispose de droits moins importants qu'un
mot de passe qui vous permet, potentiellement,
de changer tous les param√®tres de votre compte. Je recommande vivement l'utilisation
d'un gestionnaire de mot de passe pour
stocker vos _token_ (si vous utilisez `Git`, `Docker`, etc.
vous en avez potentiellement beaucoup) plut√¥t que
stocker ces jetons dans des fichiers non s√©curis√©s. 

L'API d'`HuggingFace` n√©cessite l'installation du
package [`diffusers`](https://huggingface.co/docs/transformers/installation).
Dans un `Notebook`, le code suivant permet d'installer la librairie
requise:


In [None]:
#| eval: false
!pip install --upgrade diffusers transformers scipy accelerate

::: {.cell .markdown}

```{=html}
<div class="alert alert-info" role="alert">
<h3 class="alert-heading"><i class="fa-solid fa-comment"></i> Note</h3>
```


On va supposer que le _token_ est stock√© dans une variable
d'environnement `HF_PAT`. Cela √©vite d'√©crire le _token_
dans un _Notebook_ qu'on va
potentiellement partager, alors que le _token_
est un √©l√©ment √† garder secret. Pour l'importer
dans la session `Python`:

Si vous n'avez pas la possibilit√© de rentrer le token dans les variables
d'environnement, cr√©ez une cellule qui cr√©e la variable
`HF_TOKEN` et supprimez l√† de suite pour ne pas l'oublier avant
de partager votre token. 


```{=html}
</div>
```

:::


In [None]:
#| eval: false
import os
HF_TOKEN = os.getenv('HF_PAT')

# G√©n√©rer une image

On va cr√©er l'image suivante: 

> __"Chuck Norris fighting against Zeus on Mount Olympus in an epic Mortal Kombat scene"__

Pas mal comme sc√©nario, non ?! 

::: {.cell .markdown}

```{=html}
<div class="alert alert-info" role="alert">
<h3 class="alert-heading"><i class="fa-solid fa-comment"></i> Note</h3>
```



Pour que les r√©sultats soient reproductibles entre diff√©rentes
sessions, 
nous allons fixer
la racine du g√©n√©rateur al√©atoire. 


```{=html}
</div>
```

:::


In [None]:
#| eval: false
import torch
generator = torch.Generator("cuda").manual_seed(123)

Si vous voulez vous amuser √† explorer diff√©rents r√©sultats
pour un m√™me texte, vous pouvez ne pas fixer de racine al√©atoire.
Dans ce cas, retirer l'argument `generator` des codes pr√©sent√©s
ult√©rieurement. 

Nous allons donc utiliser l'instruction suivante :


In [None]:
prompt = "Chuck Norris fighting against Zeus on Mount Olympus in an epic Mortal Kombat scene"

L'initialisation du mod√®le se fait de la mani√®re
suivante:


In [None]:
#| eval: false
import torch
from torch import autocast
from diffusers import StableDiffusionPipeline

model_id = "CompVis/stable-diffusion-v1-4"
device = "cuda"

generator = torch.Generator("cuda").manual_seed(1024)

Enfin, pour g√©n√©rer l'image: 


In [None]:
#| eval: false

pipe = StableDiffusionPipeline.from_pretrained(model_id, use_auth_token=HF_TOKEN, generator=generator)
pipe = pipe.to(device)

with autocast("cuda"):
    image = pipe(prompt, guidance_scale=7.5, generator = generator)["images"][0]  

   
image.save("featured.png")

Qui peut √™tre visualis√© avec le code suivant, dans un `notebook`:


In [None]:
#| eval: false
from IPython.display import Image 
pil_img = Image(filename="featured.png")
display(pil_img)

![](featured.png)

C'est une repr√©sentation assez fid√®le du
pitch _"Chuck Norris fighting against Zeus on Mount Olympus in an epic Mortal Kombat scene"_ :boom:.
Y a un petit c√¥t√© [_Les Dix Commandements_](https://fr.wikipedia.org/wiki/Les_Dix_Commandements_(film,_1956)#/media/Fichier:Charlton_Heston_in_The_Ten_Commandments_film_trailer.jpg) que j'aime bien. 


En voici une autre que j'aime bien (mais malheureusement je ne peux la reproduire car je n'ai pas
gard√© en m√©moire la racine l'ayant g√©n√©r√© :sob:)

![](chuck.png)

Il est √©galement possible de g√©n√©rer plusieurs images du m√™me texte (voir
la [note de blog](https://huggingface.co/blog/stable_diffusion) de l'√©quipe
√† l'origine de `Stable Diffusion`). Cependant, c'est assez exigeant en
m√©moire et cela risque d'√™tre impossible sur `Colab` (y compris
en r√©duisant le poids des vecteurs num√©riques comme propos√© dans le _post_)


# Bonus

Pour le plaisir, voici `PuppyMan`, le dernier n√© du Marvel Universe:

![](puppyman.png)


In [None]:
prompt = "In a new Marvel film we discover puppyman a new super hero that is half man half bulldog"

In [None]:
#| eval: false
import torch
from torch import autocast
from diffusers import StableDiffusionPipeline

model_id = "CompVis/stable-diffusion-v1-4"
device = "cuda"

generator = torch.Generator("cuda").manual_seed(1024)

pipe = StableDiffusionPipeline.from_pretrained(model_id, use_auth_token=HF_TOKEN, generator=generator)
pipe = pipe.to(device)

with autocast("cuda"):
    image = pipe(prompt, guidance_scale=7.5, generator = generator)["images"][0]  

   
image.save("puppyman.png")

La moiti√© humain semble √™tre son costume de super-h√©ros, pas la bip√©die.
Mais le rendu 
est quand m√™me √©patant !

A vous de jouer :hugging_face:

# R√©f√©rences

::: {#refs}
:::