<a href="https://colab.research.google.com/github/ShinAsakawa/ShinAsakawa.github.io/blob/master/notebooks/2021_0602CLIP_demo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# CLIP (Contrastive Language–Image Pre-training) のデモ
[ブログ](https://openai.com/blog/clip/), [論文](https://arxiv.org/pdf/2103.00020.pdf), [コード](https://github.com/openai/CLIP)

a.k.a ゼロショット学習

- 参入障壁を低くすることが期待される。産業応用が加速する（？）
- 一方で，倫理，法律，社会的な問題を孕んでいるように思える


* 深層学習には大量のデータが必要
* 従来モデルでは，人間が手動でラベル付けしたデータセットが用いられてきた。
* データセットは構築には，人的にも高費用 かつ，用途が限定的
* たとえばイメージネットでは 25,000人以上の作業者が 22,000 のカテゴリに 1,400万枚の画像に注釈を付けた
* CLIP はインターネット上で既に公開されているテキストと画像のペアから学習
* 背景となる基礎技術
    * 自己教師付き学習 self-supervised learning
    * 対比損失 contrastive loss
    * 自己学習 self-training
    * 生成モデル generative model


- source: https://openai.com/blog/clip/

<center>
<img src="https://openaiassets.blob.core.windows.net/$web/clip/draft/20210104b/overview-a.svg" style="width:77%"><br/>

<img src="https://openaiassets.blob.core.windows.net/$web/clip/draft/20210104b/overview-b.svg" style="width:17%"><br/>
</center>

In [None]:
import subprocess
CUDA_version = [s for s in subprocess.check_output(["nvcc", "--version"]).decode("UTF-8").split(", ") if s.startswith("release")][0].split(" ")[-1]
print("CUDA version:", CUDA_version)

if CUDA_version == "10.0":
    torch_version_suffix = "+cu100"
elif CUDA_version == "10.1":
    torch_version_suffix = "+cu101"
elif CUDA_version == "10.2":
    torch_version_suffix = ""
else:
    torch_version_suffix = "+cu110"

In [None]:
!pip install torch==1.7.1{torch_version_suffix} torchvision==0.8.2{torch_version_suffix} -f https://download.pytorch.org/whl/torch_stable.html ftfy regex

In [None]:
!pip install git+https://github.com/openai/CLIP.git

In [None]:
import numpy as np
from PIL import Image
import torch
import clip
#from tqdm.notebook import tqdm
print("Torch version:", torch.__version__)

In [None]:
from google.colab import files
uploaded = files.upload()

In [None]:
device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load("ViT-B/32", device=device)

image = preprocess(Image.open("CLIP.png")).unsqueeze(0).to(device)
text = clip.tokenize(["a diagram", "a dog", "a cat"]).to(device)

with torch.no_grad():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)

    logits_per_image, logits_per_text = model(image, text)
    probs = logits_per_image.softmax(dim=-1).cpu().numpy()

print("Label probs:", probs)  # prints: [[0.9927937  0.00421068 0.00299572]]


In [None]:
import matplotlib.pyplot as plt
img = plt.imread('CLIP.png')

plt.figure(figsize=(14,4))
plt.axis('off')
plt.imshow(img)