# 学習済みモデル

学習済みモデルとは、何か特定の仕事をやるために、既に大量のデータを元に学習を終えた、機械学習のモデル（=プログラム）のことを指します。

例えば、犬と猫の画像を分類するためのモデルがあったとして、それが学習済みモデルなら、そのモデルは既に大量の犬と猫の画像を見て、「これは犬だ」「これは猫だ」という判断ができるようになっています。

## Tensorflow

`tensorflow`を使って、学習済みモデルを使ってみましょう。

まずは、`tensorflow`をインストールします。`pip`は、Pythonのパッケージをインストールするためのツールです。

In [None]:
# !pip install tensorflow #pip（パッケージマネジャーを使ってインストールします）
import tensorflow as tf

print(tf.__version__) # バージョンを確認します

## TensorFlow, Kerasで利用できる学習済みモデル一覧

### kerasに組み込まれている学習済みモデルの一覧

https://keras.io/api/applications/

## 学習済みモデルの読み込み

ここでは[vgg16](https://jp.mathworks.com/help/deeplearning/ref/vgg16.html)というモデルをロードしてみましょう。（学習データは大きいので何度も実行しないように）

In [None]:
model = tf.keras.applications.vgg16.VGG16(weights=None)

## 構造をみる
`summary()`関数を使ってどのような構造になっているのか見てみましょう

In [None]:
model.summary()

## 問1

入力の形(input_shape)、出力(output_shape)、学習パラメーター(params)の数はいくつでしょうか

In [None]:
input_shape = ___
output_shape = ___
prams = ___

## 他にもいくつか学習済みモデルをインポートして、そのレイヤを見てみましょう。

In [None]:
# ここにコードを書いてください

# Pillow

Pillow(PIL)はPythonの画像処理ライブラリです。画像を処理するのに便利な機能を持っています。

In [3]:
# ライブラリをインポートします
# !pip install Pillow
from PIL import Image

## 画像の読み込み

`open()`メソッドを使って画像を読み込むことができます。

好きな画像をダウンロードして画面に表示してみましょう。

- [猫と犬の画像データセット](https://www.kaggle.com/datasets/tongpython/cat-and-dog)
- [Pokemon Image Dataset](https://www.kaggle.com/datasets/vishalsubbiah/pokemon-images-and-types)

## 画像の表示

jupyter-notebookではコードセルの最後の行に`PIL`型の値を指定すれば描画してくれます。

In [None]:
filename = '/kaggle/input/cat-and-dog/training_set/training_set/cats/cat.1.jpg' # 例として猫の画像を指定します
im = Image.open( filename )
im # コードセルの最後の行に`PIL`型の値を指定すれば描画してくれます。

`.size`で画像のサイズを取得できます。

In [None]:
width, height = im.size
print(f"横幅: {width}px 縦幅: {height}px")

`.resize`を使って、画像を目的に合ったサイズに変更することができます。

In [1]:
img_resized = im.resize((224, 224),  Image.Resampling.NEAREST)
img_resized

NameError: name 'im' is not defined

## 型を変換する

モデルの入力は`numpy array`なので、型を変換する必要があります。`tf.keras.preprocessing.image.img_to_array`を使って変換しましょう。

In [None]:
img_np = tf.keras.preprocessing.image.img_to_array(img_resized)
print(type(img_np))
img_np.shape

## 最後の数値は何？

`img_np.shape`の結果は`(224, 224, 3)`のように表示されましたが、最後の3は何を意味するのでしょうか？


In [None]:
# 画像の左上のピクセルのデータを見てみましょう
img_np[0][0]

## 入力の次元拡張

さきほどのモデルの入力を見てみると、入力は`[(None, 224, 224, 3)]`となっています。

`None`の部分はバッチ数を表しています。バッチ数とは、一度にモデルに入力するデータの数です。

モデルの入力はバッチ数も含むので次元を拡張する必要があります。

In [None]:
expanded_img = img_np[tf.newaxis, ...]
# 確認してみましょう
expanded_img.shape

## 前処理

前処理とは、データをモデルに入力する前に、データを加工することです。

前処理をすると予測精度が向上します。(このセルを何度も実行しないように）

In [None]:
img_preprocessed = tf.keras.applications.vgg16.preprocess_input(expanded_img)
print(img_preprocessed.min(), '-', img_preprocessed.max())

## preprocess_input

前処理の関数`preprocess_input`の[ドキュメント](https://www.tensorflow.org/api_docs/python/tf/keras/applications/vgg16/preprocess_input)を読んでみましょう

The images are converted from RGB to BGR, then each color channel is zero-centered with respect to the ImageNet dataset, without scaling.

何が変わったのか見てみる

In [None]:
expanded_img[0][0][0]

In [None]:
img_preprocessed[0][0][0]

左から10番目、上から20番目のピクセルを取り出す方法は？

In [None]:
pixel_left10_up20 = 0

## 画像を入力して予想してみましょう

In [None]:
prediction = model.predict(img_preprocessed)

## 正しい出力の形になっているか確認しましょう

In [None]:
prediction.shape

In [None]:
prediction[0][:5]

In [None]:
import pprint
result = tf.keras.applications.vgg16.decode_predictions(prediction, top=5)
pprint.pprint(result)

## 分類ラベル一覧

Imagenetの1000クラス分の順番とラベル、クラス名の情報は[JSONファイル](https://storage.googleapis.com/download.tensorflow.org/data/imagenet_class_index.json)にまとめられています

## 問1
どのようなラベルがあるのか、5つピックアップしてみましょう。

# 問2

好きな画像をダウンロードして、モデルに入力してクラス名を予測してみましょう。

# 問3
好きなモデル/データセットを選んで画像分類してみましょう

- モデルの定義
- 画像の読み込み
- 予想結果の表示

# [Tensorflow Hub](https://www.tensorflow.org/hub)

Tensorflow Hubは学習済みモデルのレポジトリです。kerasの学習済みモデルより幅広く、応用しやすくなっています。

まずは[Faster R-CNN](https://tfhub.dev/tensorflow/faster_rcnn/inception_resnet_v2_640x640/1)をつかってみましょう。

このモデルは**物体検出**と**分類**を順番に実行してくれます。

In [None]:
import tensorflow as tf
import tensorflow_hub as hub

# 画像データの読み込み
image = tf.io.read_file("/kaggle/input/cat-and-dog/training_set/training_set/dogs/dog.1.jpg")
image = tf.io.decode_jpeg(image)
image = tf.expand_dims(image, axis=0)

# モデルをロード
tf_model = hub.load("https://tfhub.dev/tensorflow/faster_rcnn/inception_resnet_v2_640x640/1")

## 推論を実行

Tensorflow Hubモデルは、kerasのものと違って`.predict`は必要ありません

In [None]:
outputs = tf_model(image)

まずは型を確認しましょう

In [None]:
type(outputs)

どのようなキーがあるのか確認しましょう

In [None]:
for key in outputs.keys():
    print(key)

In [None]:
boxes = outputs["detection_boxes"][0]

In [None]:
import numpy as np
height, width = image.shape[1:3]
box = boxes[0] * np.array([height, width, height, width])
y_min, x_min, y_max, x_max = box.numpy().astype(int)

## OpenCV

Pillowの他にもOpenCVという画像処理のライブラリがあります

In [None]:
# !pip install opencv-python
import cv2
output_image = cv2.imread("/kaggle/input/cat-and-dog/training_set/training_set/dogs/dog.1.jpg")

## 枠線を描画する

`cv2.rectangle`という長方形を描画するメソッドを使います

In [None]:
result = cv2.rectangle(output_image, (x_min, y_min), (x_max, y_max), color=(0, 0, 255))

In [None]:
cv2.imwrite("output.jpg", output_image)

In [None]:
import matplotlib.pyplot as plt
plt.imshow(output_image)

## 練習1
好きな画像データセットを追加して、モデルを使って検出した物体に枠線をかいてみましょう

## 練習2

PILにも線を描画するメソッドがあります。その使い方を調べ、同様に検出した物体に枠線をかいてみましょう。

- キーワードでgoogle検索する 例. **PIL 線 描画**
- できるだけ一次情報、APIドキュメントを読む
- 実際にコーディングして確かめる
- `help`関数を使ってさらに詳しく調べる

# Fashion MNISTでの分類モデルの作成

[Fashion MNISTデータセット](https://www.kaggle.com/datasets/zalando-research/fashionmnist)を使って画像分類モデルを作成してみましょう。

## 参考

もっとも高い評価を受けているコードサンプル

https://www.kaggle.com/code/pavansanagapati/a-simple-cnn-model-beginner-guide/notebook