# 機械学習

<img src="img/machine_learning.png" width="800"></img>  
引用元: [AINOW[初心者でもわかるディープラーニングー基礎知識からAIとの違い、導入プロセスまで細かく解説]](https://ainow.ai/2019/08/06/174245/)

**AI**（Artificial Intelligence、人工知能） = 人間の知的な行動を模倣するコンピュータシステム全般を指す**広い概念**  
人間のように**思考し、学習し、判断し、解決できるシステム**（例えば選択式のチャットボットとか）

## 機械学習とは
- コンピュータが**データ**から学び、新しい情報や問題に対応する技術や方法
- **データ**から自動的にパターンを「**学習**」し、予測や意思決定を行うことができる

例）お掃除ロボット、チャットボット、店舗来客分析、生産量予測などなど

<img src='img/chatbot_ai.png'></img>  
引用元: [qualva[チャットボットとは？種類・仕組みごとの特徴、導入する目的を徹底解説！]](https://qualva.com/qualvatics/archive/477/)

## 主な種類
- <b>教師あり学習</b>：入力データに対する正解データを用いてモデルを訓練し、新しいデータに予測を行う
- 教師無し学習：データ内の傾向やパターンを見つけ出す
- 強化学習：エージェント（AI）に試行錯誤を行わせながら、最適な挙動をするよう学習させる

今回行うのは教師あり学習！！

## 深層学習（ディープラーニング）とは
<img src="img/neural_net.png" width="800"></img>  
引用元: [翔泳社[ディープラーニングと脳の関係とは？ 人工ニューロンや再帰型ニューラルネットワークを解説]](https://www.shoeisha.co.jp/book/article/detail/304)

- 多層の「**ニューラルネットワーク**」を使い、**複雑な特徴**を学習する手法
- 従来の手法では困難だった高度なタスク（画像認識、音声認識、自然言語処理など）を高精度で実現  

例）畳み込みニューラルネットワーク（CNN）、リカレントニューラルネットワーク（RNN）など

## 機械学習の主な手順
1. <b>データの収集・整理</b>
    - 数値、テキスト、画像、音声など、タスクに応じて
    - 十分な質と量が必要で、一般的にデータが多いほど精度を向上させられる

2. <b>前処理</b>
    - モデルが学習しやすいように、データを変換したり、特徴量を抽出したり

3. <b>モデル・評価基準の設定</b>
    - モデル＝未知のデータセットからパターンを発見したり、予測のためのルールを構築するプログラム
    - 評価基準＝モデルがどの程度の精度で予測できているかを定量的に計測するもの（損失関数・評価関数）

4. <b>学習</b>
    - 問題に適したアルゴリズムで、訓練用データを使ってモデルを訓練
    - 評価基準をもとに、より良い精度を実現しようと学習する

5. <b>結果の可視化</b>
    - 評価指標を算出し、グラフにプロット
    - 予測結果を出力

# 本日のタスク

## セマンティックセグメンテーション（Semantic Segmentation）
- 画像内のピクセルごとに「何が映っているか」を識別し、それぞれを特定のカテゴリに分類する技術
- 医療現場や自動運転技術など、様々な場所で使われている  

<img src="img/semantic_segmentation.png" width="800"></img>  
引用元: [DAGS[Scene Understanding Datasets]](http://dags.stanford.edu/projects/scenedataset.html)

## 使用するモデル

### UNet
- 構造
    - U字型のネットワーク構造を持つ、エンコーダとデコーダの組み合わせ
    - エンコーダ（下り）は画像の特徴を抽出、デコーダ（上り）はそれを使って元の解像度での予測を行う
- 特徴
    - スキップ接続：エンコーダの各層からデコーダに情報を直接渡す「スキップ接続」を持つため、低レベルの特徴が失われにくく、詳細な予測が可能
    - 主な用途：医療画像解析でのセマンティックセグメンテーションに多用され、特に腫瘍や臓器などの境界が複雑な領域を識別するのに適している

<img src="img/unet.png" width="800"></img><br>
引用元: [U-Net: Convolutional Networks for Biomedical Image Segmentation](https://arxiv.org/abs/1505.04597)


### PSPNet（Pyramid Scene Parsing Network）
- 構造
    - ピラミッドプーリングモジュール（PPM）という特殊な構造で、画像全体を異なるスケールでプールして統合する仕組み
- 特徴
    - ピラミッドプーリングモジュール: 画像を異なるスケール（大きさ）で処理し、広範な周辺情報を捉えることで、シーン全体の理解を高める
    - 遠く離れた要素同士の関連も考慮可能に
    - 主な用途：シーン解析や自動運転、都市環境の画像解析など、広範囲な構成が重要となる場面で活用

<img src="img/pspnet.png" width="800"></img><br>
引用元： [Pyramid Scene Parsing Network]('https://arxiv.org/abs/1612.01105')


# 実際に学習を体験

先ほどの手順に沿って行ってみます。
><b>機械学習の主な手順</b>
>1. データの収集・整理
>2. 前処理
>3. モデル・評価基準の設定
>4. 学習
>5. 結果の可視化

## 0. 準備

### ライブラリのインポート
ライブラリ：Pythonで開発を行うにあたって良く使われる関数やパッケージがまとめられたもの（必要な道具）

In [None]:
import os
import math
import tqdm
import torch
import numpy as np
import pandas as pd
from PIL import Image
import matplotlib.pyplot as plt
from torchvision import transforms
from torch.utils.data import DataLoader

from unet import UNet
from dataset import VOCDataset
from util import DiceCrossEntropyLoss

## 1. データの収集・整理 + 2. 前処理

### 今回使用するデータ
[Visual Object Classes Challenge 2012 (VOC2012)](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html#devkit)  
- 検出対象は20種類で、「背景」と「未分類」合わせると22クラス
- 訓練データが1464枚、テストデータが1449枚

>@misc{pascal-voc-2012,
>	author = "Everingham, M. and Van~Gool, L. and Williams, C. K. I. and Winn, J. and Zisserman, A.",
>	title = "The {PASCAL} {V}isual {O}bject {C}lasses {C}hallenge 2012 {(VOC2012)} {R}esults",
>	howpublished = "http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html"}

### 画像サンプル

In [None]:
# 入力画像・正解画像の例
input = Image.open('VOCdevkit/VOC2012_sample/JPEGImages/2007_000032.jpg')
gt = Image.open('VOCdevkit/VOC2012_sample/SegmentationClass/2007_000032.png')
fig = plt.figure(figsize=(20, 10))
fig.add_subplot(2,3,1).set_title('input')
plt.imshow(input)
fig.add_subplot(2,3,2).set_title('gt')
plt.imshow(gt)
plt.show()

### カラーパレット

In [None]:
# VOC2012で用いるラベル
CLASSES = ['backgrounds','aeroplane','bicycle','bird','boat','bottle',
            'bus','car' ,'cat','chair','cow', 
            'diningtable','dog','horse','motorbike','person', 
            'potted plant', 'sheep', 'sofa', 'train', 'monitor','unlabeld'
            ]

# カラーパレットの作成
COLOR_PALETTE = np.array(Image.open("./VOCdevkit/VOC2012_sample/SegmentationClass/2007_000170.png").getpalette()).reshape(-1,3)
COLOR_PALETTE = COLOR_PALETTE.tolist()[:len(CLASSES)]

In [None]:
# カラーパレットの可視化
fig, axes_list = plt.subplots(len(CLASSES), 1, figsize=(5, 10))
for i, color in enumerate(COLOR_PALETTE[:len(CLASSES)]):
    color_img = np.full((1, 10, 3), color, dtype=np.uint8)

    axes_list[i].imshow(color_img, aspect='auto')
    axes_list[i].set_axis_off()
    axes_list[i].text(-1, 0, f'{i}: {CLASSES[i]}', va='center', ha='right', fontsize=10)
    
plt.show()

今回はデモなので訓練データ300枚、テストデータ100枚で学習を行います。

In [None]:
# データのリストファイル
train_list_path = 'VOCdevkit/VOC2012_sample/listfile/train_list_300.txt'
val_list_path = 'VOCdevkit/VOC2012_sample/listfile/val_list_100.txt'

# データディレクトリ
img_dir = 'VOCdevkit/VOC2012_sample/JPEGImages'
gt_dir = 'VOCdevkit/VOC2012_sample/SegmentationClass'

In [None]:
# リストファイルの読み込み
with open(train_list_path, 'r') as f:
    train_list = f.read().splitlines()
with open(val_list_path, 'r') as g:
    val_list = g.read().splitlines()

### データセット・データローダー
- データセット：入力データと正解データをペアで保持するもの（前処理もここで行うことが多い）
- データローダー：データセットからサンプルを取得し、実際に取り出すもの

In [None]:
# データセットの作成
train_ds = VOCDataset(img_list=train_list, img_dir=img_dir, gt_dir=gt_dir, data_augmentation=False)
val_ds = VOCDataset(img_list=val_list, img_dir=img_dir, gt_dir=gt_dir)
print(f"len(train_data): {train_ds.__len__()}")
print(f"len(test_data): {val_ds.__len__()}")

# データローダーの作成
train_dl = DataLoader(train_ds, batch_size=16, num_workers=8, shuffle=True)
val_dl = DataLoader(val_ds, batch_size=16, num_workers=8, shuffle=True)

### 関数
訓練、テスト、可視化の関数を記述しています。

In [None]:
# 訓練
def train(dataloader, model, optimizer, criterion, device):
    model.train()
    size = len(dataloader.dataset)
    batch_size = dataloader.batch_size
    step_total = math.ceil(size/batch_size)
    total_loss = 0.0

    with tqdm.tqdm(enumerate(dataloader), total=step_total) as pbar:
        for batch, item in pbar:
            inp, gt = item[0].to(device), item[1].to(device)

            # 推論
            pred = model(inp)

            # 損失誤差を計算
            loss = criterion(pred, gt)
            total_loss += loss.item()

            # バックプロパゲーション
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

            # プログレスバーに損失を表示
            pbar.set_postfix(loss=loss.item())

        avg_loss = total_loss / step_total
        print(f"Train Loss: {avg_loss:.4f}")
    return avg_loss

# テスト
def test(dataloader, model, criterion, device):
    model.eval()
    size = len(dataloader.dataset)
    batch_size = dataloader.batch_size
    step_total = math.ceil(size/batch_size)
    total_loss = 0.0

    with torch.no_grad():
        for item in dataloader:
            inp, gt = item[0].to(device), item[1].to(device)
            pred = model(inp)
            loss = criterion(pred, gt)
            total_loss += loss.item()

        avg_loss = total_loss / step_total
        print(f"Val Loss: {avg_loss:.4f}")
    return avg_loss

# 推論結果の可視化
def visualize(model, img_id, img_dir, gt_dir, criterion, device='cpu'):
    img_path = os.path.join(img_dir, img_id) + ".jpg"
    gt_path = os.path.join(gt_dir, img_id) + ".png"
    class_values = [CLASSES.index(cls.lower()) for cls in CLASSES]
    
    model.to(device)
    model.eval()

    with torch.no_grad():
        # 入力画像の前処理 (PIL画像 -> Tensor)
        inp_tensor = transforms.functional.to_tensor(Image.open(img_path))
        inp_resized = transforms.Resize(size=(256, 256))(inp_tensor)
        inp_normalized = transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])(inp_resized)
        inp = inp_normalized.unsqueeze(0)

        # 正解画像の前処理 (PIL画像 -> NumPy -> Tensor)
        gt_np = np.asarray(Image.open(gt_path))
        gt_np = np.where(gt_np == 255, 0, gt_np)  # 範囲外の255を0に置換（または別のインデックスに）

        gt_tensor = torch.tensor(gt_np, dtype=torch.long)
        gt_tensor = gt_tensor.unsqueeze(0)
        gt_resized = transforms.Resize(size=(256, 256))(gt_tensor)

        # 予測
        pred = model(inp)
        # loss = criterion(pred, gt_resized) # loss計算
        # print(f'Loss: {loss.item()}')

        inp_np = (inp_resized.numpy().transpose(1, 2, 0) * 255).astype(np.uint8)  # 表示用スケール
        pred_np = torch.argmax(pred, dim=1).cpu().detach().numpy()[0]
        pred_np = np.clip(pred_np, 0, len(COLOR_PALETTE) - 1).astype(np.int32)
        gt_resized = gt_resized.squeeze(0).detach().numpy().astype(np.int32)

        # カラーパレットの適用
        img_gt = np.array([[COLOR_PALETTE[gt_resized[i, j]] for j in range(256)] for i in range(256)], dtype=np.uint8)
        img_pred = np.array([[COLOR_PALETTE[pred_np[i, j]] for j in range(256)] for i in range(256)], dtype=np.uint8)

    # プロット
    fig = plt.figure(figsize=(16, 10))
    for i, im in enumerate([inp_np, img_gt, img_pred]):
        ax = fig.add_subplot(1, 3, i+1)
        ax.imshow(im)
        ax.set_title(["Input", "Ground Truth", "Prediction"][i])
        ax.axis('off')
    plt.tight_layout()
    plt.show()

## 3. モデル・評価基準の設定

In [None]:
# デバイスの設定
device = 'cuda' if torch.cuda.is_available() else "cpu"
print("Using {} device".format(device))

# 保存先の設定
save_dir = './unet_demo' # 訓練ログ保存ディレクトリ
save_name_prefix = 'unet_demo' # 訓練ログ保存名
csv_path = os.path.join(save_dir, f'{save_name_prefix}.csv')

# 重みの初期値
chkp_path = 'weights/unet_241106_00.pth' # 学習済みの重み
continuation = False # 訓練を続きから再開する場合True

### モデルの設定
今回はUNetを用います。

In [None]:
model = UNet() # モデル
model = model.to(device)

### 評価基準 （損失関数）
- Dice Cross-Entropy Loss（小さいほど高精度）
- ダイス損失（Dice Loss）とクロスエントロピー損失を足し合わせた損失関数

**ダイス損失（Dice Loss）**  
$Dice Loss = 1 - \frac{2|A \cap B|}{|A| + |B|}$  
<img src='img/dice_loss.png' width=800></img>  
引用元：[Dice Loss In Medical Image Segmentation](https://cvinvolution.medium.com/dice-loss-in-medical-image-segmentation-d0e476eb486)

**クロスエントロピー損失**  
$Cross Entropy Loss = -\frac{1}{N}\sum_{i=1}^Np(x)\log{q(x)}$  
<img src='img/cross_entropy.png' width=800></img>  
引用元：[自然言語処理：ニューラルネット、クロスエントロピー・ロス関数](https://www.youtube.com/watch?v=MussKg8FfEU)

In [None]:
# クロスエントロピー損失のクラスごとの重み
weight = None # torch.tensor([0.1, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.5]) 

# 損失関数のDice Lossの比率
dice_weight = 0.5

if weight is not None:
    weight = weight.to(device)

# 損失関数
criterion =  DiceCrossEntropyLoss(weight=weight, dice_weight=dice_weight)

### 最適化手法
損失関数を最小化するために、モデルのパラメータを更新するアルゴリズム  
例）確率的勾配降下法、モーメンタム、AdaGradなど

今回は**Adam（Adaptive Moment Estimation）**というものを用いる。
>**学習率**  
>パラメータ（モデルの重みなど）をどれだけの大きさで更新するかを決める重要なハイパーパラメータ

In [None]:
lr = 0.01 # 学習率
optimizer = torch.optim.Adam(model.parameters(), lr=lr) # 最適化手法

## 4. 学習

### エポック
訓練データを何回使ったかを表す数⇒何回訓練を行うか

In [None]:
initial_epoch = 0 # ここは変えない
epochs = 10 # エポック

In [None]:
# 保存ディレクトリの作成
if not os.path.exists(save_dir):
    os.mkdir(save_dir)

# 重みの読み込み
if chkp_path is not None:
    checkpoint = torch.load(chkp_path, map_location='cpu')
    model.load_state_dict(checkpoint['model_state_dict'], strict=False)
    if continuation == True:
        initial_epoch = checkpoint["epoch"] + 1

for epoch in range(initial_epoch, epochs):
    print(f"Epoch {epoch}\n-------------------------------")
    train_loss = train(train_dl, model, optimizer, criterion, device)
    val_loss = test(val_dl, model, criterion, device)
    # 訓練ログ記入
    if not os.path.exists(csv_path):
        with open(csv_path, 'w') as f:
            f.write('epoch,train_loss,val_loss\n')
    with open(csv_path, 'a') as f:
        f.write(f'{epoch},{train_loss},{val_loss}\n')

## 5. 結果の可視化

### 損失のプロット

In [None]:
log_df = pd.read_csv(csv_path)
plt.plot(log_df['epoch'], log_df['train_loss'], label='trian_data')
plt.plot(log_df['epoch'], log_df['val_loss'], label='test_data')
plt.legend()
plt.xlabel('epoch')
plt.ylabel('loss')
# plt.ylim(0,2.0)

### 推論結果

<b>train data</b>

In [None]:
img_id = '2007_000032'
visualize(model, img_id, img_dir, gt_dir, criterion)

In [None]:
img_id = '2007_000648'
visualize(model, img_id, img_dir, gt_dir, criterion)

In [None]:
img_id = '2007_001225'
visualize(model, img_id, img_dir, gt_dir, criterion)

In [None]:
img_id = '2007_002488'
visualize(model, img_id, img_dir, gt_dir, criterion)

<b>test data</b>

In [None]:
img_id = '2007_000033'
visualize(model, img_id, img_dir, gt_dir, criterion)

In [None]:
img_id = '2007_001763'
visualize(model, img_id, img_dir, gt_dir, criterion)

In [None]:
img_id = '2007_003367'
visualize(model, img_id, img_dir, gt_dir, criterion)