# 第8章 ディープラーニング

# ネットワークをより深く

## よりディープなネットワークへ
> **ディープラーニング**<br>
> 層を深くしたディープなニューラルネットワーク
- より層が深いネットワークを構築する
    ```
    入力画像 
    --> Conv→ReLU→Conv→ReLU→Pool 
    --> Conv→ReLU→Conv→ReLU→Pool 
    --> Conv→ReLU→Conv→ReLU→Pool
    --> Affine→ReLU→Dropout
    --> Affine→Dropout→Softmax
    -->
    ```
    - 畳み込み層はすべて3x3も小さなフィルター
    - 層が深くなるにつれてチャンネル数が大きくなる
        - 畳み込み層のチャンネルは、前層から順に`16, 16, 32, 32, 64, 64`と増加
    - プーリング層をはさむことで中間データの空間サイズを徐々に小さくする
    - 後段の全結合層は`Dropout`レイヤを使用

    - ネットワークの特徴
        - `3x3`の小さなフィルターによる畳み込み層
        - 活性化関数：`ReLU`
        - 全結合層の後に`Dropout`レイヤを使用
        - `Adam`による最適化
        - 重みの初期値として`「Heの初期値」`を使用
- ディープラーニングのは、これまでにやった多くの技術を使用
    - 認識制度：99.38%
    - 誤認識率：0.62%<br>とめちゃいい性能になる！（らしい）
    - 誤認識してしまった画像は、人が見ても判断が難しい画像だった

## さらに認識制度を高めるには？

- [この記事](https://rodrigob.github.io/are_we_there_yet/build/classification_datasets_results.html#4d4e495354)には、様々なデータセットを対象に論文が発表されており、手法の認識制度がランキング形式で掲載
- 2025年6月時点では、MNISTデータセットに対する最高の認識精度は`誤認識率0.21%`(99.79%)でその手法もCNNベース
    - これはあまりディープなネットワークではないらしい
    - 手書き文字の認識は単純でそこまで層を深くしても恩恵が少ない
- ランキング上位の手法
    - アンサンブル学習
    - 学習係数の減衰（learning rate decay）
    - **Data Augmentation**（データ拡張）
        - 簡単な手法であり、認識精度を向上させる上で特に有効な手段
- Data Agumentationは、訓練画像をアルゴリズムによって「人工的」に拡張
    - 入力画像に対して...
        - 回転
        - 縦横方向移動
        - 画像の中から一部を切り出す「**crop処理**」
        - 左右をひっくり返す「**flip処理**」
        - 輝度などの見た目の変化
        - 拡大・縮小などのスケール変化
        <br>など微小な変化を与え、**画像枚数を増やす**

## 層を深くすることのモチベーション
- 「層を深くすること」の重要性
    - 論理的にそれほど多くのことがわかってない
    - 傾向的に...
        - 大規模画像認識のコンペでは、層が深い程認識精度が高い傾向がある
- 層が深くすることの利点
    - **ネットワークのパラメータ数を少なくできる**
        - 層を深くしたネットワークは、層を深くしなかった場合に比べて、より少ないパラメータ数で同レベル（それ以上）の表現力を達成
        - 図はp247参照
        - Ex)`5x5`のフィルターからなる畳み込み層
            - 出力ノード一つあたり、入力データの`5x5`の領域から計算
        - Ex)`3x3`の畳み込み層を２回繰り返す
            - 出力ノード１つあたり、中間データでは`3x3`の領域から計算
            - 中間データの`3x3`は、入力データの`5x5`の領域に対応している
        - 例から、`5x5`の畳み込み演算は、`3x3`の畳み込み演算を2回行うことでカバーできる
            - パラメータ数
                - `5x5`： $5 × 5 = 25$
                - `3x3`： $2 × (3 × 3) = 18$ (3 x 3の畳み込みを2回繰り返す)<br>
                と、パラメータ数を少なくできる！！
    - **受容野**を広くカバーできる
        > **受容野**<br>
        > ニューロンの変化を生じさせる局所的な空間領域
    - 表現力の向上
        - ReLUなどの活性化関数が畳み込み層の間に挟まることで、ネットワークの表現力が向上
        - 活性化関数によってネットワークが「非線形」の力が加わるから
    - 学習の効率性
        - 層を深くすることで学習データを少なくでき、高速に学習が行える
        - これは、CNNにおいて層が深くなるほど「より複雑で抽象化された情報を抽出する」ことに起因する
        - Ex) 「犬」を認識する
            - **層が浅い**ネットワークの場合
                - 畳み込み層は「犬」の特徴の多くを１度に"理解"する必要がある
                - 「犬」には様々な種類と、撮影される環境による見え方の違いがある
                - 様々な条件の「犬」を認識するためには、**多くのバリエーションにとんだ学習データが必要**
                    - 多くの学習時間を要する
            - **層が深い**ネットワークの場合
                - **学習するべき問題を階層的に分解**することが可能
                    - より単純な問題として取り組むことができる
                    - 最初の層はエッジ、次はテクスチャ...など少ない学習データで効率よく学習できる
    - 階層的に情報を渡していくことができる
        - エッジ抽出後の層は、エッジ情報が使用できるのでより高度なパターンを学習できる
        - 各層が学習するべき問題を「簡単な問題」へと分解可能！

# ディープラーニングの小歴史
## ImageNet
- 100万枚を超える画像データセット
    - 画像には、ラベル（クラス名）が紐づけ
- ILSVRC(ImageNet Large Scale Cisual Recognition Challenge)というコンペティションに使用
- 2012年に**AlexNet**ができてきてから、誤認識率が低いのはディープラーニングを使用したもの
- 有名なネットワークの登場
    - *VGG*
    - *GoogLeNet*
    - *ResNet*

## VGG
- 畳み込み層とプーリング層から構成される基本的なCNN
- 重みのある層を全部で16層または19層まで重ねてディープにしている
- 特徴：
    - `3x3`の小さなフィルターによる畳み込み層を連続で行う
    - 畳み込み層を2~4回連続で行い、その後プーリング層でサイズを半分にする処理を繰り返し行う
    - 最後に全結合層を経由して結果を出力
- シンプル構成で、応用性が高い！

## GoogLeNet
- GoogLeNetのネットワーク構成[詳しくはこちら](https://dx-consultant-fast-evolving.com/googlenet/)<br>
    ![ネットワーク構成](http://dx-consultant-fast-evolving.com/wp-content/uploads/2022/12/GoogleNet%E3%81%AE%E5%85%A8%E4%BD%93%E5%83%8F.jpg)
    - 左から224x224の画像を入力し、畳み込み層やプーリング層を経て右に流れる
- 特徴
    - 層が多い
        - 立ての深さだけでなく横にも深さ（広がり）がある
        - 幅の存在
            - **インセプション構造**
                ![インセプションモジュール](http://dx-consultant-fast-evolving.com/wp-content/uploads/2022/12/inception%E3%83%A2%E3%82%B8%E3%83%A5%E3%83%BC%E3%83%AB.jpg)
                - サイズの異なるフィルターとプーリング層を複数適用し、結果を結合する
                - このインセプション構想を１つの構成要素として使用（図の途中で複雑に見えるのはこれのせい）
    - `1x1`の畳み込み層
        - この演算により、チャンネル方向にサイズを減らすことで、パラメータの削減や処理の高速化に貢献

## ResNet
- Microsoftによって開発されたネットワーク
- 特徴：
    - これまで以上に層を深くできるような"仕掛け"がある
        - 課題として、層を深くしすぎても学習がうまくいかず最終的な性能が劣る可能性があった
        - 解決方法として、「**ステップ構造**」（ショートカットやバイパス）を導入
            - 層を深くすることに比例して、性能を向上できる
- **ステップ構造**<br>
    ![ステップ構造](https://www.bigdata-navi.com/aidrops/wp-content/uploads/2020/03/3-300x266.png)
    - 入力データを畳み込みを行わず、出力層に合算する構造
    - 逆伝播時に、ステップ構造による信号の減衰が抑えられるから
        - とくに演算するわけではないので、逆伝播もそのまま下流へ流す
        - 勾配が小さくなったり大きくなったりする心配がなく、前層の「意味のある勾配」が伝わっていく
        - 層が深まることで発生する、**勾配消失問題**を軽減できる
- 構造
    - VGGのネットワークをベースとして、ステップ構造を取り入れ、層を深くしていく
    - 畳み込み層を2層おきにステップしてつなぎ、層を深くしていく
    - 150層以上に深くしても認識精度は向上し続けることがわかっている
> **転移学習**<br>
> 学習した重みデータを有効活用すること<br>
> 学習済みの重みを別のニューラルネットワークにコピーして、再学習を行う<br>
> 手元にあるデータセットが少ない場合に有効な手法

# ディープラーニングの高速化

## 取り組むべき問題
- AlexNetで各層に費やされる時間を比較
    - GPU
        - 畳み込み層の処理時間：全体の95%
    - CPU
        - 畳み込み層の処理時間：全体の89%
    - 全体的に**畳み込み層で多くの時間が費やされる**！！
        - 積和演算が原因？
        - 大量の積和演算をいかに効率欲計算するかが鍵となる

## GPUによる高速化
- GPUは**並列的な数値演算を高速に行うことができる**
    - これにより、大量の積和演算を並列的に処理し、高速化することができる
- CPUで40日以上かかる処理を6日に短縮可能
- 基本的にはNvidaiのGPUから恩恵を受けれる
    - Nvidaiが提供するCUDAというGPUコンピューティング向けの統合開発環境がディープラーニングのフレームワークで使用されている

## 分散学習
- GPUの使用により、演算は高速化できる
- 層の深いネットワークは学習にめちゃくちゃ時間はかかる...
- 1回の学習に要する時間をできるだけ小さくすることが大切
    - **分散学習**が重要になってくる
- より高速化を目指して
    - 複数のGPUや複数台のマシンで分散して計算を行う
    - この分散学習をサポートしているものはいくつかある
        - Google：TensorFlow
        - Microsoft：CNTK
    - 使用するGPUが増える程、学習速度も向上

## 演算精度のビット削減
- メモリ容量やバス帯域などもボトルネックに...!
    - メモリ：
        - 大量の重みパラメータや中間データがメモリに収めることを考慮
    - バス帯域:
        - GPUもしくはCPUのバスを流れるデータ数が増加して制限を超えるなど
- ネットワークに流れるデータのビット数はできるだけ小さくしたほうが良い
    - コンピュータ上では数値を多くのビットを使うことで、誤差なく表現可能
    - その分計算の処理こすとやメモリ使用量が増大・バス帯域に負荷
- ディープラーニングでは**そこまで数値精度を必要としない**
    - ニューラルネットワークでは、ロバスト性（依存性）が少ないことに起因する
    - ネットワークに流れるデータを劣化させても出力結果への影響は少ない
    - 16ビットの**半精度浮動小数点**でも問題なく学習できる

- ビット数削減の研究
    - Binarized Neural Networks
        - 重みや中間データを1bitで表現

# ディープラーニングの実用例


## 物体検出
- 画像の中から物体の位置を特定を含めてクラス分類を行う問題
    - 物体認識よりもムズイ
    - 画像中から、クラスの位置まで特定する必要がある
    - 物体は複数個存在する可能性
- 物体検出は、CNNベースの手法がいくつか提案されている
    - ディープラーニングが有効になる
- 有名な手法
    - **R-CNN**
        - 処理の流れ
            1. Input Image(画像を入力)
            2. Extract region proposals(~2k)（**候補領域抽出**）
            3. Compute CNN features（CNN特徴の計算）
            4. Classify regions（クラス分類）
        - 候補領域抽出とCNN特徴の計算
            - 最初にオブジェクトらしい領域を探し出す（Selective Serch）
            - 領域を抽出して、CNNを適用してクラス分類
        - 画像を正方形に変形したり、分類の際にSVM(サポートベクターマシン)を使ったりと、実際の処理フローは少々複雑
            - 大きな目で見れば、重要なのは候補領域抽出とCNNの適用部分
            - 近年では、候補領域抽出もCNNによって行う`Faster R-CNN`という手法も提案

## セグメンテーション
- 画像に対してピクセルレベルでクラス分類を行う問題
- ピクセル単位でオブジェクトごとに色付けされた教師データを使用して学習
- 推論時は、入力画像の**すべてのピクセルに対してクラス分類**を行う
    - 今まで：画像全体に対してクラス分類
    - pixcelレベルに落とし込むには？
- 特徴
    - ピクセルごとに推論処理を行う
        - めちゃくちゃ時間かかりそう
        - 改善のために`FCN(Fully Convolutional Network)`という手法が提案
            - 一回のforward処理ですべてのピクセルにクラス分類を行う
            - FCN = 「すべてが畳み込み層から構築されるネットワーク」
            - FCNでは、「全結合層」を「同じ働きをする畳み込み層」に置き換える
            - 空間ボリュームは保たれたまま最後の出力まで処理
    - 最後に空間サイズを拡大する処理
        - 小さくなった中間データを入力がオズのサイズと同じ大木さんで拡大（バイナリ拡大）
                

## 画像キャプション生成
- 自然言語処理とコンピュータビジョンの融合
- 画像を与えると画像を説明する文章の生成
- 代表的な手法
    - `NIC(Neural Image Caption)`
        - ディープなCNNと自然言語処理のための`RNN（Recurrent Neural Network）`から構成
        > **RNN**<br>
        > 再帰的なつながりをもつネットワークであり、自然言語や時系列データなど連続性のあるデータを取り扱える
        - 流れ 
            - CNNによって特徴を抽出
            - 抽出した特徴をRNNに渡す
            - RNNは特徴を初期値として、テキストを"再帰的"に生成
> **マルチモーダル**<br>
> 画像と自然言語といったように、**複数の種類の情報を組み合わせて処理すること**\

# ディープラーニングの未来

## 画像スタイル変換
- ディープラーニングを使って、アーティストのような絵を"描かせる"研究
- ２つの画像を入力して新たな画像を生成する
    - コンテンツ画像：スタイルを適用したい画像
    - スタイル画像：描画のスタイルを入力（ゴッホの絵など）
- 技術部分（簡単に）
    - ネットワークの中間データが「コンテンツ画像」の中間データに近づくように学習
    - 入力画像をコンテンツ画像の形状に合わせることがきでうｒ

## 画像生成
- なんの画像も入力せず新しい画像を生成する
    - (学習時には、大量の画像を使うが、生成時にはなんの画像も必要としない)
- 代表的な手法：`DCGAN（Deep Convolutional Generative Adversarial Network）`
    - 技術：
        - Generator（生成者）というニューラルネットワーク
            - 本物にそっくりの画像を生成
        - Discriminator（識別者）というニューラルネットワーク
            - Generatorが生成した画像が本物なのか生成したものなかを判別
        - 両者を競い会うように成長させていくのが`GAN(Generative Adversarial Network)`と呼ばれる技術

> **教師あり学習と教師なし学習**<br>
> - 教師あり学習<br>
> 画像データと教師ラベルが対になって与えられたデータセットを利用（手書き文字認識など）
> - 教師なし学習<br>
> 単に大量のデータの集合（画像のみなど）だけが与えられる（Deep Belief Network, Deep Blotzmann Machineなど）

## 自動運転
- 人間の変わりにコンピュータが自動車を運転
- 使用技術
    - パスプラン（path plan）：通行ルート決め
    - センシング技術：カメラやレーザーなど
- 周囲環境の正しい認識が重要
    - 様々な環境にロバストに走行領域を正しく認識できるようになれば、実現可能になるかも
    - `SegNet`とよばれうCNNベースのネットワークは、高精度に走行環境を認識

## Deep Q-Network（強化学習）
> **強化学習**<br>
> コンピュータにも試行錯誤の過程から自律的に学習させようという分野
- 基本的枠組み
    - エージェントと呼ばれるものが、環境状況に応じて行動を選択
    - 選択した行動によって、環境が変化する
    - 環境変化に伴ってエージェントは「報酬」を得る
    - 良い報酬が得られるようにエージェントの行動指標を決める
- 報酬について
    - 報酬は決められたものではなく「**見込みの報酬**」
    - どゆこと？
        - マリオなら、右に動くことがどれだけの報酬に価するかは明確でない
        - ゲームのスコア（コインを取った、敵を倒した）などゲームオーバーなどの明確な指標を逆算して、「見込み報酬」を決める
- 手法:`Deep Q-Network（DQN）`
    - Q学習と呼ばれる強化学習のアルゴリズムをベースとする手法
        - Q学習：最適な行動を決定するために、`最適行動価値関数`とよばれる関数を決定
    - 最適行動価値関数を近似するためにCNNを用いる
    - ）テレビゲームコントロール
        - 入力：ゲーム画像のフレーム（4つの連続したフレーム）
        - 出力：コントローラーのそれぞれの動作に対する"価値"
        - 単に**ゲームの画面だけ**を入力すれば良い。
            - つまり、ジャンルの違うゲームにも対応できる
