# 画像処理100本ノック

画像処理のアルゴリズムを理解するための100本ノックです。

## OpenCVとは

本節では、OpenCVについて詳しく解説していきます。OpenCVの概要について説明したのち、OpenCVの主な機能を紹介します。また、PillowやScikit-imageなどの他の画像処理系ライブラリとの比較も行います。

### OpenCVの概要

OpenCVは、その名の通りオープンソースのコンピュータビジョン用ライブラリです。コンピュータビジョンは、コンピュータによる視覚についての研究分野の名称ですが、画像認識とほぼ同義と考えていただければわかりやすいかと思います。OpenCVは、元々はインテルが開発したプログラムで、現在でも開発が進められています。ごく一部のアルゴリズムは特許を取得されているため、それらを商用利用する際には確認が必要ですが、基本的に無料で利用することができ、商用利用も可能です。また、クロスプラットフォームのライブラリで、Linux、MacOS、Windowsや、iOS、AndroidといったOSとC++、Python、Javaの三つのプログラミング言語に対応しているため、あまり環境の制約を受けることなく活用することができます。

### OpenCVの主な機能

OpenCVの主な機能について見ていきましょう。本稿では、OpenCVの主な機能を以下の５つに大別して解説します。

- 画像と動画の読み込み / 表示 / 保存
- 画像処理
- 機械学習
- 検出（画像認識）
- 三次元の処理

#### 画像と動画の読み込み・表示・保存
画像を扱うためには画像を表示したり保存したりする機能がなければいけません。OpenCVにはこれらの基本的な機能は当然搭載されています。また、動画を扱うための機能や、図形や文字などを描画する機能もあり、様々な素材を扱うことができます。

#### 画像処理
OpenCVで実行可能な画像処理の例として以下のようなものが挙げられます。本稿後半の実装では、犬の画像を用いて様々な画像処理を行いますので、ご期待ください。

- 色変換<br>
カラー画像をグレースケール画像にしたり、BGR（Blue, Green, Red）で表示されている画像の色をRGB（Red, Green, Blue）に変換したりと、様々な変換方法があります。単に色を変換するだけでなく、他の処理と組み合わせることによって、画像内にある特定の色の物体を検出することなどもできます。

- 幾何変換（拡大・縮小・回転など）<br>
画像を拡大・縮小したり、回転させたりすることができます。一見大したことのない処理に思えますが、物体検出の際に画像の向きや大きさなどを変えるだけでも検出の成否が変わることもあるため、重要な処理手法です。

- しきい値処理<br>
グレースケール化された画像において、設定されたしきい値よりピクセルの値が大きい場合と小さい場合で別々の値を割り当てることで画像を変換する手法です。説明だけではイメージしづらいかと思いますので、後半の実装を確認してください。

- 平滑化<br>
平滑化は、端的に言えばぼかしを入れる処理手法です。ぼかしの入れ方にも様々な手法があり、適切な手法を用いることで画像内のノイズを除去することができます。

- モルフォロジー変換<br>
主に色が二種類の画像（二値画像）に対して行う処理で、画像上に写っている物体を膨張させたり縮小させたりすることができます。これも、平滑化と同様にノイズ除去に活用できます。

- 部分的な復元<br>
落書きや傷がある写真などにおいて、周辺の画素の情報からその部分を復元するといった処理も可能です。

#### 機械学習
OpenCVには、機械学習の機能も含まれています。OpenCVで活用できる手法はk近傍法、サポートベクターマシン、K-Meansクラスタリングで、これらの手法を文字分類や画像処理に活用することができます。例えば、クラスタリングの手法を用いて画像に含まれる色のデータを複数のクラスターに分けることで、色の種類を減らす処理なども可能です。

#### 検出（画像認識）
画像中の様々なものを検出・認識する機能としては以下のようなものがあります。

- 直線・円の検出
- エッジ検出<br>
エッジとは、輝度が大きく変化する点のことで、物体の輪郭などがそれに当たります。
- 物体検出<br>
画像中の物体を検出するいわゆる画像認識の機能です。顔や目など、基本的な物体については分類器がOpenCV内に用意されている上、学習に必要な大量の画像データさえ集めることができれば、自分で検出したい物体用の分類器を作ることもできます。

#### 三次元の処理
さらに、OpenCVでは二次元の画像データから三次元の情報を推測し、以下のような処理をすることができます。
- 画像の歪みの補正
- 画像中に三次元の物体を描画
- 複数枚の二次元画像から実際の距離を推測

以上がOpenCVの主な機能です。ここに紹介しているものだけでも様々なことができますが、これでもOpenCVの機能の一部にすぎません。

### 関連のあるライブラリ
#### NumPy
画像データは数値データの集まりなので、数値計算ライブラリとしてよく知られているNumPy（読み：ナンパイ）も画像処理に活用することができます。単色化や減色などの処理が可能ですが、NumPyだけでは画像を読み込めないため、OpenCVやPillowといった画像の読み込みが可能なライブラリと併用する必要があります。

## ライブラリをインストール

In [None]:
!pip install opencv-python

In [None]:
# ライブラリをインポート
import numpy as np
import matplotlib.pyplot as plt
import cv2

# 画像の読み込み
img = cv2.imread('./utils/onepiece01_luffy.png')
img_noise = cv2.imread('./utils/onepiece01_luffy.png')
# 画像保存
OUT_DIR = './output/'

## 画像を表示してみる

OpenCVの関数imread()で画像ファイルを読み込むと色の順番がBGR（青、緑、赤）になる。一方、matplotlibでは色の順番はRGB（赤、緑、青）を前提としています。

In [None]:
plt.imshow(img)
plt.show()

そのため、matplotlibの関数とOpenCVの関数を両方使いたい場合はBGRとRGBを変換する必要があります

OpenCVの関数cvtColor()を使う方法と、単純にndarrayの順番を入れ替える方法があります。

ここでは、以下の内容について説明します
- OpenCVはBGR、matplotlibはRGB
- OpenCVの関数cvtColor()でBGRとRGBを変換
- cvtColor()を使わずにBGRとRGBを変換

OpenCVの関数cvtColor()を使うとRGBやBGR、HSVなど様々な色空間を相互に変換できる。

In [None]:
dst = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
plt.imshow(dst)
plt.show()

## グレースケール

グレースケールとは、画像の輝度表現方法の一種であり下式で計算される。
Grayscale = 0.2126 R + 0.7152 G + 0.0722 B

それぞれの係数は人間の視覚の敏感さであり、Gに人間の最も強く反応し、Bにはあまり反応しないことを示す。


In [None]:
# opencv
img_gray = cv2.cvtColor(dst, cv2.COLOR_RGB2GRAY)
plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)
plt.title('input')
plt.imshow(dst)
plt.subplot(1, 2, 2)
plt.title('output')
plt.imshow(img_gray, cmap='gray')
plt.show()

## 二値化, Binarization
二値化とは、画像を特定の値を閾値として黒と白の二値で表現する方法です。
- グレースケール化
- 閾値を128にして二値化します

In [None]:
img_gray = cv2.cvtColor(dst, cv2.COLOR_RGB2GRAY)
th, img_bin = cv2.threshold(img_gray, 127, 255, cv2.THRESH_BINARY)

plt.figure(figsize=(12, 3))
plt.subplot(1, 3, 1)
plt.title('input')
plt.imshow(dst)
plt.subplot(1, 3, 2)
plt.title('gray')
plt.imshow(img_gray, cmap='gray')
plt.subplot(1, 3, 3)
plt.title('output')
plt.imshow(img_bin, cmap='gray')
plt.show()

## 大津の二値化
大津の二値化とは判別分析法と呼ばれ、二値化における分離の閾値を自動決定する教師なし手法です。 これはクラス内分散とクラス間分散の比から計算されます。

まず、グレースケールの輝度値（ピクセルの値）のヒストグラムはいかになります。

In [None]:
plt.hist(img_gray.ravel(), bins=255, rwidth=0.8, range=(0, 255))
plt.text(0, 500, 'class0', fontsize=17)
plt.text(200, 500, 'class1', fontsize=17)
plt.vlines(120, 0, 700, color='red', linestyles='dotted')
plt.xlabel('pixel')
plt.ylabel('appearance')
plt.show()

ここで赤線を閾値として、左側をクラス0、右側をクラス1として、この二つのクラスがバランスよく分離できれば良い二値化といえる。よって、クラス0と1の分離度を定義する。

In [None]:
th, img_bin = cv2.threshold(img_gray, 0,255,cv2.THRESH_BINARY+cv2.THRESH_OTSU)
print('threshold >>', th)

plt.figure(figsize=(12, 3))
plt.subplot(1, 3, 1)
plt.title('input')
plt.imshow(dst)
plt.subplot(1, 3, 2)
plt.title('gray')
plt.imshow(img_gray, cmap='gray')
plt.subplot(1, 3, 3)
plt.title('output')
plt.imshow(img_bin, cmap='gray')
plt.show()

## HSV変換

HSV変換とは、Hue(色相)、Saturation(彩度)、Value(明度) で色を表現する手法です。

- Saturation ... 色の鮮やかさ。
- Saturationが低いと灰色さが顕著になり、くすんだ色となる。 ( 0 <= S < 1)
- Value ... 色の明るさ。Valueが高いほど白に近く、Valueが低いほど黒に近くなる。 ( 0 <= V < 1)
- Hue ... 色合いを0~360度で表現し、赤や青など色の種類を示す。 ( 0 <= H < 1) 色相は次の色に対応する。

ここでHueをとるのとRGBをとるのは何が違うかというと、色成分をとる時に違う、RGBでは 万次元をとるため、緑を取りたいと思っても、範囲指定が複雑になる（G > 200 としてもRやBが200以上なら見た目が緑とは限らないから）。　逆にHueでは360次元で値をとるため、緑の指定が簡単になる。これを上手く活用できれば色成分の抽出が簡単に行えることあります。

In [None]:
from matplotlib import cm
plt.figure(figsize=(12, 1))
plt.title('Hue')
for i in range(360):
    plt.vlines(i, 0, 1, color=cm.hsv(i / 360))
plt.show()

In [None]:
# opencv
hsv = cv2.cvtColor(dst, cv2.COLOR_RGB2HSV) # RGB -> HSV
hsv[..., 0] = (hsv[..., 0] + 90) % 180 # Hue of opencv is defined [0, 180]
img_hsv = cv2.cvtColor(hsv, cv2.COLOR_HSV2RGB) # HSV -> RGB
plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)
plt.title('input')
plt.imshow(dst)
plt.subplot(1, 2, 2)
plt.title('output')
plt.imshow(img_hsv)
plt.show()

## 減色, color subtraction

色の複雑さをある程度抑えることができ、味のある画像にもなります。

In [None]:
def color_subtraction(img, div=4):
    th = 256 // div
    return np.clip(img // th * th + th // 2, 0, 255)

img_sub = color_subtraction(dst) # color subtract

plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)
plt.title('input')
plt.imshow(dst)
plt.subplot(1, 2, 2)
plt.title('output')
plt.imshow(img_sub)
plt.show()

## 減色を8値にしてみる

8値でも元の画像に相当近い見た目を保持できています、この時のRGBは なので、元の$1678万 = 256 ^ 3$に比べると色空間はかなり削減できています。

In [None]:
img_sub = color_subtraction(dst, div=8) # color subtract

plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)
plt.title('input')
plt.imshow(dst)
plt.subplot(1, 2, 2)
plt.title('output')
plt.imshow(img_sub)
plt.show()

# フィルタリング
ここでは画像をグリッド分割(ある固定長の領域に分ける)し、かく領域内(セル)の平均値でその領域内の値を埋めます。 
このようにグリッド分割し、その領域内の代表値を求める操作はPooling(プーリング) と呼ばれます
これらプーリング操作はCNN(Convolutional Neural Network) において重要な役割を持ちます。

平均プーリングは次式で定義される。ここでいうRはプーリングを行う領域である。
つまり、3x3の領域でプーリングを行う。|R|=3x3=9となる。

In [None]:
def pool_average(img, ksize_h=8, ksize_w=8):
    _img = img.copy().astype(np.float32)
    
    # padding
    h, w = img.shape[:2]
    outer_h = h % ksize_h
    pad_top = outer_h // 2
    pad_bottom = outer_h - pad_top
    outer_w = w % ksize_w
    pad_left = outer_w // 2
    pad_right = outer_w - pad_left
    
    _img = np.pad(_img, [(pad_top, pad_bottom), (pad_left, pad_right), (0, 0)], 'edge')
    out = np.zeros_like(_img)
    
    new_h, new_w = out.shape[:2]
    c = 1 if len(out.shape) == 2 else out.shape[2]
    
    # filtering
    for iy in range(0, new_h, ksize_h):
        for ix in range(0, new_w, ksize_w):
            for ic in range(c):
                out[iy : iy + ksize_h, ix : ix + ksize_w, ic] = _img[iy : iy + ksize_h, ix : ix + ksize_w, ic].mean()
            
    out = out[pad_top : pad_top + h, pad_left : pad_left + w]
    return np.clip(out, 0, 255).astype(np.uint8)

img_pool = pool_average(dst) # pooling

plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)
plt.title('input')
plt.imshow(dst)
plt.subplot(1, 2, 2)
plt.title('output')
plt.imshow(img_pool)
plt.show()

## フィルタサイズを大きくすると

フィルタサイズが大きくなると、ピンボケのような画像になる。

In [None]:
img_pool = pool_average(dst, ksize_h=16, ksize_w=16) # pooling

plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)
plt.title('input')
plt.imshow(dst)
plt.subplot(1, 2, 2)
plt.title('output')
plt.imshow(img_pool)
plt.show()

## 最大プーリング, max pooling

平均値でなく、最大値を出力します。

In [None]:
def pool_max(img, ksize_h=8, ksize_w=8):
    _img = img.copy().astype(np.float32)
    
    # padding
    h, w = img.shape[:2]
    outer_h = h % ksize_h
    pad_top = outer_h // 2
    pad_bottom = outer_h - pad_top
    outer_w = w % ksize_w
    pad_left = outer_w // 2
    pad_right = outer_w - pad_left
    
    _img = np.pad(_img, [(pad_top, pad_bottom), (pad_left, pad_right), (0, 0)], 'edge')
    out = np.zeros_like(_img)
    
    new_h, new_w = out.shape[:2]
    c = 1 if len(out.shape) == 2 else out.shape[2]
    
    # filtering
    for iy in range(0, new_h, ksize_h):
        for ix in range(0, new_w, ksize_w):
            for ic in range(c):
                out[iy : iy + ksize_h, ix : ix + ksize_w, ic] = _img[iy : iy + ksize_h, ix : ix + ksize_w, ic].max()
            
    out = out[pad_top : pad_top + h, pad_left : pad_left + w]
    return np.clip(out, 0, 255).astype(np.uint8)

img_pool = pool_max(dst) # pooling

plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)
plt.title('input')
plt.imshow(dst)
plt.subplot(1, 2, 2)
plt.title('output')
plt.imshow(img_pool)
plt.show()

## ノイズ付与

In [None]:
#ノイズ画像の作成
noise_level=150
h,w,c=dst.shape
noise=np.random.randint(0,noise_level,(h,w,3))
img_noiz=dst + noise
img_noiz=img_noiz.astype('int16').clip(0, 255)
plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)
plt.title('input')
plt.imshow(dst)
plt.subplot(1, 2, 2)
plt.title('output')
plt.imshow(img_noiz)
plt.show()

## ガウシアンフィルタ
画像がノイズだらけになってしまった時にどうにかする方法としてガウシアンフィルタを実装してノイズを除去してみましょう

ガウシアンフィルタとは画像の平滑化（滑らかにする）を行うフィルタの一種であり、ノイズ除去にも使われる。

ガウシアンフィルタは注目画素の周辺画素を、ガウス分布による重み付けで平滑化し、次式で定義される。 このような重みはカーネルやフィルタと呼ばれる。

ただし、画像の端はこのままではフィルタリングできないため、画素が足りない部分は0で埋める。これを0パディングと呼ぶ。 かつ、重みは正規化する。(sum g = 1)img_noiz

In [None]:
img_gau = cv2.GaussianBlur(img_noiz, (3,3), 1.3)
plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)
plt.title('input')
plt.imshow(img_noiz)
plt.subplot(1, 2, 2)
plt.title('answer')
plt.imshow(img_gau)
plt.show()

## カーネルサイズや$\sigma$を変えてみる

カーネルサイズを大きくすると、画像がぼやける。逆にぼやけたことでノイズが分かりにくくなったと言える。
を大きくすると、ノイズがかなり消えた。Gaussianの$\sigma$は周辺との重みバランスが均衡化されるので、ノイズが消えやすくなった

In [None]:
def filter_gaussian(img, ksize=(3, 3), sigma=1.3):
    _img = img.copy().astype(np.float32)
    ksize_h, ksize_w = ksize
    
    # padding
    h, w = img.shape[:2]
    pad_top, pad_bottom = ksize_h, ksize_h
    pad_left, pad_right = ksize_w, ksize_w
    
    _img = np.pad(_img, [(pad_top, pad_bottom), (pad_left, pad_right), (0, 0)], 'edge')
    out = np.zeros_like(_img)
    
    new_h, new_w = out.shape[:2]
    c = 1 if len(out.shape) == 2 else out.shape[2]
    
    # prepare kernel
    k = np.zeros([ksize_h, ksize_w])
    for iy in range(ksize_h):
        for ix in range(ksize_w):
            k[iy, ix] = 1 / (2 * np.pi * (sigma ** 2)) * np.exp(- ((ix - ksize_w // 2) ** 2 + (iy - ksize_h // 2) ** 2) / (2 * sigma ** 2))
 
    k /= k.sum()

    # filtering
    for iy in range(new_h - ksize_h):
        for ix in range(new_w - ksize_w):
            for ic in range(c):
                out[iy, ix, ic] = np.sum(_img[iy : iy + ksize_h, ix : ix + ksize_w, ic] * k)
            
    out = out[pad_top : pad_top + h, pad_left : pad_left + w]
    return np.clip(out, 0, 255).astype(np.uint8)

plt.figure(figsize=(12, 3))
plt.subplot(1, 4, 1)
plt.title('input')
plt.imshow(img_noiz)

plt.subplot(1, 4, 2)
plt.title('ksize=3')
img_gau = filter_gaussian(img_noiz, (3, 3), 1.3)
plt.imshow(img_gau)

plt.subplot(1, 4, 3)
plt.title('ksize = 7')
img_gau = filter_gaussian(img_noiz, (7, 7), 1.3)
plt.imshow(img_gau)

plt.subplot(1, 4, 4)
plt.title('sigma = 3')
img_gau = filter_gaussian(img_noiz, (7, 7), 3)
plt.imshow(img_gau)
plt.show()

## Gaussianについて
sigmaが広がると、グラフが横広がりになる。つまり、 GaussianFilterでは重みが均一化されるので、Meanフィルタに近付く。

In [None]:
from mpl_toolkits.mplot3d import Axes3D

def gaussian(sigma):
    x = np.arange(-8, 8, 0.1) 
    y = np.arange(-8, 8, 0.1)
    x, y = np.meshgrid(x, y)
    z = 1 / (2 * np.pi * (sigma ** 2)) * np.exp(- (x ** 2 + y ** 2) / (2 * sigma ** 2))
    return x, y, z

fig = plt.figure(figsize=(12, 4))
ax = fig.add_subplot(1, 2, 1, projection='3d')
x, y, z = gaussian(1.3)
ax.scatter3D(x, y, z, s=1, marker='.')
ax.set_xlabel('x'); ax.set_ylabel('y'); ax.set_zlabel('z')
ax.set_title('sigma = 1.3')

ax2 = fig.add_subplot(1, 2, 2, projection='3d')
x, y, z = gaussian(3)
ax2.scatter3D(x, y, z, s=1, marker='.')
ax2.set_title('sigma = 3')

plt.show()


# opencvを使用して射影変換を行い本のタイトルを取得してみる
カメラで撮影した画像を正面から撮影したかのように補正する「射影変換」の手順を以下にまとめます。

## 画像を読み込む

In [None]:
# ライブラリをインポート
import numpy as np
import matplotlib.pyplot as plt
import cv2

from IPython.display import display, Image

def display_cv_image(image, format='.png'):
    decoded_bytes = cv2.imencode(format, image)[1].tobytes()
    display(Image(data=decoded_bytes))

In [None]:
# 画像の読み込み
img = cv2.imread('./data/IMG_4175.jpg')
display_cv_image(img)

## 画像のサイズが大きすぎるのでアスペクト比を指定してリサイズする


In [None]:
def scale_to_resolation(img, resolation):
    """指定した解像度になるように、アスペクト比を固定して、リサイズする。
    """
    h, w = img.shape[:2]
    scale = (resolation / (w * h)) ** 0.5
    return cv2.resize(img, dsize=None, fx=scale, fy=scale)


dst = scale_to_resolation(img, 1280 * 1080)
display_cv_image(dst)

## 色の二値化と輪郭抽出
### 輪郭抽出
「輪郭抽出」とは、同じ色を持つ連続する点をつなげた曲線を抽出することです。画像内に任意の形状を持つ物体が存在するかどうか等を判定するために使います。OpenCVの「輪郭抽出」は、二値画像を使い、黒い背景から白い物体の輪郭を検出します。

In [None]:
#カラーモードをグレーの濃淡に変換します。
gray = cv2.cvtColor(dst, cv2.COLOR_BGR2GRAY) 
gray=255-gray
# 二値化
ret,gray = cv2.threshold(gray,150,255,cv2.THRESH_BINARY)
display_cv_image(gray)

次のステップは、画像のノイズを除去し、対象の領域のみに焦点を合わせることです。

モロフォロジー変換を行い検出対象の領域の輪郭を抽出できるようにします。

In [None]:
# construct a closing kernel and apply it to the thresholded image 
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (7, 7)) 
closed = cv2.morphologyEx(gray, cv2.MORPH_CLOSE, kernel)
display_cv_image(closed)

ここでは、侵食を4回繰り返し、その後に膨張を4回繰り返します。 侵食は画像から白いピクセルを除去し、小さな塊を除去し、膨張は大きな白い領域を減少させません。 ストレッチ中のぼかし中に削除された小さなスポットは再表示されません。

一連の侵食と膨張の後、小さなスポットが正常に削除され本の領域のみが白く塗りつぶされていることがわかります

In [None]:

closed = cv2.erode(closed, None, iterations = 10) 
closed = cv2.dilate(closed, None, iterations = 10)
display_cv_image(closed)

最後に、画像内の本領域の輪郭を見つけましょう

In [None]:
# 輪郭抽出
contours,image= cv2.findContours(closed, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
# 面積の大きいもののみ選別
areas = []
for cnt in contours:
    area = cv2.contourArea(cnt,True)

    if abs(area) > 100000:
        epsilon = 0.1*cv2.arcLength(cnt,True)
        approx = cv2.approxPolyDP(cnt,epsilon,True)
        areas.append(approx)

cv2.drawContours(dst,areas,-1,(0,255,255),10)
display_cv_image(dst)

### 射影変換

In [None]:
dst.shape

枠の各点を対応する座標にあわせて射影変換します。

In [None]:
pts1 = np.float32(areas[0])
pts2 = np.float32([[1018,1358],[1018,0],[0,0],[0,1358]])
M = cv2.getPerspectiveTransform(pts1,pts2)
img = cv2.warpPerspective(dst,M,(1018,1358))
display_cv_image(img)

# 付録:OCRを使用して画像から文字起こしをこなう
pythonやOCRを使用するために必要なライブラリのバージョンに互換性がない場合動作しないことがあります。

In [None]:
!pip install easyocr

In [None]:
import easyocr
import numpy as np
#インスタンスを立てます
reader = easyocr.Reader(['ch_sim','en']) # this needs to run only once to load the model into memory

In [None]:
cv2.imwrite("data/ocr.jpg",img)

In [None]:
#OCR実施、結果を返してもらう。
result = reader.readtext("data/ocr.jpg")