# 二、图像处理

## 2.1 插值算法与几何变换

该部分将对基本的几何变换进行学习，几何变换的原理大多都是相似，只是变换矩阵不同，因此，我们以最常用的平移和旋转为例进行学习。在深度学习领域，我们常用平移、旋转、镜像等操作进行数据增广；在传统CV领域，由于某些拍摄角度的问题，我们需要对图像进行矫正处理，而几何变换正是这个处理过程的基础，因此了解和学习几何变换也是有必要的。

### 2.1.1 仿射变换

仿射变换矩阵：

$$
\begin{bmatrix}x \\y\\1\end{bmatrix} 
=\begin{bmatrix}
a_0 &a_1 & a_2 \\
a_3 & a_4 & a_5 \\
0 & 0 & 1
\end{bmatrix}
\begin{bmatrix}
x_0 \\
y_0 \\
1
\end{bmatrix}$$

其中$x$，$y$表示输出图像像素的坐标，$x_0$,$y_0$表示输入图像像素的坐标

|变换名称| $a_0$ |  $a_1$ | $a_2$ | $a_3$ | $a_4$ | $a_5$ |
|-|-|-|-|-|-|-|
| 平移 | 1 |0| $\triangle x$| 0 |1|$\triangle y$
| 均匀缩放 |  $s$|0| 0| 0 |$s$|0
|  不均匀缩放| $s_x$ |0|0 |0  |$s_y$|0
| 顺时针旋转角度$\theta$ |  $cos\theta$|$sin\theta$|0 | $-sin\theta$ |$cos\theta$|0
| 逆时针旋转角度$\theta$ |  $cos\theta$|$-sin\theta$|0 | $sin\theta$ |$cos\theta$|0
|  垂直偏移变换| 1 |0| 0| h |1|0
|  水平偏移变换| 1 |h| 0| 0 |1|0 

例子：

原图如下：
<div  align="center">    
<img src="https://img-blog.csdnimg.cn/20200422224925719.png" width = "40%" />
</div>

1. 放大为原来的两倍
$$
\begin{bmatrix}x \\y\\1\end{bmatrix} 
=\begin{bmatrix}
2 &0 & 0 \\
0 & 2 & 0 \\
0 & 0 & 1
\end{bmatrix}
\begin{bmatrix}
x_0 \\
y_0 \\
1
\end{bmatrix}
$$

<div  align="center">    
<img src="https://img-blog.csdnimg.cn/20200422230159292.png" width = "40%" />
</div>


In [1]:
from tensorbay import GAS
from tensorbay.dataset import Segment
import cv2
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt

In [2]:
# 不要打开VPN
# Authorize a GAS client.

gas=GAS('Accesskey-2e96f1bcbe77a14b7fccfab458728754')
# Get a dataset client.
dataset_client=gas.get_dataset("DogsVsCats-1")
# List dataset segments.
segments=dataset_client.list_segment_names()
# Get a segment by name
segment=Segment("train", dataset_client)

data = segment[4] # 取第五张图片
buf = np.asarray(bytearray(data.open().read()), dtype="uint8")
img = cv2.imdecode(buf, cv2.IMREAD_COLOR)

In [3]:
def resize_front_nearest(src, s):
    h, w = src.shape
    dest_h, dest_w = int(h*s), int(w*s)
    dest = np.zeros((int(dest_h), int(dest_w)))
    for i in range(h):
        for j in range(w):
            dest_i, dest_j = int(s*i), int(s*j)
            dest[dest_i, dest_j] = src[i, j]
    return dest

In [4]:
def resize_back_nearest(src, s):
    h, w = src.shape
    dest_h, dest_w = int(h*s), int(w*s)
    dest = np.zeros((int(dest_h), int(dest_w), 3))
    for i in range(dest_h):
        for j in range(dest_w):
            src_i, src_j = int(1/s*i), int(1/s*j)
            dest[i, j] = src[src_i, src_j]
    return dest

In [5]:
def resize_back_linear(src, s):
    h, w = src.shape
    dest_h, dest_w = int(h*s), int(w*s)
    dest = np.zeros((int(dest_h), int(dest_w), 3))
    for i in range(dest_h):
        for j in range(dest_w):              
            src_i, src_j = 1/s*i , 1/s*j
            x = src_j-int(src_j)
            y = src_i-int(src_i)
            if src_i >= (h-1):
                y, y0, y1 = 0, h-1, h-1
            else:
                y0, y1 = int(src_i), int(src_i)+1
            if src_j >= (w-1):
                x, x0, x1 = 0, w-1, w-1
            else:
                x0, x1 = int(src_j), int(src_j)+1
            f_00 = src[y0, x0]
            f_01 = src[y1, x0]
            f_10 = src[y0, x1]
            f_11 = src[y1, x1]
            dest[i, j] = (f_10-f_00)*x + (f_01-f_00)*y + (f_11+f_00-f_01-f_10)*x*y + f_00
    return dest

In [8]:
img = cv2.imread('a.png', 0).astype(np.float)
resized_img_n = resize_back_nearest(img, 5).astype(np.uint8)
resized_img_l = resize_back_linear(img, 5).astype(np.uint8)
# resized_img_l = cv2.resize(resized_img_l, dsize=None, fx=5, fy=5, interpolation = cv2.INTER_LINEAR)
# resized_img_n = cv2.resize(resized_img_n, dsize=None, fx=5, fy=5, interpolation = cv2.INTER_NEAREST)

cv2.imshow('origin', img)
cv2.imshow('nearest', resized_img_n)
cv2.imshow('linear', resized_img_l)
key = cv2.waitKey()
if key == 27:
    cv2.destroyAllWindows()

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  img = cv2.imread('a.png', 0).astype(np.float)


## 2.2.1平移变换
平移变换,图像向下平移$d_y$个单位，向右平移$d_x$个单位
$$
\begin{bmatrix}x \\y\\1\end{bmatrix}  =
\begin{bmatrix}
1 &0 & d_x \\
0 & 1 & d_y \\
0 & 0 & 1
\end{bmatrix}
\begin{bmatrix}
x_0 \\
y_0 \\
1
\end{bmatrix}
$$

笛卡尔坐标系中向上平移一个单位向右平移一个单位
$$
\begin{bmatrix}x \\y\\1\end{bmatrix} 
=\begin{bmatrix}
1 &0 & 1 \\
0 & 1 & 1 \\
0 & 0 & 1
\end{bmatrix}
\begin{bmatrix}
x_0 \\
y_0 \\
1
\end{bmatrix}
$$


<div  align="center">    <img src="https://img-blog.csdnimg.cn/20200422225300652.png" width = "40%" /></div>

In [14]:
import numpy as np
# img = cv2.imread('a.png', 1) # .astype(float)

h,w,c = img.shape # 高，宽，通道数
print("shape is ",h,w,c)
cv2.imshow("cat", img)
mat_translation=np.float32([[1,0,20],[0,1,50]])  #变换矩阵：设置平移变换所需的计算矩阵：2行3列
#[[1,0,20],[0,1,50]]   表示平移变换：其中20表示水平方向上的平移距离，50表示竖直方向上的平移距离。
dst=cv2.warpAffine(img,mat_translation,(w+20,h+50))  #变换函数
'''
参数2 变换矩阵：是一个2行3列的矩阵，由这个矩阵决定是何种变换
参数3 变换后输出图像的大小:(width+20,height+50)-->宽和高(自己规定)
参数4 可选参数，用于设置插值方法的组合，默认为INTER_LINEAR使用线性插值算法，除了图像缩放中用到的几个插值算法外，仿射变换还可以选用
INTER_LANCZOS4（Lanczos插值算法）。
参数5 borderValue：可选参数，在边界不变的情况下可以使用的值，主要用于设置边界的填充值，默认为0
'''
cv2.imshow('dst',dst)
cv2.waitKey(0)

shape is  149 150 3


-1

## 2.2.3 旋转变换
 笛卡尔坐标系下逆时针旋转$\theta$度

像素坐标系下顺时针旋转$\theta$度


$$
\begin{bmatrix}x \\y\\1\end{bmatrix} 
=\begin{bmatrix}
cos\theta &-sin\theta & 0 \\
sin\theta & cos\theta & 0 \\
0 & 0 & 1
\end{bmatrix}
\begin{bmatrix}
x_0 \\
y_0 \\
1
\end{bmatrix}
$$
顺时针旋转45度
$$
\begin{bmatrix}x \\y\\1\end{bmatrix} 
=\begin{bmatrix}
\sqrt2/2 &\sqrt2/2 & 0 \\
-\sqrt2/2 & \sqrt2/2 & 0 \\
0 & 0 & 1
\end{bmatrix}
\begin{bmatrix}
x_0 \\
y_0 \\
1
\end{bmatrix}
$$

<div  align="center">    
<img src="https://img-blog.csdnimg.cn/20200422231055464.png" width = "40%" />
</div>



In [15]:
cv2.imshow("cat", img)
mat_translation=cv2.getRotationMatrix2D((w / 2, h / 2), 90, 1)   ##center, angle, scale   像素坐标系下的逆时针变换角度
dst=cv2.warpAffine(img,mat_translation,(w+20,h+50))  #变换函数
'''
参数2 变换矩阵：是一个2行3列的矩阵，由这个矩阵决定是何种变换
参数3 变换后输出图像的大小:(width+20,height+50)-->宽和高(自己规定)
参数4 可选参数，用于设置插值方法的组合，默认为INTER_LINEAR使用线性插值算法，除了图像缩放中用到的几个插值算法外，仿射变换还可以选用
INTER_LANCZOS4（Lanczos插值算法）。
参数5 borderValue：可选参数，在边界不变的情况下可以使用的值，主要用于设置边界的填充值，默认为0
'''
cv2.imshow('dst',dst)
cv2.waitKey(0)

-1

In [19]:
cv2.imshow("cat", img)
# mat_translation=np.float32([[0.7,-0.7,0],[0.7,0.7,0]])  #
# mat_translation=np.float32([[np.cos(np.pi/4),-np.sin(np.pi/4),0],[np.sin(np.pi/4),np.cos(np.pi/4),0]])   # 像素坐标系下顺时针45度
mat_translation=np.float32([[np.sqrt(2)/2,np.sqrt(2)/2,0],[-np.sqrt(2)/2,np.sqrt(2)/2,0]])   # 像素坐标系下逆时针45度
dst=cv2.warpAffine(img,mat_translation,(w,h))  #变换函数
'''
参数2 变换矩阵：是一个2行3列的矩阵，由这个矩阵决定是何种变换
参数3 变换后输出图像的大小:(width+20,height+50)-->宽和高(自己规定)
参数4 可选参数，用于设置插值方法的组合，默认为INTER_LINEAR使用线性插值算法，除了图像缩放中用到的几个插值算法外，仿射变换还可以选用
INTER_LANCZOS4（Lanczos插值算法）。
参数5 borderValue：可选参数，在边界不变的情况下可以使用的值，主要用于设置边界的填充值，默认为0
'''
cv2.imshow('dst',dst)
cv2.waitKey(0)

-1

#### 2.2.4.错切变换 
水平偏移两个单位

$$
\begin{bmatrix}x \\y\\1\end{bmatrix} 
=\begin{bmatrix}
1 & 2 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1
\end{bmatrix}
\begin{bmatrix}
x_0 \\
y_0 \\
1
\end{bmatrix}
$$
<div  align="center">    
<img src="https://img-blog.csdnimg.cn/20200422232721460.png" width = "40%" />
</div>

In [20]:
mat_translation=np.float32([[1,1.2,0],[0,1,0]]) 
dst=cv2.warpAffine(img,mat_translation,(w,h))  #变换函数

cv2.imshow('dst',dst)
cv2.waitKey(0)

-1

总结：
矩阵的主对角线负责缩放，负对角线负责错切或旋转，第三列负责平移。
仿射变换是从一个二维坐标系变换到另一个二维坐标系，属于线性变换。通过已知3对坐标点可以求得变换矩阵。

In [21]:
cv2.imshow("cat", img)

pts1 = np.float32([[0, 0], [w - 1, 0], [0, h - 1]])
pts2 = np.float32([[w * 0.2, h * 0.1], [w * 0.9, h * 0.2], [w * 0.1, h * 0.9]])
 
M = cv2.getAffineTransform(pts1, pts2)
dst = cv2.warpAffine(img, M, (w, h))
cv2.imshow('dst',dst)
cv2.waitKey(0)


-1

### 2.1.2 图像旋转、偏移相关问题

**问题1：**

对于缩放、平移可以以图像坐标原点（图像左上角为原点）为中心变换，这不用坐标系变换，直接按照一般形式计算即可。而对于旋转和偏移，一般是以图像中心为原点，那么这就涉及坐标系转换了。

我们都知道，图像坐标的原点在图像左上角，水平向右为 X 轴，垂直向下为 Y 轴。数学课本中常见的坐标系是以图像中心为原点，水平向右为 X 轴，垂直向上为 Y 轴，称为笛卡尔坐标系。看下图:  

<div  align="center">    
<img src="https://img-blog.csdnimg.cn/2020042320032039.png" width = "40%" />
</div>

因此，对于旋转和偏移，就需要3步（3次变换）：

* 将输入原图图像坐标转换为笛卡尔坐标系；
* 进行旋转计算。旋转矩阵前面已经给出了；
* 将旋转后的图像的笛卡尔坐标转回图像坐标。

先看下图：  

<div  align="center">    
<img src="https://img-blog.csdnimg.cn/20200423200259503.png" width = "40%" />
</div>




**令图像表示为M×N的矩阵，对于点A而言，两坐标系中的坐标分别是(0，0)和$(-N/2,M/2)$，则图像某像素点$(x',y')$转换为笛卡尔坐标$（x,y）$转换关系为，$x$为列，$y$为行：**   


$$x=x'-\frac{N}{2}$$

$$y=-y'-\frac{M}{2}$$

逆变换为：  

$$x'=x+\frac{N}{2}$$

$$y'=-y+\frac{M}{2}$$


&emsp;&emsp;于是，根据前面说的3个步骤（3次变换），旋转(顺时针旋转)的变换形式就为，3次变换就有3个矩阵：  

$$
\begin{bmatrix}x \\y\\1\end{bmatrix} 
=\begin{bmatrix}
1&0 & -0.5\cdot N  \\
0 & -1 & -0.5 \cdot M \\
0 & 0 & 1
\end{bmatrix}
\begin{bmatrix}
cos\theta&sin\theta & 0  \\
-sin\theta & cos\theta & 0 \\
0 & 0 & 1
\end{bmatrix}
\begin{bmatrix}
1&0 & 0.5\cdot N  \\
0 & -1 & 0.5 \cdot M \\
0 & 0 & 1
\end{bmatrix}
\begin{bmatrix}
x_0 \\
y_0 \\
1
\end{bmatrix}$$

即：
$$
\begin{bmatrix}x \\y\\1\end{bmatrix} =
\begin{bmatrix}
cos\theta&-sin\theta & -0.5N(1-cos\theta)+0.5Msin\theta  \\
sin\theta & -cos\theta & -0.5M(1-sin\theta)-0.5Mcos\theta \\
0 & 0 & 1
\end{bmatrix}
\begin{bmatrix}
x_0 \\
y_0 \\
1
\end{bmatrix}$$

仿射变换是一种二维坐标（x, y）到二维坐标（u, v）的线性变换。
仿射变换保持了二维图像的“平直性”和“平行性”。

平直性：
- 直线经仿射变换后还是直线
- 圆弧经仿射变换后还是圆弧

平行性：

- 直线之间的相对位置关系保持不变
- 平行线经仿射变换后依然为平行线
- 直线上点的位置顺序不会发生变化
- 向量间夹角可能会发生变化

# 2.2.5 透视变换
透视变换是从一个二维坐标系变换到一个三维坐标系，属于非线性变换。通过已知4对坐标点可以求得变换矩阵。
最直观的原则就是近大远小。生活中很常见的一种变换。


In [22]:
import numpy as np
import cv2

h,w,c = img.shape # 高，宽，通道数


cv2.imshow("cat", img)

src = np.array([[0,0],  [w-1,0],  [0,h-1], [w-1,h-1]], np.float32)
dst = np.array([[100,50], [w/2,50], [100,h-1], [w-1,h-1]], np.float32)
A1 = cv2.getPerspectiveTransform(src, dst)
dst = cv2.warpPerspective(img, A1, (w, h), borderValue = 125)
cv2.imshow('dst',dst)
cv2.waitKey(0)



-1

In [23]:
import numpy as np
import cv2
img1 = cv2.imread('test.jpg', 1) # .astype(float)

h,w,c = img1.shape # 高，宽，通道数


cv2.imshow("cat", img1)

src = np.array([[393,319],  [770,201],  [407,499], [772,331]], np.float32)
dst = np.array([[10,10], [w,10], [10,h-1], [w-1,h-1]], np.float32)
A1 = cv2.getPerspectiveTransform(src, dst)
dst = cv2.warpPerspective(img1, A1, (w, h), borderValue = 125) # bordervalue:边界的颜色设置
cv2.imshow('dst',dst)
cv2.waitKey(0)



-1

In [None]:
import numpy as np
import cv2
img = cv2.imread('road.png', 1) # .astype(float)

h,w,c = img.shape # 高，宽，通道数

print(h,w,c)
cv2.imshow("cat", img)

src = np.array([[433,281],  [613,281],  [97,417], [907,417]], np.float32)
dst = np.array([[10,10], [w,10], [10,h-1], [w-1,h-1]], np.float32)
A1 = cv2.getPerspectiveTransform(src, dst)
dst = cv2.warpPerspective(img, A1, (w, h), borderValue = 125)
cv2.imshow('dst',dst)
cv2.waitKey(0)



647 1020 3


In [None]:
借鉴的资料来源:
https://www.jianshu.com/p/7e701d7bfd79