**_합성곱신경망(CNN) 기본기_**


# 이미지 데이터와 컴퓨터 비전의 이해

### _Objective_

1. `이미지 데이터`를 넘파이 배열로 불러와 그 형태를 확인하고 특징과 구조를 이해합니다.

2. `Dense` 층으로만 구성된 네트워크로`컴퓨터 비전`을 구현해보고 발생하는 어려움을 이해합니다.

3. 동물의 시각이 사물을 인지하는 방법을 배우고 이를 컴퓨터 비전에 어떻게 이용할 수 있을지 생각해봅니다.

#### 필요한 패키지 호출

In [None]:
%matplotlib inline
import numpy as np
import pandas as pd
import tensorflow as tf

## [1. 이미지 데이터의 이해 ]

---

### 이미지 데이터의 표현

---
`PIL`또는 `Matplotlib` 를 통한 이미지데이터 불러오기.



`PIL`(Python Imaging Library) : 다양한 이미지 파일 형식으로 이미지 처리와 그래픽 기능을 제공하는 라이브러리<br>
`matplotlib` : 넘파이 배열을 기반으로 데이터의 다양한 시각화와 그래프 표현을 위한 라이브러리

In [None]:
# !pip install Pillow
# !pip install matplotlib

In [None]:
from PIL import Image

# matplotlib.pyplot은 주로 `plt` 별칭을 이용
import matplotlib.pyplot as plt

#### 웹의 이미지 불러오기

`keras.utils`의 `get_file` : url 주소의 데이터가 캐시에 없을때만 불러와 캐시에 저장 <br>
→ 현재 열려있는 파이썬에서 데이터를 사용가능

In [None]:
from tensorflow.keras.utils import get_file

<img src="./img/1_1.png" alt="1_1" width=500px>

(웹에서 원하는 이미지에 우클릭 후 이미지 주소 복사를 통해 위치를 가져올 수 있음)

In [None]:
# 이미지 데이터 다운로드 받기
fpath = get_file('lenna.jpg',' http://www.lenna.org/len_top.jpg')
print(fpath)

#### `PIL`로 이미지 파일 불러오기

`PIL`의 `Image.open(fpath)`

In [None]:
# PIL 로 불러오기
image = Image.open(fpath)
type(image) ## PIL의 객체로 저장
image

In [None]:
# 이미지 데이터를 넘파이 배열로 변환해보기
image_ary = np.array(image)
image_ary ## 여러개의 숫자로 구성된 데이터

#### `Matplotlib`로 이미지 확장자의 파일 불러오기

`Matplotlib.pyplot(plt)`의 `.imread(fpath)`

In [None]:
image = plt.imread(fpath)
image ## plt를 사용하면 이미지 데이터가 바로 넘파이 배열로 불러와진다
plt.imshow(image) ## plt를 사용하여 이미지 데이터를 저장한 배열을 그리는 방법

plt.show()

#### 이미지 데이터 표현의 이해

<img src="https://gscaltexmediahub.com/wp-content/uploads/2018/10/GSC_BS_MH_gs-calender-2019-04_20181026_01.jpg" width=400px>

+ 점묘법은 각 위치의 색상을 작은 점으로 찍어 그림을 그리는 미술 기법 중 하나이다.
+ 위치와 색상값(세가지 색상)으로 그림 전체를 표현한다는 아이디어에서 디지털의 이미지 표현 방법을 도출했다.
+ 이때, 각 점을 "픽셀" 이라고 한다.
+ (빨강, 초록, 파랑)을 각각 그 세기에 따라 256가지로 나누고 조합하여 색상을 표현한다.

![1_2](./img/1_2.png)

이미지를 숫자로 표현하여 데이터를 저장

```python
" ⚠︎ plt를 활용하여 이미지 데이터를 읽을 경우 그 배열은 `read-only`이므로, 본 강의에서는 주로 PIL을 이용"
```

### 이미지 데이터의 구조

---

+ 넘파이 배열로 표현된 이미지 데이터의 구조
+ 시각적으로 보이는 사진을 어떻게 데이터로 표현할 수 있을까

(사진이나 동영상의 데이터를 다루는 분야를 "영상처리(Image Processing)"이라 한다.<br>
이후, 본 강의에서 "영상" 이라 함은 흔히 아는 이미지 데이터를 의미한다.)

In [None]:
# jpg 확장자인 이미지 데이터에서의 모양
image = np.array(Image.open(fpath))
image.shape

#### 첫번째 축의 의미 : 이미지의 세로 길이

In [None]:
# 첫번째 축에서 일부만 가져온다면
part = image[50:160] ## 값을 바꿔가며 이해하기
plt.imshow(part)
plt.show()

#### 두번째 축의 의미 : 이미지의 가로 길이

In [None]:
# 두번째 축에서 일부만 가져온다면
part = image[:, 150:250] ## 값을 바꿔가며 이해하기
plt.imshow(part)
plt.show()

#### 세번째 축의 의미 : 채널 RGB (빨간색, 초록색, 파란색)

In [None]:
# 세 개의 채널 값
image[0,1,:] ## 각각 RGB를 의미

In [None]:
# R 위치의 값만 남긴다면
one_channel = image.copy()
one_channel[:,:,[1,2]] = 0
plt.imshow(one_channel)
plt.show()

In [None]:
# G 위치의 값만 남긴다면
one_channel = image.copy()
one_channel[:,:,[0,2]] = 0
plt.imshow(one_channel)
plt.show()

#### 이미지 데이터의 구성 요소 정리
+ `jpg` 확장자의 이미지 : (세로 × 가로 × 채널(RGB)) 구성의 3차원 행렬

In [None]:
plt.imshow(image)
plt.show()
print(image.shape)

#### + `png` 확장자의 데이터 구조
`png`확장자의 경우 투명도 A를 추가하여 (세로 × 가로 × 채널(RGBA))인 3차원 행렬

In [None]:
# png 확장자의 이미지 데이터 다운로드 받기
py_fpath = get_file('python.png','https://www.python.org/static/img/python-logo.png')
image = Image.open(py_fpath)
np.array(image).shape # 세번째 축의 원소의 개수가 RGBA 로 네가지이다.

In [None]:
image ## 투명한 부분이 있다.

In [None]:
np.array(image)[40:41,20:21] 

## \[ 2. DNN을 활용한 컴퓨터 비전 \]

----

### 컴퓨터 비전(Computer Vision)

---

+ 기계의 시각에 해당하는 부분을 연구하는 컴퓨터 과학의 최신 연구 분야 중 하나
+ 인간의 시각이 할 수 있는 몇 가지 일을 수행하는 자율적인 시스템을 만드는 것을 목표
+ 예시) 이미지 분류, 물체인식, 얼굴인식, 물체추적, 이미지변환, 영상분할 등

### 심층신경망(DNN)을 활용한 컴퓨터 비전(?)

---

+ 0부터 9까지의 숫자를 손으로 작성한 `MINST` 이미지 데이터
+ 손글씨 이미지 데이터를 입력받아 어떤 숫자를 쓴 이미지인지 분류하는 심층신경망(DNN) 구현

### 손글씨 숫자 MNIST 데이터

---

![1_3](./img/1_3.png)

#### 1. 손글씨 숫자 MNIST 데이터 가져오기

`keras.datasets`에서 제공되는 `mnist` 데이터셋 불러오기

In [None]:
from tensorflow.keras.datasets import mnist

trainset, testset = mnist.load_data()
train_images, train_labels = trainset
test_images, test_labels = testset

#### 2. 데이터 확인하기

In [None]:
# 학습데이터의 개수와 모양
print(train_images.shape)
print(train_labels.shape)

In [None]:
# 평가데이터의 개수와 모양
print(test_images.shape)
print(test_labels.shape)

In [None]:
# train_images[0,:,:] # 0부터 255까지의 숫자로 구성

#### 3. 이미지 데이터의 정규화
(0\~255)값의 색상값을 (0\~1)의 범위로 변경

* min-max 정규화란?  
모델에 입력되는 데이터들의 값을 0~1 사이로 만들어 주어, 특정 데이터에 대해서만 강조되도록 학습하는 것이 아닌,  
모든 데이터들에 대해서 균일하게 학습하도록 만드는 데이터 전처리 방식.

공식: `(X - MIN) / (MAX-MIN)`  

In [None]:
train_images = train_images / 255.
test_images = test_images / 255.

### 심층신경망(DNN) 모델 구성하기

---


![1_4](./img/1_4.png)

In [None]:
from tensorflow.keras.layers import Input
from tensorflow.keras.layers import Flatten
from tensorflow.keras.layers import Dense
from tensorflow.keras.models import Model 

In [None]:
inputs = Input(shape=(28, 28))

flat = Flatten()(inputs) # x_1 ~ x_784
dense1 = Dense(8, activation='relu')(flat)
dense2 = Dense(8, activation='relu')(dense1)
pred = Dense(10, activation='softmax')(dense2)

model = Model(inputs, pred)

### 심층신경망 모델의 컴파일

---

+ 최적화함수 : `optimizer="sgd"` 경사하강법
+ 손실함수 : `loss = "sparse_categorical_crossentropy"` 교차엔트로피
+ 평가방법 : `metrics = "acc"` 정확도

In [None]:
model.compile('sgd', 
              loss='sparse_categorical_crossentropy', 
              metrics=['acc'])

In [None]:
model.summary()

###  심층신경망 모델 학습진행
---
+ 배치 크기 : 64
+ 학습횟수(epoch) : 10

In [None]:
hist = model.fit(train_images, train_labels,
                 batch_size=64, epochs=10)

### 학습된 모델을 통한 추론

학습된 모델 `model` 과 손글씨 이미지 데이터셋 `test_image`로 숫자 추론

In [None]:
samples = test_images[:10]
pred_probs = model.predict(samples)

In [None]:
pred_label = np.argmax(pred_probs,axis=1)

In [None]:
fig = plt.figure(figsize=(10,5))

for idx, (image, label) in enumerate(
    zip(samples, pred_label),1):
    ax = fig.add_subplot(2,5,idx)
    ax.set_title(label)
    ax.axis("off")   
    ax.imshow(image)
plt.show()

### 이미지를 심층신경망 모델로 했을 때의 문제점

<img src="https://i.imgur.com/9Ax40I0.jpg" width="800">

+ 파라미터의 수가 급격하게 증가 : <br>
이미지의 크기에 따라 필요한 파라미터의 수가 기하급수적으로 증가<br>
→ 메모리의 한계 문제 발생

#### (예시_1) (64, 64) 크기의 영상에서 필요한 Parameter 수
(64, 64)크기를 갖는 이미지 데이터를 유닛의 수가 100개인 `Dense` 층에 연결했을때 필요한 파라미터의 수?

In [None]:
# (64 , 64) 크기의 RGB 채널을 가진 영상
inputs = Input(shape=(64, 64, 3))

flat = Flatten()(inputs)
out = Dense(100, activation='relu',use_bias=False)(flat)

model = Model(inputs, out)

model.summary()

#### (예시_2) (1280, 720) 크기의 영상에서 필요한 Parameter 수
(1280, 720)크기를 갖는 이미지 데이터를 유닛의 수가 100개인 `Dense` 층에 연결했을때 필요한 파라미터의 수?

In [None]:
inputs = Input(shape=(1280, 720, 3))

flat = Flatten()(inputs)
out = Dense(100, activation='relu',use_bias=False)(flat)

model = Model(inputs, out)

model.summary()

## [ 3. 동물의 사물 인지와 컴퓨터 비전 ]

---

### 동물이 사물을 인지하는 방법

---

![1_5](./img/1_5.png)

### 이미지의 특징

---

+ 간단한 특징들을 조합하여 점점 복잡한 특징을 표현할 수 있음

![1_6](./img/1_6.png)

## [4. 합성곱신경망을 이용한 컴퓨터 비전 ]

---

In [None]:
from tensorflow.keras.layers import Input
from tensorflow.keras.layers import Flatten
from tensorflow.keras.layers import Conv2D
from tensorflow.keras.layers import MaxPooling2D
from tensorflow.keras.layers import Dense
from tensorflow.keras.models import Model 

In [None]:
inputs = Input(shape=(28, 28, 1))

conv1 = Conv2D(128,3,activation="relu")(inputs) ## 단 8개의 필터로 구성된 CNN
pool1 = MaxPooling2D()(conv1)
conv2 = Conv2D(128,3,activation="relu")(pool1)
pool2 = MaxPooling2D()(conv2)

flat = Flatten()(pool2)
pred = Dense(10, activation='softmax')(flat)

model = Model(inputs, pred)

In [None]:
model.compile('sgd', 
              loss='sparse_categorical_crossentropy', 
              metrics=['acc'])

In [None]:
samples = test_images[:10]
pred_probs = model.predict(samples)

In [None]:
pred_label = np.argmax(pred_probs,axis=1)

In [None]:
fig = plt.figure(figsize=(10,5))

for idx, (image, label) in enumerate(
    zip(samples, pred_label),1):
    ax = fig.add_subplot(2,5,idx)
    ax.set_title(label)
    ax.axis("off")   
    ax.imshow(image)
plt.show()

In [None]:
model.summary() ## 압도적인 파라미터의 수 감축

## `이미지 데이터와 컴퓨터 비전의 이해` 마무리


---

#### references

+ Deep Learning - Ian Goodfellow [deeplearningbook.org/](https://www.deeplearningbook.org/)

![](../../src/logo.png)

# \[부록 컨텐츠\]

---

---

### 확장자별 이미지 데이터의 차이

`png`, `gif`, `jpg`, `tif`의 차이