# Convolutional Network 

## Demo

우리는 사용자가 그린 어떤 알페벳을 인식하기 할 수 있는 numpy 를 사용한 CNN 을 만들 것이다. 그것은 모두 당신이 브라우저에서 재생 할 수 있도록 Flask 웹어플리케이션으로 감쌀것이다.

![alt text](http://i.imgur.com/8ysCoB5.png "Logo Title Text 1")

## What inspired Convolutional Networks?

CNN 은 D. H. Hubel 과 T. N. Wiesel 의 연구를 통해 생물학적으로 영감을 얻은 모델이다. 
그들은 포유 동물이 뇌의 신경층 구조를 사용하여 주위의 세계를 시각적으로 인식하는 방법에 대한 설명을 제안했으며 이는 엔지니어가 컴퓨터 비전에서도 유사한 패턴 인식 메커니즘을 개발 하도록 유도했다.

![alt text](https://qph.ec.quoracdn.net/main-qimg-235acb60a481423eaf70c39b17bc914b.webp "Logo Title Text 1")


그들의 가설에서, 시각 피질 내에서 "복합 세포"에 의해 생성 된 복잡한 기능적 반응은 "단순 세포"에서 보다 단순한 반응으로 구성 된다. 

예를 들어, 단순한 세포는 지향성 가장자리 등에 반응하지만 복잡한 세포는 지향성 가장자리에도 반응하지만 어느 정도의 공간 불변선에 반응한다.

수용 영역은 셀에 존재하며, 셀은 다른 로컬 셀의 입력 합계에 응답한다.

DCNN 의 아키텍처는 위에서 언급한 아이디어에서 영감을 받았다.

- 로컬 연결
- 레이어링
- 공간 불변량(입력 신호를 이동 시키면 출력 신호가 똑같이 이동한다.) 우리는 추상을 배우기 때문에 다양한 조건에서 특정면을 인식 할 수 있다. 따라서 이러한 추상화는 크기, 대비, 회전, 방향에 영향을 주지 않는다.
 
그러나, 이러한 CNN 의 계산 메커니즘이 primate 시각 시스템에서 발생하는 계산 메커니즘과 유사한 지 여보는 여전히 남아있다.

- convolution operation
- shared weights
- pooling/subsampling 

## How does it work? 

![alt text](https://images.nature.com/w926/nature-assets/srep/2016/160610/srep27755/images_hires/srep27755-f1.jpg "Logo Title Text 1")
![alt text](https://www.mathworks.com/content/mathworks/www/en/discovery/convolutional-neural-network/jcr:content/mainParsys/image_copy.adapt.full.high.jpg/1497876372993.jpg "Logo Title Text 1")

### Step 1 - Prepare a dataset of images

![alt text](http://xrds.acm.org/blog/wp-content/uploads/2016/06/Figure1.png "Logo Title Text 1")

- 모든 이미지는 픽셀 값의 행렬이다. 
- 각 픽셀에서 인코딩 할 수 있는 값의 범위는 비트 크기에 따라 다르다.  
- 가장 일반적으로, 8비트 또는 1바이트 크기의 픽셀이 있다. 따라서 한 픽셀이 표현 할 수 있는 값의 범우는 [0, 255] 이다. 
- 그러나 색상이미지, 특히 RGB(빨강, 초록, 파랑) 기반 이미지의 경우 별도의 색상 채널(RGB 이미지의 경우 3채널)이 있어 데이터에 'depth' 필드를 추가하여 입력을 3차원으로 만든다.
- 주어진 RGB 이미지에 대해 각 이미지와 연관된 3개의 행렬, 각 색상 채널에 대한 행렬이 있다. 이런 까닭에 주어진 255×255 (가로 x 세로) 픽셀 크기의 RGB 이미지는 각 색상 채널당 한개씩 이미지와 연관된 3개의 행렬를 가진다.
- 따라서 이미지는 전체적으로 입력 볼륨 (255x255x3) 이라는 3차원 구조를 구성한다.

Great training datasets are [CIFAR](https://www.cs.toronto.edu/~kriz/cifar.html) and [CoCo](http://mscoco.org/). We'll use CIFAR.

### Step 2 - Convolution 

![alt text](https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/content/more_images/Convolution_schematic.gif "Logo Title Text 1")

![alt text](http://xrds.acm.org/blog/wp-content/uploads/2016/06/Figure_2.png "Logo Title Text 1")

- convolution 은 두가지 정보 소스가 서로 얽혀있는 순차적인 절차이다.

- 커널(필터) 는 이미지의 입력 크기와 비교하여 작은 크기의 행렬이며 실수 값의 항목으로 구성된다.

- 커널은 입력 볼륨과 컨볼류션되어 '엑티베이션맵' (또는 피처맵이라고도 함)을 얻는다.

- 엑티베이션 맵은 활성화 된 영역, 즉 커널에서 특정 기능이 입력에서 감지 된 영역을 나타낸다.

- 커널 행력의 실제 값은 학습 데이터에 대한 학습 반복 마다 변경되어 네트워크가 데이터에서 피쳐를 추출하는데 중요한 영역을 식별하는 것을 학습하고 있음을 나타낸다.

- 우리는 커널과 입력 행렬 사이의 내적을 계산한다
- 내적으로부터 결과적인 항들을 합산함으로써 얻어지는 컨볼루션 된 값은 엑티베이션 행렬에서 단일 엔트리를 형성한다.

- 패치 선택은 'stride' 값이라는 특정 양만큼 슬라이딩(오른쪽으로 또는 매트릭스의 경계에 도달하면 아래쪽으로)되며 전체 입력 이미지가 처리 될 때까지 프로세스가 반복된다. - 이 프로세스는 모든 색상 채널에 대해 수행 된다.

- 모든 뉴런을 모든 가능한 픽셀에 연결하는 대신 입력의 전체 깊이까지 확장되는 '리셉티브 필드[14]' (5X5 단위 크기) 의 2차원 영역을 지정한다. (3색 채널의 경우 5X5X3 입력), 포함 된 픽셀이 뉴럴 네트워크의 입력 레이어에 완전히 연결된다. 네트워크 영역 횐단면(('depth columns'라고 불리는) 여러 뉴런으로 구성된 이 엑티베이션 맵을 조작하고 생성하는 것이 이 작은 영역을 넘는다.(계산 복잡도 감소)

![alt text](http://i.imgur.com/g4hRI6Z.png "Logo Title Text 1")
![alt text](http://i.imgur.com/tpQvMps.jpg "Logo Title Text 1")
![alt text](http://i.imgur.com/oyXkhHi.jpg "Logo Title Text 1")
![alt text](http://xrds.acm.org/blog/wp-content/uploads/2016/06/Figure_5.png "Logo Title Text 1")

Great resource on description of  convolution (discrete vs continous)  & the fourier transform
컨볼루션(이산 vs 연속) 및 푸리에 변환에 대한 설명 좋은 리소스

http://timdettmers.com/2015/03/26/convolution-deep-learning/


###  Step 3 - Pooling
![alt text](http://xrds.acm.org/blog/wp-content/uploads/2016/06/Figure_6.png "Logo Title Text 1")

- 풀링은 다음 컨볼루션 레이어를 위해 입력 볼륨의 차원(가로 X 세로)을 줄인다.
- 변환은 윈도우 안에서 관찰 할 수 있는 값으로 부터 최대 값을 취하거나('맥스 풀링'이라 부르는), 값의 평균을 취하여 수행된다.
- 또한 다운샘플링이라 불린다.

###  Step 4 - Normalization (ReLU in our case)

![alt text](http://xrds.acm.org/blog/wp-content/uploads/2016/06/CodeCogsEqn-3.png "Logo Title Text 1")

정규화(모든 음수를 0으로 설정하여 수학을 깨뜨리지 않도록 유지)(RELU) 이미지 스택은 음수 값이 없는 이미지 스택이된다. 

2-4 단계를 여러 번 반복해라. 더 작은 이미지(모든 레이어에서 만들어진 피처 맵)

### Step 5 - Regularization 

- 드랍아웃은 인공 신경망이 학습 단계에서 뉴런을 무효로함으로써 동일한 데이터의 여러 독립적 인 표현을 학습하도록 강제한다.
- 드랍아웃의 거의 모든 최첨단 뉴럴네트워크 구현에서 중요한 기능이다.
- 레이어에서 드랍아웃을 수행하려면 전달 중에 레이어 값 중 일부를 임의로 0으로 설정한다.

See [this](http://iamtrask.github.io/2015/07/28/dropout/)

![alt text](https://i.stack.imgur.com/CewjH.png "Logo Title Text 1")

###  Step 6 - Probability Conversion

네트워크 끝 부분에서는 softmax 함수를 적용하여 출력을 각 클래스의 확률 값으로 변환한다.

![alt text](https://1.bp.blogspot.com/-FHDU505euic/Vs1iJjXHG0I/AAAAAAABVKg/x4g0FHuz7_A/s1600/softmax.JPG "Logo Title Text 1")


###  Step 7 - 가장 가능성있는 레이블 선택 (max probability value) 

argmax(softmax_outputs)

일곱번째 단계는 네트워크를 통한 순방향 전달이다.

## 그렇다면 어떻게 magic number를 학습 할 수 있을까? 

- backpropagation 을 통해 특징과 가중치를 학습 할 수 있다.

![alt text](http://www.robots.ox.ac.uk/~vgg/practicals/cnn/images/cover.png "Logo Title Text 1")

![alt text](https://image.slidesharecdn.com/cnn-toupload-final-151117124948-lva1-app6892/95/convolutional-neural-networks-cnn-52-638.jpg?cb=1455889178 "Logo Title Text 1")

다른 하이퍼 파라미터는 인간에 의해 설정되며 능동적인 연구 분야이다(최적의 하이퍼 파라미터를 찾는 것)

i.e - 뉴런수, 피처 수, 피처 크기, 풀링 윈도우 크기, 윈도우 스트라이드


## 언제 사용하는 것이 좋은가?

- 이미지 분류를 위해
- 이미지 생성을 위해 (나중에 더 많이..)

![alt text](https://nlml.github.io/images/convnet_diagram.png "Logo Title Text 1")

그러나 어떤 공간 2차원 또는 3차원 데이터에도 적용 할 수 있다. 이미지 소리와 텍스트조차도 경험적으로 보면 고객 데이터와 같은 행과 열을 바꿔서 CNN을 사용 할 수 없다면 데이터도 유용 할 것이다.


## 좋은 예제

Robot learns to grasp (combining CNNs)

![alt text](https://img.newatlas.com/youtube-robot-6.jpg?auto=format%2Ccompress&fit=max&h=670&q=60&w=1000&s=d003e42afa7e462fd711c6a99f21b51f "Logo Title Text 1")

Tensorflow! https://github.com/upul/CarND-TensorFlow-Lab

Adversarial CNNs https://github.com/michbad/adversarial-mnist


In [7]:
import pickle #saving and loading our serialized model 
import numpy as np #matrix math
from app.model.preprocessor import Preprocessor as img_prep #image preprocessing

#class for loading our saved model and classifying new images
class LiteOCR:
    
	def __init__(self, fn="alpha_weights.pkl", pool_size=2):
        #load the weights from the pickle file and the meta data
		[weights, meta] = pickle.load(open(fn, 'rb'), encoding='latin1') #currently, this class MUST be initialized from a pickle file
		#list to store labels
        self.vocab = meta["vocab"]
        
        #how many rows and columns in an image
		self.img_rows = meta["img_side"] ; self.img_cols = meta["img_side"]
        
        #load our CNN
		self.CNN = LiteCNN()
        #with our saved weights
		self.CNN.load_weights(weights)
        #define the pooling layers size
		self.CNN.pool_size=int(pool_size)
    
    #classify new image
	def predict(self, image):
		print(image.shape)
        #vectorize the image into the right shape for our network
		X = np.reshape(image, (1, 1, self.img_rows, self.img_cols))
		X = X.astype("float32")
        
        #make the prediction
		predicted_i = self.CNN.predict(X)
        #return the predicted label
		return self.vocab[predicted_i]

class LiteCNN:
	def __init__(self):
        # a place to store the layers
		self.layers = [] 
        # size of pooling area for max pooling
		self.pool_size = None 

	def load_weights(self, weights):
		assert not self.layers, "Weights can only be loaded once!"
        #add the saved matrix values to the convolutional network
		for k in range(len(weights.keys())):
			self.layers.append(weights['layer_{}'.format(k)])

	def predict(self, X):        
        #here is where the network magic happens at a high level
        h = self.cnn_layer(X, layer_i=0, border_mode="full"); X= h
        h = self.relu_layer(X); X = h;
        h = self.cnn_layer(X, layer_i=2, border_mode="valid"); X = h
        h = self.relu_layer(X); X = h;
        h = self.maxpooling_layer(X); X = h
        h = self.dropout_layer(X, .25); X = h
        h = self.flatten_layer(X, layer_i=7); X = h;
        h = self.dense_layer(X, fully, layer_i=10); x = H
        h = self.softmax_layer2D(X); x = h
        max_i = self.classify(X)
        return max_i[0]
    
    #given our feature map we've learned from convolving around the image
    #lets make it more dense by performing pooling, specifically max pooling
    #we'll select the max values from the image matrix and use that as our new feature map
	def maxpooling_layer(self, convolved_features):
        #given our learned features and images
		nb_features = convolved_features.shape[0]
		nb_images = convolved_features.shape[1]
		conv_dim = convolved_features.shape[2]
		res_dim = int(conv_dim / self.pool_size)       #assumed square shape

        #initialize our more dense feature list as empty
		pooled_features = np.zeros((nb_features, nb_images, res_dim, res_dim))
        #for each image
		for image_i in range(nb_images):
            #and each feature map
			for feature_i in range(nb_features):
                #begin by the row
				for pool_row in range(res_dim):
                    #define start and end points
					row_start = pool_row * self.pool_size
					row_end   = row_start + self.pool_size

                    #for each column (so its a 2D iteration)
					for pool_col in range(res_dim):
                        #define start and end points
						col_start = pool_col * self.pool_size
						col_end   = col_start + self.pool_size
                        
                        #define a patch given our defined starting ending points
						patch = convolved_features[feature_i, image_i, row_start : row_end,col_start : col_end]
                        #then take the max value from that patch
                        #store it. this is our new learned feature/filter
						pooled_features[feature_i, image_i, pool_row, pool_col] = np.max(patch)
		return pooled_features

    #convolution is the most important of the matrix operations here
    #well define our input, lauyer number, and a border mode (explained below)
	def cnn_layer(self, X, layer_i=0, border_mode = "full"):
        #we'll store our feature maps and bias value in these 2 vars
		features = self.layers[layer_i]["param_0"]
		bias = self.layers[layer_i]["param_1"]
        #how big is our filter/patch?
		patch_dim = features[0].shape[-1]
        #how many features do we have?
		nb_features = features.shape[0]
        #How big is our image?
		image_dim = X.shape[2] #assume image square
        #R G B values
		image_channels = X.shape[1]
        #how many images do we have?
		nb_images = X.shape[0]
        
        #With border mode "full" you get an output that is the "full" size as the input. 
        #That means that the filter has to go outside the bounds of the input by "filter size / 2" - 
        #the area outside of the input is normally padded with zeros.
		if border_mode == "full":
			conv_dim = image_dim + patch_dim - 1
        #With border mode "valid" you get an output that is smaller than the input because 
        #the convolution is only computed where the input and the filter fully overlap.
		elif border_mode == "valid":
			conv_dim = image_dim - patch_dim + 1
        
        #we'll initialize our feature matrix
		convolved_features = np.zeros((nb_images, nb_features, conv_dim, conv_dim));
        #then we'll iterate through each image that we have
		for image_i in range(nb_images):
            #for each feature 
			for feature_i in range(nb_features):
                #lets initialize a convolved image as empty
				convolved_image = np.zeros((conv_dim, conv_dim))
                #then for each channel (r g b )
				for channel in range(image_channels):
                    #lets extract a feature from our feature map
					feature = features[feature_i, channel, :, :]
                    #then define a channel specific part of our image
					image   = X[image_i, channel, :, :]
                    #perform convolution on our image, using a given feature filter
					convolved_image += self.convolve2d(image, feature, border_mode);

                #add a bias to our convoved image
				convolved_image = convolved_image + bias[feature_i]
                #add it to our list of convolved features (learnings)
				convolved_features[image_i, feature_i, :, :] = convolved_image
		return convolved_features

    #In a dense layer, every node in the layer is connected to every node in the preceding layer.
	def dense_layer(self, X, layer_i=0):
        #so we'll initialize our weight and bias for this layer
		W = self.layers[layer_i]["param_0"]
		b = self.layers[layer_i]["param_1"]
        #and multiply it by our input (dot product)
		output = np.dot(X, W) + b
		return output

	@staticmethod
    
    #so what does the convolution operation look like?, given an image and a feature map (filter)
	def convolve2d(image, feature, border_mode="full"):
        #we'll define the tensor dimensions of the image and the feature
		image_dim = np.array(image.shape)
		feature_dim = np.array(feature.shape)
        #as well as a target dimension
		target_dim = image_dim + feature_dim - 1
        #then we'll perform a fast fourier transform on both the input and the filter
        #performing a convolution can be written as a for loop but for many convolutions
        #this approach is too comp. expensive/slow. it can be performed orders of magnitude
        #faster using a fast fourier transform. 
		fft_result = np.fft.fft2(image, target_dim) * np.fft.fft2(feature, target_dim)
        #and set the result to our target 
		target = np.fft.ifft2(fft_result).real

		if border_mode == "valid":
			# To compute a valid shape, either np.all(x_shape >= y_shape) or
			# np.all(y_shape >= x_shape).
            #decide a target dimension to convolve around
			valid_dim = image_dim - feature_dim + 1
			if np.any(valid_dim < 1):
				valid_dim = feature_dim - image_dim + 1
			start_i = (target_dim - valid_dim) // 2
			end_i = start_i + valid_dim
			target = target[start_i[0]:end_i[0], start_i[1]:end_i[1]]
		return target

	def relu_layer(x):
        #turn all negative values in a matrix into zeros
		z = np.zeros_like(x)
		return np.where(x>z,x,z)

	def softmax_layer2D(w):
        #this function will calculate the probabilities of each
        #target class over all possible target classes. 
		maxes = np.amax(w, axis=1)
		maxes = maxes.reshape(maxes.shape[0], 1)
		e = np.exp(w - maxes)
		dist = e / np.sum(e, axis=1, keepdims=True)
		return dist

    #affect the probability a node will be turned off by multiplying it
    #by a p values (.25 we define)
	def dropout_layer(X, p):
		retain_prob = 1. - p
		X *= retain_prob
		return X

    #get the largest probabililty value from the list
	def classify(X):
		return X.argmax(axis=-1)

    #tensor transformation, less dimensions
	def flatten_layer(X):
		flatX = np.zeros((X.shape[0],np.prod(X.shape[1:])))
		for i in range(X.shape[0]):
			flatX[i,:] = X[i].flatten(order='C')
		return flatX

TabError: inconsistent use of tabs and spaces in indentation (<ipython-input-7-6ef6ea6446b0>, line 12)