# Logistic Regression as a Neural Network

신경망 프로그래밍의 기본에 대해서 다시 살펴볼 것이다. 사실 신경망을 구현할 때 몇가지 기술들이 있으며 이것들은 매우 중요하다. 예를들어 $m$건의 훈련 데이터(training data)가 있을 때, for-loop를 이용해 데이터 한건 한건 처리할수도 있다. 하지만 보다 나은 접근은 for-loop 없이 전체 데이터를 한꺼번에 처리하는 것이고, 이를 어떻게 할 수 있는지 살펴볼 것이다. 다음으로 일반적인 신경망을 학습시킬 때 순전파(forward propagation)와 역전파(back propagation)를 수행하는데 왜 이런 것들이 필요한지도 살펴볼 것이다. 이해를 돕기 위해 로지스틱 회귀(logistic regression) 모형을 이용한 예제를 이용할 것이다.

### Binary Classification

로지스틱 회귀는 이항 분류(binary classification) 문제를 풀기 위한 방법론이다. 간단한 이항 분류 문제로 아래 그림과 같이 64 x 64의 이미지가 주어지고 이것이 고양이 그림인지(1) 혹은 그렇지 않은지(0)을 분류해야 한다고 해 보자. (앞으로 출력값을 $y$로 표기하기로 한다.)

(아래 예시 그림은 공간이 부족하여 5 x 5 행렬로 그림) 이 예제의 이미지는 각각 적색, 녹색, 파란색의 강도(0~255)를 표현하는 3개의 64 x 64 행렬로 컴퓨터에 저장된다. 입력 데이터를 열 벡터로 표현해보면 우선 적색 행렬의 좌측 상단부터 255, 231, 42, 22, 123, ... , 202를 아래로 나열하고, 그 아래로 녹색 행렬의 숫자들 255, 134, 202, ... 그리고 파란색 행렬의 숫자를 모두 나열한다. 이는 $\mathbb{R}^{12288 \times 1}$의 열 벡터가 될 것이다. ($64 \times 64 \times 3 = 12288$). 이때 입력 피처(input feature) 크기를 $n_x$로 표기하기로 하며, 아래 예에서는 그 값이 12288이다. (종종 간단히 $n$이라 표기하기도 할 것이다)

결국 이 문제에서 하려는 것은 $x$가 주어졌을 때 $y$를 맞추는 것이다.

![image.png](attachment:image.png)

###### 표기법

- 훈련 데이터 한건은 $(x, y)$의 쌍이며, $x$는 $x \in \mathbb{R}^{n_x}$의 열-벡터(column vector)이고, $y$는 1 혹은 0의 값을 갖는다.($y \in \{0, 1\}$)
- 훈련 데이터의 건수는 $m$이라 표기할 것이다. 즉 $\left\{(x^{(1)}, y^{(1)}), ~ (x^{(2)}, y^{(2)}), ~ \cdots ~, (x^{(m)}, y^{(m)})\right\}$로 구성된 데이터이다.
- 종종 훈련 데이터의 건수라는 것을 표현하기 위해 $m_{train}$와 같은 표기도 사용할 것이며, 테스트 데이터의 건수는 $m_{test}$로 표기할 것이다.
- 입력 데이터를 행렬로 표현할 때는 $X$로 표기할 것이며, 각 변수가 열-벡터로 $m$개 열이 $X$을 구성하게 된다. 물론 각 데이터 건을 전치된 열-벡터(transposed column vector)로 위에서부터 쌓는 구조로 $X$를 표현할수도 있으나 각 변수를 열-벡터로 표현하면 그 구현이 훨신 수월해진다.
- 출력 데이터는 $m$건의 출력값을 행-벡터($y \in \mathbb{R}^{1\times m}$)로 표현한다. 물론 열-벡터로 표현하는 것도 가능하지만 행-벡터로 표현하는 것이 파이썬 구현을 훨씬 수월하게 하며, 행-벡터로 표현했을 때 파이썬 벡터의 shape값이 (1, m)이 된다.

![image.png](attachment:image.png).

### Logistic Regression

지도학습 특히 타겟 값이 0vs1과 같이 이항인 경우 유용한 방법 중 하나가 로지스틱 회귀 모형이다. 이런 모형을 통해 타겟 값이 0일지 혹은 1일지를 예측하는 것이 목표이며, 보다 엄밀히는 어떤 입력 데이터 $x$가 주어졌을 때 타겟값이 1일 확률값, $\hat{y}=P(y=1 ~|~ x)$를 얻게 되는 것이다.(혹은 0일 확률) 

이때 $x$는 $n_x$차원 벡터($x\in \mathbb{R}^{n_x}$)이고      
모형의 모수(parameter)  $b$와 $w$는 각각 실수($b \in \mathbb{R})$와 $n_x$차원 벡터($w\in \mathbb{R}^{n_x}$)이다.

$x$, $b$, $w$를 이용해 

![image.png](attachment:image.png)

### Logistic Regression Cost Function

![image.png](attachment:image.png)

### Gradient Descent

![image.png](attachment:image.png)

![image.png](attachment:image.png)

### Derivatives

![image.png](attachment:image.png)

.

### More Derivative Examples

![image.png](attachment:image.png)

![image.png](attachment:image.png)

### Computation graph

.

### Derivatives with a Computation Graph

.

### Logistic Regression Gradient Descent

.

### Gradient Descent on m Examples

.

# Python and Vectorization

.

### Vectorization

.

### More Vectorization Examples

.

### Vectorizing Logistic Regression

.

### Vectorizing Logistic Regression's Gradient Output

.

### Broadcasting in Python

.

### A note on python/numpy vectors

.

### Quick tour of Jupyter/iPython Notebooks

.

### Explanation of logistic regression cost function (optional)

.

.

.