# OLS(Ordinary Least Squares) Model in Statistics
\begin{equation}  y_{i}=\beta_{0}+\beta_{1}x_{i,1}+\beta_{2}x_{i,2}+\ldots+\beta_{k}x_{i,k}+\epsilon_{i} \qquad \text {for } i = 1,2,\cdots,n \end{equation}
<br>
또는 행렬식으로 표현하면,

$$ y = X\beta + \epsilon $$
<br>
$$ X_{n * p} = 
\begin{bmatrix} 
1 & x_{1,1} & x_{1,2} &\cdots & x_{1,k} \\
1 & x_{2,1} & x_{2,2} &\cdots & x_{2,k} \\
 \vdots & \vdots  & \vdots  &\vdots & \vdots  \\
1 & x_{n,1} & x_{n,2} &\cdots & x_{n,k} \\
\end{bmatrix}
\quad
$$
<br>
<br>
$$ y_{n * 1} = 
\begin{bmatrix} 
y_{1} & \\
y_{2} & \\
 \vdots & \\
y_n \\
\end{bmatrix},
\quad
%%%
\beta_{p*1}=
\begin{bmatrix} 
\beta_0 & \\
\beta_1 & \\
 \vdots & \\
\beta_k \\
\end{bmatrix} 
$$
<br>
  - X: n개의 표본에서 얻은 $k$개의 독립변수에 대한 데이터 행렬
  - y: n개의 표본에서 얻은 종속변수(Dependent, presponse, or target Variable) 에 대한 데이터 백터
  - $\epsilon$ 은 미지의 에러항
  - n: sample size
  - k: 독립변수(Independent, Explanatory, or predictor variables)의 갯수
  - $p = k+1$ : regression parameters의 갯수 ($\beta_0, \beta_1, \beta_2, \cdots, \beta_k)$ 
  - $\epsilon_i$는 독립항등 정규분포(independently and identically normally distributed)를 가정  
  $$ \epsilon_i \sim \mathcal{N}(0,\,\sigma^{2})$$
  - $\beta_0$ 항은 $x_{i,0} =1$ 이 곱해진 것으로 간주할 수 있다.
<br>

  OLS에서 $\beta$는 아래 공식으로 구할 수있다.

$$ \hat{\beta} = \big(X'X)^{-1}X'y$$

TensorFlow 자습서에서 신경망을 사용한 회귀 분석 소개
회귀 문제에 대한 정의는 여러 가지가 있지만, 여기서는 숫자 예측으로 단순화

예를 들어 다음과 같이 할 수 있습니다.

* 해당 주택에 대한 정보(예: 방 수, 크기, 욕실 수)가 주어진 주택의 판매 가격을 예측합니다.
* 이미지에 있는 항목의 경계 상자의 좌표를 예측합니다.
* 인구 통계(나이, 성별, 성별, 인종)를 기준으로 개인의 의료 보험 비용을 예측합니다.

# **신경세포(Biological Neuron) 작동 원리**

<img src="https://pds.joins.com/news/component/joongang_sunday/201811/17/a0b23428-c888-43ae-a923-83d2c0055949.jpg">

- 수상돌기(Dendrite) 는 다른 신경세포의 시냅스(Synapse)로부터 신호를 받아들이는 역할을 한다. 
- 축색(Axon)은 다른 신경세포에 신호를 전달해 주기 위한 통신선로다. 
- 축색의 끝에 붙어 있는 시냅스는 다른 뇌세포에 신호를 주는 부분이다. 
- 수상돌기를 통하여 들어온 신호는 세포체(Nucleus)로 전달된다. 
- 많은 수상돌기에서 들어온 신호는 세포체에서 하나로 종합된다. 
- 이것이 축색을 거치고 시냅스를 통하여 다른 세포에 전해진다. 
- 신경세포에 흐르는 신호는 전기적인 신호다.
- 시냅스와 수상돌기 사이에는 작은 틈이 있다. 틈이 있기 때문에 전기 신호가 직접 전달되지 않는다. 
- 신경세포는 자극이 들어오면 흥분된다.
- 신경세포가 흥분되면 외부에 있는 플러스 나트륨 이온(Na+)이 내부로 들어오면서, 세포 안팎의 전압 차이가 바뀐다. 이러한 전압 변화를 ‘활동전위’라 부른다.  
- 활동전위가 축색을 따라서 이동하다 보면 축색의 끝에 도달하여 시냅스를 만나게 된다. 
- 시냅스에는 ‘소포(synaptic vesicle)’라는 것이 있는데, 이것은 신경물질을 간직하고 있다. 시냅스에 활동전위가 도착하면 소포가 터지면서 아세틸콜린이라는 화학 전달물질이 방출된다. 
- 이 물질은 시냅스를 빠져나가, 다른 세포의 수상돌기 벽을 자극한다. 

# **Perceptron (Artificial Neuron)**: A Basic Unit in Neural Network(NN): 

__Perceptron with Linear Activation Function__

> <img src= "https://i.stack.imgur.com/75VU8.png">

__Perceptron with Non-Linear Activation Function__

> <img src= "https://www.researchgate.net/profile/Pradeep-Singh-32/publication/283339701/figure/fig2/AS:421642309509122@1477538768781/Single-Layer-Perceptron-Network-Multilayer-Perceptron-Network-These-type-of-feed-forward.png">

### A Typical NN Architecture

  - Shallow Neural Network

> <img src= "https://cdn-images-1.medium.com/max/1000/1*3FMmI_9rrB2V7-UuTjQ3dA.png">

  - Deep Neural Network (DNN)

> <img src="https://www.researchgate.net/publication/324700732/figure/fig1/AS:618579816902662@1524492329855/A-typical-DNN-structure-for-image-object-recognition.png">




# **What we're going to cover**
- 회귀 모형의 아키텍처
- 입력 모양 및 출력 모양
    * 'X': 특징/데이터(입력)
    * 'y': 레이블(레이블)
- 보고 맞출 사용자 지정 데이터 만들기ㅉ
- 모델링 단계
    * 모델 만들기
    * 모델 컴파일
        * 손실 함수 정의
        * 최적화 도구 설정
        * 평가 지표 작성
    * 모델 적합(데이터의 패턴을 찾기 위해 모델 가져오기)
- 모델 평가
    - 모델 시각화("시각화, 시각화, 시각화")
    * 교육 곡선 보기
    * 예측과 실제 상황 비교(평가 지표 사용)
- 모델 저장(나중에 사용할 수 있도록)
- 모델 로드

<img src="https://miro.medium.com/max/2048/1*QV1rVgh3bfaMbtxueS-cgA.png">

Typical architecture of a regresison neural network
# **회귀신경망의 전형적인 구조**

신경망을 작성하는 방법은 매우 다양함

그러나 다음은 일련의 숫자를 수집하여 패턴을 찾은 다음 대상 번호를 출력하기 위한 일반적인 설정입니다.

Typical architecture of a regresison neural network

신경망을 작성하는 방법은 매우 다양

다음은 일련의 숫자를 수집하여 패턴을 찾은 다음 대상 번호를 출력하기 위한 일반적인 설정입니다.

네, 앞의 문장이 모호하지만, 잠시 후 이 문장이 실행되도록 하겠습니다.<br><br>


| **Hyperparameter** | **Typical value** |
| --- | --- |
| Input layer shape | 기능의 수와 동일한 모양(예: #침실, #화장실, #주택 가격 예측의 #차 공간) |
| Hidden layer(s) | 특정 문제, 최소 = 1, 최대 = 무제한 |
| Neurons per hidden layer | 특정 문제(일반적으로 10~100) |
| Output layer shape | 원하는 예측 모양과 동일한 모양(예: 집값의 경우 1) |
| Hidden activation | Usually [ReLU](https://www.kaggle.com/dansbecker/rectified-linear-units-relu-in-deep-learning) (rectified linear unit) |
| Output activation | None, ReLU, logistic/tanh |
| Loss function | [MSE](https://en.wikipedia.org/wiki/Mean_squared_error) (mean square error) or [MAE](https://en.wikipedia.org/wiki/Mean_absolute_error) (mean absolute error)/Huber (combination of MAE/MSE) if outliers |
| Optimizer | [SGD](https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/SGD) (stochastic gradient descent), [Adam](https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/Adam) |

<br>
회귀 네트워크의 일반적인 아키텍처 원본: Aurélien Géron의 Skit-Learn, Keras & TensorFlow Book 293페이지의 Skikit-Learn을 각색한 Hands-On Machine Learning

> 🔑 **Note :** 기계 학습에서 하이퍼 파라미터는 데이터 분석가 또는 개발자가 직접 설정할 수 있는 것이며, 매개변수는 일반적으로 모델이 스스로 학습하는 것을 설명합니다(분석가가 명시적으로 설정하지 않은 값).

In [None]:
!nvidia-smi

# **Creating data to view and fit**

** 회귀 분석 문제**(숫자 예측)에 대해 연구하고 있으므로 모형화할 선형 데이터(직선)를 몇 개 생성하겠습니다.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Create features
x = np.array([-7.0, -4.0, -1.0, 2.0, 5.0, 8.0, 11.0, 14.0])

# Create labels
y = np.array([3.0, 6.0, 9.0, 12.0, 15.0, 18.0, 21.0, 24.0])

### y = x + 10

# 시각화
plt.scatter(x, y);

In [None]:
Y = tf.expand_dims(tf.constant(y), axis=-1)
Y

In [None]:
# Data massaging
# 데이터를 세로로 붙이는 np.c_
X = np.c_[np.ones((8, 1)), x]

# 세로로 데이터를 붙여서 2차원 함수로 만듬
tensor_X = tf.constant(X, dtype=tf.float32)
Y = np.c_[y]
tensor_Y = tf.constant(Y, dtype=tf.float32)

print(tensor_X)
print(tensor_Y)

In [None]:
# Using tensorflow and @
def betahat(X, Y):
    XT  = tf.transpose(X)
    XTX = XT @ X
    XTX_INV = tf.linalg.inv(XTX)
    return XTX_INV @ XT @ Y

betahat(tensor_X, tensor_Y)

In [None]:
# Using tensorflow and tf.matmul

def betahat(X,Y):
  W = tf.matmul(tf.matmul(tf.linalg.inv(tf.matmul(X, X,transpose_a=True)),tf.transpose(X)),Y)
  return W.numpy()
MYY
betahat(tensor_X, tensor_Y)

# **Steps in modelling**


이제 입력과 출력 형태뿐만 아니라 어떤 데이터가 있는지 알게 되었습니다. 이 데이터를 모델링하기 위한 신경망을 어떻게 구축할 것인지 알아보겠습니다.

TensorFlow에서는 일반적으로 모델을 만들고 교육하기 위한 3가지 기본 단계가 있습니다.

* 모델 만들기 - 신경 네트워크의 계층을 직접 구성(기능 또는 순차 API 사용)하거나 이전에 구축된 모델(전송 학습이라고 함)을 가져옵니다.
* 모델 컴파일 - 모델 성능을 측정하는 방법(손실/측정지표)을 정의하고 개선 방법(최적화 도구)을 정의합니다.
* 모형 적합 - 모형에서 데이터에서 패턴을 찾을 수 있습니다(X가 y에 도달하는 방법).

여기서 우리의 목표는 예측하기 위해 X를 사용하는 것입니다.

그래서 우리의 입력은 X이고 출력은 y입니다.

In [None]:
# Create features
X = np.array([-7.0, -4.0, -1.0, 2.0, 5.0, 8.0, 11.0, 14.0])

# Create labels
Y = np.array([3.0, 6.0, 9.0, 12.0, 15.0, 18.0, 21.0, 24.0])

# Note that y = X+10.

In [None]:
# Set Random seed
tf.random.set_seed(42)

# Create a model using the Sequential API
model = tf.keras.Sequential([
    tf.keras.layers.Dense(1)
])

# Complie the model
model.compile(loss=tf.keras.losses.mae, 
              optimizer=tf.keras.optimizers.SGD(),
              metrics=['mae'])

# Fit the model
model.fit(X, Y, epochs=100)

# Get the weight and bias
all_weight = model.layers[0].weights
all_weight

쿵!

우리는 방금 X와 Y 사이의 패턴을 알아내기 위한 모델을 훈련시켰습니다.

어떻게 된 것 같아?

In [None]:
# Cheack out X and Y
X, Y

X 값 17.0을 넘겼을 때 어떤 결과가 나와야 한다고 생각하십니까?

In [None]:
# Make a prediction with the model
model.predict([17.0])

잘 안 돼... 27.0에 가까운 것을 출력했어야 했어요

# **Improving a model**

모델을 개선하기 위해 이전에 거쳤던 3단계의 거의 모든 부분을 변경했습니다.

1. 모델 만들기 - 사용하려는 경우
* 층을 더하다
* 각 계층 내에서 숨겨진 단위(뉴런이라고도 함)의 수를 늘립니다__
* 각 레이어의 활성화 함수를 변경합니다.

> [📒 Activation Functions](https://en.wikipedia.org/wiki/Activation_function)

> [📒 Activation Functions in Tensorflow-Keras](https://www.tensorflow.org/api_docs/python/tf/keras/activations)

2. 모델 컴파일 - 원하는 경우
* 다른 최적화 함수 사용
* 최적화 함수의 학습 속도를 변경합니다.

> [📒 An Empirical Comparison of Optimizers for Machine Learning Models](https://heartbeat.fritz.ai/an-empirical-comparison-of-optimizers-for-machine-learning-models-b86f29957050)

3. 모형 적합 - 가능한 경우
* 모형을 더 많은 에포크로 적합(더 오랜 시간 동안 훈련)
* 모델에 배울 수 있는 더 많은 예를 제시합니다.

와, 우리가 방금 여러 가지 가능한 단계들을 소개했어 <br>기억해야 할 중요한 것은 이것들을 어떻게 바꾸느냐 하는 것은 당신이 연구하고 있는 문제에 달려있다는 것입니다.

지금은 단순하게 모델을 더 오래 교육하는 것 뿐입니다(다른 모든 것은 그대로 유지됨).

In [None]:
# Set random seed
tf.random.set_seed(42)

# Create a model (same as above)
model = tf.keras.Sequential([
    tf.keras.layers.Dense(1)
])

# Compile model (same as above)
model.compile(loss=tf.keras.losses.mae,
              optimizer = tf.keras.optimizers.SGD(),
              metrics=['mae'])

# Fit model (this time we'll train for longer)
model.fit(X, Y, epochs = 100) # train for 100 epochs not 10

# Get the weight and bias in layer(0)
all_weight = model.layers[0].weights
all_weight

손실 값이 이전보다 감소했음을 알 수 있습니다(에포크 수가 늘어날수록 계속 감소).

우리의 모델로 예측했을 때 이것이 무엇을 의미한다고 생각합니까?



In [None]:
# Remind ourselves of what X and y are
X, Y

In [None]:
# Try and predict what y would be if X was 17.0
model.predict([17.0]) # the right answer is 27.0 (y = X + 10)

훨씬 나아!

이번엔 좀 친해졌네요. 그래도 우린 더 나을 수 있어

이제 모델을 교육했는데 어떻게 평가해야 할까요?

신경망을 구축할 때 거쳐야 할 일반적인 작업 흐름은 다음과 같습니다

Build a model -> evaluate it -> build (tweak) a model -> evaulate it -> build (tweak) a model -> evaluate it...<br>
모델 제작 -> 평가 -> 모델 제작 (약함) -> 평가 -> 모델 제작 (약함) 평가 -> 평가

🤣 명심하라: "실험, 실험, 실험!!!"

이러한 조정은 모델을 처음부터 만드는 것이 아니라 기존 모델을 조정하는 데서 발생할 수 있습니다.

# **Evaluating a model**

평가 시 **"시각화, 시각화, 시각화"**라는 단어를 기억해야 합니다."

왜냐하면 당신이 무언가를 생각하는 것보다 무언가를 보는 것이 더 나을 것이기 때문입니다.

시각화하는 것이 좋습니다.

* 데이터 - 어떤 데이터로 작업하고 있습니까? 무엇처럼 보이나요?
* 모델 자체 - 아키텍처는 어떻게 생겼습니까? 다른 모양들은 무엇인가요?
* 모델의 교육 - 모델이 학습하는 동안 어떻게 수행합니까?
* 모형의 예측 - 모형의 예측이 지면 진리(원래 라벨)에 대해 어떻게 선형화됩니까?

먼저 모델을 시각화해 보겠습니다.

하지만 먼저 좀 더 큰 데이터셋을 만들고 사용할 수 있는 새로운 모델을 만들 것입니다(이전과 동일하지만 연습을 많이 할수록 좋습니다).

In [None]:
# Make a bigger dataset
X = np.arange(-100, 100, 4)
X

In [None]:
# Make labels for the dataset (adhering to the same pattern as before)
Y = np.arange(-90, 110, 4)
Y

Since $y=X+10$, we could make the labels like so:

In [None]:
# Same result as above
Y = X + 10
Y

# **Split data into training/test set**

기계 학습 프로젝트에서 가장 일반적이고 중요한 단계 중 하나는<br>교육 및 테스트 세트(필요한 경우 검증 세트)를 만드는 것입니다.

각 세트는 다음과 같은 용도로 사용 :

* Training set - 이 데이터를 통해 학습합니다. 이 데이터는<br> 일반적으로 학기 중 학습하는 과정 자료와 같이 사용 가능한 전체 데이터의 70-80%에 해당합니다.

* Validation set - 이 데이터는 일반적으로 최종 시험 전에 치르는<br> 연습 시험과 같이 사용 가능한 총 데이터의 10-15%에 해당하는 모형으로 조정됩니다.

* Test set - 이 데이터에 대해 평가하여 학습한 내용을 검정합니다.<br> 일반적으로 사용 가능한 총 데이터의 10-15%(학기 말에 보는 기말고사 등)입니다.

지금은 교육 및 테스트 세트만 사용할 것입니다. 즉, 모델이 학습할 데이터셋과 평가를 받을 데이터셋을 보유하게 됩니다.

X 어레이와 Y 어레이를 분할하여 생성할 수 있습니다.

🔑 참고: 이 단계는 일반적으로 프로젝트를 시작할 때 바로 수행됩니다<br>  (테스트 세트는 항상 다른 모든 데이터와 별도로 유지되어야 함).<br> 우리는 모델이 교육 데이터에 대해 학습한 후 테스트 데이터에 대해<br> 평가하여 보이지 않는 예제에 얼마나 잘 일반화되는지 알 수 있기를 원합니다.

In [None]:
# Check how many samples we have
len(X)

In [None]:
# Split data into train and test sets
X_train = X[:40] # first 40 examples (80% of data)
Y_train = Y[:40]

X_test = X[40:] # last 10 examples (20% of data)
Y_test = Y[40:]

len(X_train), len(X_test)

# **Visualizing the data**

이제 교육 및 테스트 데이터가 확보되었으니 시각화하는 것이 좋습니다.

뭐가 뭔지 구별할 수 있도록 멋진 색깔로 플롯을 짜보자.

In [None]:
plt.figure(figsize=(10, 7))
# Plot training data in blue
plt.scatter(X_train, Y_train, c='b', label='Training data')
# Plot test data in green
plt.scatter(X_test, Y_test, c='g', label='Testing data')
# Show the legend
plt.legend();

예쁘다! 언제라도 데이터, 모델, 무엇이든 시각화할 수 있다면 좋은 생각입니다.

이 그래프를 염두에 두고 파란색 점(X_train)에서 패턴을 학습하여 녹색 점(X_test)을 그리는 모델을 제작하려고 합니다.

모델을 만들 시간입니다. 우리는 예전과 똑같은 것을 만들 것이다.

In [None]:
# Set trandom seed
tf.random.set_seed(42)

# Create a model (same as above)
model = tf.keras.Sequential([
    tf.keras.layers.Dense(1)
])

# Compile model (same as above)
model.compile(loss=tf.keras.losses.mae,
              optimizer=tf.keras.optimizers.SGD(),
              metrics=['mae'])

# Fit model (same as above)
model.fit(X_train, Y_train, epochs=100) # commmented out on purpose (not fitting it just yet)

# **Visualizing the model**

모델을 만든 후에는 모델을 살펴보는 것이 좋습니다(특히 이전에 모델을 많이 만들지 않은 경우).

요약()을 호출하여 모델의 도면층과 모양을 볼 수 있습니다.

🔑 참고: 모델을 시각화하면 입력 및 출력 모양이 일치하지 않을 때 특히 유용합니다.

In [None]:
# Doesn't work (model not fit/built)
model.summary()

아, 위의 셀은 우리가 만든 모델에 맞지 않아서.

또한 어떤 입력 형태를 기대해야 하는지도 알려주지 않았습니다.

위에서 우리가 입력 쉐이프를 어떻게 논의했는지는 숫자 하나에 불과했던 것을 기억하십니까?

첫 번째 도면층에 대한 input_shape 매개변수를 사용하여 모델에 데이터 입력 모양을 알릴 수 있습니다(일반적으로 input_shape이 정의되지 않은 경우 Keras는 자동으로 데이터를 파악하려고 시도함).

In [None]:
# Set random seed
tf.random.set_seed(42)

# Create a model
model = tf.keras.Sequential([
    tf.keras.layers.InputLayer(input_shape=[1]),
    tf.keras.layers.Dense(1) # define the input_shape to our model
    # tf.keras.layers.Dense(1, input_shape=[1]) # define the input_shape to our model
])

# Compile model
model.compile(loss=tf.keras.losses.mae,
              optimizer = tf.keras.optimizers.SGD(),
              metrics=['mae'])

In [None]:
# This will work after specifying the input shape
model.summary()

model.summary()는 모델에 포함된 레이어, 출력 모양 및 파라미터 수를 보여줍니다.

* Total params - 모형의 총 원자 수입니다.
* 훈련 가능한 매개변수 - 모델이 훈련할 때 업데이트할 수 있는 매개변수(패턴)입니다.
* 교육할 수 없는 매개 변수 - 이러한 매개 변수는 교육 중에 업데이트되지 않습니다(전 학습 중에 다른 모델에서 이미 학습된 패턴을 가져오는 것이 일반적임).

📖 리소스: 계층 내에서 교육 가능한 매개변수에 대한 보다<br> 심도 있는 개요는 MIT의 딥러닝 비디오 소개를 참조하십시오.

우리의 모델을 학습시켜보자.

In [None]:
# Fit the model to the training data
model.fit(X_train, Y_train, epochs=100, verbose=2) # verbose controls how much hets output

In [None]:
# Check the model summary
model.summary()

요약과 함께 다음 명령을 사용하여 모형의 2D 그림을 볼 수도 있습니다. plot model()

In [None]:
from tensorflow.keras.utils import plot_model
plot_model(model, show_shapes=True)

우리의 경우, 우리가 사용한 모델은 입력과 출력만 있지만<br>더 복잡한 모델을 시각화하는 것이 디버깅에 매우 도움이 될 수 있습니다.

# **Visualizing the predictions**

이제 훈련된 모델이 있습니다. 몇 가지 예측을 시각화해 보겠습니다.

예측을 시각화하려면 항상 지면 진실 레이블에 대해 그림을 그리는 것이 좋습니다.

종종 당신은 이것을 'y_test'의 형태로 볼 것이다. 'y_pred'(근거 진실 대 예측).

먼저 검정 데이터에 대한 몇 가지 예측("X_test")을 수행하겠습니다. 이 모형은 테스트 데이터를 본 적이 없습니다.

In [None]:
# Make predictions
y_preds = model.predict(X_test)

# View the predictions
y_preds

좋아요, 숫자 목록을 얻었지만, 이걸 어떻게 실제 라벨과 비교할 수 있죠?

플롯 기능을 구축해서 알아보자.

🔑 참고: 무언가를 많이 시각화할 것 같으면 나중에 사용할 수 있도록 기능을 설정하는 것이 좋습니다.

In [None]:
def plot_predictions(train_data=X_train,
                     train_labels=Y_train,
                     test_data=X_test,
                     test_labels=Y_test,
                     predictions=y_preds):
    """
    Plots training data, test data and compares predictions.
    """
    plt.figure(figsize=(10, 7))
    # Plot training data in blue
    plt.scatter(train_data, train_labels, c="b", label="Training data")
    # Plot test data in green
    plt.scatter(test_data, test_labels, c="g", label="Testing data")
    # Plot the predictions in red (predictions were made on the test data)
    plt.scatter(test_data, predictions, c="r", label="Predictions")
    # Show the legend
    plt.legend()
    

In [None]:
plot_predictions (train_data = X_train, 
                  train_labels=Y_train,
                  test_data=X_test,
                  test_labels=Y_test,
                  predictions=y_preds)

줄거리에서 우리는 우리의 예측이 완전히 이상하지는 않다는 것을 알 수 있지만 그것들은 확실히 특별한 것도 아니다.

# **Evaluating predictions**

시각화 해제와 함께 평가 metrics는 모델을 평가하기 위한 최선의 대안 옵션입니다.<br>
진행 중인 문제에 따라 모델마다 평가 metrics이 다릅니다.

회귀 문제에 사용되는 두 가지 주요 metrics는 다음과 같습니다.

* 평균 절대 오차(MAE) - 각 예측 간의 평균 차이입니다.
* 평균 제곱 오차(MSE) - 예측 사이의 평균 차이 제곱(오차가 클수록 작은 오차보다 해로운 경우 사용)

각 값이 낮을수록 좋습니다.

모델 손실과 컴파일 단계 중 설정된 metrics를 반환하는 model.evaluate()도 사용할 수 있습니다.

In [None]:
# Evaluate the model on the test set
model.evaluate(X_test, Y_test)

우리의 경우, 손실 함수는 MAE를 사용하였고,<br>
메트릭은 MAE를 사용하였으므로 model.evaluate()에서 둘 다 반환하였습니다.

텐서플로우에는 MSE와 MAE 기능도 내장돼 있다.

많은 평가 함수의 경우, 예측과 truth labels를 비교하는 전제는 동일함

In [None]:
# Calculate the mean absolute error
# 평균 절대오차 계산
mae = tf.metrics.mean_absolute_error(y_true = Y_test,
                                     y_pred = y_preds)
mae

이상하네, MAE는 단일 결과물이어야 해

대신, 우리는 10개의 값을 얻습니다.

그 이유는 y_test와 y_predensor의 모양이 다르기 때문입니다.

In [None]:
# Check the test label tensor values
Y_test

In [None]:
# Check the predictions tensor values (notice the extra square brackets)
y_preds

In [None]:
# Check the tensor shapes
Y_test.shape, y_preds.shape

여러 가지 입력 및 출력 모양을 처리하는 방법에 대해 논의한 것이 가장 일반적인 문제 중 하나이며, 이때가 바로 이러한 문제 중 하나입니다.

squeeze()를 사용하여 고정할 수 있습니다. 그러면 y_pres 텐서에서 1차원이 제거되어 y_test와 동일한 모양이 됩니다.

🔑 참고: 두 텐서를 비교하는 경우 올바른 모양인지 확인하는 것이 중요합니다<br>(항상 모양을 조작할 필요는 없지만 항상 주의할 필요가 있습니다.<br> 특히 입력 및 출력 모양이 일치하지 않는 경우 많은 오류가 일치하지 않는 텐서로 인해 발생합니다).

In [None]:
# Shape before squeeze()
y_preds.shape

In [None]:
# Shape after squeeze()
y_preds.squeeze().shape

In [None]:
# What do they look like?
Y_test, y_preds.squeeze()

이제 y_test 센서와 y_pred 센서를 같은 모양으로 만드는 방법을 배웠습니다. 평가 메트릭스를 사용해 보겠습니다.

In [None]:
y_pred=y_preds.squeeze() # use squeeze() to make same shape
maey_pred=y_preds.squeeze() # use squeeze() to make same shape
maey_pred=y_preds.squeeze() # use squeeze() to make same shape
maey_pred=y_preds.squeeze() # use squeeze() to make same shape
maey_pred=y_preds.squeeze() # use squeeze() to make same shape
mae
mae

In [None]:
# Calculate the MSE
mse = tf.metrics.mean_squared_error(y_true = Y_test,
                                    y_pred = y_preds.squeeze())
mse

또한 순수 텐서플로우 함수를 사용하여 MAE를 계산할 수 있습니다.

In [None]:
# Returns the same as tf.metrics.mean_absolute_error()
tf.reduce_mean(tf.abs(Y_test-y_preds.squeeze()))

시 한 번, 사용할 수 있다고 생각되는 모든 기능을 반복적으로 사용하는 것이 좋습니다.

우리의 평가 지표에 대한 기능을 만들어 봅시다.

In [None]:
def mae(y_test, y_pred):
  """
  Calculuates mean absolute error between y_test and y_preds.
  """
  return tf.metrics.mean_absolute_error(y_test,
                                        y_pred.squeeze()).numpy()
  
def mse(y_test, y_pred):
  """
  Calculates mean squared error between y_test and y_preds.
  """
  return tf.metrics.mean_squared_error(y_test,
                                       y_pred.squeeze()).numpy()

# **Running experiments to improve a model**


평가 메트릭과 모델이 수행하는 예측을 보고 나면 평가 메트릭을 개선하고자 할 가능성이 높습니다.

이 작업을 수행하는 방법은 여러 가지가 있지만, 주요 방법 중 3가지는 다음과 같습니다.

1. 더 많은 데이터 얻기 - 모델에 대해 교육할 수 있는 더 많은 예(패턴을 배울 수 있는 더 많은 기회)를 얻습니다.
모델을 더 크게 만듭니다(더 복잡한 모델 사용). 
2. 각 레이어에서 더 많은 레이어 또는 더 많은 숨겨진 단위의 형태로 나타날 수 있습니다.
3. 더 오래 교육 - 모형이 데이터에서 패턴을 찾을 수 있는 기회를 더 많이 제공합니다.

데이터셋을 만들었기 때문에 더 많은 데이터를 쉽게 만들 수 있었지만<br> 실제 데이터셋으로 작업할 때는 항상 그렇지 않습니다.

그럼 2와 3을 사용하여 모델을 개선할 수 있는 방법을 살펴보겠습니다.

이를 위해 3가지 모델을 제작하고 그 결과를 비교할 것입니다.

1. model_1 - 100Epoch에 대해 훈련된 원래 모델과 동일, 도면층 1개.
2. model_2 - 2 레이어, 100Epoch에 대해 교육됩니다.
3. model_3 - 2 레이어, 500Epoch에 대해 교육됨.

## Build mode_1

In [None]:
# Set random seed
tf.random.set_seed(42)

# Replicate original model
model_1 = tf.keras.Sequential([
  tf.keras.layers.Dense(1)
])

# Compile the model
model_1.compile(loss=tf.keras.losses.mae,
                optimizer=tf.keras.optimizers.SGD(),
                metrics=['mae'])

# Fit the model
model_1.fit(X_train, Y_train, epochs=100)

In [None]:
# Make and plot predictions for model_1
y_preds_1 = model_1.predict(X_test)
plot_predictions(predictions=y_preds_1)

In [None]:
# Calculate model_1 metrics
mae_1 = mae(Y_test, y_preds_1)
mse_1 = mse(Y_test, y_preds_1)
mae_1, mse_1

## BIild model_2
이번에는 다른 모든 것은 동일하게 유지하면서<br>
추가 밀도 레이어(현재 모델에는 2 레이어가 있음)를 추가할 예정입니다.

In [None]:
# Set random seed
tf.random.set_seed(42)

# Replicate model_1 and add an extra layer
model_2 = tf.keras.Sequential([
  tf.keras.layers.Dense(1),
  tf.keras.layers.Dense(1) # add a second layer
])

# Compile the model
model_2.compile(loss=tf.keras.losses.mae,
                optimizer=tf.keras.optimizers.SGD(),
                metrics=['mae'])

# Fit the model
model_2.fit(X_train, Y_train, epochs=100, verbose=1) # set verbose to 0 for less output

In [None]:
# Make and plot predictions for model_2
y_preds_2 = model_2.predict(X_test)
plot_predictions(predictions=y_preds_2)

와, 벌써 좋아졌네! 그리고 한 겹 더 쌓기만 하면 돼

In [None]:
# Calculate model_2 metrics
mae_2 = mae(Y_test, y_preds_2)
mse_2 = mse(Y_test, y_preds_2)
mae_2, mse_2

## Build model_3

세 번째 모델의 경우 모든 것을 model_2와 동일하게 유지하되,<br> 이번에는 100이 아닌 500에포크를 더 오래 훈련할 것입니다.

이것은 우리 모델이 데이터의 패턴을 배울 수 있는 더 많은 기회를 줄 것입니다.

In [None]:
# Set random seed
tf.random.set_seed(42)

# Replicate model_2
model_3 = tf.keras.Sequential([
  tf.keras.layers.Dense(1),
  tf.keras.layers.Dense(1)
])

# Compile the model
model_3.compile(loss=tf.keras.losses.mae,
                optimizer=tf.keras.optimizers.SGD(),
                metrics=['mae'])

# Fit the model (this time for 500 epochs, not 100)
model_3.fit(X_train, Y_train, epochs=500, verbose=0) # set verbose to 0 for less output

In [None]:
# Make and plot predictions for model_3
y_preds_3 = model_3.predict(X_test)
plot_predictions(predictions=y_preds_3)

이상하네, 우리가 더 오래 훈련했는데 우리 모델이 성적이 더 나빴나?

알고 보니 우리 모델이 너무 오래 훈련해서 결과가 더 나빴을 수도 있습니다(나중에 너무 오랫동안 훈련을 하지 못하게 하는 방법을 알게 될 것입니다).

In [None]:
# Calculate model_3 metrics
mae_3 = mae(Y_test, y_preds_3)
mse_3 = mse(Y_test, y_preds_3)
mae_3, mse_3

# **Comparing results**

이제 유사하지만 약간 다른 3가지 결과가 나왔으니 비교해 봅시다.

In [None]:
model_results = [["model_1", mae_1, mse_1],
                 ["model_2", mae_2, mse_2],
                 ["model_3", mae_3, mse_3]]

In [None]:
import pandas as pd
all_results = pd.DataFrame(model_results, columns=["model", "mae", "mse"])
all_results

저희 실험 결과, 모델_2가 가장 좋은 성적을 낸 것 같습니다.

이제 여러분은 "모델 비교는 지루하다"고 생각할 수 있습니다."<br>확실히 그럴 수 있습니다. 여기서는 3가지 모델만 비교했습니다.

하지만 이것은 기계 학습 모델링의 일부로서, 다양한 모델의 조합을 시도하고<br> 어떤 것이 가장 잘 수행되는지 확인하는 것입니다.

여러분이 만든 각 모델은 작은 실험입니다.

또한 여러분이 생각하는 (모델을 더 오래 교육시키는 것과 같은) 것이 항상 효과가 있지는 않을 수도 있고<br> 그 반대인 경우도 종종 있다는 것을 알게 될 것입니다.

# **Tracking your experiments**

정말 좋은 습관 중 하나는 어떤 것이 다른 것보다 더 잘 수행되는지<br> 알아보기 위해 당신의 모델링 실험을 추적하는 것입니다.

위의 간단한 버전(결과를 다른 변수에 보관)을 수행했습니다.

📖 리소스: 하지만 모델을 더 많이 구축할수록 다음과 같은 도구를 사용하는 방법을 모색해야 합니다.

* TensorBoard - 모델링 실험을 추적하는 데 도움이 되는 TensorFlow 라이브러리의 구성요소입니다<br>(이 내용은 나중에 확인하겠습니다).
* Weights & Bias - 모든 종류의 기계 학습 실험을 추적하기 위한 도구입니다<br>(Weights & Bias의 좋은 소식은 TensorBoard에 연결된다는 것입니다).

# **Saving a model**

모델을 교육하고 원하는 대로 작동하는 모델을 찾은 후에는 다른 곳<br>(예: 웹 애플리케이션 또는 모바일 장치)에서 사용할 수 있도록 저장할 수 있습니다.

model.save()를 사용하여 TensorFlow/Keras 모델을 저장할 수 있습니다.

TensorFlow에는 두 가지 방법으로 모델을 저장할 수 있습니다.

* 저장된 모델 형식(기본값).
* HDF5 형식입니다.


둘의 주요 차이점은 저장된 모델이 모델을 다시 로드할 때 추가 수정 없이<br> 사용자 지정 객체(예: 특수 도면층)를 자동으로 저장할 수 있다는 것입니다.

어떤 걸로 할까요?

상황에 따라 다르지만 대부분의 경우 저장된 모델 형식으로도 충분합니다.

두 메서드 모두 동일한 메서드 호출을 사용합니다.

In [None]:
# Save a model using the SavedModel format
model_2.save('best_model_SavedModel_format')

In [None]:
# Check it out - outputs a protobuf binary file (.pb) as well as other files
!ls best_model_SavedModel_format

이제 모델을 HDF5 형식으로 저장하겠습니다. 동일한 방법으로 파일 이름을 변경하겠습니다.

In [None]:
# Save a model using the HDF5 format
model_2.save("best_model_HDF5_format.h5") # note the addition of '.h5' on the end

In [None]:
# Check it out
!ls best_model_HDF5_format.h5

# **ckpt, pb, h5 차이점?**

  - ckpt 파일
> tensorflow 로 학습시킨 딥러닝 모델을 저장하는 방법중 하나로 Checkpoint를 이용하는 방법이 있다.
Checkpoint 파일을 저장하고 불러옴으로써 학습된 모델을 재사용하고, 지난 학습을 이어서 더 하고 하는 작업들이 가능해진다.일반적으로 이야기하는 ckpt파일은 .ckpt-data와 같으며, 딥러닝 모델을 제외한 학습한 가중치(weight)만 있는 파일. 모델 구조(graph)는 저장하지 않는다.

    - .ckpt-meta : 모델(graph)만 있는 파일
    - .ckpt-data : 딥러닝 모델을 제외한 학습한 가중치(weight)만 있는 파일. 모델 구조(graph)는 저장하지 않는다.

  - pb 파일
> 모델 구조와 가중치(weight) 모두 저장된 파일. freeze_graph.py를 통해서 만들 수 있고,'그래프를 프리징시킨다.'라고 하면 pb파일을 만들 것이라는 뜻이다.

  - h5 파일
> Hierarchical Data Format (HDF)형식으로 저장되는 데이터. Keras에서는 모델 및 가중치(weight) 모두를 가지고 있는 단일 파일로 저장되면 확장자는 .h5 이다.

# **Loading a model**

load_model() 방법을 사용하여 저장된 모델을 로드할 수 있습니다.

다른 형식(저장된 모델 및 HDF5)에 대한 모델을 로드하는 것은 동일합니다<br>(특정 형식에 대한 경로 이름이 올바른 경우).

In [None]:
# Load a model from the SavedModel format
loaded_saved_model = tf.keras.models.load_model("best_model_SavedModel_format")
loaded_saved_model.summary()

이제 시험해 봅시다.

In [None]:
# Compare model_2 with the SavedModel version (should return True)
model_2_preds = model_2.predict(X_test)
saved_model_preds = loaded_saved_model.predict(X_test)
mae(Y_test, saved_model_preds) == mae(Y_test, model_2_preds)

HDF5에서 로드하는 것은 거의 동일합니다.

In [None]:
# Load a model from the HDF5 format
loaded_h5_model = tf.keras.models.load_model("best_model_HDF5_format.h5")
loaded_h5_model.summary()

In [None]:
# Compare model_2 with the loaded HDF5 version (should return True)
h5_model_preds = loaded_h5_model.predict(X_test)
mae(Y_test, h5_model_preds) == mae(Y_test, model_2_preds)

# **Downloading a model (from Google Colab)**

Google Collab에서 로컬 컴퓨터로 모델을 가져오려고 하면 다음 작업 중 하나를 수행할 수 있습니다.

* 파일 창에서 파일을 마우스 오른쪽 버튼으로 클릭하고 '다운로드'를 클릭합니다.
* 아래 코드를 사용합니다.

In [None]:
# Download the model (or any file) from Google Colab
from google.colab import files
files.download("best_model_HDF5_format.h5")

In [None]:
!ls /content
!pwd

# **A larger example**

지금까지 TensorFlow에서 신경망 회귀 모델을 구축하는 기본 원리를 살펴보았습니다.

이제 한 단계 더 높여 기능이 풍부한 데이터를 위한 모델을 구축해 보겠습니다.

좀 더 구체적으로, 우리는 연령, 성별, bmi, 어린이, 흡연_상태, 주거_지역과 같은<br> 여러 가지 요인을 바탕으로 개인의 의료보험 비용을 예측하려고 합니다.

이를 위해, 우리는 Kaggle과 GitHub에서 호스팅되는 공공 의료 비용 데이터셋을 활용할 것입니다.

In [None]:
# Import required libraries
import tensorflow as tf
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# Read in the insurance dataset
insurance = pd.read_csv("https://raw.githubusercontent.com/stedy/Machine-Learning-with-R-datasets/master/insurance.csv")
insurance

In [None]:
# Check out the insurance dataset
insurance.head()

In [None]:
insurance.tail(5)

In [None]:
insurance[0:5]

# **Dataframe Indexing**

* '열 이름' : df['age] 또는 df.page 사용
* 사용 목록: df['name',sex']
* pd.loc 사용: df.loc[행, [열 목록]
* pd.iloc 사용: df.iloc[row_index, [col_index]

In [None]:
# Method 1

insurance['age'].head()  

In [None]:
# Another way

insurance.sex.head()

In [None]:
# Method 2

insurance[['age','sex']].head()

In [None]:
# Method 3

insurance.loc[10:12,['age','bmi']]

In [None]:
# Method 4

insurance.iloc[:,[0,2]]

In [None]:
insurance.value_counts(['smoker','region'])

In [None]:
insurance.corr()
# 탐색적 데이터분석
# EDA (Exploratory Data Analysis)

In [None]:
import seaborn as sns

sns.pairplot(insurance[["charges", "age", "bmi", "children"]], diag_kind="kde")   # kde (Kernel Density Estimate)

비숫자 열을 숫자로 변환해야 합니다(신경망이 비숫자 입력을 처리할 수 없기 때문입니다).

그러기 위해 판다에게 get_dummies() 방법을 사용하겠습니다.

성별, 흡연자 및 영역 열과 같은 범주형 변수를 단일 핫 인코딩을 사용하여 숫자 변수로 변환합니다.

In [None]:
# Turn all categories into numbers
insurance_one_hot = pd.get_dummies(insurance)
insurance_one_hot.head() # view the converted columns

이제 데이터를 피쳐(X)와 레이블(y)로 분할하겠습니다.

In [None]:
# Create X & y values
X = insurance_one_hot.drop("charges", axis=1)
Y = insurance_one_hot["charges"]
Y.head()

[__Ambiguity in Pandas Dataframe / Numpy Array “axis” definition__](https://stackoverflow.com/questions/25773245/ambiguity-in-pandas-dataframe-numpy-array-axis-definition)

Panda 데이터 프레임의 모호성 / Numpy Array "축" 정의

0=down 및 1=down으로 기억하는 것이 가장 간단할 것입니다.

이는 다음을 의미합니다.

* axis=0을 사용하여 각 열을 따라 내려가거나 행 레이블(지수)에 메서드를 적용합니다.
* 각 행에 걸쳐 또는 열 레이블에 방법을 적용하려면 axis=1을 사용합니다.

<img src="https://i.stack.imgur.com/DL0iQ.jpg">


In [None]:
# View features
X.head()

교육 및 테스트 세트를 만들 수 있습니다. 이 작업을 수동으로 수행할 수도 있지만, 보다 쉽게 하기 위해 Skikit-Learn에서 이미 사용 가능한 train_test_split 기능을 활용할 것입니다.

In [None]:
# Create training and test sets
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, 
                                                    Y, 
                                                    test_size=0.2, 
                                                    random_state=42) # set random state for reproducible splits


이제 모델을 제작하고 맞출 수 있습니다(model_2와 동일하게 제작).

In [None]:
# Set random seed
tf.random.set_seed(42)

# Create a new model (same as model_2)
insurance_model = tf.keras.Sequential([
  tf.keras.layers.Dense(1),
  tf.keras.layers.Dense(1)
])

# Compile the model
insurance_model.compile(loss=tf.keras.losses.mae,
                        optimizer=tf.keras.optimizers.SGD(),
                        metrics=['mae'])

# Fit the model
insurance_model.fit(X_train, Y_train, epochs=100)

In [None]:
# Check the results of the insurance model
insurance_model.evaluate(X_test, Y_test)

우리 모델이 성능이 별로 안 좋았으니까 더 큰 모델로 해보자.

다음 세 가지를 시도해 보겠습니다.

* 레이어 수를 늘립니다(2 -> 3).
* 각 레이어의 단위 수를 늘립니다(출력 레이어 제외).
* 최적화 도구 변경(SGD에서 Adam으로).<br>
다른 모든 것은 그대로 유지될 것이다.

In [None]:
# Set random seed
tf.random.set_seed(42)

# Add an extra layer and increase number of units
insurance_model_2 = tf.keras.Sequential([
  tf.keras.layers.Dense(100), # 100 units
  tf.keras.layers.Dense(10), # 10 units
  tf.keras.layers.Dense(1) # 1 unit (important for output layer)
])

# Compile the model
insurance_model_2.compile(loss=tf.keras.losses.mae,
                          optimizer=tf.keras.optimizers.Adam(), # Adam works but SGD doesn't 
                          metrics=['mae'])

# Fit the model and save the history (we can plot this)
history = insurance_model_2.fit(X_train, Y_train, epochs=100, verbose=0)

In [None]:
insurance_model_2.summary()
from tensorflow.keras.utils import plot_model

plot_model(insurance_model_2, show_shapes=True)

In [None]:
# Evaluate our larger model
insurance_model_2.evaluate(X_test, Y_test)

훨씬 나아! 더 큰 모형과 Adam 최적화 도구를 사용하면 이전 모형보다 오차가 거의 절반에 달합니다.

🔑 참고: 많은 문제에서 Adam Optimizer는 훌륭한 시작 옵션입니다.<br>더 자세한 내용은 신경 네트워크 훈련을 위한 A Recipe에서 Andrei Karpathy의 "Adam is safe"를 참조하십시오.

우리 모델의 손실 곡선을 살펴보자, 하향 추세가 보일 거야.

In [None]:
# Plot history (also known as a loss curve)
pd.DataFrame(history.history).plot()
plt.ylabel("loss")
plt.xlabel("epochs");

이로 인해 모델의 손실(및 MAE)이 모두 감소하고 있는 것으로 보입니다<br>(우리의 경우 MAE와 손실은 동일하므로 그림의 선이 서로 겹칩니다).

더 오래 훈련시키면 손실이 줄어들 수 있다는 것을 말해줍니다.

🤔 질문: 당신은 얼마나 훈련해야 합니까?

당신이 어떤 문제를 해결하느냐에 달렸어요. 어떤 때는 훈련이 그리 오래 걸리지 않을 때도 있고, 어떤 때는 생각보다 오래 걸릴 때도 있습니다. 일반적인 방법은 모델 교육을 매우 오랜 시간(예: 1,000개의 epoch) 동안 설정하지만, 개선이 중지되면 자동으로 중지되도록 EarlyStopping 콜백을 사용하여 설정하는 것입니다. 다른 모듈에서 볼 수 있습니다.

위와 같은 모델을 조금 더 훈련해 봅시다. 우린 할 수 있지만 다시 할 수 있어

In [None]:
# Try training for a little longer (100 more epochs)
history_2 = insurance_model_2.fit(X_train, Y_train, epochs=100, verbose=0)

추가 훈련은 어떻게 됐어요?

In [None]:
# Evaluate the model trained for 200 total epochs
insurance_model_2_loss, insurance_model_2_mae = insurance_model_2.evaluate(X_test, Y_test)
insurance_model_2_loss, insurance_model_2_mae

100에포크를 추가하기 위한 훈련은 10%의 오차가 줄어듭니다.

비주얼 어때요?

In [None]:
# Plot the model trained for 200 total epochs loss curves
pd.DataFrame(history_2.history).plot()
plt.ylabel("loss")
plt.xlabel("epochs"); # note: epochs will only show 100 since we overrid the history variable

# **Preprocessing data (normalization and standardization)**

데이터 사전 처리(정규화 및 표준화)

신경망을 다룰 때 공통적으로 신경망에 전달되는 모든 데이터가 0에서 1의 범위 내에 있는지 확인하는 것이 관례입니다.

이 관행을 정규화라고 합니다(예: 0에서 100,000 사이의 모든 값을 0과 1 사이의 값으로 스케일링).

모든 데이터를 단위 분산과 0 평균으로 변환하는 또 다른 공정 호출 표준화가 있습니다.

이러한 두 가지 방법은 종종 사전 처리 파이프라인(신경망에서 사용할 데이터를 준비하는 일련의 기능)의 일부입니다.

이 사실을 알면서 신경망에 대한 데이터를 사전 처리하기 위해 수행해야 할 주요 단계는 다음과 같습니다.

* 모든 데이터를 숫자로 변환합니다(신경 네트워크는 문자열을 처리할 수 없음).
* 데이터가 올바른 모양인지 확인합니다(입력 및 출력 모양 확인).

* [**Feature scaling**](https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing-scaler):
    * 데이터 정규화(모든 값이 0과 1 사이인지 확인). 이 값은 최소값을 뺀 다음 최대값에서 최소값을 뺀 값으로 나눕니다. 이를 최소-최대 스케일링이라고도 합니다.
    * 표준화(모든 값의 평균이 0이고 분산이 1인지 확인). 이 값은 목표 피쳐에서 평균 값을 뺀 다음 표준 편차로 나누어 구합니다.
    * 어떤 걸로 할까요?
        * 신경 네트워크가 0과 1 사이의 값을 선호하기 때문에 정규화를 선호하는 경향이 있지만(특히 이미지 처리 시 볼 수 있음), 신경 네트워크는 최소 기능 확장으로 꽤 잘 수행할 수 있음을 종종 발견할 수 있습니다.

📖 리소스: 데이터 사전 처리에 대한 자세한 내용은 다음 리소스를 참조하십시오.

* [Scikit-Learn's documentation on preprocessing data](https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing-data).
* [Scale, Standardize or Normalize with Scikit-Learn by Jeff Hale](https://towardsdatascience.com/scale-standardize-or-normalize-with-scikit-learn-6ccc7d176a02).


이미 get_dummies()를 사용하여 데이터를 숫자로 변환했습니다. 정규화 방법도 알아보겠습니다.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf

# Read in the insurance dataset
insurance = pd.read_csv("https://raw.githubusercontent.com/stedy/Machine-Learning-with-R-datasets/master/insurance.csv")

In [None]:
# Check out the data
insurance.head()

이전과 마찬가지로 숫자가 아닌 열을 숫자로 변환해야 합니다.<br> 이번에는 범위가 다른 숫자 열도 정규화합니다(모두 0과 1 사이인지 확인).

이를 위해 Scikit-Learn의 몇 가지 클래스를 사용할 것입니다.

* make_column_transformer - 다음 변환에 대한 다단계 데이터 사전 처리 기능을 구축합니다.
    * MinMaxScaler - 모든 숫자 열이 정규화되었는지 확인합니다(0과 1 사이).
    * OneHotEncoder - 숫자가 아닌 열을 핫 인코딩합니다.

그들이 움직이는 것을 보자.

In [None]:
from sklearn.compose import make_column_transformer
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder

# Create column transformer (this will help us normalize/preprocess our data)
# column transformer 생성(데이터 정규화/사전 처리에 도움이 됨)
ct = make_column_transformer(
    (MinMaxScaler(), ["age", "bmi", "children"]), # get all values between 0 and 1
    (OneHotEncoder(handle_unknown="ignore"), ["sex", "smoker", "region"])
)

# Create X & Y
X = insurance.drop("charges", axis=1)
Y = insurance["charges"]

# Build our train and test sets (use random state to ensure same split as before)
# 학습 구조 및 테스트 세트 구축(이전과 동일한 분할을 위해 랜덤 상태 사용)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

# Fit column transformer on the training data only (doing so on test data would result in data leakage)
# 교육 데이터에만 column transformer 적합(테스트 데이터를 계속 사용하면 데이터 누수가 발생할 수 있음)
ct.fit(X_train)

# Transform training and test data with normalization (MinMaxScalar) and one hot encoding (OneHotEncoder)
# 정규화(MinMaxScalar) 및 단일 핫 인코딩(OneHotEncoder)으로 교육 및 테스트 데이터 변환
X_train_normal = ct.transform(X_train)
X_test_normal = ct.transform(X_test)

이제 표준화하고 단일 핫 인코딩을 수행했습니다. 이제 데이터는 어떻게 표시됩니까?

In [None]:
# Non-normalized and non-one-hot encoded data example
X_train.loc[0]

In [None]:
# Normalized and one-hot encoded example
X_train_normal[0]

모양은 어때?

In [None]:
# Notice the normalized/one-hot encoded shape is larger because of the extra columns
# 추가 컬럼으로 인해 정규화/원핫 인코딩 쉐이프가 더 커집니다.
X_train_normal.shape, X_train.shape

우리의 데이터는 정규화되었고 수치화되었으니, 모형화해 봅시다.

보험_모델_2과 같은 모델을 사용하겠습니다.

In [None]:
# Set random seed
tf.random.set_seed(42)

# Build the model (3 layers, 100, 10, 1 units)
insurance_model_3 = tf.keras.Sequential([
  tf.keras.layers.Dense(100),
  tf.keras.layers.Dense(10),
  tf.keras.layers.Dense(1)
])

# Compile the model
insurance_model_3.compile(loss=tf.keras.losses.mae,
                          optimizer=tf.keras.optimizers.Adam(),
                          metrics=['mae'])

# Fit the model for 200 epochs (same as insurance_model_2)
insurance_model_3.fit(X_train_normal, Y_train, epochs=200, verbose=1) 

정규화된 테스트 세트에 대해 모형을 평가합니다.

In [None]:
# Evaulate 3rd model
insurance_model_3_loss, insurance_model_3_mae = insurance_model_3.evaluate(X_test_normal, Y_test)

마지막으로, insurance_model_2(비정규화된 데이터에 대해 교육됨)와 <br>insurance_model_3(정규화된 데이터에 대해 교육됨)의 결과를 비교하겠습니다.

In [None]:
# Compare modelling results from non-normalized data and normalized data
# 표준화되지 않은 데이터와 정규화된 데이터의 모델링 결과 비교
insurance_model_2_mae, insurance_model_3_mae

이를 통해 데이터를 정규화하지 않는 것보다 동일한 모델을 사용하여 10% 적은 오차를 얻을 수 있습니다.

이것이 정규화의 주요 이점 중 하나입니다. 즉, 수렴 시간이 더 빨라진다는 것입니다<br>(모형이 더 나은 결과를 더 빨리 얻을 수 있다는 멋진 표현입니다.

insurance_model_2는 교육을 더 오래 두면 결국 insurance_model_3과 동일한 결과를 얻을 수 있습니다.

하지만 신경 네트워크 실무자로서 우리의 주된 목표는 실험 간격을 줄이는 것이기 때문에,<br> 더 빨리 더 좋은 결과를 얻을 수 있는 것은 무엇이든 좋습니다.

# **📖 Extra curriculum**


If you're looking for extra materials relating to this notebook, I'd check out the following:

* [MIT introduction deep learning lecture 1](https://www.youtube.com/watch?v=5tvmMX8r_OM) - gives a great overview of what's happening behind all of the code we're running.
* Reading: 1-hour of [Chapter 1 of Neural Networks and Deep Learning](http://neuralnetworksanddeeplearning.com/chap1.html) by Michael Nielson - a great in-depth and hands-on example of the intuition behind neural networks.

To practice your regression modelling with TensorFlow, I'd also encourage you to look through [Lion Bridge's collection of datasets](https://lionbridge.ai/datasets/) or [Kaggle's datasets](https://www.kaggle.com/data), find a regression dataset which sparks your interest and try to model.

# [How to fetch Kaggle Datasets into Google Colab](https://medium.com/analytics-vidhya/how-to-fetch-kaggle-datasets-into-google-colab-ea682569851a)

> You must have a Google as well as a Kaggle account to proceed with the below steps.

- Step 1:Get you Kaggle API Token
  - Go to Your Account and click on Create New API Token.
> A file named kaggle.json will get downloaded containing your username and token key

- Step 2: Uploading kaggle.json into Google Drive
  - Create a folder named Kaggle where we will be storing our Kaggle datasets
  - Upload your kaggle.json file into Kaggle folder


- Step 3: Create a new Colab notebook or open a Colab notebook.
- Step 4: Mount the Google drive to colab notebook
>```
  from google.colab import drive
  drive.mount('/content/gdrive')
```

  - Get your authorization code using the URL prompted and provide it. 


- Step 4: Run the following code to provide the config path to kaggle.json
```
import os
os.environ['KAGGLE_CONFIG_DIR'] = "/content/gdrive/My Drive/Kaggle"
```
> /content/gdrive/My Drive/Kaggle is the path where kaggle.json is present in the Google Drive

- Step 5: Change your present working directory
```
#changing the working directory
%cd /content/gdrive/My Drive/Kaggle
#Check the present working directory using pwd command
```

- Step 6: Download the kaggle dataset
  - Go to kaggle and copy the API Command to download the dataset
> Your API Command will look like “kaggle datasets download -d datasnaek/youtube-new”
  - Run the following code using ! :
> !kaggle datasets download -d datasnaek/youtube-new

  - Check the content in your directory using ls command.

- Step 7: Unzip your data and remove the zip file
  - Use the unzip and rm command
```
#unzipping the zip files and deleting the zip files
!unzip \*.zip  && rm *.zip
```
That’s all folks …Now you can use the extracted .csv files with ease directly from your Google Drive.

Happy Learning 😃….