# 딥러닝
딥러닝은 인공 지능(AI)의 한 분야로, 데이터에서 복잡한 패턴을 학습하는 데 중점을 둔 기계 학습의 한 형태입니다. 이는 인간의 뇌가 정보를 처리하고 학습하는 방식을 모방한 인공 신경망을 사용합니다. 딥러닝 모델은 여러 층(layer)을 통해 데이터를 처리하며, 각 층은 데이터에서 점점 더 추상적이고 복잡한 특징을 추출하고 학습하는 역할을 합니다.

## 활성화 함수
활성화 함수는 인공 신경망의 기본 구성 요소 중 하나로, 뉴런이나 노드로 들어오는 입력 신호의 가중합을 출력 신호로 변환하는 비선형 함수입니다. 이 함수는 신경망 내에서 다음 레이어로의 신호 전달 여부와 강도를 결정합니다. 활성화 함수 없이 신경망은 단순한 선형 회귀 모델과 다르지 않게 되며, 복잡한 문제를 해결하거나 데이터의 비선형 패턴을 학습할 수 없게 됩니다. 활성화 함수는 비선형성을 도입함으로써 신경망이 더 깊고 복잡한 구조를 가질 수 있게 하며, 실제 세계의 데이터를 더 잘 모델링할 수 있도록 합니다. 다양한 활성화 함수가 있으며, 각각의 특성과 용도에 따라 선택됩니다.

### 1. 계단 함수
계단 함수(Step Function)는 가장 기본적인 형태의 활성화 함수 중 하나로, 입력 값에 따라 두 가지 값(예: 0 또는 1)만을 출력합니다. 이 함수는 입력이 특정 임계값(threshold)보다 작거나 같을 때 하나의 값(예: 0)을, 임계값을 초과할 때 다른 값(예: 1)을 출력합니다. 계단 함수는 비선형 함수로 분류되며, 인공 신경망에서 이진 분류 문제를 해결하는 데 초기에 사용되었습니다.

In [1]:
import matplotlib.pyplot as plt
import numpy as np

### 2. 시그모이드 함수
시그모이드 함수(Sigmoid Function)는 인공 신경망에서 널리 사용되는 활성화 함수 중 하나로, 주로 이진 분류 문제에서 출력층의 활성화 함수로 사용됩니다. 이 함수는 입력값을 받아 0과 1 사이의 값으로 출력하며, 이는 확률로 해석될 수 있습니다. 시그모이드 함수는 S자 형태의 곡선을 그리며, 이로 인해 로지스틱 함수(Logistic Function)라고도 불립니다.

### 3.ReLU 함수
ReLU(Rectified Linear Unit) 함수는 인공 신경망에서 가장 널리 사용되는 활성화 함수 중 하나입니다. 이 함수는 간단하면서도 효율적인 비선형 함수로, 입력이 0보다 크면 그 입력을 그대로 출력하고, 0 이하면 0을 출력합니다.

## 다차원 배열 계산
다차원 배열이란, 수학에서의 행렬 개념을 확장한 것으로, 2차원 이상의 데이터를 포함할 수 있는 배열을 말합니다. 다차원 배열을 사용하면 복잡한 데이터 세트를 효율적으로 조작하고 분석할 수 있습니다.

### 1. 신경망에서의 행렬 곱
신경망에서의 행렬 곱(또는 행렬 곱셈)은 신경망의 핵심 연산 중 하나로, 입력 데이터와 가중치 사이의 선형 변환을 수행하는 과정입니다. 이 연산을 통해 네트워크는 데이터의 특성을 학습할 수 있게 됩니다. 신경망의 각 레이어에서 발생하는 행렬 곱은 다음 레이어로 전달되는 입력 데이터를 생성하며, 이 과정은 네트워크의 깊이에 따라 반복됩니다.

### 2. 3층 신경망 구현하기
이를 위해 앞에서 설명한 다차원 배열을 사용합니다. 넘파이 배열을 잘 활용하면 아주 적은 코드만으로 신경망의 순방향 처리를 완성할 수 있습니다.

### 3. 3층 신경망 정리
위에서 정리한 3층 신경망 구현을 함수로 정리하면 계속해서 쉽게 사용할 수 있습니다.

## 소프트맥스 함수
소프트맥스 함수(Softmax Function)는 다중 클래스 분류 문제에서 사용되는 활성화 함수입니다. 이 함수는 신경망의 마지막 레이어에서 주로 사용되며, 각 클래스에 대한 예측의 확률 분포를 출력합니다. 소프트맥스 함수는 입력된 벡터의 각 요소를 0과 1 사이의 값으로 변환하고, 모든 출력 값의 합이 1이 되도록 합니다. 이로 인해 각 요소는 특정 클래스에 속할 확률로 해석될 수 있습니다.

## MNIST 손글씨 숫자 인식
MNIST 숫자 데이터셋은 손으로 쓴 숫자(0부터 9까지)의 대규모 데이터베이스로, 기계 학습 분야에서 광범위하게 사용되는 벤치마크 데이터셋 중 하나입니다. MNIST는 "Modified National Institute of Standards and Technology"의 약자로, 원래 NIST의 데이터셋을 더 사용하기 쉽게 변형한 것입니다.
* 데이터셋은 60,000개의 훈련 이미지와 10,000개의 테스트 이미지로 구성되어 있습니다. 각 이미지는 28x28 픽셀의 크기를 가지며, 흑백(grayscale)으로 되어 있습니다.

### 1. 배치 처리
딥러닝에서 배치 처리(batch processing)는 모델 학습 시 데이터를 작은 그룹, 즉 "배치(batch)"로 나누어 처리하는 기법을 말합니다. 각 배치에는 여러 개의 샘플이 포함되며, 이러한 방식으로 데이터셋 전체가 네트워크를 통해 순차적으로 전달됩니다. 배치 처리는 계산 효율성을 높이고 메모리 사용을 최적화하는 데 도움을 줍니다.

## 신경망에서의 기울기
신경망에서의 기울기는 네트워크의 가중치와 편향에 대한 손실 함수의 변화율을 나타내는 벡터입니다. 신경망을 학습시키는 과정에서는 손실 함수의 값을 최소화하기 위해 가중치와 편향을 조절해야 합니다. 이 때, 손실 함수의 기울기를 사용하여 네트워크의 가중치와 편향을 어떻게 조정해야 하는지 결정합니다.

### 1. 크로스 엔트로피 오차
교차 엔트로피 오차(Cross Entropy Error)는 분류 문제에서 널리 사용되는 손실 함수의 한 종류입니다. 신경망이 분류 문제를 해결할 때, 실제 값과 예측 값 사이의 차이를 나타내기 위해 교차 엔트로피 오차를 사용합니다. 이 손실 함수는 실제로 관찰된 레이블과 모델에 의해 예측된 확률 분포 사이의 불일치를 측정합니다.

### 2. 기울기
신경망에서의 기울기는 네트워크의 가중치와 편향에 대한 손실 함수의 변화율을 나타내는 벡터입니다. 신경망을 학습시키는 과정에서는 손실 함수의 값을 최소화하기 위해 가중치와 편향을 조절해야 합니다. 이 때, 손실 함수의 기울기를 사용하여 네트워크의 가중치와 편향을 어떻게 조정해야 하는지 결정합니다.

## 2층 신경망 클래스 구현하기
2층 신경망 클래스는 입력층, 하나의 은닉층, 그리고 출력층으로 구성된 신경망을 구현하기 위한 프로그램 코드의 구조를 말합니다. 이러한 클래스는 신경망의 구조와 동작을 정의하며, 데이터를 입력받아 처리하고 결과를 출력하는 과정을 담당합니다.

### 1. 미니배치 학습
미니배치 학습은 기계학습에서 사용되는 훈련 방법 중 하나입니다. 전체 데이터 세트를 한 번에 사용하여 모델을 학습시키는 대신, 데이터 세트를 작은 배치(batch)로 나누어 각 배치에 대해 학습을 수행하는 방식을 말합니다. 이 때 각각의 작은 배치를 미니배치(mini-batch)라고 합니다.

### 2. 모델 평가
딥러닝에서 평가는 학습된 모델이 얼마나 잘 작동하는지를 측정하는 과정입니다. 이 과정에서는 특정 지표(metric)를 사용하여 모델의 예측 성능을 평가하게 됩니다.