# Loss Function

## 1. 개요

* 구현 내용: 손실 함수를 직접 구현합니다.
* 코드 요약: 기초적인 손실 함수를 직접 구현해봅니다.
* 참고 자료: <밑바닥부터 시작하는 딥러닝> 사이토 고키, 한빛미디어 (도서, 원제; Deep Learning from Scratch, O'REILLY)

## 2. 코드

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import math

In [5]:
# 오차제곱합 함수: 오차가 작을 수록 결과값이 작은 함수 -> 얼마나 성능이 안좋은지를 측정 가능
def sum_squares_error(y,t):
    return 0.5 * np.sum((y-t)**2)

In [13]:
# 교차 엔트로피 함수: 자연 로그의 형태를 띄는 손실함수
# np.log1p를 통해 0에 무한대 값이 나오는 것을 방지합니다.
def cross_entropy_error(y,t):
    return -np.sum(t * np.log1p(y))

In [14]:
# 소프트맥스, 교차 엔트로피 실험
t = [0,0,1,0,0,0,0,0,0,0]
y = [0.1,0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
print(sum_squares_error(np.array(y),np.array(t)))
print(cross_entropy_error(np.array(y),np.array(t)))

0.09750000000000003
-0.4700036292457356


In [15]:
# 소프트맥스, 교차 엔트로피 실험
t = [0,0,1,0,0,0,0,0,0,0]
y = [0.1,0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]
print(sum_squares_error(np.array(y),np.array(t)))
print(cross_entropy_error(np.array(y),np.array(t)))

0.5975
-0.09531017980432487


### 손실함수의 최소값 찾기를 위한 경사하강법

In [19]:
# 기울기 함수: 함수의 기울기를 구합니다. (경사하강법을 위한 기반)
def numerical_gradient(f,x):
    h = math.e -4
    grad = np.zeros_like(x)
    
    for idx in range(x.size):
        tmp_val = x[idx]
        x[idx] = tmp_val + h
        fxh1 = f(x)
        
        x[idx] = tmp_val-h
        fxh2 = f(x)
        
        grad[idx] = (fxh1 - fxh2) / (2*h)
        x[idx] = tmp_val
        
    return grad

In [20]:
def gradient_test_function(x):
    return x[0]**2 + x[1]**2

In [21]:
print(numerical_gradient(gradient_test_function, np.array([3.0,4.0])))
print(numerical_gradient(gradient_test_function, np.array([0.0,2.0])))
print(numerical_gradient(gradient_test_function, np.array([3.0,0.0])))

[6. 8.]
[-0.  4.]
[ 6. -0.]


In [23]:
# 경사하강법: 손실함수의 최솟값을 찾아 최적의 매개변수를 찾아내는 것이 목적입니다.
def gradient_descent(f, init_x, lr=0.01, step_num=100):
    x = init_x
    
    for i in range(step_num):
        grad = numerical_gradient(f,x)
        x -= lr * grad
    return x

In [25]:
# 경사하강법 실험
init_x = np.array([-3.0,4.0])
gradient_descent(gradient_test_function, init_x = init_x, lr = 0.1, step_num = 100)

array([-6.11110819e-10,  8.14814382e-10])