# **[14] 인공지능 추론결과에 대한 이해**

**[학습 목표]**
1. 인공지능 프로젝트 사이클에서 평가의 중요도를 알 수 있다.
2. 인공지능 학습 시 데이터셋을 분리하는 목적을 이해할 수 있다.
3. 회귀모델의 성능평가지표를 이해하고 적용할 수 있다.

## **1. 인공지능 평가의 중요성**  


인공지능은 사용하면 사람보다 빠르게 판단할 수 있어요.  
그렇지만 인공지능이 판단하는 과정을 모두 우리에게 설명하지 않기 때문에,  
우리는 인공지능이 **올바르게** 판단하는지에 대해 면밀하게 살펴보아야 해요.     

<table>
<tr>
    <th><img src="/" width="750"></th>
    </tr>
<tr>
    <th><a href="https://www.aitimes.com/news/articleView.html?idxno=135396">잘못 판단한 인공지능 예시</a>
</th>
</tr>
</table>

인공지능 프로젝트 사이클에서 "모델 평가하기"를 통해 인공지능이 올바르게 판단하는지 분석할 수 있어요.  
이 때 그 기준이 되는 것이 **평가 지표**에요.  
다양한 평가 지표에 대해 알아보고, 어떻게 적절하게 평가 지표를 사용할 수 있을지 확인해보아요.

<table>
<tr>
    <th><img src="https://drive.google.com/uc?id=1840B-l4Y5mBKuHqngDXz4wJMbdI1mU_l" width="750"></th>
    </tr>
<tr>
    <th>인공지능 프로젝트 사이클("모델 평가하기" 강조)</th>
</tr>
</table>

**[문제1] 인공지능이 올바르게 판단하지 못할 경우 일상에서 벌어질 수 있는 문제점을 생각해보아요.** 

## **2. 회귀모델 평가**  


### **(1) 회귀모델 평가 지표**  


이번 주에는 회귀모델을, 다음 주에는 분류모델을 평가하는 지표들에 대해 살펴볼 거에요.  
회귀와 분류의 차이점을 다시 간단하게 살펴보면 다음과 같아요.  

* 회귀: 수를 예측함(연속적)
* 분류: 범주를 예측함(이산적)  

회귀는 수를 예측하므로, 분류와 달리 예측한 값과 실제 값 간에 얼마나 차이가 나는지를 알 수 있어요.  
따라서, 이 차이를 활용하여 모델의 성능을 평가해요.

**MSE 설명(나중에)**

**MAE 설명(나중에)**

### **(1) 회귀모델 평가 실습**  


이제 주어진 데이터셋에서 MSE, MAE를 구해보고 상황에 따라 어떤 지표를 써야 할지 분석해보아요.  
우선 아래 코드를 실행해주세요.

In [41]:
import ipywidgets as widgets
from IPython.display import display, clear_output
import matplotlib.pyplot as plt
import numpy as np
import math

# loss 함수 입니다.
def MSE(a,b, data_x,data_y):
    return sum(((a*data_x + b)- data_y)**2)/ len(data_x)

def MAE(a,b, data_x,data_y):
    return sum(abs((a*data_x + b)- data_y))/ len(data_x)

# ipywidget의 output을 그려주는 함수입니다.
def draw(fig,a,b):
    
    clear_output(wait=True) # ipywidget에 포함된 함수로 output을 초기화 시켜주는 함수입니다.
    margin = 5
    
    # 아래의 코드로 출력되는 결과는 모두 ipywidget output으로 보내줍니다.
    plt.scatter(data_x, data_y)
    plt.plot([min(data_x)-margin, max(data_x)+margin],
            [a*(min(data_x)-margin)+b, a*(max(data_x)+margin)+b], c = 'r')
    plt.xlim(0, 120)
    plt.ylim(-200, 1300)
    plt.show()
    
    sign = "+" if b >= 0 else "-"
    print(f"{a} * x {sign} {abs(b)}")
    print("MSE :", MSE(a, b, data_x, data_y))
    print("MAE :", MAE(a, b, data_x, data_y))

# a 값이 변경될 때 실행될 콜백함수입니다.
def on_a_value_change(change):
    with out: # with out: block에 있는 코드들은 출력값을 ipywidget output으로 보내줍니다.
        draw(fig,change['new'], b.value)

# b 값이 변경될 때 실행될 콜백함수입니다.
def on_b_value_change(change):
    with out:
        draw(fig, a.value, change['new'])

a = widgets.IntSlider(description='기울기 :', min=0, max=30) # a 변수의 값을 조절할 수 있는 IntSlider를 만들어줍니다.
b = widgets.IntSlider(description='y절편 :', min=-500, max=500) # b 변수의 값을 조절할 수 있는 IntSlider를 만들어줍니다.
out = widgets.Output() # ipywidget의 output을 만들어줍니다.


a.observe(on_a_value_change, names='value') # a가 변화할 때 마다 실행 될 콜백함수를 등록합니다.
b.observe(on_b_value_change, names='value') # b가 변화할 때 마다 실행 될 콜백함수를 등록합니다.

첫 번째 경우는 실제 값이 모두 정상적인 데이터일 경우에요.  
MSE와 MAE 모두 회귀분석이 잘 수행되었을 때 최소가 되는 것을 확인할 수 있어요.

In [42]:
data_x = np.array([10, 20, 30, 40, 50, 60, 70, 80, 90, 100])
data_y = np.array([27, 120, 288, 418, 555, 670, 814, 944, 1066, 1191])

with out:
    fig = plt.figure()
    draw(fig, a.value, b.value)

display(a,b,out) # a,b,out을 출력단에 표시해줍니다.

IntSlider(value=0, description='기울기 :', max=30)

IntSlider(value=0, description='y절편 :', max=500, min=-500)

Output()

두 번째 경우는 일정한 간격으로 오차가 있는 경우에요.  
MSE는 점들의 중간에 있을 때 오차가 가장 작지만, MAE는 점들 사이 어디에 있더라도 오차가 같아요.  
이는 MAE가 절댓값을 계산해서, 한쪽에서 멀어지면 다른 한쪽에는 가까워지는 것이기 때문이에요.

In [51]:
data_x = np.array([10, 20, 30, 40, 50, 60, 70, 80, 90, 100])
data_y = np.array([27+200, 120, 288+200, 418, 555+200, 670, 814+200, 944, 1066+200, 1191])

with out:
    fig = plt.figure()
    draw(fig, a.value, b.value)

display(a,b,out) # a,b,out을 출력단에 표시해줍니다.

IntSlider(value=13, description='기울기 :', max=30)

IntSlider(value=-115, description='y절편 :', max=500, min=-500)

Output(outputs=({'output_type': 'display_data', 'data': {'text/plain': '<Figure size 640x480 with 1 Axes>', 'i…

이 방향이 맞을까요..피드백 요청합니다...

**[문제2] 아래 데이터에 대해 MSE, MAE를 최소로 하는 선을 각각 구해보고, 아래 데이터에서는 왜 MAE를 사용하는 것이 더 정확한지 이야기해봐요.** 

In [38]:
data_x = np.array([10, 20, 30, 40, 50, 60, 70, 80, 90, 100])
data_y = np.array([27, 1239, 288, 418, 555, 670, 814, 944, 1066, 1191])

with out:
    fig = plt.figure()
    draw(fig, a.value, b.value)

display(a,b,out) # a,b,out을 출력단에 표시해줍니다.

IntSlider(value=13, description='기울기 :', max=30)

IntSlider(value=8, description='y절편 :', max=500, min=-500)

Output(outputs=({'output_type': 'display_data', 'data': {'text/plain': '<Figure size 640x480 with 1 Axes>', 'i…