### 평균 제곱 오차
- 앞서 살펴본 최소 제곱법을 이용하면 최적의 기울기와 절편을 계산할 수 있다.
- 허나 최소 제곱법은 입력데이터의 컬럼이 하나일 경우 정확한 계산이 가능하다.
- 하지만 세상의 모든 데이터는 그 형태가 다르고 칼럼이 하나인 것만 존재하는 것이 아니다.
- 이애 세상의 모든 데이터를 대응하기 위한 공식을 만들기가 어렵다.
- 따라서 최적의 선을 찾기 위해서 임의의 선을 하나 그리고 진짜 데이터와 얼마나 오차가 발생하는지 파악한 다음 오차가 최소가 되는 선을 찾기 위해 기울기와 절편을 조금씩 보정해 나가는 방식을 사용한다. (노가다 라는 뜻ㅎ)
- 이 때 오차 정도를 구하기 위해서 평균 제곱 오차라는 공식을 많이 사용한다.
![평균 제곱 오차](notebook_image/3.png)

In [1]:
# 기본
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 경고 뜨지 않게 설정
import warnings
warnings.filterwarnings('ignore')

# 그래프 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['font.size'] = 16
plt.rcParams['figure.figsize'] = 20, 10
plt.rcParams['axes.unicode_minus'] = False

# 데이터 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split

# 교차 검증
# 지표를 하나만 설정할 경우
from sklearn.model_selection import cross_val_score
# 지표를 하나 이상 설정할 경우
from sklearn.model_selection import cross_validate
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 모델의 최적의 하이퍼파라미터를 찾기 위한 도구
from sklearn.model_selection import GridSearchCV

# 평가함수
# 분류용
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

# 회귀용
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

# 머신러닝 알고리즘 - 분류
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import VotingClassifier

# 머신러닝 알고리즘 - 회귀
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.ensemble import GradientBoostingRegressor
from lightgbm import LGBMRegressor
from xgboost import XGBRegressor
from sklearn.ensemble import VotingRegressor

# 차원축소
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# 군집화
from sklearn.cluster import KMeans
from sklearn.cluster import MeanShift
from sklearn.cluster import estimate_bandwidth



# ARIMA (시계열 예측)
from statsmodels.tsa.arima_model import ARIMA
import statsmodels.api as sm


# 시간 측정을 위한 시간 모듈
import datetime

# 주식정보
from pandas_datareader import data

# 형태소 벡터를 생성하기 위한 라이브러리
from sklearn.feature_extraction.text import CountVectorizer
# 형태소 벡터를 학습 벡터로 변환한다.
from sklearn.feature_extraction.text import TfidfTransformer


# 데이터 수집
import requests
from bs4 import BeautifulSoup
import re
import time
import os
import json

# 한국어 형태소 분석
from konlpy.tag import Okt, Hannanum, Kkma, Mecab, Komoran

# 워드 클라우드를 위한 라이브러리
from collections import Counter
import pytagcloud
from IPython.display import Image

# 저장
import pickle

# 딥러닝
import tensorflow as tf

# 딥러닝 모델 구조를 정의하는 것
from tensorflow.keras.models import Sequential
# 층구조를 정의하는 것
from tensorflow.keras.layers import Dense
# 활성화 함수를 정의하는 것
from tensorflow.keras.layers import Activation

# 현재 프로젝트를 gpu에 할당한다.
# 컴퓨터의 GPU는 메모리를 가지고 있다. 
gpus = tf.config.experimental.list_physical_devices("GPU")
# gpu가 있다면
if len(gpus) >0 :
    try :
        for gpu in gpus:
            tf.config.experimental.set_memory_growth(gpu, True)
    except RuntimeError as e :
        print(e)

pygame 2.0.1 (SDL 2.0.14, Python 3.8.5)
Hello from the pygame community. https://www.pygame.org/contribute.html


In [2]:
# 입력과 결과
공부한시간 = [2, 4, 6, 8]
성적 = [81, 93, 91, 97]

In [3]:
# 기울기와 절편
기울기 = 2.3
y절편 = 79

In [4]:
# 예측 결과를 가져온다.
# 값을 예측하여 실제 결과와 비교해본다.
예측성적 = []

for v1 in 공부한시간 :
    a1 = (기울기 * v1) + y절편
    예측성적.append(a1)
    
예측성적


[83.6, 88.2, 92.8, 97.4]

In [5]:
# 계산의 편리성을 위해서 ndarry를 생성한다.
array1 = np.array(성적)
array2 = np.array(예측성적)
print(array1)
print(array2)

[81 93 91 97]
[83.6 88.2 92.8 97.4]


In [6]:
# 진짜 결과와 예측 결과를 뺀다.
array3 = array1 - array2
array3

array([-2.6,  4.8, -1.8, -0.4])

In [8]:
# 각각의 제곱
array4 = array3 ** 2
array4

array([ 6.76, 23.04,  3.24,  0.16])

In [10]:
# 평균을 구한다.
mse = array4.mean()
mse

8.299999999999985