# MEAN SQUARED ERROR


Dalam model yang mempunyai kemampuan prediksi nilai yang bersifat kontinyu, ada beberapa pengukuran yang bisa
dilakukan untuk menguji kualitas sebuah model. Dalam bahasan kali ini, kita akan mempelajari Mean Squared Error (MSE).

Sebelum itu mari kita lihat rumus pengukuran yang lain, yaitu Mean Absolute Error (MAE)

![image.png](attachment:image.png)

f = hasil prediksi sebuah model
<br>y = hasil yang diobservasi
<br>n = jumlah data

dalam persamaan tersebut kita bisa melihat bahwa nilai MAE didapat dari hasil perbedaan antara prediksi model dengan data observasi dari i = 1, sampai i = n(jumlah data), kemudian hasil penjumlahan dari semua nilai tersebut dirata-ratakan dengan banyaknya jumlah data. oleh sebab itu,karena MAE adalah perhitungan untuk mengetahui tingkat error, maka jika nilainya semakin mendekati 0 semakin baik.


Mari kita bandingkan terhadap MSE

![image.png](attachment:image.png)

Dari persamaan MSE dapat dilihat bahwa jika dibandingkan dengan MAE, tingkat error dalam MSE berbanding kuadrat terhadap MAE.
jika perbedaan error semakin kecil, maka nilai MSE semakin kecil pula, sebaliknya jika semakin besar, maka nilai MSE semakin besar.

MSE dilakukan untuk mengukur tingkat konsistensi sebuah model. Oleh karena itu, karena MSE adalah fungsi kuadrat, MSE sangat sensitif terhadap outlier. 


# CODING SECTION

Data yang diambil adalah data saat pembahasan BAB 1 Regresi Linear

In [24]:
import pandas as pd
import numpy as np

In [4]:
df = pd.read_csv('salary.csv')

In [5]:
#mengubah data menjadi array agar bisa dilakukan proses machine learning
X = df.pengalaman.values.reshape(-1,1) 
y = df.gaji.values
#Memisah data untuk proses data latih dan data uji
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 1/4, random_state = 42)

#import algoritma dari scikit-learn
from sklearn.linear_model import LinearRegression
model = LinearRegression()
#memuat machine learning terhadap data latih
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

kemudian hasil prediksi dan hasil observasi kita ambil untuk analisis lebih jauh

In [7]:
df_reg = pd.DataFrame({'obs' : y_test, 'pred': y_pred})

In [9]:
df_reg.head(10)

Unnamed: 0,obs,pred
0,18.567,16.8086
1,38.817,39.989957
2,38.056,38.155461
3,47.937,45.493445
4,35.613,33.652608
5,17.752,22.812404
6,35.505,30.31716
7,16.721,18.97664
8,38.708,42.658315
9,16.232,18.643095


Kemudian kita hitung MSE berdasarkan data yang sudah kita dapat, berdasarkan rumus MSE

![image.png](attachment:image.png)

In [21]:
#aplikasi dari (fi-yi)^2
df_reg['error_sqrt'] = (df_reg['pred'] - df_reg['obs'])**2
df_reg.head()

Unnamed: 0,obs,pred,error_sqrt
0,18.567,16.8086,3.091972
1,38.817,39.989957,1.375829
2,38.056,38.155461,0.009893
3,47.937,45.493445,5.970961
4,35.613,33.652608,3.843138


In [22]:
#perhitungan dari hasil jumlah data dibagi total data alias rata-rata, didapat nilai MSE
df_reg['error_sqrt'].mean()

11.458349748628933

Cara instant dari scikit-learn

In [23]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred)

11.458349748628933

# KESIMPULAN

MSE adalah salah 1 jenis pengukuran kualitas model regresi yang sensitif terhadap outliers. Namun dalam menginterpretasikannya, butuh pemahaman lebih lanjut tentang domain knowledge dalam data yang kita modelkan, karena kita tidak bisa sembarangan dalam menangani outliers