# Q1. 캘리포니아 주택 가격 데이터셋을 SVM 회귀를 사용해서 훈련(3점)하고, `MAE`, `MSE`, `RMSE`를 출력(1점)하세요.



In [1]:
# 데이터셋은 아래 코드를 사용하세요.
from sklearn.datasets import fetch_california_housing

In [2]:
# 코드를 작성하세요
from sklearn.model_selection import train_test_split
from sklearn.svm import SVR

# 1. 데이터셋 불러와서 data, target 나누기
X, y = fetch_california_housing(return_X_y = True)

# 2. 데이터셋 train/test로 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y)

# 3. 학습
model = SVR(kernel = 'rbf', gamma = 'scale', C = 0.5) # 성능을 위해서 조정 필요
model.fit(X_train, y_train)

# 4. 평가
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

Downloading Cal. housing from https://ndownloader.figshare.com/files/5976036 to /root/scikit_learn_data


학습 : -0.04005277081538949
예측 : -0.03263005690929033


In [3]:
predict = model.predict(X_test)

In [4]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

# MAE
print(f"mean_absolute_error : {mean_absolute_error(y_test, predict)}")
# MSE
print(f"mean_squared_error : {mean_squared_error(y_test, predict)}")
# RMSE
print(f"root_mean_squared_error : {np.sqrt(mean_squared_error(y_test, predict))}")

mean_absolute_error : 0.8672079194533111
mean_squared_error : 1.3374091179144025
root_mean_squared_error : 1.1564640582025896


## BONUS! `MAE`, `MSE`, `RMSE`를 해석해보세요(+1)

--> 해석은 [이곳]에 텍스트로 작성하세요
### MAE(Mean Absolute Error)
- 모델의 예측값과 실제값의 차이를 모두 더한다는 개념(총 개수로 나눈다)
- 절댓값을 취하기 때문에 가장 직관적으로 알 수 있는 지표
- **MSE보다 특이치에 robust하다.**
- **절댓값을 취하기 때문에 모델이 underperformance인지 overperformance인지 알 수 없다.**

### MSE(Mean Squared Error)
- 제곱을 하기 때문에 MAE와는 다르게 모델의 예측값과 실제값 차이의 면적의 합
  -> 특이값이 존재하면 수치가 많이 늘어난다.
- **특이치에 민감**(제곱을 하기 때문에 오차가 훨씬 커지게 된다.)

### RMSE(Root Mean Squared Error)
- RMSE를 사용하면 오류 지표를 실제 값과 유사한 **단위**로 다시 변환하여 해석을 쉽게 한다.(단위 기반 오차 분석 시 자주 사용)
- 가장 보편적으로 사용된다.

# Q2. 아래 데이터를 분류하고(2점), 분류 결과를 3가지(정밀도, 재현율, f1) 기준으로 평가한 결과를 출력(1점)해보세요. 단, 정확도가 '1.0' 미만 '0.9' 이상이 나오도록 하세요

In [5]:
# 데이터는 아래 코드를 사용하세요
from sklearn.datasets import make_moons
X, y = make_moons(n_samples=50000, random_state=42)

In [10]:
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.metrics import precision_score, recall_score, f1_score

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 42)

# model = SVC(kernel = 'linear', gamma = 0.5, C = 1) # 성능이 계속 0.88 ~..
model = SVC(kernel = 'poly', degree = 3) # 차수를 조정해서 정확도를 조정할 수 있다. 차수가 높을수록 복잡해진다.
model.fit(X_train, y_train)

print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

학습 : 0.9438933333333334
예측 : 0.94256


In [11]:
predict = model.predict(X_test)

In [12]:
# 소수 넷째자리까지 반올림
print("accuracy_score : %.4f" % (accuracy_score(y_test, predict)))
print("precision_score : %.4f" % (precision_score(y_test, predict)))
print("recall_score : %.4f" % (recall_score(y_test, predict)))
print("f1_score : %.4f" % (f1_score(y_test, predict)))

accuracy_score : 0.9426
precision_score : 0.9036
recall_score : 0.9898
f1_score : 0.9447


## BONUS! `Q2`의 오차행렬을 출력하고, 정밀도/재현율/f1-score를 해석해보세요(+2).

In [13]:
conf_matrix = confusion_matrix(y_true = y_test, y_pred = predict)
print(conf_matrix)

[[5645  655]
 [  63 6137]]


[[5645 : TN(True Negative)   655 : FP(False Positive)]

 [  63 : FN(False Negative) 6137 : TP(True Positive) ]]

- 정밀도(Prediction) : Positive로 예측한 대상 중 실제로 Positive인 것의 비율
  - TP / (TP + FP) : 6137 / (6137 + 655) = 0.9036(소수 넷째자리까지 반올림)
- 재현율(Recall) : 실제 값 중에서 맞다고 예측한 것의 비율
  - TP / (TP + FN) : 6137 / (6137 + 63) = 0.9898(소수 넷째자리까지 반올림)
- F1-score : 정밀도와 재현율의 Trade-Off에서 오는 평가의 문제를 완화하기 위해서 사용하는 정밀도와 재현율의 조화 평균
  - 2 * (precision * recall) / (precision + recall)
    - 2*(0.9036.. * 0.9898..) / (0.9036.. + 0.9898..) = 0.9447(소수 넷째자리까지 반올림)