# **다중 선형 회귀분석**

In [None]:
# 사용할 라이브러리 불러오기
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## **Scikit-Learn에서 Dataset 불러오기**


In [None]:
from sklearn import datasets

In [None]:
data = datasets.fetch_california_housing(as_frame=True)

### Dataset 살펴보기

In [None]:
type(data)

In [None]:
data

### **독립변수 할당**

In [None]:
x = data.data

In [None]:
x

In [None]:
type(x)

### **종속변수 할당**

In [None]:
y = data.target

In [None]:
y

In [None]:
type(y)

### **독립변수 및 종속변수 요약**

In [None]:
x.describe()

In [None]:
y.describe()

### **독립변수와 종속변수 사이의 상관계수 계산**

In [None]:
columnNames = np.array(x.columns)
print(columnNames)

In [None]:
corrCoefDict = {}

for columnName in columnNames :
  corrCoefDict[columnName] = [np.corrcoef(x[columnName], np.array(y))[0][1]] # 전제 데이터에 대한 상관계수 계산

In [None]:
corrCoefDict

In [None]:
corrCoefDF = pd.DataFrame(data=corrCoefDict).transpose()
corrCoefDF.columns = ["Corr. Coef."]

In [None]:
corrCoefDF

#### **각 점과의 상관계수 시각화**

In [None]:
plt.figure(figsize=(20,10))

for i, columnName in enumerate(columnNames) :
  plt.subplot(2, 4, i+1)
  plt.scatter(x[columnName], np.array(y), marker=".")
  plt.title(f"{columnName}")

plt.show()

### **모델의 일반성 측정을 위한 Dataset 분리**

In [None]:
datasetSize = x.shape[0]
print(f"Dataset Size : {datasetSize}")

In [None]:
trainDS, testDS = int(0.8*datasetSize), datasetSize-int(0.8*datasetSize)  # 4대1 비율로 훈련 및 시험 데이터셋 구성

In [None]:
print(f"Train Dataset Size : {trainDS}")
print(f"Test Dataset Size : {testDS}")

## **Bias 없는 다중 선형 회귀 모델**

### Dataset 샘플링 진행

In [None]:
xTrain, yTrain = x[:trainDS], y[:trainDS]
xTest, yTest = x[trainDS:], y[trainDS:]

### Pandas DF에서 Numpy Array로 데이터 구조 변환

In [None]:
xTrain, yTrain = np.array(xTrain), np.array(yTrain)
xTest, yTest = np.array(xTest), np.array(yTest)

### Dataset 규모 확인

In [None]:
print(f"Input Data Shape : {xTrain.shape}")
print(f"Target Data Shape : {yTrain.shape}")

### **다중 선형 회귀 모델 매개변수 계산**

*   행렬 곱셉 → np.matmul
*   역행렬 → np.linalg.inv

In [None]:
def getParameter(x:np.array, y:np.array) :
  # 코드를 작성해주세요
  return output

In [None]:
betaHat = getParameter(xTrain, yTrain) # 매개변수 예상

### **다중 선형 회귀 모델 추론**

In [None]:
yTrainHat = # 코드를 작성해주세요
print(yTrainHat)

In [None]:
yTestHat = # 코드를 작성해주세요
print(yTestHat)

### **다중 선형 회귀 모델 성능 평가**

#### Bar Chart를 활용한 정성적 평가

In [None]:
fig, ax = plt.subplots(figsize=(20,10))
idx = np.asarray([i for i in range(50)])
width = 0.2

ax.bar(idx, yTest[:50], width=width)
ax.bar(idx+width, yTestHat[:50], width=width)
ax.set_xticks(idx)
ax.legend(["Ground Truth", "Prediction"])
ax.set_xlabel("# samples")
ax.set_ylabel("Value")

fig.tight_layout()
plt.show()

#### **정량적 평가**

##### **손실함수 (RMSE)**



*   제곱 → np.power
*   평균 → np.mean
*   제곱근 → np.sqrt



In [None]:
def RMSE(yHat:np.array, yTarget:np.array) :
  # 코드를 작성해주세요
  return output

In [None]:
trainLoss = RMSE(yTrainHat, yTrain)
print(trainLoss)

In [None]:
testLoss = RMSE(yTestHat, yTest)
print(testLoss)

##### **R2 Score**

In [None]:
def R2Score(yHat:np.array, yTarget:np.array) :
  # 코드를 작성해주세요
  return output

In [None]:
trainR2 = R2Score(yTrainHat, yTrain)
print(trainR2)

In [None]:
testR2 = R2Score(yTestHat, yTest)
print(testR2)

##### **Scikit-Learn을 활용한 R2 Score 계산**

In [None]:
from sklearn.metrics import r2_score

In [None]:
trainR2 = r2_score(yTrain, yTrainHat)
print(trainR2)

In [None]:
testR2 = r2_score(yTest, yTestHat)
print(testR2)

## **Bias가 존재하는 다중 선형 회귀 모델**

In [None]:
x

In [None]:
x["Bias"] = np.ones(x.shape[0]) # Bias Column을 새롭게 추가

#### 새로운 Dataset 확인

In [None]:
x

### Dataset 샘플링 진행

In [None]:
xTrain, yTrain = x[:trainDS], y[:trainDS]
xTest, yTest = x[trainDS:], y[trainDS:]

### Pandas DF에서 Numpy Array로 데이터 구조 변환

In [None]:
xTrain, yTrain = np.array(xTrain), np.array(yTrain)
xTest, yTest = np.array(xTest), np.array(yTest)

### Dataset 규모 확인

In [None]:
print(f"Input Data Shape : {xTrain.shape}")
print(f"Target Data Shape : {yTrain.shape}")

### **다중 선형 회귀 모델 매개변수 계산**

In [None]:
betaHatwB = getParameter(xTrain, yTrain) # 매개변수 예상

### **다중 선형 회귀 모델 추론**

In [None]:
yTrainHatwB =  # 코드를 작성해주세요
print(yTrainHatwB)

In [None]:
yTestHatwB = # 코드를 작성해주세요
print(yTestHatwB)

### **다중 선형 회귀 모델 성능 평가**

#### Bar Chart를 활용한 정성적 평가

In [None]:
fig, ax = plt.subplots(figsize=(20,10))
idx = np.asarray([i for i in range(50)])
width = 0.2

ax.bar(idx, yTest[:50], width=width)
ax.bar(idx+width, yTestHat[:50], width=width)
ax.bar(idx+2*width, yTestHatwB[:50], width=width)
ax.set_xticks(idx)
ax.legend(["Ground Truth", "Prediction wo B", "Prediction w B"])
ax.set_xlabel("# samples")
ax.set_ylabel("Value")

fig.tight_layout()
plt.show()

#### **정량적 평가**

##### **손실함수 (RMSE)**

In [None]:
trainLoss = RMSE(yTrainHatwB, yTrain)
print(trainLoss)

In [None]:
testLoss = RMSE(yTestHatwB, yTest)
print(testLoss)

##### **R2 Score**

In [None]:
trainR2 = r2_score(yTrain, yTrainHatwB)
print(trainR2)

In [None]:
testR2 = r2_score(yTest, yTestHatwB)
print(testR2)

# **[ 다중 선형 회귀분석 개인 실습 ]**

## Diabetes Dataset을 불러온 후 다중 선형 회귀분석을 진행하세요. (10분 소요)



1.   Bias Column을 추가하세요.
2.   Dataset을 4대1 기준으로 분리하세요. (훈련:4 & 시험:1)
3.   다중 선형 회귀분석을 진행한 후 정답과 추론 값을 비교하는 Bar Chart를 출력하세요.
4.   RMSE Loss를 계산하세요.
5.   R2 Score를 계산하세요.


In [None]:
data = datasets.load_diabetes(as_frame=True)

In [None]:
# 코드를 작성해주세요