# **1. 단순 선형 회귀 분석**
- 전복의 나이를 예측하는 선형회귀모델을 생성하세요.
- 전복의 ‘성별’, ‘키’, ‘지름’, ‘높이’, ‘전체무게’, ‘몸통무게’, ‘내장무게’, ‘껍질무게’를 이용해 ‘껍질의 고리 수’를 예측한 뒤, **예측된 ‘껍질의 고리 수’에 1.5를 더하면 전복의 나이**가 됩니다.

In [None]:
# 기본 모듈 불러오기
import numpy as np
import pandas as pd

**1) 데이터 load 및 변형**

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# 데이터 로드
data = pd.read_csv("/content/drive/MyDrive/ESAA/abalone.csv")
data.head()
print(data.shape)

# 성별 M은 Male, F는 Female, I는 Infant 이므로 따로 열 만들기
for label in "MFI":
    data[label] = data["Sex"] == label
data.drop('Sex', axis=1, inplace=True)

(4177, 9)


**2) X, y 선택**
: y는 Rings열, X는 Rings열을 제외한 나머지를 선택하되 전부 실수가 되도록 한다.

In [None]:
# X,y 데이터 선택
y = data["Rings"]
X = data.drop("Rings", axis=1)
X = X.astype(float)

print(X.dtypes)

Length            float64
Diameter          float64
Height            float64
Whole weight      float64
Shucked weight    float64
Viscera weight    float64
Shell weight      float64
M                 float64
F                 float64
I                 float64
dtype: object


 **3) train/test set 분리**

In [None]:
# 필요한 모듈 불러오기
from sklearn.model_selection import train_test_split

In [None]:
# train과 test set 분리 (train:test = 7:3 비율로)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

**4) 선형회귀모델 생성, 모델 예측치 구하기**

In [None]:
#필요한 모듈 불러오기
from sklearn.linear_model import LinearRegression

In [None]:
#선형회귀모델 생성 및 훈련
model = LinearRegression()
model.fit(X_train, y_train)

In [None]:
# 모델 예측치 구하기
y_pred = model.predict(X_test)
# 모델 예측치를 활용해 최종적으로 전복의 나이를 예측
predicted_age = y_pred + 1.5
predicted_age[:10]

array([13.30063634, 11.75335812, 15.60360339, 13.54226171, 12.69633484,
       11.80347217, 10.94506182, 10.70005006,  8.70150423, 12.32517274])

**5) 모델 평가: MSE, RMSE, R2 score, corr 구하기**

In [None]:
#필요한 모듈 불러오기
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

- MSE, RMSE

In [None]:
#mse, rmse
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)

print('mse:',mse)
print('rmse:',rmse)

mse: 4.784788642609096
rmse: 2.187415973839703


- R2 score

In [None]:
#R2 score 측정
r2 = r2_score(y_test, y_pred)
print('r2:',r2)

r2: 0.5288038218248535


- 회귀 절편값

In [None]:
#회귀 절편 값
intercept = model.intercept_
print('회귀 절편 값:', intercept)

회귀 절편 값: 3.505437824183651


- 회귀 계수 값

In [None]:
#회귀 계수 값
coefficients = model.coef_
print(coefficients)

[  0.68477866  10.22284979  10.12970323   9.96936997 -21.51854239
 -10.69779966   7.95540502   0.3067448    0.21002805  -0.51677285]


- 상관계수

Hint: corr 함수 이용.

In [None]:
# 상관계수 구하기
corr = y_test.corr(pd.Series(y_pred))
print('상관계수:',corr)

상관계수: -0.0035000747431535094


# **2. Polynomial features**

In [None]:
# PolynomialFeatures 라이브러리 호출
from sklearn.preprocessing import PolynomialFeatures
import pandas as pd
import numpy as np

In [None]:
# 임의 데이터 생성

X = np.arange(6).reshape(3, 2)

df =  pd.DataFrame(X)
df.columns = ['x_1','x_2']
df

Unnamed: 0,x_1,x_2
0,0,1
1,2,3
2,4,5


In [None]:
# 차원은 2로 설정
poly = PolynomialFeatures(degree=2)

# fit_transform 메소드를 통해 데이터 변환
X_poly = poly.fit_transform(df)

# PolynomialFeatures로 변환 된 데이터를 데이터 프레임 형태로 변환
df_poly = pd.DataFrame(X_poly, columns=poly.get_feature_names_out(df.columns))

df_poly

Unnamed: 0,1,x_1,x_2,x_1^2,x_1 x_2,x_2^2
0,1.0,0.0,1.0,0.0,0.0,1.0
1,1.0,2.0,3.0,4.0,6.0,9.0
2,1.0,4.0,5.0,16.0,20.0,25.0


In [None]:
# df_poly의 컬럼을 1,x1,x2,x1^2,x1*x2,x2^2 로 변경
df_poly.columns = ['1', 'x1', 'x2', 'x1^2', 'x1*x2', 'x2^2']
df_poly

Unnamed: 0,1,x1,x2,x1^2,x1*x2,x2^2
0,1.0,0.0,1.0,0.0,0.0,1.0
1,1.0,2.0,3.0,4.0,6.0,9.0
2,1.0,4.0,5.0,16.0,20.0,25.0
