### 선형회귀분석
* 예측 문제에 사용하는 알고리즘
* 새로운 데이터가 들어왔을 때 어떤 '값'이 될지 예측하는 문제
* 주어진 데이터를 대표하는 하나의 직선을 찾는 것인데 이 직선을 회귀선이라고 부르고 이 선을 함수로 표현한 것을 회귀식이라 한다.

* 일차함수 y = ax + b
* 종속변수 y와 한개 이상의 독립변수 x와 선형상관관계를 모델링하는 회귀분석기법
* 선형회귀는 특성(feature)의 개수에 따라 단순선형회귀(simple linear regression)와 
  다중선형회귀(multiple linear regression)으로 분류되어진다.
* Lasso(Least Absolute Shrinkage And Selection Operator)는 선형회귀의 단점을 보안하기 위해서 개발된 모델
* 아버지와 아들의 키를 가지고 아들의 키를 구하는 단순선형회귀식을 만들고 해석

In [2]:
import pandas as pd

train = pd.read_excel('data/아버지아들키.xlsx', sheet_name='train')
print(train.shape)
train.head()

(755, 2)


Unnamed: 0,Father,Son
0,165.1,151.892
1,165.1,160.782
2,167.132,159.512
3,155.194,163.322
4,160.02,163.068


In [3]:
# 훈련데이터 추출
# print(type(train['Father']), type(train[['Father']])) # 앞은 시리즈 타입, 뒤는 데이터프레임 타입이므로 뒤에방식 이용
X_train = train[['Father']]
y_train = train['Son']
print(X_train.shape, y_train.shape)

(755, 1) (755,)


In [4]:
test = pd.read_excel('data/아버지아들키.xlsx', sheet_name='test')
print(test.shape)
test.head()

(323, 2)


Unnamed: 0,Father,Son
0,160.782,160.528
1,166.116,162.814
2,165.608,164.592
3,169.672,166.37
4,176.53,166.37


In [5]:
# 검증데이터 추출하기
X_test = test[['Father']]
y_test = test[['Son']]
print(X_test.shape, y_test.shape)

(323, 1) (323, 1)


#### 2. 모델 생성, 학습/예측/검증 하기
* LinearRegression 모델 사용
* R square(결정계수)를 구하는 공식 : 1-(SSE/SST)
* SSE는 관측값에서 예측값을 뺀 수치의 제곱의 합
* SSR은 예측값에서 관측값 평균을 뺀 수치의 제곱의 합
* SSE와 SSR을 더한 값이 SST > SST = SSE + SSR
* LinearRegression의 score() 함수를 사용하면 Rsquare을 구할 수 있다.
* Rsquare(결정계수)는 0 ~ 1 사이의 값을 가진다.
* 

In [6]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

model = LinearRegression()

# 학습하기
model.fit(X_train, y_train)

# 예측하기
y_pred = model.predict(X_test)

# 예측의 정확도 점수
score = r2_score(y_test, y_pred)
print(f'예측 정확도 점수 {score}')

# LinearRegression 의 score() 함수를 통해서 R Square 값 구하기
rsquare = model.score(X_test, y_test)
print(f'예측 정확도 점수 {rsquare}')

# 아버지의 키가 160일때 아들의 키는?
print(model.predict([[160]]))
print('상관계수 coefficient ', model.coef_)
print('상수항 intercept ', model.intercept_)
print(model.predict([[175]]))

예측 정확도 점수 0.2519977905846619
예측 정확도 점수 0.2519977905846619
[168.22133267]
상관계수 coefficient  [0.51820601]
상수항 intercept  85.3083706214848
[175.99442287]


In [8]:
model = LinearRegression(normalize=True)

# 학습하기
model.fit(X_train, y_train)

# 예측하기
y_pred = model.predict(X_test)

print(model.predict([[160]]))
print('회귀계수 coefficient ', model.coef_)
print('절편 intercept ', model.intercept_)

[168.22133267]
회귀계수 coefficient  [0.51820601]
절편 intercept  85.30837062148485


* y = ax + b
* x : 독립변수, y = 종속변수, a = 회귀계수(coef_), b = 절편(intercept_)
* model.coef_ 는 coefficient는 식의 기울기, intercept_는 식의 상수항을 나타낸다.
* 아들키 = coefficient(상관계수)-0.51820601 * 아버지키 + intercept(절편)-85.3083706214848
* 아버지의 키가 1cm 클 때마다 아들의 키는 0.51cm 정도 커진다.