# **선형회귀와 로지스틱 회귀 구현하기**

간단한 2차원 데이터를 구성하고, 다중선형회귀와 로지스틱 회귀 모델을 학습한 뒤, 2개의 테스트 데이터에 대한 예측을 수행해 본다. 

**1. 선형회귀(linear regression) 구현하기**

데이터가 하나의 변수로만 이루어진 경우는 단순선형회귀라 한다.

하지만 대부분의 회귀 문제에서는 고려해야 할 변수가 여럿인 경우가 많다. 

따라서 데이터가 2개 이상의 변수로 이루어진 경우인 다중선형회귀를 구현해보도록 한다.

In [1]:
from sklearn.linear_model import LinearRegression
import numpy as np

# 키(cm)와 몸무게(kg)로 이루어진 2차원 데이터 hw_train과 비만수치를 나타내는 BMI 생성
hw_train = np.array([[168, 85], [175, 66], [183, 95], [162, 52], [188, 92], [178, 63], [165, 58], [195, 85]])
bmi = hw_train[:,1] / (hw_train[:,0]/100)**2   # BMI = 몸무게(kg)를 키(m)의 제곱으로 나눈 값

# 두 개의 테스트 데이터 생성
hw_test = np.array([[170, 60], [185, 95]])

model = LinearRegression() # 선형회귀 모델 생성
model.fit(hw_train, bmi) # fit함수로 모델에 필요한 기울기(coefficient)와 절편(intercept) 전달

# 기울기와 절편값 확인해 보기
print('기울기 : ', model.coef_)
print('절편 : ', model.intercept_)
print('\n')

y_LinR = model.predict(hw_test) 

# BMI가 18.5~23일 경우 정상, 23 이상은 과체중 및 비만
print('테스트 데이터 1의 BMI값 : {} 으로 정상'.format(y_LinR[0]))
print('테스트 데이터 2의 BMI값 : {} 으로 비만'.format(y_LinR[1]))

기울기 :  [-0.27313159  0.33086019]
절편 :  47.30445078513641


테스트 데이터 1의 BMI값 : 20.723691038653882 으로 정상
테스트 데이터 2의 BMI값 : 28.20682370261067 으로 비만


**2. 로지스틱 회귀(logistic regression) 구현하기**

이진 분류에서 데이터가 2개의 범주(클래스) 중 어디에 속하는지 예측하는 로지스틱 회귀를 구현해 본다.

로지스틱 회귀는 데이터의 예측 결과가 클래스로 분류되기 때문에 분류 기법으로도 볼 수 있다.

앞서 구현한 다중선형회귀에서는 목표값이 실수값(BMI수치)으로 구성되었으나, 로지스틱 회귀에서는 목표값이 클래스값(1 또는 0)으로 주어진다.

In [2]:
from sklearn.linear_model import LogisticRegression
import numpy as np

# 키(cm)와 몸무게(kg)로 이루어진 2차원 데이터 hw_train과 비만을 나타내는 라벨 obe 생성
hw_train = np.array([[168, 85], [175, 66], [183, 95], [162, 52], [188, 92], [178, 63], [165, 58], [195, 85]])
obe = np.array([1, 0, 1, 0, 1, 0, 0, 0]) # 정상이면 0, 비만이면 1

# 두 개의 테스트 데이터 생성
hw_test = np.array([[170, 60], [185, 95]])

model = LogisticRegression()    # 로지스틱 회귀 모델 생성
model.fit(hw_train, obe)

# 기울기와 절편값 확인해 보기
print('기울기 : ', model.coef_)
print('절편 : ', model.intercept_)
print('\n')

y_LogR = model.predict(hw_test) 

print('테스트 데이터 1의 예측 라벨 : {} 으로 정상'.format(y_LogR[0]))
print('테스트 데이터 2의 예측 라벨 : {} 으로 비만'.format(y_LogR[1]))

기울기 :  [[-0.33230846  0.49995348]]
절편 :  [19.38599143]


테스트 데이터 1의 예측 라벨 : 0 으로 정상
테스트 데이터 2의 예측 라벨 : 1 으로 비만
