In [33]:
################################################
# 선형 회귀 분석 (Linear Regression)
################################################

# 변수 A,B 의 발생이 독립적이지 않고 관련성이 있으며 방향성도
# 있을 경우, 이 변수들의 인과관계를 토대로 수학적 함수로 가정하고
# 측정된 자료를 이용해서 함수의 계수를 추정하여 예측하거나 
# 통계분석을 수행하는 과정을 회귀분석이라고 한다. 

# 예를 들면 어떤 실험에서 시약 투입량에 따라 결과물 반응이 다르게
# 나타나고 관련성과 방향성이 파악되면 약의 투입량에 따른
# 인과관계로 반응의 결과를 예측할 수 있다. 

# 시약의 투입량처럼 결과 반응에 영향을 주는 변수를 
# '독립변수'(Independant variable:x) '설명면수','예측변수' 등으로
# 부르고 반응 결과와 같은 변화되는 결과로 측정되는 변수를 
# '종속변수'(Dependant variable;y)또는 '반응변수' 부른다. 

# 이때, 이들 변수들들 간의 관계가 선형이고 독립변수가 1개이면
# '단순 선형회귀분석'이라고 한다. 만일 독립변수가 2개 이상일 경우
# '중회귀모형'(Multiple Linear Regression, MLR)이라고 한다.

In [34]:
from sklearn import datasets
dataset = datasets.load_iris()
dataset

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [35]:
data = dataset.data
data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [36]:
targets = dataset.target
targets[:5]

array([0, 0, 0, 0, 0])

In [37]:
targets = data[:,3]
data = data[:,0:3]
targets

array([0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.2, 0.1,
       0.1, 0.2, 0.4, 0.4, 0.3, 0.3, 0.3, 0.2, 0.4, 0.2, 0.5, 0.2, 0.2,
       0.4, 0.2, 0.2, 0.2, 0.2, 0.4, 0.1, 0.2, 0.2, 0.2, 0.2, 0.1, 0.2,
       0.2, 0.3, 0.3, 0.2, 0.6, 0.4, 0.3, 0.2, 0.2, 0.2, 0.2, 1.4, 1.5,
       1.5, 1.3, 1.5, 1.3, 1.6, 1. , 1.3, 1.4, 1. , 1.5, 1. , 1.4, 1.3,
       1.4, 1.5, 1. , 1.5, 1.1, 1.8, 1.3, 1.5, 1.2, 1.3, 1.4, 1.4, 1.7,
       1.5, 1. , 1.1, 1. , 1.2, 1.6, 1.5, 1.6, 1.5, 1.3, 1.3, 1.3, 1.2,
       1.4, 1.2, 1. , 1.3, 1.2, 1.3, 1.3, 1.1, 1.3, 2.5, 1.9, 2.1, 1.8,
       2.2, 2.1, 1.7, 1.8, 1.8, 2.5, 2. , 1.9, 2.1, 2. , 2.4, 2.3, 1.8,
       2.2, 2.3, 1.5, 2.3, 2. , 2. , 1.8, 2.1, 1.8, 1.8, 1.8, 2.1, 1.6,
       1.9, 2. , 2.2, 1.5, 1.4, 2.3, 2.4, 1.8, 1.8, 2.1, 2.4, 2.3, 1.9,
       2.3, 2.5, 2.3, 1.9, 2. , 2.3, 1.8])

In [38]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data, targets, test_size=0.3, random_state=42)

In [39]:
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X_train, y_train)

LinearRegression()

In [41]:
print("회귀계수", lr.coef_)
print("회귀상수", lr.intercept_)
print("훈련셋의 결정계수", lr.score(X_train, y_train))
print("테스트의 결정계수", lr.score(X_test, y_test))

회귀계수 [-0.25113971  0.25971605  0.54009078]
회귀상수 -0.16560909133063073
훈련셋의 결정계수 0.9347286537352799
테스트의 결정계수 0.9407619505985546


In [42]:
print(lr.predict(X_train))

[1.07477693 1.73387867 2.00271583 1.33241642 2.25571656 1.4244524
 2.26947643 1.63756521 0.21871167 2.24642833 1.29338614 0.16762609
 0.18981656 0.56667188 0.9884422  1.59988891 0.53812737 0.22198577
 0.32879569 1.39762316 0.24674914 1.45042401 2.50614438 0.26636671
 1.35289162 1.75263861 0.30005702 1.69913656 1.83347692 1.05929109
 1.68779315 2.07684951 1.21083255 0.40928341 0.95833886 1.79081125
 0.19188243 0.05789267 1.128786   1.63135692 0.21906227 1.85944853
 0.27186311 0.3518438  1.77619374 0.82314087 2.01113574 1.78324898
 2.0022088  1.97431707 1.26277577 0.23867983 0.12773818 1.59938188
 2.09782106 0.29440418 0.21871167 0.21064236 1.5479457  2.1597537
 0.31830992 1.87628834 2.3498184  0.18724366 1.59404191 1.41360534
 1.59696541 1.44593099 1.92066928 0.40464464 1.8231369  1.40019606
 1.78960302 0.96847404 1.33605181 1.56600444 0.00372715 1.41446297
 1.50478368 0.27443602 1.4215289  2.15681951 2.08733529 0.32466396
 1.00942444 2.08733529 1.93785969 0.29491122 1.981383   0.139081