# 다중선형회귀
수치형(실수형) 설명변수 X와 연속형 숫자로 이루어진 종속변수 Y간의 관계를 선형으로 가정하고 이를 가장 잘 표현할 수 있는 회귀계수(beta)를 데이터로부터 추정하는 모델
```
예시: 주택크기(X1)와 주택가격(Y)의 관계를 나타내는 직선을 찾는(어떤 관계에 있는지 찾는) 문제
```
* 범주형 : [0,1,2]와 같은 클래스 라벨링

## 회귀 계수 결정법
* Direct Solution : 미분
    - 선형회귀 계수들은 실제값(Y)과 모델 예측값(Y')의 차이인 오차제곱합(error sum of squares)을 최소로 하는 값을 회귀 계수로 선정
    - 최적의 계수들은 **회귀 계수에 대해 미분한 식을 0**으로 놓고 풀면 명시적인 해를 구할 수 있다.
* Numerical Search : 미분이 불가능하다던지?!
    - Gradient descent(경사하강법) 같은 반복적인 방식으로 선형회귀 계수를 구함.
    - **Gradient descent**: 어떤 함수 값(목적 함수, 비용 함수, 에러 값: 최소화하고자 하는 것!!!)을 최소화 하기 위해 
        - 임의의 시작점을 잡는다.
        - 해당 지점에서의 gradient(경사)를 구한다.
        - Gradient의 반대 방향으로 조금씩 이동하는 과정을 여러 번 반복한다.
        > 이동하는 정도는 learning rate로 나타내고, 이 과정은 더 이상 변화가 없을 때 까지 반복한다.

### Gradient descent의 종류
<img src=https://user-images.githubusercontent.com/53554014/95410143-20fd9e80-095e-11eb-8273-543089398678.png width=90% alt=GD></img>
* Batch Gradient Descent(GD)
    - 파라미터를 업데이트 할 때마다 **모든 학습 데이터를 사용하여** cost function의 gradient를 계산
    - 가장 naive하고 기본적인 방법이기 때문에 Vanilla Gradient Descent라 불린다.
    - 데이터가 많으면 속도가 매우 느리다!!! 따라서 매우 낮은 학습 효율을 보일 수 있다.
* Stochastic Gradient Descent(SGD)
    - 파라미터를 업데이트 할 때, **무작위로 샘플링된 학습 데이터를 하나씩만 사용**하여 cost function의 gradient를 계산
    - 장점: 모델을 자주 업데이트 하며, 성능 개선 정도를 빠르게 확인 가능. Local minima에 빠질 가능성을 줄일 수 있음.
    - 단점: 최소 cost에 수렴했는지의 판단이 상대적으로 어려움
    > 데이터 전체를 보는 것이 아니기 때문!!! 최소 cost에 가까워지고 있긴 한데 그 점이 최소 cost인지는 알 수 없음. 그러나 충분하다는 것이 수학적으로 증명되었으므로 사용되는 것!
* Mini Batch Gradient Descent
    - 파라미터를 업데이트 할 때마다 **일정량의 일부 데이터를 무작위로 뽑아** cost function의 gradient를 계산.
    - Batch Gradient Descent와 Stochastic Gradient Descent 개념의 혼합이다.
    - SGD의 노이즈를 줄이면서, GD의 전체 배치보다 효율적이다. 가장 널리 사용된다.

## 정규화(regularization)
회귀계수가 가질 수 잇는 값에 제약조건을 부여하여 미래 데이터에 대한 오차를 잘 해결할 수 있기를 기대
* 미래데이터에 대한 오차의 기대 값은 모델의 Bias와 Variance로 분해 가능.
* 정규화는 **Variance를 감소**시켜 일반화 성능을 높이는 기법.
> 단, 이 과정에서 bias가 증가할 수 있다.
* <img src="https://user-images.githubusercontent.com/53554014/95421493-79da3080-0978-11eb-9e8e-31c545d7ec35.png" width=50% alt="regularization"></img>
    * 정규화가 거의 없을 때 : overfitting(학습데이터는 정말 잘 맞추고 있지만, 미래 데이터가 조금만 바뀌어도 예측 값이 들쭉날쭉.
    * 강한 수준의 정규화 : 학습데이터에 대한 설명력은 다소 포기하는 대신 미래 데이터 변화에 상대적으로 안정적인 결과를 나타냄.

### Bias-Variance Decomposition
일반화(generalization) 성능을 높이는 정규화(Regularization), 앙상블(ensemble)기법의 이론적 배경으로, 학습에 쓰지 않은 미래데이터에 대한 오차의 기대값을 모델의 Bias와 Variacne로 분해하자는 내용.

<img src=https://user-images.githubusercontent.com/53554014/95420998-72feee00-0977-11eb-9d99-a4e4ade4387a.png width=80% alt="variance"></img>
* 앞 두 그림은 분산이 큰 상황, 뒤 두 그림은 분산이 작은 상황.
* 1,3 그림은 bias가 큰 상황, 2,4 그림은 bias가 작은 상황.
* 위 그림을 비교하면, bias를 줄였을 때 정답을 맞출 확률은 분산이 작은 상황에서이다.
* **즉, 정규화는 variance를 감소시켜 정답을 맞출 확률을 증가시키는(성능을 높이는) 방법이다!**
> 물론 과녁 밖으로 bias를 증가시키지 않도록 정규화를 잘 컨트롤 해야 한다.
* `정규화 정도(C) = 1/lambda` 
* C를 키우면 강한 정규화가 된다. C값을 hand-tunning하여 적절한 값을 설정한다.
* Boosting은 Bias를 줄여 성능을 높이고, Lasso regression(라쏘회귀)는 Variance를 줄여 성능을 높이는 기법이다.

# Logistic regression

## Motivation
다중선형회귀의 정의를 다시 생각해보자! 수치형 설명변수(X)와 연속형 숫자로 이루어진 종속변수(Y) 간의 관계를 선형으로 가정하고 이를 가장 잘 표현할 수 있는 회귀계수(beta)를 데이터로부터 추정하는 것.

* 예시 1: 성인 여성의 나이와 혈압 관계
    - 33명의 성인 여성에 대한 나의와 혈압 데이터가 있다.
    - 오차제곱합을 최소로 하는 회귀 계수 계산 결과는 다음과 같다. `Y = 81.54 + 1.222AGE`
    - 나이 변수에 대응하는 계수는 1.222로 구해졌다. 즉, 나이를 한 살 더 먹으면 혈압이 1.222mm/Hg만큼 증가한다.
<img src=https://user-images.githubusercontent.com/53554014/95422188-ceca7680-0979-11eb-8457-984cf3371136.png width=50%></img>

* 예시 2: 성인 여성의 나이와 암 발병 관계
    - 33명의 성인 여성에 대한 나이(AGE)병(CD) 데이터가 있다.
    - 암 발병 여부는 정상을 0, 발병을 1이라 하자.
    > 범주형 숫자(암 발병 여부)는 연속형 숫자(혈압)과 달리 의미를 지니지 않는다. 따라서 정상을 1, 발병을 0이라 해도 상관 없음.
    - 오차제곱합을 최소로 하는 회귀 계수를 계산해보자.
    - 어떻게?
<img src="https://user-images.githubusercontent.com/53554014/95422386-3254a400-097a-11eb-8a7c-c6bcaa598789.png" width=50%></img>

## 우선 관련 개념을 알아보자!!
### Logistic function
<img src="https://user-images.githubusercontent.com/53554014/95422660-a98a3800-097a-11eb-8cd6-192177e69bae.png" width=80%></img>
* 위와 같은 S-커브 함수를 로지스틱 함수라 한다.
    * 실제 많은 자연/사회현상에서는 특정 변수에 대한 확률 값이 선형이 아닌 위와 같은 S-커브 형태이다.
* x값은 어떤 값이든 받을 수 있다.
* y값(출력 결과)는 항상 0에서 1 사이 값이다.
* 오잉? 이 조건은 확률밀도함수(probability density function)으로서의 요건을 충족한다!!
* **시그모이드 함수라고도 부른다.**

### Odds(승산)
<img src="https://user-images.githubusercontent.com/53554014/95423010-4fd63d80-097b-11eb-914c-ce23b2e31530.png" width=30%></img>
<img src="https://user-images.githubusercontent.com/53554014/95423151-9461d900-097b-11eb-8555-68c461969fc4.png" width=30%></img>
* P(A)가 1에 가까울수록 승산은 커진다.
* P(A)가 0이면 승산은 0이다.
* P(A)는 0과 1 사이의 값이다.

## 이항 로지스틱 회귀
아까와 같이 Y가 범주형이라서 다중선형회귀모델을 적용하지 못하는 경우로 돌아가자. Y를 확률식으로 바꾸고 승산으로 바꾸고 로그를 취하고 어쩌구저쩌구하면 **로지스틱 함수**가 나온다!!!
* 회귀 문제로 풀 수 없는 문제를 풀기 위해 Odd, log로 범위를 bound 시켰더니 로지스틱 함수가 나왔다.
* 즉, 범주형 데이터의 분류 문제를 풀 수 있게 되었다!!!
* 이것을 **로지스틱 회귀**라 부른다.

### 결정 경계
이항 로지스틱 모델은 범주 정보를 모르는 입력 벡터 x를 넣으면 범주 1에 속할 확률을 반환한다. **`beta.T * x > 0`이면 범주를 1**로 분류, **`beta.T * x < 0`이면 범주를 0**으로 분류한다.
* `beta.T * x = 0` 일 때 1인지 0인지 결정하는 로지스틱 결정 경계(decision boundary)인 하이퍼플레인(hyperplane)이다.

### 다항 로지스틱 회귀
이항 로지스틱 회귀 모델은 결국 집합을 통한 확률 문제이다. 따라서 3항 로지스틱 회귀 문제가 있을 때, 3번 범주는 1번과 2번 집합으로 표현할 수 있다.

즉, 3번 범주에 속할 확률은 1- (1번 범주에 속할 확률) - (2번 범주에 속할 확률)이다.
* 이를 통해 K개 범주를 분류하는 다항 로지스틱 회귀 모델의 입력 벡터 x가 각 클래스로 분류될 확률을 구할 수 있다.
* <img src="https://user-images.githubusercontent.com/53554014/95424363-7a28fa80-097d-11eb-8c3d-3273ca725404.png" width=80%></img>
* 또 어쩌구저쩌구 하면 로그 성질을 활용해 c번째 범주에 속할 확률을 기준으로 식을 정리할 수 있다.
* <img src="https://user-images.githubusercontent.com/53554014/95424528-bb210f00-097d-11eb-81d6-1de19839eb70.png" width=90%></img>

# 로지스틱 회귀 실습
### (1) iris 데이터로 실습
* 로지스틱 회귀를 적용해본다.
* 전처리 과정에 정규화를 적용해본다.

In [2]:
import seaborn as sns

iris = sns.load_dataset('iris')
print(iris.head(3))

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa


In [3]:
X = iris.drop('species', axis=1)
print(X.head(1))

   sepal_length  sepal_width  petal_length  petal_width
0           5.1          3.5           1.4          0.2


In [5]:
y = iris['species']
print(y.tail(1))

149    virginica
Name: species, dtype: object


In [6]:
from sklearn.preprocessing import LabelEncoder

In [9]:
classle = LabelEncoder()
y = classle.fit_transform(iris['species'].values)
print(y)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


In [10]:
import numpy as np
print(np.unique(y))

[0 1 2]


In [11]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1, stratify=y)

In [12]:
from sklearn.preprocessing import StandardScaler

In [13]:
sc = StandardScaler()
sc.fit(X_train)
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

#### 드디어 Logistic regression 적용 부분

In [14]:
from sklearn.linear_model import LogisticRegression

In [15]:
Logit = LogisticRegression(C=200, random_state=11) #C랑 random state값만 설정하고 나머지 params는 default로 둔다!
l_1 = Logit.fit(X_train_std, y_train)
y_train_pred = Logit.predict(X_train_std)
y_test_pred = Logit.predict(X_test_std)

In [16]:
from sklearn.metrics import accuracy_score

In [17]:
print(accuracy_score(y_train, y_train_pred))
print(accuracy_score(y_test, y_test_pred))

0.9809523809523809
1.0


In [18]:
from sklearn.metrics import confusion_matrix

In [19]:
print(confusion_matrix(y_test, y_test_pred))

[[15  0  0]
 [ 0 15  0]
 [ 0  0 15]]


### (2) wine data로 실습
* 데이터 전처리 중 정규화를 적용한다.
* 정규화의 규제강도(C, variance 정도를 조절)를 다양하게 해서 실험한다.
* 다양한 규제강도에 따라 회귀계수가 어떻게 변하는지 본다.

In [20]:
import pandas as pd

In [83]:
wine = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data',header=None)
wine.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


<img src="https://user-images.githubusercontent.com/53554014/95431924-ebba7600-0988-11eb-8725-0863f047cd66.png" width=80%></img>
<img src="https://user-images.githubusercontent.com/53554014/95431989-ff65dc80-0988-11eb-87cc-bc6fba0f736e.png" width=80%></img>
* header를 없애거나 0으로하면 0번 row의 내용이 헤더로 들어가지더라.
* 즉, 이 데이터는 원래 헤더가 수치형 데이터인 것이다!
* 하지만 뭐가 뭔지 모르겠으니 헤더를 붙여보겠음.

In [84]:
wine.columns = ['class label', 'alchohol', 'malic acid', 'ash', 'alcalinity of ash', 'magnesium', 'total phenols', 
                    'flavanoids', 'nonflavanoid phenols', 'proanthocyanins', 'color intensity', 'hue', 
                    'OD208', 'proline']  # Column names
wine.head()

Unnamed: 0,class label,alchohol,malic acid,ash,alcalinity of ash,magnesium,total phenols,flavanoids,nonflavanoid phenols,proanthocyanins,color intensity,hue,OD208,proline
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


In [85]:
print('Check class label: ', np.unique(wine['class label']))

Check class label:  [1 2 3]


In [86]:
#feature
X_ = wine.iloc[:, 1:].values #class label 빼고
print(X_[0])

[1.423e+01 1.710e+00 2.430e+00 1.560e+01 1.270e+02 2.800e+00 3.060e+00
 2.800e-01 2.290e+00 5.640e+00 1.040e+00 3.920e+00 1.065e+03]


In [87]:
#label
y_ = wine.iloc[:, 0].values #class label만 가져오기
print(y_)

[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3]


In [88]:
from sklearn.model_selection import train_test_split

In [89]:
X_train2, X_test2, y_train2, y_test2 = train_test_split(X_, y_, test_size=0.3, random_state=1, stratify=y)

In [90]:
from sklearn.preprocessing import StandardScaler

In [91]:
std = StandardScaler()
X_train2_std = std.fit_transform(X_train2)
X_test2_std = std.transform(X_test2)

#### Logistic regression with L2 or L1 regularizaion
* Logistic regression params 중 penalty는 l1, l2가 있다.
* sckit-learn docs에서 확인하면 default가 l2라고 한다.
* 봐도 뭔차인지 잘 모르겠다. 실험해보자.

In [92]:
from sklearn.linear_model import LogisticRegression

In [93]:
lr2_10 = LogisticRegression(penalty='l2', C=10.0, solver='saga')
lr2_1 = LogisticRegression(penalty='l2', C=1.0, solver='saga')
lr2_0_1 = LogisticRegression(penalty='l2', C=0.1, solver='saga')

lr1_10 = LogisticRegression(penalty='l1', C=10.0, solver='saga')
lr1_1 = LogisticRegression(penalty='l1', C=1.0, solver='saga')
lr1_0_1 = LogisticRegression(penalty='l1', C=0.1, solver='saga')

In [94]:
# 규제화 방법(L2 or L1)과 규제강도(λ)를 바꿔가며 accuracy score 계산
lr2_10.fit(X_train2_std, y_train2)
print('Training accuracy with L2 and λ=0.1:', lr2_10.score(X_train2_std, y_train2))
print('Test accuracy with L2 and λ=0.1:', lr2_10.score(X_test2_std, y_test2))
print('=============================================')

lr2_1.fit(X_train2_std, y_train2)  # warning..
print('Training accuracy with L2 and λ=1:', lr2_1.score(X_train2_std, y_train2))
print('Test accuracy with L2 and λ=1:', lr2_1.score(X_test2_std, y_test2))
print('=============================================')

lr2_0_1.fit(X_train2_std, y_train2)
print('Training accuracy with L2 and λ=10:', lr2_0_1.score(X_train2_std, y_train2))
print('Test accuracy with L2 and λ=10:', lr2_0_1.score(X_test2_std, y_test2))
print('=============================================')

lr1_10.fit(X_train2_std, y_train2)
print('Training accuracy with L1 and λ=0.1:', lr1_10.score(X_train2_std, y_train2))
print('Test accuracy with L1 and λ=0.1:', lr1_10.score(X_test2_std, y_test2))
print('=============================================')

lr1_1.fit(X_train2_std, y_train2)
print('Training accuracy with L1 and λ=1:', lr1_1.score(X_train2_std, y_train2))
print('Test accuracy with L1 and λ=1:', lr1_1.score(X_test2_std, y_test2))
print('=============================================')

lr1_0_1.fit(X_train2_std, y_train2)
print('Training accuracy with L1 and λ=10:', lr1_0_1.score(X_train2_std, y_train2))
print('Test accuracy with L1 and λ=10:', lr1_0_1.score(X_test2_std, y_test2))

Training accuracy with L2 and λ=0.1: 1.0
Test accuracy with L2 and λ=0.1: 0.9814814814814815
Training accuracy with L2 and λ=1: 1.0
Test accuracy with L2 and λ=1: 0.9814814814814815
Training accuracy with L2 and λ=10: 1.0
Test accuracy with L2 and λ=10: 1.0
Training accuracy with L1 and λ=0.1: 1.0
Test accuracy with L1 and λ=0.1: 0.9814814814814815
Training accuracy with L1 and λ=1: 1.0
Test accuracy with L1 and λ=1: 1.0
Training accuracy with L1 and λ=10: 0.967741935483871
Test accuracy with L1 and λ=10: 0.9444444444444444




#### 표준화 한 거

In [95]:
# L2 규제의 규제강도(C=1/λ)를 바꿔가며 계수 추정치 관찰
print(lr2_10.intercept_)
print(lr2_1.intercept_)
print(lr2_0_1.intercept_)

print(lr2_10.coef_)
print(lr2_1.coef_)
print(lr2_0_1.coef_)

[ 0.34687747  0.6116177  -0.95849517]
[ 0.28376961  0.60389342 -0.88766303]
[ 0.06854008  0.45692041 -0.52546049]
[[ 1.26438645  0.14369575  0.3931559  -1.5511601   0.07439926  0.43584438
   0.78860112 -0.26279888  0.0945389   0.14698419  0.06989391  0.98894165
   1.37161325]
 [-1.55007846 -0.43963166 -1.21922536  1.21331351 -0.33212444 -0.58956151
   0.89834861  0.3903272   0.38197119 -1.32239436  1.14993916  0.04747768
  -1.75150968]
 [ 0.28569201  0.29593591  0.82606946  0.33784659  0.25772518  0.15371713
  -1.68694973 -0.12752832 -0.4765101   1.17541017 -1.21983307 -1.03641933
   0.37989644]]
[[ 0.75467313  0.06155814  0.23319398 -0.89238599  0.02639075  0.29447012
   0.56079275 -0.20731033  0.13438187  0.127967    0.10217418  0.61795312
   0.90928163]
 [-0.98664826 -0.32320644 -0.65180091  0.66772511 -0.22942603 -0.2069493
   0.438132    0.19828961  0.24428612 -0.78016792  0.63732618  0.08576925
  -1.03440895]
 [ 0.23197512  0.2616483   0.41860693  0.22466087  0.20303528 -0.087520

In [96]:
# L1 규제의 규제강도(C=1/λ)를 바꿔가며 계수 추정치 관찰
print(lr1_10.intercept_)
print(lr1_1.intercept_)
print(lr1_0_1.intercept_)

print(lr1_10.coef_)
print(lr1_1.coef_)
print(lr1_0_1.coef_)

[ 0.30387148  0.62186574 -0.92573722]
[ 0.28720449  0.54039448 -0.82759897]
[ 0.05083191  0.30693661 -0.35776852]
[[ 1.22451204  0.          0.21299962 -1.64673615  0.          0.30292107
   0.78416119 -0.0943716   0.          0.          0.          0.90537236
   1.4940377 ]
 [-1.78538978 -0.44071911 -1.46934509  1.08895271 -0.3436277  -0.43908924
   0.72571716  0.45205766  0.21605529 -1.42500777  1.12651106  0.
  -1.92864578]
 [ 0.0344016   0.15138763  0.72884836  0.03045648  0.1979475   0.
  -2.02822934  0.         -0.28940592  1.28082838 -1.19926126 -0.9399915
   0.        ]]
[[ 0.02079699  0.          0.         -1.17901171  0.          0.
   0.02457892  0.          0.          0.          0.          0.62602817
   0.99200519]
 [-1.5770983  -0.14580899 -0.76929873  0.03925027 -0.07014656  0.
   0.          0.1332569   0.         -1.0335989   0.21909558  0.
  -1.19981459]
 [ 0.          0.          0.          0.          0.          0.
  -2.0675831   0.         -0.03705152  0.2344

#### 표준화 안 한 거

In [97]:
lr2_10.fit(X_train2, y_train2)
print('Training accuracy with L2 and λ=0.1:', lr2_10.score(X_train2, y_train2))
print('Test accuracy with L2 and λ=0.1:', lr2_10.score(X_test2, y_test2))
print('\n')

lr2_1.fit(X_train2, y_train2)  # warning..
print('Training accuracy with L2 and λ=1:', lr2_1.score(X_train2, y_train2))
print('Test accuracy with L2 and λ=1:', lr2_1.score(X_test2, y_test2))
print('\n')

lr2_0_1.fit(X_train2, y_train2)
print('Training accuracy with L2 and λ=10:', lr2_0_1.score(X_train2, y_train2))
print('Test accuracy with L2 and λ=10:', lr2_0_1.score(X_test2, y_test2))
print('\n')

lr1_10.fit(X_train2, y_train2)
print('Training accuracy with L1 and λ=0.1:', lr1_10.score(X_train2, y_train2))
print('Test accuracy with L1 and λ=0.1:', lr1_10.score(X_test2, y_test2))
print('\n')

lr1_1.fit(X_train2, y_train2)
print('Training accuracy with L1 and λ=1:', lr1_1.score(X_train2, y_train2))
print('Test accuracy with L1 and λ=1:', lr1_1.score(X_test2, y_test2))
print('\n')

lr1_0_1.fit(X_train2, y_train2)
print('Training accuracy with L1 and λ=10:', lr1_0_1.score(X_train2, y_train2))
print('Test accuracy with L1 and λ=10:', lr1_0_1.score(X_test2, y_test2))

Training accuracy with L2 and λ=0.1: 0.717741935483871
Test accuracy with L2 and λ=0.1: 0.6296296296296297


Training accuracy with L2 and λ=1: 0.717741935483871
Test accuracy with L2 and λ=1: 0.6296296296296297


Training accuracy with L2 and λ=10: 0.717741935483871
Test accuracy with L2 and λ=10: 0.6296296296296297


Training accuracy with L1 and λ=0.1: 0.717741935483871
Test accuracy with L1 and λ=0.1: 0.6296296296296297


Training accuracy with L1 and λ=1: 0.717741935483871
Test accuracy with L1 and λ=1: 0.6296296296296297


Training accuracy with L1 and λ=10: 0.7016129032258065
Test accuracy with L1 and λ=10: 0.6111111111111112




In [98]:
#L2의 규제강도 C를 바꿔가며 계수 추정치 관찰
print(lr2_10.intercept_)
print(lr2_1.intercept_)
print(lr2_0_1.intercept_)

print(lr2_10.coef_)
print(lr2_1.coef_)
print(lr2_0_1.coef_)

[-4.92149645e-04  4.76995255e-04  1.51543899e-05]
[-4.92147046e-04  4.76225444e-04  1.59216018e-05]
[-4.90606601e-04  4.73833618e-04  1.67729834e-05]
[[-0.00541606 -0.00179518 -0.00102293 -0.013475   -0.03574674 -0.00017599
   0.00071245 -0.00032964 -0.00022964 -0.00256258 -0.00027028 -0.00026517
   0.00527932]
 [ 0.00439105 -0.00064046  0.00084564  0.01043136  0.02950515  0.00128319
   0.00170589  0.00017849  0.00101575 -0.00351984  0.00082466  0.00218502
  -0.00444707]
 [ 0.00102501  0.00243564  0.00017728  0.00304364  0.0062416  -0.0011072
  -0.00241834  0.00015115 -0.00078612  0.00608241 -0.00055437 -0.00191985
  -0.00083224]]
[[-0.00540943 -0.00178909 -0.0010181  -0.013441   -0.03566805 -0.00017515
   0.00072044 -0.0003306  -0.00022342 -0.00257069 -0.00027117 -0.00025838
   0.00526998]
 [ 0.00437812 -0.00064847  0.00083951  0.01034745  0.02947861  0.00128119
   0.00169376  0.00017728  0.00100953 -0.0035312   0.00082744  0.00217277
  -0.0044424 ]
 [ 0.00103131  0.00243756  0.000178

In [99]:
#L1의 규제강도 C를 바꿔가며 계수 추정치 관찰
print(lr1_10.intercept_)
print(lr1_1.intercept_)
print(lr1_0_1.intercept_)

print(lr1_10.coef_)
print(lr1_1.coef_)
print(lr1_0_1.coef_)

[-4.90894184e-04  4.75380914e-04  1.55132702e-05]
[-4.91381998e-04  4.74401996e-04  1.69800021e-05]
[-4.97778873e-04  4.78913410e-04  1.88654625e-05]
[[-0.005397   -0.00177498 -0.0010139  -0.01342894 -0.03576367 -0.00017355
   0.00069918 -0.00032258 -0.00022095 -0.0025484  -0.00026382 -0.00025873
   0.00528214]
 [ 0.00437129 -0.00065068  0.00083517  0.01037445  0.02953448  0.00127795
   0.00169908  0.00017048  0.00100466 -0.00351391  0.00081929  0.00217356
  -0.00444829]
 [ 0.00101872  0.00242846  0.00017175  0.00304749  0.00622217 -0.00109735
  -0.00240502  0.00014509 -0.00077667  0.00606926 -0.00054842 -0.00190777
  -0.00082685]]
[[-5.33360381e-03 -1.71453121e-03 -9.51778290e-04 -1.34070129e-02
  -3.57004324e-02 -1.09953167e-04  6.42065745e-04 -2.60168418e-04
  -1.63239940e-04 -2.49971211e-03 -2.00046359e-04 -1.95933741e-04
   5.28919280e-03]
 [ 4.29420476e-03 -6.12910720e-04  7.68550884e-04  1.02955604e-02
   2.94941734e-02  1.21474738e-03  1.63287857e-03  1.05496142e-04
   9.457325