## 로지스틱 회귀모형의 penalty 부여 방식
- 회귀계수들이 학습용 데이터에 과적합이 되지 않도록 정규화 요소를 더해주는 기법
- 과적합이 발생할 수 있는 수치에 Penalty 부여
- 종류: l1, l2, elasticnet, none
    - l1(LASSO Penalty): 오차의 절대값에 페널티 부여, 해석이 용이
        - 영향력이 적은 변수 -> 0
        - 영향력이 큰 변수 -> 선택
    - l2(Ridge Penalty): 오차를 제곱한 값에 페널티를 부여(일반적으로 사용하는 방식),
        변수들 간의 공선성 구조가 있을 때 사용, 변수들간 분산을 감소시키는 기능
    - elasticnet : LASSO와 Ridge의 혼합형, 변수도 줄이고 분산도 줄이고 싶은 경우 사용
    - none: Penalty를 사용하지 않음

In [1]:
import pandas as pd
df = pd.read_csv('c:/data/iris/iris.csv')
df.head()

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name,Species
0,5.1,3.5,1.4,0.2,setosa,0
1,4.9,3.0,1.4,0.2,setosa,0
2,4.7,3.2,1.3,0.2,setosa,0
3,4.6,3.1,1.5,0.2,setosa,0
4,5.0,3.6,1.4,0.2,setosa,0


In [2]:
df.columns

Index(['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth', 'Name',
       'Species'],
      dtype='object')

In [3]:
cols = df.columns[0:4]
X = df[cols]
y = df['Species']

In [4]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=0)
y_train.value_counts()

0    40
1    40
2    40
Name: Species, dtype: int64

In [5]:
from sklearn.linear_model import LogisticRegression
models = [LogisticRegression(random_state=0, penalty='l1', solver='liblinear'),
          LogisticRegression(random_state=0, penalty='l2', max_iter=1000),
          LogisticRegression(random_state=0, penalty='elasticnet', solver='saga', 
                             l1_ratio=1, max_iter=5000),
          LogisticRegression(random_state=0, penalty='none')]
# solver : 최적화(최적의 가중치를 설정)에 사용할 알고리즘(newton-cg, lbfgs, liblinear, sag, saga)
# lbfgs(Limited Memory Broyden–Fletcher–Goldfarb–Shanno): 기본값
# liblinear : small dataset에 적합
# sag(Stochastic Average Gradient descent), saga(Variant of Sga) : big dataset에 적합
# newton-cg, saga, lbfgs : multi class 지원

In [7]:
for logit in models:
    print(logit)
    logit.fit(X_train, y_train)
    print('학습용:', logit.score(X_train, y_train))
    print('검증용:', logit.score(X_test, y_test))
    print()


LogisticRegression(penalty='l1', random_state=0, solver='liblinear')
학습용: 0.9583333333333334
검증용: 0.9666666666666667

LogisticRegression(max_iter=1000, random_state=0)
학습용: 0.9666666666666667
검증용: 1.0

LogisticRegression(l1_ratio=1, max_iter=5000, penalty='elasticnet',
                   random_state=0, solver='saga')
학습용: 0.95
검증용: 1.0

LogisticRegression(penalty='none', random_state=0)
학습용: 0.9833333333333333
검증용: 1.0

