# 복잡도 파라미터

복잡도 파라미터 ; 복잡도에 영향을 주는 하이퍼파라미터
- 이 값에 따라 과적합 정도가 결정된다. 
- 매우 신중한 튜닝이 필요하다. 


- 휴리스틱하게 모든 모델 : 학습할때마다 결과가 조금씩 다를 수있는 모든 모델을 의미함. Solution이 정확히 있는게 아니면 학습마다 달라질 수 있음. 
    - `max_iter`가 있으면, 휴리스틱하게 학습되고 있는 모델이라고 봐도 문제가 없음. 
    - max_iter가 작으면, convergence warning이 뜰 수 있음. 즉, 충분히 수렴 하지 않은 것. 
    - 그러나 여기서 중요한 것은 덜 학습된 모델이 더 학습된 모델보다 더 성능이 안좋다고는 확실히 말하기 어려움. 
    - 오히려 더 general한 모델일 가능성도 있음. 과적합을 막아 준 것 일수도 있음. 
    - 그래서, 일부 모델에서는 `max_iter` 값을 일부러 작게 잡아서 과적합을 회피하기도 한다.  
    
- 정규화 회귀 모델에서의 `alpha` : 복잡도와 반비례 관계 
    - 패널티가 많이 부과될수록 모델이 단순해 지고 계수의 절댓값이 더 작아진다. 

- 의사결정나무 
    - `max_depth` : 깊게 가도 될수록 나무는 더 복잡해 진다. 
    - `min_samples_leaf` : 이것을 크게 놓을 수록 덜 복잡해진다. 
    
- SVM
    - C, gamma, degree : 약한 정비례 - 직접적으로 복잡도에 영향을 줄 수도 있고, 안줄 수도 있다. 굳이 비교하자면, 상관계수 약 0.2정도라고 생각. 


    
![3_7.png](../materials/3_7.png)

- 로지스틱 회귀 
- 신경망 
    - 노드가 많아지고 복잡해질수록 과적합
- SVR : 허용 오차 범위 epsilon이 클 수록, 복잡도가 줄어든다. 

![3_7.png](../materials/3_8.png)

![3_7.png](../materials/3_9.png)

seed도 일종의 하이퍼파라미터가 될 수 있음. 좋은 seed도 따로 있을 수 있음. 이 또한 테스트 필요

![3_7.png](../materials/3_10.png)

In [1]:
import os
import numpy as np
import pandas as pd

os.chdir(r"/Users/sanghyuk/Documents/preprocessing_python/lecture_source/Part 3. 지도학습 주요모델 및 개념/데이터/")


df = pd.read_csv("Sonar_Mines_Rocks.csv")

In [2]:
# 특징과 라벨 분리
X = df.drop('Y', axis = 1)
Y = df['Y']

In [6]:
# 학습 데이터와 평가 데이터 분리
from sklearn.model_selection import train_test_split
Train_X, Test_X, Train_Y, Test_Y = train_test_split(X, Y)

In [7]:
Train_X.shape # 샘플 156개, 특징 60개 => 단순한 모델 필요

(156, 60)

In [8]:
Train_Y.value_counts()

M    86
R    70
Name: Y, dtype: int64

In [9]:
Train_Y.replace({"M":-1, "R":1}, inplace = True)
Test_Y.replace({"M":-1, "R":1}, inplace = True)

In [12]:
Train_Y[:3]

53    1
84    1
66    1
Name: Y, dtype: int64

In [10]:
from sklearn.metrics import f1_score
from sklearn.model_selection import ParameterGrid

#### Case 1. 복잡도 파라미터가 한 개이면서, 단순하고, 우연성이 어느정도 있는 모델 (Logistic Regression)

In [15]:
from sklearn.linear_model import LogisticRegression as LR

In [16]:
def LR_model_test(C):
    model = LR(C = C, max_iter = 100000, random_state = 10).fit(Train_X, Train_Y) # 가벼운 모델이므로 max_iter를 크게 잡음
    pred_Y = model.predict(Test_X)
    return f1_score(Test_Y, pred_Y)

In [17]:
print("C = 0.1:\t{}".format(LR_model_test(C = 0.1)))
print("C = 1:\t{}".format(LR_model_test(C = 1))) 
print("C = 5:\t{}".format(LR_model_test(C = 5)))

C = 0.1:	0.6829268292682926
C = 1:	0.92
C = 5:	0.8979591836734693


In [18]:
# 튜닝 범위: 0.1 < C < 5
# 아직 확정짓기에는 범위가 넓다 => 더 탐색

In [19]:
print("C = 0.5:\t{}".format(LR_model_test(C = 0.5)))
print("C = 2:\t{}".format(LR_model_test(C = 2)))

# 튜닝 범위: 0.1 < C < 1

C = 0.5:	0.8750000000000001
C = 2:	0.92


In [21]:
# 파라미터 그리드 설정
LR_parameter_grid = ParameterGrid({"C":np.linspace(0.1, 1, 50),
                                  "max_iter":[100000],
                                  "random_state":[10]})

# 파라미터 튜닝 수행 
best_score = -1
for parameter in LR_parameter_grid:
    model = LR(**parameter).fit(Train_X, Train_Y)
    pred_Y = model.predict(Test_X)
    score = f1_score(Test_Y, pred_Y)
    
    if score > best_score:
        best_score = score
        best_parameter = parameter

print(best_parameter, best_score)

{'C': 0.5224489795918368, 'max_iter': 100000, 'random_state': 10} 0.92


#### Case 2. 복잡도 파라미터가 두 개이면서, 단순하고, 우연성이 거의 없는 모델 (Decision Tree)

In [22]:
from sklearn.tree import DecisionTreeClassifier as DTC

In [23]:
def DTC_model_test(max_depth, min_samples_leaf):
    model = DTC(max_depth = max_depth, min_samples_leaf = min_samples_leaf).fit(Train_X, Train_Y) 
    pred_Y = model.predict(Test_X)
    return f1_score(Test_Y, pred_Y) 

In [24]:
for max_depth in [3, 6, 9]:
    for min_samples_leaf in [1, 2, 3]:
        score = DTC_model_test(max_depth = max_depth, min_samples_leaf = min_samples_leaf)
        print("{}-{}:{}".format(max_depth, min_samples_leaf, score))

# max depth가 크고 (복잡도 증가) min_samples_leaf가 큰 경우 (복잡도 감소) 좋은 성능이 나옴을 확인

3-1:0.8070175438596491
3-2:0.75
3-3:0.75
6-1:0.7586206896551724
6-2:0.7924528301886792
6-3:0.75
9-1:0.7407407407407407
9-2:0.7719298245614035
9-3:0.7857142857142857


In [25]:
# 파라미터 그리드 설정
DTC_parameter_grid = ParameterGrid({"max_depth": np.arange(6, 15),
                                  "min_samples_leaf": np.arange(2, 5)})

# 파라미터 튜닝 수행 
best_score = -1
for parameter in DTC_parameter_grid:
    model = DTC(**parameter).fit(Train_X, Train_Y)
    pred_Y = model.predict(Test_X)
    score = f1_score(Test_Y, pred_Y)
    
    if score > best_score:
        best_score = score
        best_parameter = parameter

print(best_parameter, best_score)

{'max_depth': 7, 'min_samples_leaf': 4} 0.8275862068965517


#### Case 3. 복잡도 파라미터가 하나이면서, 우연성이 있는 모델 (신경망)

In [26]:
from sklearn.neural_network import MLPClassifier as MLP

In [27]:
def MLP_model_test(hidden_layer_sizes):
    model = MLP(hidden_layer_sizes = hidden_layer_sizes, random_state = 12).fit(Train_X, Train_Y) 
    pred_Y = model.predict(Test_X)
    return f1_score(Test_Y, pred_Y)

In [29]:
# (5, ) 은닉층 1개이면서 노드 5개
for hidden_layer_sizes in [(5, ), (10, ), (3, 3), (5, 5), (10, 10)]:    
    score = MLP_model_test(hidden_layer_sizes = hidden_layer_sizes)
    print(hidden_layer_sizes, score)

# max_iter warning 발생 
# (5, 5)에서는 f1-score가 0이 나옴 => 초기값 영향으로 보여짐 (근거: 더 단순한 모델과 복잡한 모델에서는 성능이 나왔으므로)
# (10, )와 (10, 10)에서 best_score가 나옴 => 더 복잡한 모델이 필요할지 판단이 필요



(5,) 0.6835443037974684
(10,) 0.7916666666666667




(3, 3) 0.25
(5, 5) 0.0
(10, 10) 0.851063829787234




(5, 5) 어떻게 0이 나오지? 초깃값 영향이 클 확률이 높음. 신경망은 이렇게 뭔가 겉잡을 수가 없음. 테스트 많이 해봐야 함. 

In [30]:
# 파라미터 그리드 설정
MLP_parameter_grid = ParameterGrid({"random_state": [41, 102, 15],
                                  "hidden_layer_sizes": [(5, 5), (10, 10), (5, 5, 5), (10, 10, 10)],
                                   "max_iter":[200, 2000, 20000]})

# 파라미터 튜닝 수행 
best_score = -1
for parameter in MLP_parameter_grid:
    model = MLP(**parameter).fit(Train_X, Train_Y)
    pred_Y = model.predict(Test_X)
    score = f1_score(Test_Y, pred_Y)
    
    if score > best_score:
        best_score = score
        best_parameter = parameter

print(best_parameter, best_score)



{'hidden_layer_sizes': (10, 10, 10), 'max_iter': 2000, 'random_state': 41} 0.923076923076923
