# Model Selection By Data

![3_1.png](../materials/3_1.png)

- 기본적으로 feature가 많으면, 복잡한 모델이 필요하다. 
- 하지만, feature가 많은 상황인데 데이터 갯수가 적으면 거의 overfitting된다. 

In [3]:
import os
import numpy as np
import pandas as pd

os.chdir(r"/Users/sanghyuk/Documents/preprocessing_python/lecture_source/Part 3. 지도학습 주요모델 및 개념/데이터/")

#### 데이터 크기에 따른 모델 선택: 특징 개수가 매우 적은 경우

일반적으로 단순한 모델이 잘 나온다. 

In [10]:
# 데이터 불러오기
import numpy as np
df = pd.read_csv("Combined_Cycle_Power_Plant.csv")

df.shape

(9568, 5)

In [11]:
# 특징과 라벨 분리
X = df.drop('EP', axis = 1)
Y = df['EP']

In [12]:
X.head()

Unnamed: 0,T,V,AP,RH
0,8.34,40.77,1010.84,90.01
1,23.64,58.49,1011.4,74.2
2,29.74,56.9,1007.15,41.91
3,19.07,49.69,1007.22,76.79
4,11.8,40.66,1017.13,97.2


In [13]:
# 모델 리스트 정의
from sklearn.svm import SVR
from sklearn.neural_network import MLPRegressor as MLP
from sklearn.linear_model import LinearRegression as LR
from sklearn.tree import DecisionTreeRegressor as DTR
from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.neighbors import KNeighborsRegressor as KNR

# 공정한 비교를 위해 전부 default 값을 사용s
# random_state가 있는 모델은 모두 같은 값으로 설정

SVR_model = SVR()
MLP_model = MLP(random_state = 100)
LR_model = LR()
DTR_model = DTR(random_state = 100)
RFR_model = RFR(random_state = 100)
KNR_model = KNR()

model_list = [SVR_model, MLP_model, LR_model, DTR_model, RFR_model, KNR_model]
model_name_list = ['SVR', 'MLP', 'LR', 'DTR', 'RFR', 'KNR']

In [5]:
# 모델별 k겹 교차 검증 기반(k = 5)의 MAE값 계산
from sklearn.model_selection import cross_val_score
for (model, model_name) in zip(model_list, model_name_list):
    score = -cross_val_score(model, X, Y, cv = 5, scoring = 'neg_mean_absolute_error').mean() # -MAE이므로 다시 -를 붙인 것
    print(model_name, score)

SVR 11.15624063928403
MLP 3.9421874629947724
LR 3.6282513807290444
DTR 3.0464405292720267
RFR 2.365834244467129
KNR 2.9176435395285303


특징 적고, 샘플 많은 경우. KNR이 제일 좋게 나옴. 

#### 샘플이 매우 적고, 특징이 상대적으로 많은 경우

단순한 모델을 써야 한다. 조금만 복잡한 모델을 쓰면, 바로 overfitting됨. 

In [15]:
# 데이터 불러오기
import pandas as pd
df = pd.read_csv("baseball.csv")

In [16]:
df.shape

(337, 17)

In [17]:
# 특징과 라벨 분리
X = df.drop('Salary', axis = 1)
Y = df['Salary']

In [18]:
# 모델 리스트 정의
from sklearn.svm import SVR
from sklearn.neural_network import MLPRegressor as MLP
from sklearn.linear_model import LinearRegression as LR
from sklearn.tree import DecisionTreeRegressor as DTR
from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.neighbors import KNeighborsRegressor as KNR

# 공정한 비교를 위해 전부 default 값을 사용
# random_state가 있는 모델은 모두 같은 값으로 설정

SVR_model = SVR()
MLP_model = MLP(random_state = 100)
LR_model = LR()
DTR_model = DTR(random_state = 100)
RFR_model = RFR(random_state = 100)
KNR_model = KNR()

model_list = [SVR_model, MLP_model, LR_model, DTR_model, RFR_model, KNR_model]
model_name_list = ['SVR', 'MLP', 'LR', 'DTR', 'RFR', 'KNR']

In [19]:
# 모델별 k겹 교차 검증 기반(k = 5)의 MAE값 계산
# SVR의 성능이 최악
# MLP에서 max_iter 이슈 발생
from sklearn.model_selection import cross_val_score
for (model, model_name) in zip(model_list, model_name_list):
    score = - cross_val_score(model, X, Y, cv = 5, scoring = 'neg_mean_absolute_error').mean() # -MAE이므로 다시 -를 붙인 것
    print(model_name, score)

SVR 940.1650397834104




MLP 710.1436141313578
LR 539.5671145383984
DTR 573.3383230904303
RFR 467.4962985074626
KNR 651.0923792800702


# Model Selection By Type

## 변수 타입

- 보통은 unique count를 활용해서 판단한다. 
- 도메인 지식 또한 많이 필요하다.

![3_2.png](../materials/3_2.png)

- 선형회귀모델 변수가 연속형이고, 정규형을 따른다고 가정하기 때문에, binary가 섞이는 순간부터 좋은 예측 기대가 어렵다. 
    - 또한 여러 타입 섞인 경우에도 좋지 않다. 
    - 스케일에 영향을 많이 맞는 모델이기 때문. 
- 의사결정 및 앙상블 : 이진화 시키면서 판단하는 것이라서 변수 타입에 영향을 크게 안받는다. 
    - 다만 그래도 연속형을 이진화 하는 과정은 문제가 발생할 수 있다. 
- KNN : 변수 스케일에 영향 많이 받는다. 공간 중 어디 있느냐에 영향을 많이 받기 때문. 스케일링이 필수. 
- 나이브베이즈 : 변수가 혼합형인 경우는 아예 쓰면 안된다. 
    - 가우시안 나이브베이즈 : 연속형만 있다고 하더라도, 모두가 다 정규분포를 따른다고까지 가정이 되기 때문에 쉽지 않다. 
- SVM과 신경망은 타입에 크게 영향을 받지 않는다.     

![3_2.png](../materials/3_3.png)

![3_2.png](../materials/3_4.png)

회귀모델은 이진형이 섞여 있으면 쓰지 말 것. 

![3_2.png](../materials/3_5.png)

![3_2.png](../materials/3_6.png)

#### 변수 타입 확인 방법
- 사용 데이터: Telco_churn_prediction.csv

In [20]:
import os
import numpy as np
import pandas as pd

os.chdir(r"/Users/sanghyuk/Documents/preprocessing_python/lecture_source/Part 3. 지도학습 주요모델 및 개념/데이터/")

In [22]:
df = pd.read_csv("Telco_churn_prediction.csv")

In [23]:
df.dtypes # TotalCharges 타입이 object임 (도메인 지식과 상충)

customerID           object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
MonthlyCharges      float64
TotalCharges         object
Churn                object
dtype: object

In [25]:
df.infer_objects().dtypes 
# 추론 결과도 TotalCharges 타입이 object임

customerID           object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
MonthlyCharges      float64
TotalCharges         object
Churn                object
dtype: object

데이터 정리되지 않은 경우에 아래와 같은 경우 빈번하게 발생한다. <br>
누가봐도 TotalCharge는 float이나 int여야 하는데, object로 예측한다. 

In [27]:
df['TotalCharges'] # object라고 추론 했는데, 아무리봐도 연속형 변수 같음 => 문자가 섞여 있을 수 있겠다란 결론

0         29.85
1        1889.5
2        108.15
3       1840.75
4        151.65
         ...   
7038     1990.5
7039     7362.9
7040     346.45
7041      306.6
7042     6844.5
Name: TotalCharges, Length: 7043, dtype: object

In [28]:
def find_str_element(val):
    try:
        float(val) # 만약 val이 문자라면 여기서 오류가 발생할 것이므로 except로 넘어감
        return False
    except:
        return True

# 공백이 섞여 있음을 확인
# apply 함수는 자주 사용되는 굉장히 중요한 함수이므로 반드시 숙지해야 함
# apply 함수는 각 요소에 함수를 일괄 적용하는 함수임
print(df['TotalCharges'][df['TotalCharges'].apply(find_str_element)].values)

[' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ']


값이 그냥 없네. 

In [36]:
df.iloc[df['TotalCharges'].apply(find_str_element).values, 15:]

Unnamed: 0,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
488,Two year,Yes,Bank transfer (automatic),52.55,,No
753,Two year,No,Mailed check,20.25,,No
936,Two year,No,Mailed check,80.85,,No
1082,Two year,No,Mailed check,25.75,,No
1340,Two year,No,Credit card (automatic),56.05,,No
3331,Two year,No,Mailed check,19.85,,No
3826,Two year,No,Mailed check,25.35,,No
4380,Two year,No,Mailed check,20.0,,No
5218,One year,Yes,Mailed check,19.7,,No
6670,Two year,No,Mailed check,73.35,,No


In [38]:
# apply 사용 예제
# apply는 for loop보다 훨씬 빠르다. 
def f(x):
    return x**2

import pandas as pd
S = pd.Series([1, 2, 3, 4]) 
S.apply(f)

0     1
1     4
2     9
3    16
dtype: int64

In [39]:
def getting_unique_val(col):
    return len(col.unique())

df.apply(getting_unique_val, axis = 0) 
# 유니크한 값 개수 기준으로 판단
# 일반적으로 그 개수가 많으면 연속형, 그렇지 않으면 범주형인 경우가 대다수 (ID 관련 컬럼 제외)

customerID          7043
gender                 2
SeniorCitizen          2
Partner                2
Dependents             2
tenure                73
PhoneService           2
MultipleLines          3
InternetService        3
OnlineSecurity         3
OnlineBackup           3
DeviceProtection       3
TechSupport            3
StreamingTV            3
StreamingMovies        3
Contract               3
PaperlessBilling       2
PaymentMethod          4
MonthlyCharges      1585
TotalCharges        6531
Churn                  2
dtype: int64

#### 혼합형 변수가 존재하는 경우

In [40]:
# 데이터 불러오기
import pandas as pd
df = pd.read_csv("baseball.csv")

In [41]:
# 특징과 라벨 분리
X = df.drop('Salary', axis = 1)
Y = df['Salary']

In [42]:
# 모델 리스트 정의
from sklearn.neural_network import MLPRegressor as MLP
from sklearn.linear_model import LinearRegression as LR
from sklearn.tree import DecisionTreeRegressor as DTR
from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.neighbors import KNeighborsRegressor as KNR

# 공정한 비교를 위해 전부 default 값을 사용
# random_state가 있는 모델은 모두 같은 값으로 설정

MLP_model = MLP(random_state = 100)
LR_model = LR()
DTR_model = DTR(random_state = 100)
RFR_model = RFR(random_state = 100)
KNR_model = KNR()

model_list = [MLP_model, LR_model, DTR_model, RFR_model, KNR_model]
model_name_list = ['MLP', 'LR', 'DTR', 'RFR', 'KNR']

In [43]:
# 모델별 k겹 교차 검증 기반(k = 5)의 MAE값 계산
from sklearn.model_selection import cross_val_score
for (model, model_name) in zip(model_list, model_name_list):
    score = -cross_val_score(model, X, Y, cv = 5, scoring = 'neg_mean_absolute_error').mean() # -MAE이므로 다시 -를 붙인 것
    print(model_name, score)



MLP 710.1436141313578
LR 539.5671145383984
DTR 573.3383230904303
RFR 467.4962985074626
KNR 651.0923792800702
