# 1. sklearn map

In [5]:
# sklearn     
# │     
# ├── 01 preprocessing (전처리)     
# │   │     
# │   ├── 스케일러     
# │   │   ├── MinMaxScaler     
# │   │   ├── RobustScaler     
# │   │   └── StandardScaler     
# │   │     
# │   └── 인코더     
# │       ├── LabelEncoder     
# │       └── OneHotEncoder     
# │       
# ├── 02 model_selection (모델링 전처리)     
# │   │     
# │   ├── 데이터셋 분리     
# │   │   ├── KFold     
# │   │   ├── StratifiedKFold     
# │   │   └── train_test_split     
# │   │     
# │   └── 하이퍼파라미터 튜닝          
# │       └── GridSearchCV     
# │     
# ├── 03 모델학습     
# │   │     
# │   ├── ensemble     
# │   │   ├── AdaBoostClassifier     
# │   │   ├── GradientBoostingClassifier     
# │   │   ├── RandomForestClassifier     
# │   │   └── RandomForestRegressor     
# │   │     
# │   ├── linear_model     
# │   │   ├── LogisticRegression     
# │   │   └── RidgeClassifier     
# │   │     
# │   ├── neighbors     
# │   │   └── KNeighborsClassifier     
# │   │     
# │   ├── svm     
# │   │   ├── SVC     
# │   │   └── SVR     
# │   │     
# │   └── tree     
# │       ├── DecisionTreeClassifier     
# │       ├── DecisionTreeRegressor     
# │       ├── ExtraTreeClassifier     
# │       └── ExtraTreeRegressor     
# │     
# ├── 04 모델평가     
# │   │     
# │   ├── metrics     
# │   │   ├── accuracy_score     
# │   │   ├── classification_report     
# │   │   ├── confusion_matrix     
# │   │   ├── f1_score     
# │   │   ├── log_loss          
# │   │   ├── mean_absolute_error     
# │   │   ├── mean_squared_error     
# │   │   └── roc_auc_score     
# │   │     
# │   └── model (정의된 모델에서 추출)          
# │       ├── predict     
# │       └── predict_proba     
# │     
# └── 05 최종앙상블     
#     │     
#     └── ensemble     
#         ├── StackingClassifier     
#         ├── StackingRegressor     
#         ├── VotingClassifier     
#         └── VotingRegressor   

# 1. 데이터 전처리

## 1) 모듈 import

In [6]:
# 가장 상위 모듈인 sklean의 바로 하위 항목을 확인하기 위헤서는 아래와 같이 입력
import sklearn
print(sklearn.__all__)

# 중요하게 기억할 하위 모듈은 ensemble, linear_model, metrics, model_selection, preprocessing이다.

['calibration', 'cluster', 'covariance', 'cross_decomposition', 'datasets', 'decomposition', 'dummy', 'ensemble', 'exceptions', 'experimental', 'externals', 'feature_extraction', 'feature_selection', 'gaussian_process', 'inspection', 'isotonic', 'kernel_approximation', 'kernel_ridge', 'linear_model', 'manifold', 'metrics', 'mixture', 'model_selection', 'multiclass', 'multioutput', 'naive_bayes', 'neighbors', 'neural_network', 'pipeline', 'preprocessing', 'random_projection', 'semi_supervised', 'svm', 'tree', 'discriminant_analysis', 'impute', 'compose', 'clone', 'get_config', 'set_config', 'config_context', 'show_versions']


In [11]:
# 2차 하위 모듈을 찾기 위해서는 dir 이용
from sklearn import preprocessing
print(dir(sklearn.preprocessing))

# 최종 하위 모듈 찾았다면 from ~ import 구문을 이용해서 해당 모듈을 불러온다

['Binarizer', 'FunctionTransformer', 'KBinsDiscretizer', 'KernelCenterer', 'LabelBinarizer', 'LabelEncoder', 'MaxAbsScaler', 'MinMaxScaler', 'MultiLabelBinarizer', 'Normalizer', 'OneHotEncoder', 'OrdinalEncoder', 'PolynomialFeatures', 'PowerTransformer', 'QuantileTransformer', 'RobustScaler', 'SplineTransformer', 'StandardScaler', '__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', '_csr_polynomial_expansion', '_data', '_discretization', '_encoders', '_function_transformer', '_label', '_polynomial', 'add_dummy_feature', 'binarize', 'label_binarize', 'maxabs_scale', 'minmax_scale', 'normalize', 'power_transform', 'quantile_transform', 'robust_scale', 'scale']


In [13]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()

## 2) 스케일러
sklearn.preprocessing의 스케일러는 StandardScaler, MinMaxScaler, RobustScaler 3가지  
주로 사용하는 스케일러는 StandardScaler이고 동작방법은 모두 동일

In [2]:
import pandas as pd
df = pd.read_csv('https://bit.ly/3BVZhFY')

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()

# 스케일러의 주로 사용하는 내부함수는 fit, transform, fit_transform 3가지
# 아래는 fit_transform 이용해서 값을 변화시키고, 원래 데이터 프레임의 칼럼에 입히는 작업
print('변환 전')
display(df[['Fare','Age']].head(3))
df[['Fare','Age']] = sc.fit_transform(df[['Fare','Age']])
print('변환 후')
display(df[['Fare','Age']].head(3))

변환 전


Unnamed: 0,Fare,Age
0,7.25,22.0
1,71.2833,38.0
2,7.925,26.0


변환 후


Unnamed: 0,Fare,Age
0,-0.502445,-0.530377
1,0.786845,0.571831
2,-0.488854,-0.254825


## 3) 라벨 인코더, 원핫 인코더
데이터의 범주형 변수를 처리하기 위한 모듈은  
sklearn.preprocessing의 LabelEncoder, OneHotEncoder 두가지이다.  
라벨 인코딩은 컬럼수는 유지하며 내부의 범주형변수들을 특정 int값으로 매핑하는 것이고  
원핫 인코딩은 유니크한 범주형 변수들만큼 컬럼을 만들고 일치하는 값일경우 0, 아닐 경우 1 사용  
  
! OneHotEncoder 대신에 판다스의 pd.get_dummies 함수가 더 편리함

In [3]:
from sklearn.preprocessing import LabelEncoder
print('변경 전')
display(df['Sex'][:3])

lb = LabelEncoder()
lb.fit(df['Sex'])

print('label encodeing 사용 후')
df['Sex'] = lb.transform(df['Sex'])
display(df['Sex'][:3])

변경 전


0      male
1    female
2    female
Name: Sex, dtype: object

label encodeing 사용 후


0    1
1    0
2    0
Name: Sex, dtype: int64

## 4) 학습데이터 분리

In [6]:
from sklearn.model_selection import train_test_split  
help(train_test_split)

Help on function train_test_split in module sklearn.model_selection._split:

train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)
    Split arrays or matrices into random train and test subsets.
    
    Quick utility that wraps input validation and
    ``next(ShuffleSplit().split(X, y))`` and application to input data
    into a single call for splitting (and optionally subsampling) data in a
    oneliner.
    
    Read more in the :ref:`User Guide <cross_validation>`.
    
    Parameters
    ----------
    *arrays : sequence of indexables with same length / shape[0]
        Allowed inputs are lists, numpy arrays, scipy-sparse
        matrices or pandas dataframes.
    
    test_size : float or int, default=None
        If float, should be between 0.0 and 1.0 and represent the proportion
        of the dataset to include in the test split. If int, represents the
        absolute number of test samples. If None, the value is set to 

In [7]:
import pandas as pd

df = pd.read_csv('https://bit.ly/3EMMasy')
df.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,60,1,0,140,293,0,0,170,0,1.2,1,2,3,0
1,51,0,2,120,295,0,0,157,0,0.6,2,0,2,1
2,51,1,3,125,213,0,0,125,1,1.4,2,1,2,1
3,59,1,2,150,212,1,1,157,0,1.6,2,0,2,1
4,60,1,0,125,258,0,0,141,1,2.8,1,1,3,0


In [10]:
# pandas의 drop 함수를 이용하여 종속변수를 날리고 독립변수만 모아 x 변수로 지정
y = df['target']
X = df.drop(columns='target')

In [12]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.33,
                                                    random_state=777,
                                                    stratify=y)

In [13]:
print('df shape',df.shape)
print('X_train shape',X_train.shape)
print('X_test shape',X_test.shape)
print('y_train shape',y_train.shape)
print('y_test shape',y_test.shape)

df shape (242, 14)
X_train shape (162, 13)
X_test shape (80, 13)
y_train shape (162,)
y_test shape (80,)


In [14]:
#층화 추출이 잘 되었는지 확인
print('원본데이터의 target value 값 개수')
display(df.target.value_counts())
print('학습데이터 target value 값 개수')
display(y_train.value_counts())

원본데이터의 target value 값 개수


1    132
0    110
Name: target, dtype: int64

학습데이터 target value 값 개수


1    88
0    74
Name: target, dtype: int64

# 2. 모델링
- 모델 import 
- 모델 변수 선언
- fit(학습)
- predict or predict_proba(분류문제의 auc계산을 위한 예측확률값)

In [15]:
# 주로 사용하는 모델 import 과정
from sklearn.ensemble import RandomForestClassifier #랜덤포레스트분류
from sklearn.ensemble import RandomForestRegressor  #랜덤포레스트회귀


from sklearn.linear_model import LogisticRegression #로지스틱회귀
from sklearn.svm import SVC #서포트 벡터머신 분류
from sklearn.svm import SVR #서포트 벡터머신 회귀

from sklearn.tree import DecisionTreeClassifier #의사결정나무 분류
from sklearn.tree import DecisionTreeRegressor  #의사결정나무 회귀

# 모든 모듈을 외우기는 힘들다 
# 위에서 제시한 sklearn 모듈 찾기 방식으로 필요한 모델들을 찾아가면된다

## 1) 렌덤 포레스트 모델링 예시

In [16]:
# 모델 import
from sklearn.ensemble import RandomForestClassifier

# 모델 변수선언
rf = RandomForestClassifier()

# fit
rf.fit(X_train,y_train)

# predict
predict_value = rf.predict(X_test)

# predict_proba
predict_proba_value = rf.predict_proba(X_test)

# predict와 predict_proba의 3개값 확인
print('predict_value',predict_value[:3],'\n')
print('predict_proba_value\n',predict_proba_value[:3],'\n')

predict_value [1 0 1] 

predict_proba_value
 [[0.48 0.52]
 [0.98 0.02]
 [0.17 0.83]] 



# 3. 모델 평가
sklearn.metric에서 문제에서 제시하는 평가방식을 import 해서 사용  
평가방식의 y_test, predict형식에 대해서는 일부 차이가 있을 수 있음  
지표마다 help함수를 이용해서 parameter의 형식을 확인하고 코딩해야함  
  
주로 쓰는 평가방식 
- accuracy_score(정확도)
- f1_score (f1,score)
- mean_absolute_error (mae)
- mean_squared_error (mse)

In [17]:
from sklearn.metrics import roc_auc_score
# help(roc_auc_score)
roc_auc_score(y_test,predict_proba_value[:,1])

0.9305555555555555