In [20]:
import pandas as pd
from sklearn import svm
from sklearn.datasets import load_digits, load_breast_cancer, load_wine
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import SGDClassifier, LogisticRegression
from sklearn.metrics import classification_report, accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

# serving models to get the result after training
# if you need more models, you can add more models here
def get_models():
    return {'name': 'Decision Tree', 'model': DecisionTreeClassifier(random_state=32)}, \
            {'name': 'RandomForestClassifier', 'model': RandomForestClassifier(random_state=32)}, \
            {'name': 'svm.SVC', 'model': svm.SVC()}, \
            {'name': 'SGD Classifier', 'model': SGDClassifier()}, \
            {'name': 'LogisticRegression', 'model': LogisticRegression(max_iter=5000)}

# prepare source
def check_data(loaded_dataset):
    data_df = pd.DataFrame(data= loaded_dataset.data, columns=loaded_dataset.feature_names)
    data_df['label'] = loaded_dataset.target

    print(f"[data label names: \n{loaded_dataset.target_names}")
    print(f"[data_df label data] : \n{data_df['label']}")
    print(f"[data label rate] : \n{data_df['label'].value_counts(normalize=True)*100}")

    print(f"[data feature_names] : \n{loaded_dataset.feature_names}")
    print(f"[data shape (data)] : \n{loaded_dataset.data.shape}")
    print(f"[data describe] : \n{data_df.describe()}")


def split_data_from_dataset(loaded_dataset):
    return train_test_split(loaded_dataset.data,
                            loaded_dataset.target,
                            test_size=0.2,
                            random_state=7)

def train_model(_model, _X_train, _y_train):
    _model.fit(_X_train, _y_train)
    return _model

def predict_data(_model, _X_test):
    _y_pred = _model.predict(_X_test)
    return _y_pred

# (6) 모델을 평가해 보기
def check_result(_y_test, _y_pred):
    print(f"[accuracy] : {accuracy_score(_y_test, _y_pred)}")
    print(f"[classification_report] : \n{classification_report(_y_test, _y_pred)}")

def get_result(_model, _X_train, _y_train, _X_test, _y_test):
    trained_model = train_model(_model, _X_train, _y_train)
    _y_pred = predict_data(trained_model, _X_test)
    check_result(_y_test, _y_pred)

def train_and_get_result_each_models(_X_train, _y_train, _X_test, _y_test):

    models = get_models()

    for model in models:
        print(f" Model Name : [{model['name']}]")
        get_result(model['model'], _X_train, _y_train, _X_test, _y_test)


# main function
def do_train_process(_source_dataset):

    #(3) 데이터 이해하기
    check_data(_source_dataset)

    #(4) train, test 데이터 분리
    X_train, X_test, y_train, y_test = split_data_from_dataset(_source_dataset)

    #(5) 다양한 모델로 학습시켜보기
    train_and_get_result_each_models(X_train, y_train, X_test, y_test)


In [21]:
# for Digits

#(2) 데이터 준비
do_train_process(load_digits())


# Q. 학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요? 모델의 성능을 평가하는 지표로는 무엇이 좋을까요?
# sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요.
# 선택하신 이유도 설명해 주세요.
#
# - 정확도, 정밀도, 재현율, F1-Score 모두 압도적으로 높은 수치를 보여주는 svm.SVC 모델이 가장 어울릴 것으로 보입니다.
#
# 모델 성능 평가지표
# Precision : 정밀도가 높을수록 좋은 모델이라고 생각합니다. 손글씨를 입력하는 경우에는 어느 한 숫자를 다른 숫자로 인식하는 경우가 있으면 안되기 때문입니다.
#
# 개인적인 생각
# 데이터는 label 0-9 까지의 지표에 표준편차가 적을 수록 좋다고 생각하고, 최소값이 높으면 좋다고 생각합니다.
# 손글씨 입력시 어느 한 숫자만 너무 낮은 인식률을 보이면 사용자의 불편한 경험으로 이어지기 때문입니다.


[data label names: 
[0 1 2 3 4 5 6 7 8 9]
[data_df label data] : 
0       0
1       1
2       2
3       3
4       4
       ..
1792    9
1793    0
1794    8
1795    9
1796    8
Name: label, Length: 1797, dtype: int64
[data label rate] : 
label
3    10.183639
1    10.127991
5    10.127991
4    10.072343
6    10.072343
9    10.016694
7     9.961046
0     9.905398
2     9.849750
8     9.682805
Name: proportion, dtype: float64
[data feature_names] : 
['pixel_0_0', 'pixel_0_1', 'pixel_0_2', 'pixel_0_3', 'pixel_0_4', 'pixel_0_5', 'pixel_0_6', 'pixel_0_7', 'pixel_1_0', 'pixel_1_1', 'pixel_1_2', 'pixel_1_3', 'pixel_1_4', 'pixel_1_5', 'pixel_1_6', 'pixel_1_7', 'pixel_2_0', 'pixel_2_1', 'pixel_2_2', 'pixel_2_3', 'pixel_2_4', 'pixel_2_5', 'pixel_2_6', 'pixel_2_7', 'pixel_3_0', 'pixel_3_1', 'pixel_3_2', 'pixel_3_3', 'pixel_3_4', 'pixel_3_5', 'pixel_3_6', 'pixel_3_7', 'pixel_4_0', 'pixel_4_1', 'pixel_4_2', 'pixel_4_3', 'pixel_4_4', 'pixel_4_5', 'pixel_4_6', 'pixel_4_7', 'pixel_5_0', 'pixel_5_1', 'pi

In [22]:
# for Wine
#(2) 데이터 준비
do_train_process(load_wine())


# Q. 학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요? 모델의 성능을 평가하는 지표로는 무엇이 좋을까요?
# sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요.
# 선택하신 이유도 설명해 주세요.
#
# - 정확도, 정밀도, 재현율, F1-Score 모두 압도적으로 높은 수치를 보여주는 Random Forest 모델이 가장 어울릴 것으로 보입니다.
#
# 모델 성능 평가지표
# precision : 와인의 품질을 판단하는 경우에는 정밀도가 높은 모델이 가장 적합하다고 생각합니다.
# 와인의 분류를 더 세분화하여 와인의 품질을 판단하는 경우에는 정밀도가 높은 모델이 가장 적합하다고 생각합니다.
#


[data label names: 
['class_0' 'class_1' 'class_2']
[data_df label data] : 
0      0
1      0
2      0
3      0
4      0
      ..
173    2
174    2
175    2
176    2
177    2
Name: label, Length: 178, dtype: int64
[data label rate] : 
label
1    39.887640
0    33.146067
2    26.966292
Name: proportion, dtype: float64
[data feature_names] : 
['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
[data shape (data)] : 
(178, 13)
[data describe] : 
          alcohol  malic_acid         ash  alcalinity_of_ash   magnesium  \
count  178.000000  178.000000  178.000000         178.000000  178.000000   
mean    13.000618    2.336348    2.366517          19.494944   99.741573   
std      0.811827    1.117146    0.274344           3.339564   14.282484   
min     11.030000    0.740000    1.360000          10.600000   70.000000   
25%     12.3625

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [23]:
# Breast Cancer
#(2) 데이터 준비
do_train_process(load_breast_cancer())

# Q. 학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요? 모델의 성능을 평가하는 지표로는 무엇이 좋을까요?
# sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요.
# 선택하신 이유도 설명해 주세요.
#
# - 정확도, 정밀도, 재현율, F1-Score 모두 압도적으로 높은 수치를 보여주는 Random Forest 모델이 가장 어울릴 것으로 보입니다.
#
# 모델 성능 평가지표
# recall : 암환자를 정상환자로 판단하는 경우가 더 치명적하기 때문에 재현율이 높은 모델이 가장 적합하다고 생각합니다.
#
# 개인적인 생각
# data_set 의 label 이 0, 1 로 구성되어있고 해당 구성의 비율이 2:1로 불균형하게 분포되어 있기 때문에 암환자 라는 데이터 특성이 아니면
# recall 보다 다른 지표를 고려해 볼 수도 있을 것 같습니다.


[data label names: 
['malignant' 'benign']
[data_df label data] : 
0      0
1      0
2      0
3      0
4      0
      ..
564    0
565    0
566    0
567    0
568    1
Name: label, Length: 569, dtype: int64
[data label rate] : 
label
1    62.741652
0    37.258348
Name: proportion, dtype: float64
[data feature_names] : 
['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']
[data shape (data)] : 
(569, 30)
[data describe] : 
       mean radius  mean texture  mean perimeter    mean area  \
count   5