# [E-01]Digits, Wine, Breast_Cancer Classfier

아래의 Classefier은 sklearn에서 제공하는 3가지 toy datasets(손글씨, 와인, 유방암 여부)을 활용하여 
sklearn에 내장된 4가지 classification model(Decision Tree, RandomForest, SVM, SGD, LogisticRegression)에 data를 학습시키고 예측해본다.

### 1. 필요한 모듈 import 하기

In [1]:
#sklearn Toy Dataset
from sklearn.datasets import load_digits # digits data set import
from sklearn.datasets import load_wine # wine data set import
from sklearn.datasets import load_breast_cancer # wine data set import

# 평가를 위한 import
from sklearn.model_selection import train_test_split # split train and test data set
from sklearn.metrics import classification_report# 정확도를 다양하게 분석하여 report
from sklearn.metrics import accuracy_score # 정확도 평가하기

# Classfication Models
from sklearn.tree import DecisionTreeClassifier # DecisionTree
from sklearn.ensemble import RandomForestClassifier # RandomForest 
from sklearn import svm # SVM
from sklearn.linear_model import SGDClassifier # SGD
from sklearn.linear_model import LogisticRegression # LogisticRegression 

### 2. Data 준비

In [2]:
# Data load
digits = load_digits()
wine = load_wine()
cancer = load_breast_cancer()

# Feature Data 지정
digits_data = digits.data
wine_data = wine.data
cancer_data = cancer.data

# Label Data 지정
digits_label = digits.target
wine_label = wine.target
cancer_label = cancer.target

# Target Names 출력해보기
print("!!Printing Target Names")
print(f'Digits target name: {digits.target_names}')
print(f'Wine target name: {wine.target_names}')
print(f'Breast_cancer target name: {cancer.target_names}')
print()

# Data Describe 해보기
print("!!Printing Data Describe")
print(digits.DESCR)
print(wine.DESCR)
print(cancer.DESCR)

!!Printing Target Names
Digits target name: [0 1 2 3 4 5 6 7 8 9]
Wine target name: ['class_0' 'class_1' 'class_2']
Breast_cancer target name: ['malignant' 'benign']

!!Printing Data Describe
.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of

### 3. Train Test Data 분리 & 다양한 모델로 학습 시켜보기

In [3]:
# 모델을 입력으로 받아서 정확도를 report해주는 함수
def accur(model, data, label):
    ''' accur은 accurancy의 약자
        주어진 model에 data를 학습시킨다.
        data set를 test data set과 training data set으로 나누는 것도 포함한다.
        평가와 학습이 끝나면 accurancy를 평가하여 classification_report를 출력한다.
        같은 값을 입력하는 것을 줄이기위하여 함수를 작성하였다.
    
    Args:
        model: classfication model
        data: toydataset의 feature data
        label: toydataset의 target data
    '''
    
    # training test data set 나누기, testsize의 비율은 20% random_state는 7로 주었다.
    X_train, X_test, y_train, y_test = train_test_split(data, 
                                                    label, 
                                                    test_size=0.2, 
                                                    random_state=7)
    model.fit(X_train, y_train) # training data 학습
    y_pred = model.predict(X_test) # test data set Model 예측
    accuracy = accuracy_score(y_test, y_pred)
    print("This is " + str(model)) # 사용된 Model print
    print(f'Accurancy: {accuracy}') # 정확도 print
    print(classification_report(y_test, y_pred)) #report print
    print('-----------------------------------------------------') # Classification Model 구분선
    print()


# 확인해 볼 data를 list로 만들고 분류하는데 사용할 moddel를 list자료형으로 저장
data_list = [(digits, 'Digits'), (wine, 'Wine'), (cancer, 'Breast Cancer')]
model_list = [DecisionTreeClassifier(random_state=32), RandomForestClassifier(random_state=32), svm.SVC(), SGDClassifier(), LogisticRegression(solver='liblinear')]

# 이중 for문을 활용하여 3개의 dataset를 4개의 Classification Model를 통하여 분류한다.
for d, n in data_list:
    '''
    d, n은 data_list안에 있는 tuple 자료형
    d : data의 약자 data set이 들어감
    n : name의 약자 data set의 이름이 들어감
    '''
    print("======================================================") #data 구분선, 이 구분선 안에 있으면 같은 data에대한 다른 model로 학습한 결과들이다.
    print(n + " " + "data Classfication Start!!!")
    for m in model_list:
        '''
        m: model의 약자 model_list에 있는 classification model이 들어감.
        '''
        accur(m, d.data, d.target) # model, data, target을 인자로 accur 함수에 전달함.
    print("======================================================\n") #data 구분선

Digits data Classfication Start!!!
This is DecisionTreeClassifier(random_state=32)
Accurancy: 0.8555555555555555
              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.81      0.81      0.81        42
           2       0.79      0.82      0.80        40
           3       0.79      0.91      0.85        34
           4       0.83      0.95      0.89        37
           5       0.90      0.96      0.93        28
           6       0.84      0.93      0.88        28
           7       0.96      0.82      0.89        33
           8       0.88      0.65      0.75        43
           9       0.78      0.78      0.78        32

    accuracy                           0.86       360
   macro avg       0.86      0.86      0.86       360
weighted avg       0.86      0.86      0.85       360

-----------------------------------------------------

This is RandomForestClassifier(random_state=32)
Accurancy: 0.963888888888

### 4. 모델을 평가해 보기

sklearn.metrics에서 제공하는 평가지표 중 accurancy_score와 classification_report를 사용해보았다.
accurancy_score은 정답/문제수로 계산이 되어 불균형한 데이터에서 성능 평가를 신뢰하지못할 수 있다.
한쪽으로 데이터가 편향되어있을 때는 한가지 데이터로만 예측을 하여도 높은 성능이 나올 수도 있다.
정확도외에 다양한 평가 척도에 관하여 계산을 해주는 classification_report를 활용하였다.

양성 데이터를 얼마나 많이 맞았는가 음성 데이터를 얼마나 많이 맞았는가가 중요한 척도가 되는 dataset도 있을 수 있다.
Report에 나온 precision과 recall이 대표적인 경우가 된다.
Precision은 음성을 놓치지 않아야하고 Recall은 양성을 놓치지 않아야 값이 올라간다.

1. 손글씨 SVC Model이 accurancy, recall, precision 셋다 가장 높은 정확도를 보여준다.
2. Wine 분류는 LogisticRegression이 recall, precision에서 가장 높은 정확도를 보여줬다. wine이 만약에 class에따라 가격이 다르다면 가격이 높은 특정라벨의 precision이 중요할 것 같다. 비싼 wine을 싸게 팔면 손해가 날 수 있기 때문이다.
3. 유방암 진단율은 무엇보다 Recall이 중요하다. 양성인 환자를 놓치면 치료를 할 수 없기때문이다. 가장 높은 recall 평균 1.00을 보여준 RandomForestClassifier가 유용할 것이라고 생각한다.

### 5. 회고

- 첫 exploaration이었다. 생소한 단어들이 많아서 익숙해지는데 시간이 좀 걸렸지만 머신러닝의 큰 틀, 데이터를 받고 나누고 모델을 만들고 훈련시키고 결과값을 예상하는 과정을 이해하였다. 다양한 model들의 수학적으로 나와있었는데 이 부분의 이해가 어려웠다. 뒤에서 또 나온다고 하니 익숙해져야겠다.
- ConvergenceWarning: default solver가 'liblinear'에서 'lbfg'로 바뀌면서 생긴 Warning이라고함. max_iter의 default값이 100인데 여기서 iterable number를 늘리거나 datascale을 줄이거나 solver를 바꾸면 됨. dataset의 training 부분을 줄여주니까 오류가 없어졌다. solver를 'liblinear'로 바꿔주니 오류가 없어졌다. 성능에 큰 차이는 없었다. max_iter의 적절값을 찾아가는 것도 방법이라고함.
(참고: https://stackoverflow.com/questions/62658215/convergencewarning-lbfgs-failed-to-converge-status-1-stop-total-no-of-iter) 
- 3번에서 classfication_report를 배웠었던 pandas로 깔끔하게 표현하고 싶었는데 잘되지는 못했다. 빈칸에 임의로 숫자가 채워지고 소수점도 제각각으로 나와서 더 깔끔하지 않았다.