In [1]:
# (1)필요한 모듈 import하기

from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report 

In [2]:
# (2) 데이터 준비
# load_wine 메서드를 사용

wine = load_wine()
print(dir(wine))

['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']


In [3]:
# (3)데이터 이해하기

# (3)-1. Feature Data 지정

wine_data = wine.data
wine_data.shape    ## shape는 배열의 형상정보를 출력(데이터 형태)

(178, 13)

In [4]:
    ## wine_data에 저장된 데이터 양과 형식 확인.
    ## 178개의 wine 데이터와 각각의 데이터에 13개의 픽셀값(특성)이 저장되어 있음.

In [5]:
# (3)-2. Label Data 지정

wine_label = wine.target
print(wine_label.shape)
wine_label

(178,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

In [6]:
# (3)-3. Target Names 출력

wine.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

In [7]:
    ## Target_Name은 'class_0', 'class_1', 'class_2 3가지 클래스를 가짐.

In [8]:
# (3)-4. 데이터 Describe 해 보기

print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

In [9]:
    ## 총 178개의 데이터.
    ## 특성은 총 13개, 모두 정수형 데이터.
    ## 누락된 특성 값 없음. (NaN 값이 없음.)
    ## class_0 (59), class_1 (71), class_2 (48) : 클래스 별 데이터 개수가 균등하지 않음.

In [10]:
# (4) train, test 데이터 분리

# 모델 학습과 테스트용 문제지와 정답지를 준비
# X_train, X_test, y_train, y_test를 생성하는 방법을 참고


from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(wine_data, 
                                                    wine_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

X_train 개수:  142 , X_test 개수:  36


In [11]:
    ## wine 데이터 셋을 학습용 데이터와 테스트용 데이터로 분리
    ## test 데이터 셋의 크기는 전체 데이터셋의 20%
    ## 178개의 데이터셋 - 학습용 데이터: 142개, 테스트용 데이터: 36개

In [12]:
# (5) 다양한 모델로 학습시켜보기
# 학습데이터 X_train, y_train 을 활용해 분류기 모델을 만들어 보자.


# 다양한 모델들의 정확도를 한꺼번에 계산하기 위해 예측값들을 저장하는 변수 추가
y_pred_list = []


# (5)-1. Decision Tree 사용해 보기

from sklearn.tree import DecisionTreeClassifier # 모델을 import해서 가져오기

decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train) # decision_tree 라는 변수에 모델을 저장

y_pred = decision_tree.predict(X_test)
y_pred_list.append(y_pred)

print(classification_report(y_test, y_pred)) # Decision Tree 모델 평가

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.89      1.00      0.94        17
           2       1.00      0.83      0.91        12

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36



In [13]:
# Decision Tree, accuracy : 94%    
    
    
    ## Precision
        ## class 1의 경우 평균 precision(macro avg)보다 낮음.

    ## Recall
        ## class 2의 경우 평균 recall(macro avg)보다 낮음.
        
    ## 각각의 label에 따라서 precision과 recall의 편차가 큰 편이기에, 모델의 성능이 좋다고 말할 수 없음.

In [14]:
# (5)-2. Random Forest 사용해 보기

from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)

y_pred = random_forest.predict(X_test) 
y_pred_list.append(y_pred)

print(classification_report(y_test, y_pred)) ## Random Forest 모델 평가

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        12

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



In [15]:
# Random Forest, accuracy : 100%


    ## Precision
        ## class 1, 2, 3 모두 정밀한 예측.
        
    ## Recall
        ## class 1, 2, 3 모두 정밀한 예측.
        
    ## precision과 recall의 각 label 별 편차가 대체적으로 크지 않고,
    ## 전반적으로 0.9 이상의 값을 갖기때문에, 모델의 성능이 좋다고 말할 수 있음.

In [16]:
# (5)-3. # SVM 사용해 보기

from sklearn import svm
svm_model = svm.SVC()

print(svm_model._estimator_type)

classifier


In [17]:
# SVM 모델 학습 - 결과
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)
y_pred_list.append(y_pred)

print(classification_report(y_test, y_pred)) ## SVM 모델 평가

              precision    recall  f1-score   support

           0       0.86      0.86      0.86         7
           1       0.58      0.88      0.70        17
           2       0.33      0.08      0.13        12

    accuracy                           0.61        36
   macro avg       0.59      0.61      0.56        36
weighted avg       0.55      0.61      0.54        36



In [18]:
# SVM, accuracy : 61%

    
    ## Precision
        ## class 1, 2 에서 평균 precision(macro avg)보다 낮음.
        ## class 0의 경우 평균 precision(macro avg)보다 높음.
        
    ## Recall
        ## class 1, 2 에서 평균 recall(macro avg)보다 높음.
        ## class 0의 경우 해당 class 내에서 정확한 예측을 한 비율이 현저하게 적음.
        
        
    ## 전체적으로 오답률이 높았고, 특히 class 2의 경우 대부분이 오답.
    ## 61% 의 굉장히 낮은 정확도.

In [19]:
# (5)-4. # SGD Classifier 사용해 보기

from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()

print(sgd_model._estimator_type)

classifier


In [20]:
# SGD 모델 학습 - 결과
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)
y_pred_list.append(y_pred)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.88      1.00      0.93         7
           1       0.57      0.94      0.71        17
           2       0.00      0.00      0.00        12

    accuracy                           0.64        36
   macro avg       0.48      0.65      0.55        36
weighted avg       0.44      0.64      0.52        36



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [21]:
# SGD, accuracy : 64%
 
    
    ## Precision
        ## class 0, 1의 경우 평균 precision(macro avg)보다 높음.
        ## class 2 의 경우 평균 precision(macro avg)보다 낮음.
        
    ## Recall
        ## class 0, 2의 경우 평균 recall(macro avg)보다 높음.
        ## class 1 의 경우 평균 recall(macro avg)보다 낮음.
        ## precision과 recall 값이 다른 label에 비해서 많이 낮음.
        
    ## 오류
        ## 예측 샘플이 없는 labels에서 predicted 및 f1-score가 잘못 정의되어 0.0으로 설정됨.
        ## 해결하려면 'zero_division' 매개 변수를 사용하면 됨.

In [22]:
# (5)-5. # Logistic Regression 사용해 보기

from sklearn.linear_model import LogisticRegression
logistic_model = LogisticRegression()

print(logistic_model._estimator_type)

classifier


In [23]:
# Logistic Regression 모델 학습 - 결과
logistic_model.fit(X_train, y_train)

y_pred = logistic_model.predict(X_test)
y_pred_list.append(y_pred)

print(classification_report(y_test, y_pred))


              precision    recall  f1-score   support

           0       1.00      0.86      0.92         7
           1       0.94      1.00      0.97        17
           2       1.00      1.00      1.00        12

    accuracy                           0.97        36
   macro avg       0.98      0.95      0.96        36
weighted avg       0.97      0.97      0.97        36



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [24]:
# Logistic Regression, accuracy : 97%


    ## Precision
        ## class 0, 2의 경우 평균 precision(macro avg)보다 높음.
        ## class 1 의 경우 평균 precision(macro avg)보다 낮음.
        
    ## Recall
        ## class 1, 2의 경우 평균 recall(macro avg)보다 높음.
        ## class 0 의 경우 평균 recall(macro avg)보다 낮음.
        
    ## 오류
        ## 수렴 경고 : 수렴 실패(status=1), 중지 : 총 반복 횟수가 한계에 도달함.
        ## 해결하려면, 반복 횟수를 늘리거나(max_iter) 데이터를 확장해야 함.

In [25]:
# (6) 모델을 평가해 보기
# 학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요?
# 모델의 성능을 평가하는 지표로는 무엇이 좋을까요?
# sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요.
# 선택하신 이유도 설명해 주세요.

In [26]:
from sklearn.metrics import f1_score
# 0: decision tree, 1: random forest, 2: svm, 3: sgd classifier, 4: logistic regression
for idx, y_pred in enumerate(y_pred_list):
    accuracy = f1_score(y_test, y_pred, average='weighted')
    print(f'{idx} : {accuracy}')

0 : 0.9434624017957352
1 : 1.0
2 : 0.5405684754521964
3 : 0.5172839506172839
4 : 0.9715506715506714


In [27]:
# classification_report의 accuracy로 본 모델들의 정확도를 비교하자면,

# Decision Tree, accuracy : 94%
    ## precision과 recall의 편차가 큰 편이기에, 모델의 성능이 좋다고 판단할 수 없음.

    
# Random Forest, accuracy : 100%
    ## 대부분 class 모두 정밀한 예측. precision과 recall의 편차가 크지 않고
    ## 전반적으로 0.9 이상의 값을 갖기 때문에 모델 성능이 좋다고 판단.

    
# SVM, accuracy : 61%
    ## 전반적으로 오답률이 높았고 굉장히 낮은 정확도를 보임. 성능이 좋다고 판단할 수 없음.

    
# SGD, accuracy : 58%
    ## precision과 recall의 편차가 큰 편이고 굉장히 낮은 정확도를 보임.
    ## 모델의 성능이 좋다고 판단할 수 없음.


# Logistic Regression, accuracy : 97%
    ## 단 하나의 오답을 제외하고 전반적으로 높은 정확도를 보임. 성능이 좋다고 판단할 수 있음.


## wine datasets의 경우 digits와 같은 분류 문제. (Recall과 Precision등의 영향을 받지 않는 데이터.)
## wine의 경우도 정답 또는 오류를 틀리게 예측한 것을 파악하는 것보다 오류를 바르게 예측하는게 더 중요하다고 생각했다.
## 단순히 정확도만 확인해도 무방하기 때문에 Accuracy를 평가지료로 사용하면 될 것 같았다.
## 그렇게 따지면, 정확도가 가장 높은 수치를 보인 모델은 100%로 Random Forest이다.

# 그런데, 해당 프로젝트 target의 class들의 데이터 개수는 균등하지 않게 분포한다는 걸 알 수 있다.
# 보통 분류 문제의 경우 classification_report 와 accuracy_score를 이용를 이용한다.
# 하지만 데이터의 불균형으로 정확한 판단이 힘들다고 생각해 accuracy_score가 아닌 f1 score average를 평가지표로 선택했다.

In [28]:
# 회고

# 정리하자면, 해당 프로젝트의 경우 RandomForestClassifier 모델의 성능이 가장 좋다고 생각한다.
# 그렇지만, Logistic Regression 의 사용도 고려해볼만 하다.

# 일단, RandomForest Classifier의 f1-score는 1.0이다.
    ## f1 score는 큰 값에 패널티를 주면서 작은 값 위주로 평균을 구하기 때문에 불균형한 데이터에서 잘 작동을 한다.
    ## f1 score average로 weighted를 사용한 이유 : weighted 옵션은 라벨 불균형을 고려해 점수를 계산하기 때문에 선택했다.    
# 결과만 놓고 보자면 accuracy_score 나, f1_score 나 RandomForest 모델이 가장 성능이 좋게 나왔다.

# 하지만 Random Forest 는 Logistic Regression 모델보다 많은 메모리를 사용하며
# 데이터가 많아질시 훈련과 예측이 느리다.
# 따라서 정확도 약 97% 를 가지는 Logistic Regression 의 사용도 고려해볼 수 있다.

# 이번 프로젝트를 통해 f1_score 를 어떻게 해석하고 사용하는지 알 수 있었다.
# 모델의 정확도가 높다고 해서 모델의 성능이 가장 좋다고 할 수 없고,
# 상황과 모델의 특성을 파악해서 선택해야한다는걸 알 수 있었다.