# 1. 손글씨 분류

## (1) 필요한 모듈 import

In [3]:
# 데이터 분리
from sklearn.model_selection import train_test_split
# Decision Tree
from sklearn.tree import DecisionTreeClassifier
# 정확도
from sklearn.metrics import accuracy_score
# 분류 
from sklearn.metrics import classification_report
# Random Forest
from sklearn.ensemble import RandomForestClassifier
# SVM
from sklearn import svm
svm_model = svm.SVC()
# SGD
from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()
# Logistic Regression
from sklearn.linear_model import LogisticRegression
logistic_model = LogisticRegression()
# 오차행렬
from sklearn.metrics import confusion_matrix
# pandas
import pandas as pd

## (2) 데이터 준비

In [4]:
# 손글씨 데이터 불러오기
from sklearn.datasets import load_digits
digits = load_digits()

# 데이터 정보 확인
digits.keys()

dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])

## (3) 데이터 이해하기

### 1) Feature Data 지정

In [8]:
# feature Data 지정
digits_data = digits.data

# 배열의 형상정보를 출력
print(digits_data.shape) 

# 샘플 데이터 확인
digits_data[0]



(1797, 64)


array([ 0.,  0.,  5., 13.,  9.,  1.,  0.,  0.,  0.,  0., 13., 15., 10.,
       15.,  5.,  0.,  0.,  3., 15.,  2.,  0., 11.,  8.,  0.,  0.,  4.,
       12.,  0.,  0.,  8.,  8.,  0.,  0.,  5.,  8.,  0.,  0.,  9.,  8.,
        0.,  0.,  4., 11.,  0.,  1., 12.,  7.,  0.,  0.,  2., 14.,  5.,
       10., 12.,  0.,  0.,  0.,  0.,  6., 13., 10.,  0.,  0.,  0.])

### 2) Label Data 지정

In [4]:
digits_label = digits.target
print(digits_label.shape)
digits_label[0:10]

(1797,)


array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### 3) Target Names 출력

In [5]:
digits.target_names

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### 4) 데이터 Describe 

In [6]:
print(digits.DESCR)

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 5620
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each blo

## (4) train, test 데이터 분리

In [10]:
# digits dataset을 pandas가 제공하는 DataFrame 자료형으로 변환

digits_df = pd.DataFrame(data=digits_data, columns=digits.feature_names)

# 정답 데이터 (label) 열 추가

digits_df["label"] = digits.target
digits_df

Unnamed: 0,pixel_0_0,pixel_0_1,pixel_0_2,pixel_0_3,pixel_0_4,pixel_0_5,pixel_0_6,pixel_0_7,pixel_1_0,pixel_1_1,...,pixel_6_7,pixel_7_0,pixel_7_1,pixel_7_2,pixel_7_3,pixel_7_4,pixel_7_5,pixel_7_6,pixel_7_7,label
0,0.0,0.0,5.0,13.0,9.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,6.0,13.0,10.0,0.0,0.0,0.0,0
1,0.0,0.0,0.0,12.0,13.0,5.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,11.0,16.0,10.0,0.0,0.0,1
2,0.0,0.0,0.0,4.0,15.0,12.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,3.0,11.0,16.0,9.0,0.0,2
3,0.0,0.0,7.0,15.0,13.0,1.0,0.0,0.0,0.0,8.0,...,0.0,0.0,0.0,7.0,13.0,13.0,9.0,0.0,0.0,3
4,0.0,0.0,0.0,1.0,11.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,2.0,16.0,4.0,0.0,0.0,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1792,0.0,0.0,4.0,10.0,13.0,6.0,0.0,0.0,0.0,1.0,...,0.0,0.0,0.0,2.0,14.0,15.0,9.0,0.0,0.0,9
1793,0.0,0.0,6.0,16.0,13.0,11.0,1.0,0.0,0.0,0.0,...,0.0,0.0,0.0,6.0,16.0,14.0,6.0,0.0,0.0,0
1794,0.0,0.0,1.0,11.0,15.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,2.0,9.0,13.0,6.0,0.0,0.0,8
1795,0.0,0.0,2.0,10.0,7.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,5.0,12.0,16.0,12.0,0.0,0.0,9


In [11]:
# label 컬럼에 값이 균등하게 있는지 확인
digits_df['label'].value_counts().sort_index()

0    178
1    182
2    177
3    183
4    181
5    182
6    181
7    179
8    174
9    180
Name: label, dtype: int64

In [8]:
# training과 test dataset을 분리
X_train, X_test, y_train, y_test = train_test_split(digits_data, 
                                                    digits_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

print('X_train 개수: ', len(X_train), ', X_test 개수: ', len(X_test))

X_train 개수:  1437 , X_test 개수:  360


In [9]:
# 데이터 셋 확인

X_train.shape, y_train.shape, X_test.shape, y_test.shape

((1437, 64), (1437,), (360, 64), (360,))

## (5) 다양한 모델로 학습

### 1) Decision Tree

In [10]:
# decision_tree 변수에 모델 저장하기
decision_tree = DecisionTreeClassifier(random_state=15)

# 의사결정나무를 사용한 모델 학습
decision_tree.fit(X_train, y_train)

#  test 데이터로 예측
y_pred = decision_tree.predict(X_test)

# 성과지표 확인
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.98      0.95      0.96        43
           1       0.81      0.90      0.85        42
           2       0.89      0.82      0.86        40
           3       0.82      0.91      0.86        34
           4       0.83      0.92      0.87        37
           5       0.93      0.96      0.95        28
           6       0.93      0.93      0.93        28
           7       0.87      0.82      0.84        33
           8       0.85      0.67      0.75        43
           9       0.79      0.81      0.80        32

    accuracy                           0.87       360
   macro avg       0.87      0.87      0.87       360
weighted avg       0.87      0.87      0.87       360



In [11]:
# 정확도 확인
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.8666666666666667

In [12]:
# 오차행렬

confusion_matrix(y_test, y_pred)

array([[41,  0,  0,  0,  1,  0,  1,  0,  0,  0],
       [ 0, 38,  0,  2,  0,  0,  0,  0,  0,  2],
       [ 0,  1, 33,  1,  0,  0,  0,  1,  3,  1],
       [ 0,  1,  0, 31,  0,  0,  0,  0,  1,  1],
       [ 1,  0,  0,  0, 34,  0,  0,  1,  1,  0],
       [ 0,  0,  0,  0,  0, 27,  0,  1,  0,  0],
       [ 0,  0,  0,  0,  2,  0, 26,  0,  0,  0],
       [ 0,  0,  0,  1,  2,  1,  0, 27,  0,  2],
       [ 0,  6,  4,  1,  1,  0,  1,  0, 29,  1],
       [ 0,  1,  0,  2,  1,  1,  0,  1,  0, 26]])

### 2) Random Forest

In [13]:
# 모델 학습 및 예측
random_forest = RandomForestClassifier(random_state=15)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

# 성과지표 확인
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.91      1.00      0.95        42
           2       1.00      1.00      1.00        40
           3       0.97      1.00      0.99        34
           4       0.90      1.00      0.95        37
           5       0.90      0.96      0.93        28
           6       1.00      0.93      0.96        28
           7       0.94      0.97      0.96        33
           8       1.00      0.81      0.90        43
           9       0.97      0.94      0.95        32

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.96      0.96      0.96       360



In [14]:
# 정확도 확인
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9583333333333334

In [15]:
# 오차행렬

confusion_matrix(y_test, y_pred)

array([[42,  0,  0,  0,  1,  0,  0,  0,  0,  0],
       [ 0, 42,  0,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  0, 40,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0, 34,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0, 37,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0, 27,  0,  0,  0,  1],
       [ 0,  1,  0,  0,  1,  0, 26,  0,  0,  0],
       [ 0,  0,  0,  0,  1,  0,  0, 32,  0,  0],
       [ 0,  3,  0,  1,  1,  1,  0,  2, 35,  0],
       [ 0,  0,  0,  0,  0,  2,  0,  0,  0, 30]])

### 3) SVM

In [16]:
# SVM모델 학습 및 예측
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

# 성과지표 확인
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      1.00      0.98        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        37
           5       0.93      1.00      0.97        28
           6       1.00      1.00      1.00        28
           7       1.00      1.00      1.00        33
           8       1.00      0.93      0.96        43
           9       1.00      0.97      0.98        32

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360



In [17]:
# 정확도 확인
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9888888888888889

In [18]:
# 오차행렬

confusion_matrix(y_test, y_pred)

array([[43,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [ 0, 42,  0,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  0, 40,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0, 34,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0, 37,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0, 28,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0,  0, 28,  0,  0,  0],
       [ 0,  0,  0,  0,  0,  0,  0, 33,  0,  0],
       [ 0,  2,  0,  0,  0,  1,  0,  0, 40,  0],
       [ 0,  0,  0,  0,  0,  1,  0,  0,  0, 31]])

### 4) SGD Classifier

In [19]:
# SGD 모델 학습
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

# 성과지표 확인
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.90      0.88      0.89        42
           2       0.95      0.97      0.96        40
           3       0.87      0.97      0.92        34
           4       0.95      1.00      0.97        37
           5       0.88      1.00      0.93        28
           6       0.96      0.93      0.95        28
           7       0.94      0.97      0.96        33
           8       0.97      0.79      0.87        43
           9       0.97      0.94      0.95        32

    accuracy                           0.94       360
   macro avg       0.94      0.94      0.94       360
weighted avg       0.94      0.94      0.94       360



In [20]:
# 정확도 확인
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9388888888888889

In [21]:
# 오차행렬

confusion_matrix(y_test, y_pred)

array([[42,  0,  0,  0,  1,  0,  0,  0,  0,  0],
       [ 0, 37,  1,  2,  0,  1,  0,  0,  0,  1],
       [ 0,  0, 39,  1,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0, 33,  0,  0,  0,  1,  0,  0],
       [ 0,  0,  0,  0, 37,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0, 28,  0,  0,  0,  0],
       [ 0,  1,  0,  0,  0,  0, 26,  0,  1,  0],
       [ 0,  0,  0,  1,  0,  0,  0, 32,  0,  0],
       [ 0,  3,  1,  1,  1,  1,  1,  1, 34,  0],
       [ 0,  0,  0,  0,  0,  2,  0,  0,  0, 30]])

### 5) Logistic Regression

In [22]:
# Logisitic Regression 모델 학습

logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

# 성과지표 확인
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      0.95      0.95        42
           2       0.98      1.00      0.99        40
           3       0.94      0.97      0.96        34
           4       0.97      1.00      0.99        37
           5       0.82      0.96      0.89        28
           6       1.00      0.96      0.98        28
           7       0.97      0.97      0.97        33
           8       0.92      0.81      0.86        43
           9       0.97      0.91      0.94        32

    accuracy                           0.95       360
   macro avg       0.95      0.95      0.95       360
weighted avg       0.95      0.95      0.95       360



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [23]:
# 정확도 확인
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9527777777777777

In [24]:
# 오차행렬

confusion_matrix(y_test, y_pred)

array([[43,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [ 0, 40,  0,  0,  0,  0,  0,  0,  1,  1],
       [ 0,  0, 40,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0, 33,  0,  0,  0,  1,  0,  0],
       [ 0,  0,  0,  0, 37,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0, 27,  0,  0,  1,  0],
       [ 0,  0,  0,  0,  0,  0, 27,  0,  1,  0],
       [ 0,  0,  0,  1,  0,  0,  0, 32,  0,  0],
       [ 0,  2,  1,  0,  1,  4,  0,  0, 35,  0],
       [ 0,  0,  0,  1,  0,  2,  0,  0,  0, 29]])

## (6) 모델 평가

손글씨 분류 문제에서 정확도는 Decission Tree 모델이 86.7%, Random Forest는 95.8%, SVM는 98.9%, SGD Classifier는 93.%, Logistic Regression는 95.3%로 나온다. Decission Tree모델은 정확도의 면에서 성능이 낮으나 나머지 모델들은 테스트 데이터를 90% 이상 예측할 수 있음을 알 수 있다. 특히 정확도 면에서는 SVM 모델이 가장 성능이 좋음을 알 수 있다.
   

그러나 정확도만으로는 모델의 성능을 제대로 진단할 수 없다. 현실에서 많이 접할 수 있는 불균형 데이터를 평가하기 위해서는 성능지표가 필요하다. 다중 분류에서 균형 데이터셋에서는 정확도를 보아야 하고, 불균형 데이터셋에서는 f-score를 본다([참고](https://nittaku.tistory.com/295)). 손글씨 데이터의 label 컬럼의 값은 거의 균형하다고 볼 수 있으나 불균형한 경우일 수도 있다고 생각해서 표본의 갯수를 고려한 weighted avg f-score를 비교해 보았다. random_state는 데이터 분리에서 7, 모델에서는 15로 설정하였다. 

- 손글씨 분류 모델의 f-score 비교

   - Decission Tree: 0.87
   - Random Forest: 0.96
   - SVM: 0.99
   - SGD Classifier: 0.94
   - Logistic Regression: 0.95
   
비교한 결과, 그 결과 SVM의 결과가 99%로 가장 높게 나왔으며, Decission Tree가 87%로 가장 낮게 나왔다.

정확도와 f-score의 값이 SVM에서 가장 높게 나오므로 손글씨 분류 문제에서는 SVM의 성능이 가장 좋음을 알 수 있다. 

# 2. 와인 분류

## (1) 필요한 모듈 import
이 부분은 1. 손글씨 분류에서 이미 했기 때문에 생략함. 

## (2) 데이터 준비

In [12]:
# 와인 데이터 불러오기
from sklearn.datasets import load_wine
wine = load_wine()

# 데이터 정보 확인
wine.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])

## (3) 데이터 이해하기

#### 1) Feature Data 지정

In [13]:
# feature data 지정
wine_data = wine.data

# 배열의 형상정보를 출력
print(wine_data.shape) 

# 샘플 데이터 확인
wine_data[0]


(178, 13)


array([1.423e+01, 1.710e+00, 2.430e+00, 1.560e+01, 1.270e+02, 2.800e+00,
       3.060e+00, 2.800e-01, 2.290e+00, 5.640e+00, 1.040e+00, 3.920e+00,
       1.065e+03])

#### 2) Label Data 지정

In [14]:
wine_label = wine.target
print(wine_label.shape)

(178,)


#### 3) Target Names 출력

In [15]:
wine.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

#### 4) 데이터 Describe 

In [29]:
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

## (4) train, test 데이터 분리

In [16]:
# DataFrame 자료형으로 변환

wine_df = pd.DataFrame(data=wine_data, columns=wine.feature_names)

# 정답 데이터 (label) 열 추가

wine_df["label"] = wine.target
wine_df

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,label
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0,2
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0,2
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0,2
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0,2


In [17]:
# label 컬럼의 값이 균등하게 있는지 확인
wine_df['label'].value_counts().sort_index()

0    59
1    71
2    48
Name: label, dtype: int64

In [31]:
# training과 test dataset을 분리
X_train, X_test, y_train, y_test = train_test_split(wine_data, 
                                                    wine_label, 
                                                    test_size=0.2, 
                                                    random_state=32)

print('X_train 개수: ', len(X_train), ', X_test 개수: ', len(X_test))

X_train 개수:  142 , X_test 개수:  36


In [32]:
# 데이터 셋 확인

X_train.shape, y_train.shape, X_test.shape, y_test.shape

((142, 13), (142,), (36, 13), (36,))

## (5) 다양한 모델로 학습

### 1) Decision Tree

In [33]:
# decision_tree 변수에 모델 저장하기
decision_tree = DecisionTreeClassifier(random_state=32)

# 의사결정나무를 사용한 모델 학습
decision_tree.fit(X_train, y_train)

#  test 데이터로 예측
y_pred = decision_tree.predict(X_test)

# 성과지표 확인
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.94      1.00      0.97        16
           1       0.89      0.80      0.84        10
           2       0.90      0.90      0.90        10

    accuracy                           0.92        36
   macro avg       0.91      0.90      0.90        36
weighted avg       0.92      0.92      0.91        36



In [34]:
# 정확도 확인
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9166666666666666

In [35]:
# 오차행렬

confusion_matrix(y_test, y_pred)

array([[16,  0,  0],
       [ 1,  8,  1],
       [ 0,  1,  9]])

### 2) Random Forest

In [36]:
# 모델 학습 및 예측
random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

# 성과지표 확인
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        16
           1       1.00      0.90      0.95        10
           2       0.91      1.00      0.95        10

    accuracy                           0.97        36
   macro avg       0.97      0.97      0.97        36
weighted avg       0.97      0.97      0.97        36



In [37]:
# 정확도 확인
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9722222222222222

In [38]:
# 오차행렬

confusion_matrix(y_test, y_pred)

array([[16,  0,  0],
       [ 0,  9,  1],
       [ 0,  0, 10]])

### 3) SVM

In [39]:
# SVM모델 학습 및 예측
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

# 성과지표 확인
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.93      0.81      0.87        16
           1       0.41      0.90      0.56        10
           2       0.00      0.00      0.00        10

    accuracy                           0.61        36
   macro avg       0.45      0.57      0.48        36
weighted avg       0.53      0.61      0.54        36



  _warn_prf(average, modifier, msg_start, len(result))


In [40]:
# 정확도 확인
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.6111111111111112

In [41]:
# 오차행렬

confusion_matrix(y_test, y_pred)

array([[13,  3,  0],
       [ 1,  9,  0],
       [ 0, 10,  0]])

### 4) SGD Classifier

In [42]:
# SGD 모델 학습
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

# 성과지표 확인
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.75      0.86        16
           1       1.00      0.60      0.75        10
           2       0.56      1.00      0.71        10

    accuracy                           0.78        36
   macro avg       0.85      0.78      0.77        36
weighted avg       0.88      0.78      0.79        36



In [43]:
# 정확도 확인
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.7777777777777778

In [44]:
# 오차행렬

confusion_matrix(y_test, y_pred)

array([[12,  0,  4],
       [ 0,  6,  4],
       [ 0,  0, 10]])

### 5) Logistic Regression

In [45]:
# Logisitic Regression 모델 학습

logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

# 성과지표 확인
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.94      1.00      0.97        16
           1       0.89      0.80      0.84        10
           2       0.90      0.90      0.90        10

    accuracy                           0.92        36
   macro avg       0.91      0.90      0.90        36
weighted avg       0.92      0.92      0.91        36



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [46]:
# 정확도 확인
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9166666666666666

In [47]:
# 오차행렬

confusion_matrix(y_test, y_pred)

array([[16,  0,  0],
       [ 1,  8,  1],
       [ 0,  1,  9]])

## (6) 모델 평가

와인 분류 문제에서 정확도는 Decission Tree 모델이 91.7%, Random Forest는 97.2%, SVM는 61.1%, SGD Classifier는 77.8%, Logistic Regression는 91.7%로 나온다. SVM과 SGD모델은 정확도의 면에서 성능이 낮으나 나머지 모델들은 테스트 데이터를 90% 이상 예측할 수 있음을 알 수 있다. 특히 정확도 면에서는 Random Forest 모델이 가장 성능이 좋음을 알 수 있다.
   

그러나 정확도만으로는 모델의 성능을 제대로 진단할 수 없다. 현실에서 많이 접할 수 있는 불균형 데이터를 평가하기 위해서는 성능지표가 필요하다. 다중 분류에서 불균형 데이터셋을 위해 가장 널리 사용하는 평가 지표는 f-score이다([참고](https://nittaku.tistory.com/295)). 와인 데이터의 label 컬럼의 값이 불균형하므로  표본의 갯수를 고려한 weighted avg f-score를 비교하였고, random_state는 데이터 분리에서 32, 모델에서는 32로 설정하였다. 

- 와인 분류 모델의 f-score 비교

   - Decission Tree: 0.91
   - Random Forest: 0.97
   - SVM: 0.54
   - SGD Classifier: 0.79
   - Logistic Regression: 0.91
   
비교한 결과, 그 결과 Random Forest의 결과가 97%로 가장 높게 나왔으며, SVM가 54%로 가장 낮게 나왔다. 따라서 와인 분류 문제에서는 Random Forest의 성능이 가장 좋음을 알 수 있다. 

#### - 주의할 점
처음에는 wine의 random forest의 정확도가 1이 나왔다. 다른 조원은 cancer의 random forest의 정확도 역시 1이 나왔다고 한다. 이 부분에 대해서 조원들과 토론해 보았더니 random_state가 서로 다르다는 것을 알았다. 그래서 random_state를 여러 번 바꿔보았다. random_state를 데이터 분류와 모델에서 32로 해주었더니 정확도가 떨어진 것을 알 수 있었다. 그러나 이 부분의 의미는 잘 모르겠다. 정확도가 1이 나오는 것이 좋기만 한 것일까? 생각해 봐야 겠다.

# 3. 유방암 여부 진단 

## (1) 필요한 모듈 import
이 부분은 1. 손글씨 분류에서 이미 했기 때문에 생략함. 

## (2) 데이터 준비

In [48]:
# 암진단 데이터 불러오기
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()

# 데이터 정보 
cancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

## (3) 데이터 이해하기

#### 1) Feature Data 지정

In [49]:
# feature data 지정
cancer_data = cancer.data

# 배열의 형상정보를 출력
print(cancer_data.shape) 

# 샘플 데이터 확인
cancer_data[0]


(569, 30)


array([1.799e+01, 1.038e+01, 1.228e+02, 1.001e+03, 1.184e-01, 2.776e-01,
       3.001e-01, 1.471e-01, 2.419e-01, 7.871e-02, 1.095e+00, 9.053e-01,
       8.589e+00, 1.534e+02, 6.399e-03, 4.904e-02, 5.373e-02, 1.587e-02,
       3.003e-02, 6.193e-03, 2.538e+01, 1.733e+01, 1.846e+02, 2.019e+03,
       1.622e-01, 6.656e-01, 7.119e-01, 2.654e-01, 4.601e-01, 1.189e-01])

#### 2) Label Data 지정

In [50]:
cancer_label = cancer.target
print(cancer_label.shape)
cancer_label[20:30]

(569,)


array([1, 1, 0, 0, 0, 0, 0, 0, 0, 0])

#### 3) Target Names 출력

In [51]:
cancer.target_names

array(['malignant', 'benign'], dtype='<U9')

#### 4) 데이터 Describe 

In [52]:
print(cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

## (4) train, test 데이터 분리

In [53]:
# DataFrame 자료형으로 변환

cancer_df = pd.DataFrame(data=cancer_data, columns=cancer.feature_names)

# 정답 데이터 (label) 열 추가

cancer_df["label"] = cancer.target
cancer_df

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,label
0,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,0.2419,0.07871,...,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890,0
1,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,0.1812,0.05667,...,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902,0
2,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,0.2069,0.05999,...,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,0.2597,0.09744,...,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300,0
4,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,0.1809,0.05883,...,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,0.1726,0.05623,...,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115,0
565,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,0.1752,0.05533,...,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637,0
566,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,0.1590,0.05648,...,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820,0
567,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,0.2397,0.07016,...,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400,0


In [54]:
# training과 test dataset을 분리
X_train, X_test, y_train, y_test = train_test_split(cancer_data, 
                                                    cancer_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

print('X_train 개수: ', len(X_train), ', X_test 개수: ', len(X_test))

X_train 개수:  455 , X_test 개수:  114


In [55]:
# 데이터 셋 확인

X_train.shape, y_train.shape, X_test.shape, y_test.shape

((455, 30), (455,), (114, 30), (114,))

## (5) 다양한 모델로 학습

### 1) Decision Tree

In [56]:
# decision_tree 변수에 모델 저장하기
decision_tree = DecisionTreeClassifier(random_state=15)

# 의사결정나무를 사용한 모델 학습
decision_tree.fit(X_train, y_train)

#  test 데이터로 예측
y_pred = decision_tree.predict(X_test)

# 성과지표 확인
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.93      0.93      0.93        40
           1       0.96      0.96      0.96        74

    accuracy                           0.95       114
   macro avg       0.94      0.94      0.94       114
weighted avg       0.95      0.95      0.95       114



In [57]:
# 정확도 확인
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9473684210526315

In [58]:
# 오차행렬

confusion_matrix(y_test, y_pred)

array([[37,  3],
       [ 3, 71]])

### 2) Random Forest

In [59]:
# 모델 학습 및 예측
random_forest = RandomForestClassifier(random_state=15)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

#성과지표 확인

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.90      0.95        40
           1       0.95      1.00      0.97        74

    accuracy                           0.96       114
   macro avg       0.97      0.95      0.96       114
weighted avg       0.97      0.96      0.96       114



In [60]:
# 정확도 확인
accuracy = accuracy_score(y_test, y_pred)
accuracy 

0.9649122807017544

In [61]:
# 오차행렬

confusion_matrix(y_test, y_pred)

array([[36,  4],
       [ 0, 74]])

### 3) SVM

In [62]:
# SVM모델 학습 및 예측
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

# 성과지표 확인
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114



In [63]:
# 정확도 확인
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9035087719298246

In [64]:
# 오차행렬

confusion_matrix(y_test, y_pred)

array([[29, 11],
       [ 0, 74]])

### 4) SGD Classifier

In [65]:
# SGD 모델 학습
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

# 성과지표 확인
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.73      0.95      0.83        40
           1       0.97      0.81      0.88        74

    accuracy                           0.86       114
   macro avg       0.85      0.88      0.85       114
weighted avg       0.88      0.86      0.86       114



In [66]:
# 정확도 확인
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.8596491228070176

In [67]:
# 오차행렬

confusion_matrix(y_test, y_pred)

array([[38,  2],
       [14, 60]])

### 5) Logistic Regression

In [68]:
# Logisitic Regression 모델 학습

logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

# 성과지표 확인
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.85      0.92        40
           1       0.93      1.00      0.96        74

    accuracy                           0.95       114
   macro avg       0.96      0.93      0.94       114
weighted avg       0.95      0.95      0.95       114



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [69]:
# 정확도 확인
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9473684210526315

In [70]:
# 오차행렬

confusion_matrix(y_test, y_pred)

array([[34,  6],
       [ 0, 74]])

## (6) 모델 평가

암 환자 진단 문제에서 정확도는 Decission Tree 모델이 94.7%, Random Forest는 96.5%, SVM는 90.4%, SGD Classifier는 86%, Logistic Regression는 94.7%로 나온다. SGD Classifier를 제외한 모델들은 테스트 데이터를 90% 이상 예측할 수 있음을 알 수 있다. 특히 정확도 면에서는 Random Forest가 성능이 제일 좋음을 알 수 있다. 
   

그러나 암 환자를 진단함에 있어서 중요한 것은 실제 암 환자를 1명이라도 놓치지 않는 것이다. 양성을 음성으로 판단하면 안 되기 때문에 암 진단 모델에서는 __Recall(재현율)__ 이 가장 중요하다. 여기서는 단순 평균인 macro avg보다 표본의 갯수까지 고려한 weighted avg Recall을 비교하였고, random_state는 데이터 분리에서 7, 모델에서는 15로 설정하였다. 

- 암진단 모델의 Recall 비교

   - Decission Tree: 0.95
   - Random Forest: 0.96
   - SVM: 0.90
   - SGD Classifier: 0.86
   - Logistic Regression: 0.95
   
그 결과 Random Forest의 결과가 96%로 가장 높게 나왔으며, SGD Classifier가 86%로 가장 낮게 나왔다. 따라서 암 진단 문제에서는 Random Forest의 성능이 가장 좋음을 알 수 있다. 

# 후기
- 이번 프로젝트에서 **어려웠던 점**    
   오전에 진표님께서 알려주신 방법으로 프로젝트를 작성했더니 모델 학습까지는 금세 끝낼 수 있었다. 그러나 모델 평가 부분에서 어떤 평가 지표를 선택해야 하는 것인지에 대해서 고민을 많이 했다. 성능 평가 지표의 개념을 다시 공부하고, 다중 분류에서 어떻게 평가 지표를 선택하는지에 대해 구글링을 해서 불균형한 데이터에서는 f-score를 좋은 결과를 보여준다는 것을 알게 되었다. _다중 분류_ 라는 이름을 생각하지 못해서 구글링하는데 시간이 많이 걸렸다. 또한 주어진 데이터가 불균형한 데이터인지 잘 몰라서 그것 역시 고민하였다. 우연히 슬랙에 고마우신 분이 알려주신 블로그에 방법이 올라와 있어서 활용하였다.
   
   
- 프로젝트를 진행하면서 **알아낸 점** 혹은 **아직 모호한 점**    
    random state를 같게 하면 누구든 같은 결과를 낸다고 하였는데, SVM의 경우 random state를 바꾸지 않아도 실행할 때마다 결과가 자꾸 바뀌는 것을 발견했다. 바뀌는 것이 정상인지, 바뀌는 것이 맞다면 왜 그런 것인지 궁금하다. 
    
    
- 루브릭 평가 지표를 맞추기 위해 **시도한 것들**   
    1번과 2번의 평가 지표를 맞추기 위해 배운 내용을 꼼꼼히 보고 코드를 썼다. 3번 지표인 평가 지표 선택을 위해 구글링을 통해 어떤 데이터에 어떤 지표를 선택해야 하는지에 대해 알아보고, 3가지 데이터셋에 맞는지에 대해 고민을 하였다. 
    
    
- **자기 다짐**     
    첫번 째 프로젝트보다는 시간이 덜 걸리고 크게 어렵다고 생각하지는 않았지만 노드의 내용을 잘 알아야 프로젝트를 제대로 할 수 있음을 깨달았다. 노드의 개념을 잘 이해하지 못하고 넘어가는 경우가 있었는데, 그 부분이 프로젝트에도 영향을 미쳤다. 프로젝트를 통해 그 개념을 알게 되는 경우도 있었다. 그러나 한 번 공부를 할 때, 조금 더 신경을 써서 공부를 해야 시간이 절약된다는 생각이 든다. 앞으로는 보다 꼼꼼한 학습을 통해 조금 더 빨리 프로젝트를 완성하고 다른 공부를 해야겠다. 프로젝트 때문에 밀린 공부가 많아서 주말이 걱정된다. 