(1) load_digits : 손글씨를 분류해 봅시다 
====

-------
__(1) 필요한 모듈 import하기__

In [1]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

> scikit-learn에서 제공하는 손글씨 데이터를 준비합니다.  
알고리즘을 훈련시키기 위해 훈련용 데이터를 나눠주는 train_test_split을 import  
알고리즘의 정확도를 파악해주는 classification_report를 import
- - -
__(2) 데이터 준비__

In [2]:
digits = load_digits()

> load_digits 메서드로 불러온 손글씨 데이터를 digits에 저장합니다.
- - -
__(3) 데이터 이해하기__

In [3]:
digits.keys()

dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])

> digits에는 data, target, frame, feature_names, target_names, images, DESCR 등이 있습니다.

In [4]:
digits.data.shape

(1797, 64)

> digits의 데이터는 64개의 속성을 가진 1797개의 인스턴스가 있다고 합니다.

In [5]:
print(digits.DESCR)

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each blo

> DESCR의 정보에 의하면 손글씨로 쓴 10가지의 8＊8 픽셀 이미지가 포함되어 있다는걸 알 수 있습니다.  
DESCR은 Describe을 뜻합니다.

In [6]:
print(digits.target_names)

[0 1 2 3 4 5 6 7 8 9]


> target_names를 보면 그 10가지의 숫자는 0부터 9까지의 숫자라는 것도 알 수 있습니다.

In [7]:
X = digits.data
y = digits.target
print('data = {}'.format(X), 'label = {}'.format(y), sep='\n')

data = [[ 0.  0.  5. ...  0.  0.  0.]
 [ 0.  0.  0. ... 10.  0.  0.]
 [ 0.  0.  0. ... 16.  9.  0.]
 ...
 [ 0.  0.  1. ...  6.  0.  0.]
 [ 0.  0.  2. ... 12.  0.  0.]
 [ 0.  0. 10. ... 12.  1.  0.]]
label = [0 1 2 ... 8 9 8]


> data와 target을 각각 X와 y에 할당했습니다.
- - -
__(4) train, test 데이터 분리__

In [8]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=11)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape, sep='\n')

(1437, 64)
(360, 64)
(1437,)
(360,)


> scikit-learn에서 데이터를 분류해주는 train_test_split 모듈을 준비해줍니다.  
> 순서대로 특성 행렬, 타겟 벡터, 훈련 후 예측해볼 데이터 비율, 랜덤으로 섞을 때 사용할 seed를 뜻합니다.  
   
- 언패킹한 이름 중 X는 알고리즘이 참고할 특성 데이터. 즉 문제지라고 볼 수 있고, y는 그 답안지입니다.    
      
- train은 알고리즘이 훈련하는 데에 쓰일 **학습용 데이터**, test는 훈련을 한 알고리즘이 풀어볼 **테스트용 데이터**입니다.  
  이 둘을 나누는 이유는 알고리즘이 학습한 내용을 그대로 문제로 내면 정답을 기억하고 있기 때문입니다.  

- test_size를 0.2로 지정했으니 80%의 데이터를 학습하는 데에 쓰고, 20%의 데이터로 테스트를 하게 됩니다.

- random_state 시드 11을 기준으로 데이터를 무작위로 섞습니다.  
  데이터의 타켓 벡터가 정렬이 되어있으면 원활한 학습이 이루어지지 않을 수 있기 때문입니다.
- - -
__(5) 다양한 모델로 학습시켜보기__

In [9]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

> scikit-learn에서 알고리즘의 정확도를 측정해줄 라이브러리를 가져옵니다.

- - -
*Decision Tree*

- 데이터 내에 존재하는 패턴을 예측 가능한 규칙들의 조합들로 나타내는 알고리즘입니다.
- 패턴마다 뻗어나가는 규칙의 모습이 나무의 나뭇가지와 닮아서 '의사결정나무'라는 이름으로 불리게 되었습니다.

In [10]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=15)
decision_tree.fit(X_train, y_train)

y_pred = decision_tree.predict(X_test)

print(classification_report(y_pred, y_test))
print(accuracy_score(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.89      0.97      0.93        35
           1       0.84      0.84      0.84        37
           2       0.85      0.92      0.88        36
           3       0.78      0.84      0.81        38
           4       0.80      0.82      0.81        40
           5       0.96      0.81      0.88        32
           6       0.97      0.94      0.95        31
           7       0.81      0.91      0.85        32
           8       0.85      0.72      0.78        40
           9       0.81      0.77      0.79        39

    accuracy                           0.85       360
   macro avg       0.86      0.85      0.85       360
weighted avg       0.85      0.85      0.85       360

0.85


> Decision Tree의 경우 precision과 recall간의 큰 차이가 없고,  
  숫자마다 최대 95%부터 최소 78%까지 정확도가 예측 결과가 다소 편파적인 모습을 보여줍니다.  
  360개의 데이터를 예측했고 총 85%의 일치율을 보였습니다.  

-  .fit 메서드를 통해 인자로 받은 학습용 문제지와 답안지를 가지고 학습을 시작합니다.  
-  .predict 메서드를 통해 인자로 받은 테스트용 문제지를 가지고 예측한 정답을 y_pred에 저장합니다.  
-  y_pred를 미리 저장한 y_test 답안지와 비교해 metrics에서 가져온 모듈로 일치율을 확인합니다.

- - -
*Random Forest*
- 데이터가 가지고 있는 패턴을 랜덤으로 일부만 추출해 각각의 의사결정나무를 만들고  
  여러 의사결정나무에서 나온 예측 값들 중 가장 많이 나온 값을 최종 예측 결과로 지정합니다.
- 여러 개의 작은 의사결정나무를 만들어 모았다고 해서 숲이라는 이름을 가지게 되었습니다.

In [13]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)

y_pred = random_forest.predict(X_test)

print(classification_report(y_pred, y_test))
print(accuracy_score(y_pred, y_test))

              precision    recall  f1-score   support

           0       1.00      0.97      0.99        39
           1       1.00      1.00      1.00        37
           2       1.00      1.00      1.00        39
           3       0.90      1.00      0.95        37
           4       0.98      1.00      0.99        40
           5       1.00      0.93      0.96        29
           6       0.97      1.00      0.98        29
           7       0.97      0.90      0.93        39
           8       0.97      0.94      0.96        35
           9       0.95      0.97      0.96        36

    accuracy                           0.97       360
   macro avg       0.97      0.97      0.97       360
weighted avg       0.97      0.97      0.97       360

0.9722222222222222


> Random Forest의 경우 마찬가지로 precision과 recall간의 큰 차이가 없고,  
  전체적으로 높은 일치율을 보여줍니다.  
  360개의 데이터 중 약 97.2%를 예측에 성공했습니다.

- - -
*SVM*
- SVM은 서포트 벡터와 초평면을 이용해서 분류를 수행하는 선형 분류 알고리즘입니다.

In [15]:
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)

y_pred = svm_model.predict(X_test)

print(classification_report(y_pred, y_test))
print(accuracy_score(y_pred, y_test))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        38
           1       1.00      1.00      1.00        37
           2       1.00      1.00      1.00        39
           3       0.93      1.00      0.96        38
           4       1.00      1.00      1.00        41
           5       1.00      0.96      0.98        28
           6       1.00      1.00      1.00        30
           7       0.97      0.95      0.96        37
           8       1.00      0.97      0.99        35
           9       0.97      0.97      0.97        37

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360

0.9861111111111112


> SVM의 경우 손글씨 데이터에 대해 상당히 정확한 예측값을 추출했습니다.  
  360개의 데이터를 예측해 약 98.6%의 일치율을 보였습니다.

- - -
*SGD Classifier*
- SGD란 배치 크기가 1인 경사하강법 알고리즘입니다.

In [17]:
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)

y_pred = sgd_model.predict(X_test)

print(classification_report(y_pred, y_test))
print(accuracy_score(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.97      1.00      0.99        37
           1       1.00      0.86      0.92        43
           2       0.97      1.00      0.99        38
           3       0.93      1.00      0.96        38
           4       0.98      0.98      0.98        41
           5       1.00      0.90      0.95        30
           6       0.97      1.00      0.98        29
           7       0.94      0.92      0.93        37
           8       0.94      1.00      0.97        32
           9       0.92      0.97      0.94        35

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.96      0.96      0.96       360

0.9611111111111111


> SGD Classifier의 경우 숫자 1에 대한 recall값. 즉, 1인데 1이 아니라고 하는 예측을 제외하면  
  360개의 데이터를 예측해 약 96.1%라는 전체적으로 높은 일치율을 보였습니다.

- - -
*Logistic Regression*
- Logistic Regression은 소프트맥스 함수를 이용한 다중 클래스 분류 알고리즘입니다.
- 소프트맥스 회귀라고도 부르며, 이름은 회귀지만 실제로는 분류를 수행합니다.

In [19]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)

y_pred = logistic_model.predict(X_test)

print(classification_report(y_pred, y_test))
print(accuracy_score(y_pred, y_test))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        38
           1       0.95      1.00      0.97        35
           2       1.00      1.00      1.00        39
           3       0.93      1.00      0.96        38
           4       0.98      1.00      0.99        40
           5       1.00      0.93      0.96        29
           6       0.97      1.00      0.98        29
           7       0.97      0.95      0.96        37
           8       0.91      0.84      0.87        37
           9       0.97      0.95      0.96        38

    accuracy                           0.97       360
   macro avg       0.97      0.97      0.97       360
weighted avg       0.97      0.97      0.97       360

0.9666666666666667


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


> 총 번호 반복 횟수가 한계치에 도달했다는 오류 문구가 출력되지만  
  알고리즘은 잘 작동한 듯 합니다.  
  360개의 데이터를 예측해 약 96.6%로 정확도는 높지만 숫자 8에 대해 비교적 낮은 일치율을 보였습니다.
>>만일 이보다 더 많은 데이터를 가지고 실행하려고 한다면  
  LogisticRegression() 메서드 안에 max_iter인자를 넣고 반복 횟수 한계치를 입력하면 됩니다.  
>>  - ex) ```logistic_model = LogisticRegression(max_iter=5000)```

- - -
__(6) 모델을 평가해 보기__  

    손글씨 데이터에 대해 가장 높은 정확도를 보여준 알고리즘은  
    SVM 알고리즘으로 약 98%의 일치율을 보였습니다.  
    반대로 가장 낮은 85%의 정확도를 보여준 Decision Tree를 제외하면  
    나머지 Random Forest, SGD Classifier, Logistic Regression 모두 안정적인 정확도를 보여줬습니다.  
    손글씨와 같은 각각 비슷한 특성을 가진 데이터를 분류할 때 Decision Tree 알고리즘은 사용을 피해야겠습니다.  


-----
(2) load_wine : 와인을 분류해 봅시다
====

-------
__(1) 필요한 모듈 import하기__

In [21]:
from sklearn.datasets import load_wine

> scikit-learn에서 제공하는 와인 데이터를 준비합니다.
- - -
__(2) 데이터 준비__

In [22]:
wine = load_wine()

> load_wine 메서드로 불러온 와인 데이터를 wine에 저장합니다.
- - -
__(3) 데이터 이해하기__

In [24]:
wine.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])

> wine에는 data, target, frame, target_names, DESCR, feature_names 등이 있습니다.

In [25]:
wine.data.shape

(178, 13)

> wine의 데이터는 13개의 속성을 가진 178개의 인스턴스가 있다고 합니다.

In [26]:
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

> DESCR에 의하면 와인에는 알코올, 사과산, 애쉬 함유되어 등이 있고, 와인마다 클래스0, 클래스1, 클래스2로 분류가 되어있습니다.

In [27]:
print(wine.target_names)

['class_0' 'class_1' 'class_2']


> 알고리즘이 분류할 클래스입니다.

In [31]:
X = wine.data
y = wine.target
print('data = {}'.format(X), 'label = {}'.format(y), sep='\n')

data = [[1.423e+01 1.710e+00 2.430e+00 ... 1.040e+00 3.920e+00 1.065e+03]
 [1.320e+01 1.780e+00 2.140e+00 ... 1.050e+00 3.400e+00 1.050e+03]
 [1.316e+01 2.360e+00 2.670e+00 ... 1.030e+00 3.170e+00 1.185e+03]
 ...
 [1.327e+01 4.280e+00 2.260e+00 ... 5.900e-01 1.560e+00 8.350e+02]
 [1.317e+01 2.590e+00 2.370e+00 ... 6.000e-01 1.620e+00 8.400e+02]
 [1.413e+01 4.100e+00 2.740e+00 ... 6.100e-01 1.600e+00 5.600e+02]]
label = [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]


> data와 target을 각각 X와 y에 할당을 했지만  
  data의 모습이 뭔가 이상합니다.  
  wine.data의 타입을 먼저 살펴봐야겠습니다.

In [35]:
print(type(wine.data))

<class 'numpy.ndarray'>


> array 타입입니다. wine.data를 확인하려면 pandas를 이용해야겠군요.

In [36]:
import pandas as pd
wine_df = pd.DataFrame(data=wine.data, columns=wine.feature_names)
wine_df

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0


- - -
__(4) train, test 데이터 분리__

In [38]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=5)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape, sep='\n')

(142, 13)
(36, 13)
(142,)
(36,)


> 이번에도 학습용 데이터와 테스트용 데이터를 분류해줍니다.  
  train_test_split은 이미 손글씨를 분석하면서 불러온 바 있으나  
  모듈과 좀 더 친근해지기 위해 한 번 더 불러왔습니다.

- - -
__(5) 다양한 모델로 학습시켜보기)__

In [39]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

> metrics 패키지의 정확도 표현 모듈도 다시 한 번 불러와줍니다.  
  ~~사실 프로젝트 파일을 열 때마다 불러와야 하기도 해서 다시 import 코드를 작성해줍시다.~~

- - -
*Decision Tree*

In [40]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=14)
decision_tree.fit(X_train, y_train)

y_pred = decision_tree.predict(X_test)

print(classification_report(y_pred, y_test))
print(accuracy_score(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.76      1.00      0.87        13
           1       1.00      0.73      0.85        15
           2       0.88      0.88      0.88         8

    accuracy                           0.86        36
   macro avg       0.88      0.87      0.86        36
weighted avg       0.89      0.86      0.86        36

0.8611111111111112


> 클래스0의 precision, 클래스1의 recall에 특히 낮은 정확도를 보여줍니다.  
  클래스0이 아닌데 클래스0이라고 하고, 클래스1인데 클래스1이 아니라고 하는 것을 보아  
  클래스1을 클래스0으로 잘못 판정한 경우가 많은 듯 보입니다.  
  36개의 데이터를 예측해 약 86.1%의 일치율을 보였습니다.

- - -
*Random Forest*

In [41]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=24)
random_forest.fit(X_train, y_train)

y_pred = random_forest.predict(X_test)

print(classification_report(y_pred, y_test))
print(accuracy_score(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.94      1.00      0.97        16
           1       1.00      0.92      0.96        12
           2       1.00      1.00      1.00         8

    accuracy                           0.97        36
   macro avg       0.98      0.97      0.98        36
weighted avg       0.97      0.97      0.97        36

0.9722222222222222


> 역시 나무보다는 숲이 분석에 있어 더 강한 모습을 보입니다.  
  36개의 데이터를 예측해 약 97.2%의 일치율을 보였습니다.

- - -
*SVM*

In [43]:
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)

y_pred = svm_model.predict(X_test)

print(classification_report(y_pred, y_test))
print(accuracy_score(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.71      0.86      0.77        14
           1       0.82      0.69      0.75        13
           2       0.50      0.44      0.47         9

    accuracy                           0.69        36
   macro avg       0.67      0.66      0.66        36
weighted avg       0.69      0.69      0.69        36

0.6944444444444444


> 손글씨 데이터를 분석했을 때와는 정반대로  
  전체적으로 낮은 정확도를 보여줍니다.  
  36개의 데이터를 예측해 약 69.4%의 일치율을 보였습니다.

- - -
*SGD Classifier*

In [44]:
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)

y_pred = sgd_model.predict(X_test)

print(classification_report(y_pred, y_test))
print(accuracy_score(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.59      0.91      0.71        11
           1       0.45      0.71      0.56         7
           2       0.75      0.33      0.46        18

    accuracy                           0.58        36
   macro avg       0.60      0.65      0.58        36
weighted avg       0.64      0.58      0.56        36

0.5833333333333334


> SGD Classifier 또한 와인 데이터를 분석하는 데에 취약한 모습을 보입니다.  
  36개의 데이터를 예측해 약 58.3%의 일치율을 보였습니다.

- - -
*Logistic Regression*

In [51]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression(max_iter=5000)
logistic_model.fit(X_train, y_train)

y_pred = logistic_model.predict(X_test)

print(classification_report(y_pred, y_test))
print(accuracy_score(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.94      1.00      0.97        16
           1       1.00      0.85      0.92        13
           2       0.88      1.00      0.93         7

    accuracy                           0.94        36
   macro avg       0.94      0.95      0.94        36
weighted avg       0.95      0.94      0.94        36

0.9444444444444444


> 소프트맥스 함수는 와인 데이터를 분석하는 데에도 비교적 높은 정확도를 보여줍니다.  
  36개의 데이터를 예측해 약 94.4%의 일치율을 보였습니다.

- - -
__(6) 모델을 평가해 보기__  

    와인 데이터에 대해 가장 높은 정확도를 보여준 알고리즘은  
    Random Forest 알고리즘으로 약 97%의 일치율을 보였습니다.  
    반면 손글씨 데이터에서 높은 정확도를 보여줬던 SVM과 SGD Classifier 알고리즘은  
    오히려 와인 데이터를 분석하기엔 적합하지 않은 모습을 보여줬습니다.  
    데이터를 분류할 때 다양한 특성이 고려되어야 한다면 Random Forest 알고리즘을 채택하는 것이 바람직해 보입니다.


-----
(3) load_breast_cancer : 유방암 여부를 진단해 봅시다
====

-------
__(1) 필요한 모듈 import하기__

In [58]:
from sklearn.datasets import load_breast_cancer

> scikit-learn에서 제공하는 유방암 데이터를 준비합니다.
- - -
__(2) 데이터 준비__

In [59]:
breast_cancer = load_breast_cancer()

> load_breast_cancer 메서드로 불러온 유방암 데이터를 breast_cancer에 저장합니다.
- - -
__(3) 데이터 이해하기__

In [60]:
breast_cancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

> breast_cancer에는 data, target, frame, target_names, DESCR, feature_names, filename, data_module 등이 있습니다.

In [57]:
breast_cancer.data.shape

(569, 30)

> breast_cancer.data는 30개의 속성을 가진 569개의 인스턴스가 있다고 합니다.

In [61]:
print(breast_cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

> DESCR을 보니 데이터에 대한 설명이 너무 많아 저희는 특성에 대한 정보를 위주로 확인해봐야겠습니다.

In [64]:
print(breast_cancer.feature_names)

['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']


> 특성들로 평균 반경, 평균 텍스쳐, 평균 둘레, 평균 면적, ...최악의 대칭, 최악의 프랙탈 디멘션 등등을 볼 수 있습니다.

In [63]:
print(breast_cancer.target_names)

['malignant' 'benign']


> 알고리즘은 유방암 특성 데이터를 분석해 악성인지 양성인지를 판단하게 될 것입니다.

In [67]:
X = breast_cancer.data
y = breast_cancer.target
print('data = {}'.format(X), 'label = {}'.format(y), sep='\n')

data = [[1.799e+01 1.038e+01 1.228e+02 ... 2.654e-01 4.601e-01 1.189e-01]
 [2.057e+01 1.777e+01 1.329e+02 ... 1.860e-01 2.750e-01 8.902e-02]
 [1.969e+01 2.125e+01 1.300e+02 ... 2.430e-01 3.613e-01 8.758e-02]
 ...
 [1.660e+01 2.808e+01 1.083e+02 ... 1.418e-01 2.218e-01 7.820e-02]
 [2.060e+01 2.933e+01 1.401e+02 ... 2.650e-01 4.087e-01 1.240e-01]
 [7.760e+00 2.454e+01 4.792e+01 ... 0.000e+00 2.871e-01 7.039e-02]]
label = [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 0
 1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 1 1
 1 0 1 1 1 1 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 1 0 0 1

> 이번에도 breast_cancer.data가 array 형식인 듯 합니다.  
  확인을 위해서 pandas를 이용합시다.

In [69]:
breast_cancer_df = pd.DataFrame(data=breast_cancer.data, columns=breast_cancer.feature_names)
breast_cancer_df

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,0.2419,0.07871,...,25.380,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890
1,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,0.1812,0.05667,...,24.990,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902
2,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,0.2069,0.05999,...,23.570,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,0.2597,0.09744,...,14.910,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300
4,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,0.1809,0.05883,...,22.540,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,0.1726,0.05623,...,25.450,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115
565,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,0.1752,0.05533,...,23.690,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637
566,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,0.1590,0.05648,...,18.980,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820
567,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,0.2397,0.07016,...,25.740,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400


- - -
__(4) train, test 데이터 분리__

In [74]:
# from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=29)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape, sep='\n')

(455, 30)
(114, 30)
(455,)
(114,)


- - -
__(5) 다양한 모델로 학습시켜보기__

In [71]:
# from sklearn.metrics import accuracy_score
# from sklearn.metrics import classification_report

> 불러왔던 모듈을 매번 import로 불러올 필요는 없다는 것을 확인하기 위해 이번에는 주석으로 실행을 건너뛰어 봅시다.

- - -
*Decition Tree*

In [77]:
# from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=33)
decision_tree.fit(X_train, y_train)

y_pred = decision_tree.predict(X_test)

print(classification_report(y_pred, y_test))
print(accuracy_score(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.82      0.86      0.84        37
           1       0.93      0.91      0.92        77

    accuracy                           0.89       114
   macro avg       0.88      0.89      0.88       114
weighted avg       0.90      0.89      0.90       114

0.8947368421052632


> 114개의 데이터를 예측해 약 89.4%의 일치율을 보였지만  
  악성(0)인데 악성이 아니라고 판단한 recall정확도는 약 86%로  
  결과값의 중요도에 비하면 낮은 일치율이라고 할 수 있습니다.
- 유방암 데이터를 분석하는 데에 있어서 중요한 것은  
  전체의 정확도보다는 혹시 양성을 음성으로 잘못 판단하지는 않았는지에 대한 recall 정확도입니다.  
  유방암 데이터를 분석하기에 적합한 알고리즘을 선택하는 기준은 recall을 우선으로 판단하겠습니다.

- - -
*Random Forest*

In [83]:
# from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=45)
random_forest.fit(X_train, y_train)

y_pred = random_forest.predict(X_test)

print(classification_report(y_pred, y_test))
print(accuracy_score(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.87      0.94      0.91        36
           1       0.97      0.94      0.95        78

    accuracy                           0.94       114
   macro avg       0.92      0.94      0.93       114
weighted avg       0.94      0.94      0.94       114

0.9385964912280702


> 이번에도 여러 의사결정나무를 사용하는 Random Forest 알고리즘은 꽤 높은 정확도를 보여줍니다.  
  114개의 데이터를 예측해 약 94%의 recall 일치율을 보였습니다.

- - -
*SVM*

In [80]:
# from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)

y_pred = svm_model.predict(X_test)

print(classification_report(y_pred, y_test))
print(accuracy_score(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.74      0.97      0.84        30
           1       0.99      0.88      0.93        84

    accuracy                           0.90       114
   macro avg       0.87      0.92      0.89       114
weighted avg       0.92      0.90      0.91       114

0.9035087719298246


> 악성이 아닌데 악성으로 잘못 판단하는 경우와  
  양성인데 양성이 아니라고 잘못 판단하는 경우가 많은 모습을 보입니다.  
  114개의 데이터를 예측해 약 92%의 recall 일치율을 보였습니다.

- - -
*SGD Classifier*

In [81]:
# from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)

y_pred = sgd_model.predict(X_test)

print(classification_report(y_pred, y_test))
print(accuracy_score(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.64      1.00      0.78        25
           1       1.00      0.84      0.91        89

    accuracy                           0.88       114
   macro avg       0.82      0.92      0.85       114
weighted avg       0.92      0.88      0.89       114

0.8771929824561403


> SVM 알고리즘과 상당히 비슷한 결과가 나왔습니다.  
  114개의 데이터를 예측해 약 92%의 recall 일치율을 보였습니다.

- - -
*Logistic Regresstion*

In [82]:
# from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression(max_iter=5000)
logistic_model.fit(X_train, y_train)

y_pred = logistic_model.predict(X_test)

print(classification_report(y_pred, y_test))
print(accuracy_score(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.87      0.92      0.89        37
           1       0.96      0.94      0.95        77

    accuracy                           0.93       114
   macro avg       0.92      0.93      0.92       114
weighted avg       0.93      0.93      0.93       114

0.9298245614035088


> 이번에도 Random Forest와 비슷한 결과를 도출하면서  
  유방암 데이터를 분석하기에 역시 쓸만한 정확도를 보여줍니다.  
  114개의 데이터를 예측해 약 93%의 recall 일치율을 보였습니다.

- - -
__(6) 모델을 평가해 보기__

    유방암 진단과 같은 전체의 정확도보다 recall 정확도가 더 중요한 데이터의 경우에는  
    Random Forest 알고리즘과 Logistic Regression 알고리즘이 적합한 모습을 보였습니다.  
    다만 함수의 실행 속도를 보면 Logistic Regression 알고리즘이 더 무거운 느낌이 있었기 때문에  
    저는 Random Forest 알고리즘을 더 선호할 것 같습니다.  