# 1. load_digits 손글씨 분류
scikit-learn 패키지 안에 내장된 load_digits 데이터셋을 사용하여 손글씨를 분류하는 모델을 만들고 비교하겠습니다.

## (1) 필요한 모듈 import하기


In [1]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## (2) 데이터 준비

load_digits 데이터를 digits라는 변수에 저장을 하였습니다.

In [23]:
digits = load_digits()

## (3) 데이터 이해하기

digits에는 'data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'까지 총 7개의 정보가 담겨있는 것을 확인할 수 있습니다.

In [13]:
digits.keys()

dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])

중요한 데이터를 digits.data라는 변수에 담고 크기를 확인해보았는데 총 1797개의 데이터가 64개의 정보를 담고 있습니다.

In [8]:
digits_data = digits.data
digits_data.shape

(1797, 64)

digits 데이터의 target을 digits_label이라는 변수에 저장하였습니다. digits_label은 1797개의 데이터가 들어가 있으며 0부터 9까지 반복적인 숫자로 이루어졌다는 것을 알 수 있습니다.

In [18]:
digits_label = digits.target
print(digits_label.shape)
digits_label

(1797,)


array([0, 1, 2, ..., 8, 9, 8])

위에서 확인한 라벨의 이름은 0~9까지의 손글씨 숫자를 분류하는 목록이였다는 사실을 알았습니다.

In [19]:
digits.target_names

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

DECSR을 통해 digits 데이터 셋의 자세한 설명을 찾아볼 수 있습니다.

In [20]:
print(digits.DESCR)

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 5620
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each blo

## (4) train, test 데이터 분리
scikit-learn에 내장된 train_test_split 함수를 활용해서 test dataset을 분리하였습니다.

첫 번째 파라미터는 손글씨를 분류하기 위해 입력받는 특징 데이터인 feature에 해당하는 digits_data입니다.
두 번째 파라미터는 모델이 맞추어야하는 정답값인 digits_lable입니다.
세 번째 인자은 test_size를 통해 test dataset의 크기를 조정하였는데 값을 0.2로 두어 전체의 20%를 테스트 데이터로 사용하였습니다.
마지막으로 데이터를 분리할 때 랜덤으로 섞는 random_state는 7을 주었으나 제외하여도 큰 문제는 없습니다.



In [24]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(digits_data, 
                                                    digits_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

print('X_train 개수: ', len(X_train), ', X_test 개수: ', len(X_test))

X_train 개수:  1437 , X_test 개수:  360


## (5) 다양한 모델로 학습시켜보기

### - Decision Tree
Decision Tree 모델은 많은 양의 데이터를 일정한 패턴으로 분류하고 예측이 가능한 규칙의 조합으로 큰 집단을 쪼개서 데이터에 대한 분류 및 예측을 할 때 쓰이는 기법입니다. decision tree 모델은 중요 변수의 선정과 해석이 용이하며 두 개 이상의 변수가 결합하여 목표변수에 어떻게 영향을 주는지 쉽게 파악할 수 있다는 장점이 있습니다. 하지만 결정경계가 데이터 축에 수직이기 때문에 특정 데이터에서만 제대로 작동할 수 있고 overfiting이 될 가능성이 높다는 한계를 지니고 있습니다. 또한 가지치기를 통해 최대 높이를 설정할 수 있으나 overfiting을 완전히 해결할 수는 없습니다.

### - Random Forest
Decision tree 모델의 한계를 극복하기 위해 나온 모델이 Random Forest 모델입니다. Decision Tree 모델을 여러 개를 합쳐놓은 기법인데 각 트리가 분류한 결과를 가지고 투표를 하여 가장 많이 득표한 결과를 최종 선택하는 방식인데 여기서는 0.96의 정확도를 얻었습니다.

### - SVM
svm 모델은 분류를 위한 기준 선인 결정 경계를 정의하는 모델로 분류되지 않은 새로운 점이 나타날 경우 어느 쪽에 속하는지 확인해서 분류를 진행합니다.

### - SGD Classifier
SGD classifier는 사이킷런의 경사하강법의 구현된 클래스로 추출된 데이터 하나에 대해서 gradient를 계산하고 경사 하강 알고리즘을 적용하는 방법입니다. 즉 미분 값이 최소가 되는 점을 찾아 알맞은 가중치 매개변수를 찾아내는 것입니다. 전체 데이터를 사용하지 않기 때문에 학습 과정에서 결과의 진폭이 크고 불안정하지만 속도가 빠르다는 장점이 있습니다. 

### - Logistic Regression
logisitic Regression은 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류하는 지도 학습 알고리즘 입니다. 선형 회귀는 모델링 진행 시 값을 벗어날 수 있는 문제가 발생하지만 로지스틱 회귀는 값이 아니라 비율로 계산하기 때문에 일반적인 범주형 데이터를 입력받을 수 있습니다. 

### - 평가지표
accuracy (정확도) : 전체 예측 건수에서 정답을 맞힌 건수의 비율

precision(정밀도) : 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율 (모델입장)

recall(재현율) : 실제 True인 것 중에서 모델이 True라고 예측한 비율 (데이터 입장)

F1 score : precision과 recall의 조화평균을 구한 값

### - Decision Tree

In [29]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
decision_tree_y_pred = decision_tree.predict(X_test)
print(classification_report(y_test, decision_tree_y_pred))

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.81      0.81      0.81        42
           2       0.79      0.82      0.80        40
           3       0.79      0.91      0.85        34
           4       0.83      0.95      0.89        37
           5       0.90      0.96      0.93        28
           6       0.84      0.93      0.88        28
           7       0.96      0.82      0.89        33
           8       0.88      0.65      0.75        43
           9       0.78      0.78      0.78        32

    accuracy                           0.86       360
   macro avg       0.86      0.86      0.86       360
weighted avg       0.86      0.86      0.85       360



### - Random Forest

In [34]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
random_forest_y_pred = random_forest.predict(X_test)
print(classification_report(y_test, random_forest_y_pred))

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.93      1.00      0.97        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       0.93      1.00      0.96        37
           5       0.90      0.96      0.93        28
           6       1.00      0.96      0.98        28
           7       0.94      0.97      0.96        33
           8       1.00      0.84      0.91        43
           9       0.94      0.94      0.94        32

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.97      0.96      0.96       360



### - SVM

In [49]:
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
svm_y_pred = svm_model.predict(X_test)
print(classification_report(y_test, svm_y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      1.00      0.98        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        37
           5       0.93      1.00      0.97        28
           6       1.00      1.00      1.00        28
           7       1.00      1.00      1.00        33
           8       1.00      0.93      0.96        43
           9       1.00      0.97      0.98        32

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360



### - SGD Classifier

In [47]:
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
sgd_y_pred = sgd_model.predict(X_test)
print(classification_report(y_test, sgd_y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.83      0.93      0.88        42
           2       0.98      1.00      0.99        40
           3       0.94      0.91      0.93        34
           4       1.00      0.97      0.99        37
           5       0.88      1.00      0.93        28
           6       0.96      0.93      0.95        28
           7       1.00      0.94      0.97        33
           8       0.93      0.86      0.89        43
           9       0.90      0.84      0.87        32

    accuracy                           0.94       360
   macro avg       0.94      0.94      0.94       360
weighted avg       0.94      0.94      0.94       360



### - Logistic Regression

In [48]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()
logistic_model.fit(X_train,y_train)
logistic_y_pred = logistic_model.predict(X_test)
print(classification_report(y_test, logistic_y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      0.95      0.95        42
           2       0.98      1.00      0.99        40
           3       0.94      0.97      0.96        34
           4       0.97      1.00      0.99        37
           5       0.82      0.96      0.89        28
           6       1.00      0.96      0.98        28
           7       0.97      0.97      0.97        33
           8       0.92      0.81      0.86        43
           9       0.97      0.91      0.94        32

    accuracy                           0.95       360
   macro avg       0.95      0.95      0.95       360
weighted avg       0.95      0.95      0.95       360



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


## (6) 평가
각 모델의 정확도
- Decision tree : 0.86
- Random forest : 0.96
- SVM : 0.99
- SGD Classifier : 0.94
- Logistic Regression 0.95

0.99의 정확도를 보인 SVM 모델이 가장 좋은 성능을 보인다는 것을 알 수 있습니다. Decision tree 모델의 정확도가 가장 낮았으며 모든 모델에서 8의 점수가 가장 낮았습니다.
손글씨는 실제 모델이 정답이라고 한 것 중에서 정답인 것의 비율을 확인해야 하고 실제 정답 중에서 모델이 정답이라고 예측한 것도 확인해야 하기에 F1 score로 판단하는 것이 적절하다고 생각합니다.

# 2. load_wine 와인 분류

## (1) 필요한 모듈 import하기

In [2]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## (2) 데이터 준비

load_wine 데이터를 wine이라는 변수에 저장을 하였습니다.

In [8]:
wine = load_wine()

## (3) 데이터 이해하기

wine에는 'data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'까지 총 6개의 정보가 담겨있는 것을 확인할 수 있습니다.

In [5]:
wine.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])

중요한 데이터를 wine.data라는 변수에 담고 크기를 확인해보았는데 총 178개의 데이터가 13개의 정보를 담고 있습니다.

In [7]:
wine_data = wine.data
wine_data.shape

(178, 13)

digits 데이터의 target을 digits_label이라는 변수에 저장하였습니다. digits_label은 178개의 데이터가 들어가 있으며 0,1,2의 숫자가 들어있는 것을 확인할 수 있습니다.

In [12]:
wine_label = wine.target
print(wine_label.shape)
wine_label

(178,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

위에서 확인한 라벨의 이름은 0,1,2의 와인의 종류를 분류하는 목록이였다는 사실을 알았습니다.

In [13]:
wine.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

DECSR을 통해 digits 데이터 셋의 자세한 설명을 찾아볼 수 있습니다.

In [14]:
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

## (4) train, test 데이터 분리

In [51]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(wine_data, 
                                                    wine_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

print('X_train 개수: ', len(X_train), ', X_test 개수: ', len(X_test))

X_train 개수:  142 , X_test 개수:  36


## (5) 다양한 모델로 학습시켜보기


### - Decision Tree


In [16]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
decision_tree_y_pred = decision_tree.predict(X_test)
print(classification_report(y_test, decision_tree_y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.89      1.00      0.94        17
           2       1.00      0.83      0.91        12

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36



### - Random Forest


In [53]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
random_forest_y_pred = random_forest.predict(X_test)
print(classification_report(y_test, random_forest_y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        12

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



### - SVM

In [18]:
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
svm_y_pred = svm_model.predict(X_test)
print(classification_report(y_test, svm_y_pred))

              precision    recall  f1-score   support

           0       0.86      0.86      0.86         7
           1       0.58      0.88      0.70        17
           2       0.33      0.08      0.13        12

    accuracy                           0.61        36
   macro avg       0.59      0.61      0.56        36
weighted avg       0.55      0.61      0.54        36



### - SGD Classifier

In [19]:
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
sgd_y_pred = sgd_model.predict(X_test)
print(classification_report(y_test, sgd_y_pred))

              precision    recall  f1-score   support

           0       0.70      1.00      0.82         7
           1       0.64      0.94      0.76        17
           2       1.00      0.08      0.15        12

    accuracy                           0.67        36
   macro avg       0.78      0.67      0.58        36
weighted avg       0.77      0.67      0.57        36



### - Logistic Regression

In [20]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()
logistic_model.fit(X_train,y_train)
logistic_y_pred = logistic_model.predict(X_test)
print(classification_report(y_test, logistic_y_pred))

              precision    recall  f1-score   support

           0       1.00      0.86      0.92         7
           1       0.94      1.00      0.97        17
           2       1.00      1.00      1.00        12

    accuracy                           0.97        36
   macro avg       0.98      0.95      0.96        36
weighted avg       0.97      0.97      0.97        36



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


## (6) 평가
각 모델의 정확도
- Decision tree : 0.94
- Random forest : 1.00
- SVM : 0.61
- SGD Classifier : 0.67
- Logistic Regression 0.97


In [59]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32, max_depth=2)
random_forest.fit(X_train, y_train)
random_forest_y_pred = random_forest.predict(X_test)
print(classification_report(y_test, random_forest_y_pred))

              precision    recall  f1-score   support

           0       0.88      1.00      0.93         7
           1       1.00      0.94      0.97        17
           2       1.00      1.00      1.00        12

    accuracy                           0.97        36
   macro avg       0.96      0.98      0.97        36
weighted avg       0.98      0.97      0.97        36



- Random forest : 0.97

Random forest 모델의 경우 1.00의 정확도를 보여 오버피팅이 되었다고 판단하여 트리의 최대 깊이를 줄여 가지치기를 실시하였고 0.97이라는 정확도를 얻었습니다.
SVM 모델 같은 경우 0.61로 가장 정확도가 낮았는데 2는 아예 분류를 수행하지 못한다고 평가할 정도로 스코어가 낮았습니다. 와인 역시 실제 모델이 정답이라고 한 것 중에서 정답인 것의 비율을 확인해야 하고 실제 정답 중에서 모델이 정답이라고 예측한 것도 확인해야 하기에 F1 score로 판단하는 것이 적절하다고 생각합니다.

# 3. load_breast_cancer 유방암 여부 진단


## (1) 필요한 모듈 import하기


In [28]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## (2) 데이터 준비

load_breast_cancer 데이터를 breast_cancer라는 변수에 저장을 하였습니다.

In [29]:
breast_cancer = load_breast_cancer()

## (3) 데이터 이해하기


breast_cancer에는 'data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'까지 총 7개의 정보가 담겨있는 것을 확인할 수 있습니다.

In [30]:
breast_cancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

중요한 데이터를 breast_cancer.data라는 변수에 담고 크기를 확인해보았는데 총 569개의 데이터가 30개의 정보를 담고 있습니다.

In [31]:
breast_cancer_data = breast_cancer.data
breast_cancer_data.shape

(569, 30)

breast_cancer 데이터의 target을 breast_cancer_label이라는 변수에 저장하였습니다. breast_cancer_label은 569개의 데이터가 들어가 있으며 0과 1의 반복으로 이루어졌다는 것을 알 수 있습니다.

In [36]:
breast_cancer_label = breast_cancer.target
print(breast_cancer_label.shape)
breast_cancer_label

(569,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0,

위에서 확인한 라벨의 이름은 0과 1을 각각 악성과 양성으로 분류하는 것이였습니다.

In [38]:
breast_cancer.target_names

array(['malignant', 'benign'], dtype='<U9')

DECSR을 통해 digits 데이터 셋의 자세한 설명을 찾아볼 수 있습니다.

In [40]:
print(breast_cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

## (4) train, test 데이터 분리


In [60]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(breast_cancer_data, 
                                                    breast_cancer_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

print('X_train 개수: ', len(X_train), ', X_test 개수: ', len(X_test))

X_train 개수:  455 , X_test 개수:  114


## (5) 다양한 모델로 학습시켜보기

### - Decision Tree

In [44]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
decision_tree_y_pred = decision_tree.predict(X_test)
print(classification_report(y_test, decision_tree_y_pred))

              precision    recall  f1-score   support

           0       0.92      0.82      0.87        40
           1       0.91      0.96      0.93        74

    accuracy                           0.91       114
   macro avg       0.91      0.89      0.90       114
weighted avg       0.91      0.91      0.91       114



### - Random Forest

In [61]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
random_forest_y_pred = random_forest.predict(X_test)
print(classification_report(y_test, random_forest_y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        40
           1       1.00      1.00      1.00        74

    accuracy                           1.00       114
   macro avg       1.00      1.00      1.00       114
weighted avg       1.00      1.00      1.00       114



### - SVM


In [46]:
from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
svm_y_pred = svm_model.predict(X_test)
print(classification_report(y_test, svm_y_pred))

              precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114



### - SGD Classifier

In [47]:
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
sgd_y_pred = sgd_model.predict(X_test)
print(classification_report(y_test, sgd_y_pred))

              precision    recall  f1-score   support

           0       0.81      0.85      0.83        40
           1       0.92      0.89      0.90        74

    accuracy                           0.88       114
   macro avg       0.86      0.87      0.87       114
weighted avg       0.88      0.88      0.88       114



### - Logistic Regression

In [48]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()
logistic_model.fit(X_train,y_train)
logistic_y_pred = logistic_model.predict(X_test)
print(classification_report(y_test, logistic_y_pred))

              precision    recall  f1-score   support

           0       1.00      0.85      0.92        40
           1       0.93      1.00      0.96        74

    accuracy                           0.95       114
   macro avg       0.96      0.93      0.94       114
weighted avg       0.95      0.95      0.95       114



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


## (6) 평가
각 모델의 정확도
- Decision tree : 0.91
- Random forest : 1.00
- SVM : 0.90
- SGD Classifier : 0.88
- Logistic Regression 0.95



In [62]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32, max_depth=2)
random_forest.fit(X_train, y_train)
random_forest_y_pred = random_forest.predict(X_test)
print(classification_report(y_test, random_forest_y_pred))

              precision    recall  f1-score   support

           0       1.00      0.93      0.96        40
           1       0.96      1.00      0.98        74

    accuracy                           0.97       114
   macro avg       0.98      0.96      0.97       114
weighted avg       0.97      0.97      0.97       114



- Random forest : 0.97

유방암 데이터의 Random forest 모델 역시 1.00의 정확도를 보여 오버피팅이 되었다고 판단을 했고 와인과 마찬가지로 가지치기 작업을 통해 0.97이라는 정확도를 얻었습니다.

SGD Classifie의 정확도가 0.88로 가장 낮았으며Decision tree 모델의 정확도가 가장 낮았습니다. 유방암 진단 여부는 실제 True인 것 중에서 모델이 True라고 예측한 비율인 recall을 지표로 쓰는 것이 적합합니다. 

# 4. 회고
1. 3가지 데이터셋의 구성이 합리적으로 진행되었는가?
각 데이터의 형식과 feature를 직접 확인하고 label을 선정하였습니다.

2. 3가지 데이터셋에 대해 각각 5가지 모델을 성공적으로 적용하였는가?
각 데이터셋에 대해 5가지 모델을 만들었고 학습을 시켰으며 과적합된 모델을 수정하였습니다.

3. 3가지 데이터셋에 대해 모델의 평가지표가 적절히 선택되었는가?
모든 결과에 대해 평가지표를 설정하고 설명하였습니다.

# 4. 총평
실제로 모델의 원리와 개념을 이해하며 가위바위보 분류와 다르게 코드 역시 크게 어려운 점이 없어 이해가 잘 됐던 프로젝트였습니다. 과적합된 모델을 그 이유와 원인을 직접 찾아 수정했던 것이 가장 보람있었습니다. 이전 프로젝트와 달리 이해가 선행이 되니 성취감을 느낄 수 있었던 것이 애착을 갖고 프로젝트를 진행할 수 있는 원동력이 되었습니다.