In [17]:
# 필요한 모듈 import하기
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 데이터준비
BrCancer = load_breast_cancer()

In [6]:
# 불러온 dataset 정보 확인
BrCancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

In [13]:
# 데이터 이해하기

# Feature Data 지정하기
BrCancer_data = BrCancer.data
# Label Data 지정하기
BrCancer_label = BrCancer.target

# Data의 크기 확인
print(BrCancer_data.shape)

(569, 30)


In [14]:
# Target Names 출력해보기
BrCancer.target_names

array(['malignant', 'benign'], dtype='<U9')

In [15]:
# 데이터 Describe 해 보기
print(BrCancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

In [18]:
# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(BrCancer_data, 
                                                    BrCancer_label, 
                                                    test_size=0.2, 
                                                    random_state=7)
# 결과 예상
# dataset의 양이 많지만 label의 갯수도 많아 
# RandomForestClassifier가 가장 높게 나올것 갓다.

In [20]:
# DecisionTree
from sklearn.tree import DecisionTreeClassifier
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))
# accuracy : 91% 정흭도

              precision    recall  f1-score   support

           0       0.92      0.82      0.87        40
           1       0.91      0.96      0.93        74

    accuracy                           0.91       114
   macro avg       0.91      0.89      0.90       114
weighted avg       0.91      0.91      0.91       114



In [22]:
# RandomTreeClassifier
from sklearn.ensemble import RandomForestClassifier
random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
random_y_pred = random_forest.predict(X_test)

print(classification_report(y_test, random_y_pred))
# accuracy : 100% 정흭도

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        40
           1       1.00      1.00      1.00        74

    accuracy                           1.00       114
   macro avg       1.00      1.00      1.00       114
weighted avg       1.00      1.00      1.00       114



In [24]:
# SVM
from sklearn import svm
SVM_model =svm.SVC()
SVM_model.fit(X_train, y_train)
SVM_y_pred = SVM_model.predict(X_test)

print(classification_report(y_test, SVM_y_pred))
# accuracy : 90% 정흭도

              precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114



In [25]:
# SGD Classifier
from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
sgd_y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, sgd_y_pred))
# accuracy : 90% 정확도

              precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114



In [26]:
# Logistic Regression
from sklearn.linear_model import LogisticRegression
# 오류발생으로 인한 오류해결 필요
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
# 데이터를 스케일링함.=> 추가공부 필요
logistic_model = make_pipeline(StandardScaler(),LogisticRegression())
logistic_model.fit(X_train, y_train)
logistic_y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, logistic_y_pred))
# accuracy : 98% 정확도

              precision    recall  f1-score   support

           0       1.00      0.95      0.97        40
           1       0.97      1.00      0.99        74

    accuracy                           0.98       114
   macro avg       0.99      0.97      0.98       114
weighted avg       0.98      0.98      0.98       114



In [None]:
'''
모델비교 결과
--------------------------------------
DecisionTree : 91% accuracy
RandomTreeClassifier : 100% accuracy
SVM : 90% accuracy
SGD Classifier : 90% accuracy
Logistic Regression : 98% accuracy
--------------------------------------

직전에 했던 Wine에 비해 SVM과 SGD Classifier의 정확도가 많이 올라갔다.
Dataset의 갯수가 정확도에 영향을 끼치는 것 같다.
앞의 분류기와 마찬가지로 Logistic Regression은 추가적인 공정이 필요하고
DecisionTree의 단점들을 보완한 것이 RandomTreeClassifier이므로
이번에도 RandomTreeClassifier를 선택하는 것이 적절하다고 판단된다.

# 회고록(21.01.07)
이번에 했던 분류기는 생각보다 어렵게 느껴지지 않았다.
가위바위보 분류기보다 손을 봐야하는 변수들이 적어서 그렇지 않았나 생각해본다.
그래도 덕분에 가위바위보 분류기를 만들면서 맞은 명치가 조금 덜 아픈것 같다.
Digit, Wine, Breast_cancer 각각의 분류기를 만들기위해 위와같이 
여러가지 모델들을 사용하였다.
재밌는점은 다른 모델들은 dataset의 갯수에 따라서 정확도가 많이 차이나지않았는데
SVM, SGD 와 같이 선형분류하는 모델친구들은 영향을 많이받는것 처럼 보였다는 것이다.
명확하게 왜 차이가 나고 하는것은 아직은 잘 모르겠지만 의미있는 시간이었던 것 같다.
앞으로도 차근차근 잘 해나갈 수 있으면 좋겠다.
'''