# Project - how to use Scikit-Learn  

## -Readme

안녕하세요, 이번엔 Scikit-learn 라이브러리 및 모듈을 이용하고  
자체 제공 데이터셋 (숫자 데이터, 와인 데이터, 유방암 데이터) 를 이용해  
알고리즘 모델을 학습 및 평가해보는 시간을 가지려 합니다!

Hello, I'm going to use the Scikit-learn library and modules.   
Using datasets in sklearn(number data, wine data, breast cancer data),   
We're going to take some time to learn and evaluate algorithmic models.   

## -Contexts

1. Digit data
 - load data
 - data preprocessing
 - fit & evaluate Algorithm
    - 1 Decision Tree
    - 2 Random Forest
    - 3 SVM
    - 4 SGD Classifier
    - 5 Rogistic Regression
    
    
2. Wine data

3. Breast Cancer data

## -rubric 

|평가문항|상세기준|
|---|---|
|데이터셋의 구성이 합리적으로 진행되었는가|feature와 label 선정을 위한 데이터 분석이 체계적으로 전개되었는지|
|3가지 데이터셋에 각각 5가지 모델을 잘 적용시켰는가|모델학습 및 테스트가 정상적으로 이루어졌는지|
|데이터셋에 따라 모델 평가지표를 적절히 선택했는가|평가지표 선택 및 이유 설명이 타당한지|

# 1. First_data : Digit

아래의 코드는 다음과 같다.
1. Digit data를 불러오기
2. Feature Data 를 x 에 넣기
3. Label Data 를 y에 넣기
4. Target Names 출력하기

In [1]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

digit_data = load_digits()

digit_data.keys()

dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])

보는 바와 같이 scikit-learn에서 제공하는 데이터는  
딕셔너리처럼 키와 벨류 값을 꺼내 올 수가 있다.(엄밀히 딕셔너리는 아니다)  

우리가 주요하게 보아야 할 데이터는 다음과 같다  
data = 숫자 데이터의 이미지 값  
target = 숫자데이터의 라벨링 값  
feature_name = data 값에 대한 설명  
targret_name = 라벨링 값에 대한 설명  
DESCR = 종합적인 설명(descript)  

타 자료도 이와 비슷한 형식으로 구성된다.

data와 target key가 보인다. 이를 x와 y 변수에 넣자.

In [2]:
digit_x, digit_y =  digit_data['data'], digit_data['target']

In [3]:
for i in (digit_x,digit_y):
    print(i.shape)

(1797, 64)
(1797,)


x에는 64개(8x8 의 image_data) 의 feature 값이 1797개의 행으로 이루어져 있다.  
y에는 1797 개의 라벨링 데이터가 들어있다.

image_data 의 분류 기준이 뭘까? Target_Name 에서 알 수 있다.

In [4]:
print(digit_data['target_names'])

[0 1 2 3 4 5 6 7 8 9]


0~9 까지의 라벨링이 되어있음을 확인할 수 있다.  
이는 Descript 에서도 찾아 볼 수 있는데, 살펴보자.

In [6]:
print(digit_data.DESCR)

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each blo

데이터에 대한 이해를 했으니, 본격적으로 전처리 후 모델학습을 시켜보자.

##### 진행순서
> 1. train 데이터와 test 데이터 분리하기  
2. 적합한 모델 찾아 생성 후 학습시키기
3. 예측하기
4. 정확도 평가하기

## 1. 데이터 분리하기

In [5]:
# 데이터 분리 모듈
from sklearn.model_selection import train_test_split

# 알고리즘 모델 생성 모듈
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC # SVM
from sklearn.linear_model import SGDClassifier # SGD Classifier
from sklearn.linear_model import LogisticRegression # Logistic Regression

#모델 평가 모듈 (위 모델과 대응)
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report


# 데이터 분리하기
train_x, test_x, train_y, test_y = train_test_split(digit_x,digit_y, test_size=0.2, random_state=42)

## 2 적합한 모델 찾아 진행  

### 2-1 Decision Tree

In [7]:
Tree_model = DecisionTreeClassifier()
Tree_model.fit(train_x, train_y)

Tree_y_pred = Tree_model.predict(test_x)

print(classification_report(test_y, Tree_y_pred))
print("accuracy = ", accuracy_score(test_y, Tree_y_pred))

              precision    recall  f1-score   support

           0       0.94      0.88      0.91        33
           1       0.84      0.75      0.79        28
           2       0.77      0.73      0.75        33
           3       0.81      0.88      0.85        34
           4       0.77      0.87      0.82        46
           5       0.91      0.83      0.87        47
           6       0.89      0.94      0.92        35
           7       0.83      0.88      0.86        34
           8       0.76      0.73      0.75        30
           9       0.85      0.82      0.84        40

    accuracy                           0.84       360
   macro avg       0.84      0.83      0.83       360
weighted avg       0.84      0.84      0.84       360

accuracy =  0.8361111111111111


### 2-2 Random Forest

In [9]:
Forest_model = RandomForestClassifier()
Forest_model.fit(train_x, train_y)

Forest_y_pred = Forest_model.predict(test_x)

print(classification_report(test_y, Forest_y_pred))
print("accuracy = ", accuracy_score(test_y, Forest_y_pred))

              precision    recall  f1-score   support

           0       1.00      0.97      0.98        33
           1       0.93      1.00      0.97        28
           2       1.00      1.00      1.00        33
           3       1.00      1.00      1.00        34
           4       0.98      1.00      0.99        46
           5       0.98      0.98      0.98        47
           6       0.97      0.97      0.97        35
           7       0.97      0.97      0.97        34
           8       1.00      0.93      0.97        30
           9       0.97      0.97      0.97        40

    accuracy                           0.98       360
   macro avg       0.98      0.98      0.98       360
weighted avg       0.98      0.98      0.98       360

accuracy =  0.9805555555555555


### 2-3 SVM

In [8]:
SVM_model = SVC()
SVM_model.fit(train_x, train_y)

SVM_y_pred = SVM_model.predict(test_x)

print(classification_report(test_y, SVM_y_pred))
print("accuracy = ", accuracy_score(test_y, SVM_y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        33
           1       1.00      1.00      1.00        28
           2       1.00      1.00      1.00        33
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        46
           5       0.98      0.98      0.98        47
           6       0.97      1.00      0.99        35
           7       0.97      0.97      0.97        34
           8       1.00      0.97      0.98        30
           9       0.95      0.95      0.95        40

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360

accuracy =  0.9861111111111112


### 2-4 SGD Classifier

In [20]:
SGD_model = SGDClassifier()
SGD_model.fit(train_x, train_y)

SGD_y_pred = SGD_model.predict(test_x)

print(classification_report(test_y, SGD_y_pred))
print("accuracy = ", accuracy_score(test_y, SGD_y_pred))

              precision    recall  f1-score   support

           0       1.00      0.97      0.98        33
           1       0.88      1.00      0.93        28
           2       0.97      0.97      0.97        33
           3       0.92      0.97      0.94        34
           4       1.00      0.96      0.98        46
           5       0.83      0.96      0.89        47
           6       0.92      0.97      0.94        35
           7       0.97      0.97      0.97        34
           8       0.93      0.87      0.90        30
           9       1.00      0.75      0.86        40

    accuracy                           0.94       360
   macro avg       0.94      0.94      0.94       360
weighted avg       0.94      0.94      0.94       360

accuracy =  0.9361111111111111


### 2-5 Logistic Regression

In [10]:
Log_model = LogisticRegression(max_iter=5000)
Log_model.fit(train_x, train_y)

Log_y_pred = Log_model.predict(test_x)

print(classification_report(test_y, Log_y_pred))
print("accuracy = ", accuracy_score(test_y, Log_y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        33
           1       0.97      1.00      0.98        28
           2       0.97      1.00      0.99        33
           3       0.97      0.97      0.97        34
           4       1.00      0.98      0.99        46
           5       0.92      0.94      0.93        47
           6       0.97      0.97      0.97        35
           7       1.00      0.97      0.99        34
           8       0.97      0.97      0.97        30
           9       0.97      0.95      0.96        40

    accuracy                           0.97       360
   macro avg       0.97      0.97      0.97       360
weighted avg       0.97      0.97      0.97       360

accuracy =  0.9722222222222222


## 3 성능평가지표 선정 및 이유
적합한 모델을 선정 및 평가하기 위해서는 **알고리즘과 측정지표**에 대한 이해를 필요로 한다.  

### About Algorithm

현재 우리가 사용한 알고리즘의 종류는 아래와 같다.



1. DecisionTreeClassifier
2. RandomForestClassifier
3. SVC # SVM
4. SGD Classifier
5. LogisticRegression

다음에 sklearn 에서 제공하는 알고리즘 사용 가이드 이미지가 있다.
<img src="./img/sklearn_guide.PNG" width="600px" height="500px"></img>

참고 : [sklearn algorithm site](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html#)

이렇게 하니 잘 안보이므로 내가 친절히 설명해주도록 하겠다.

우선 우리가 진행하는 데이터는 모두 라벨링이 되어있는 지도학습이다. 

1. DecisionTreeClassifier 
>  데이터를 분석해 이들 사이에 존재하는 패턴을 규칙의 연속으로 나타내어 분류하는 방법  
  가장 기본적인 방법이다. 다만 결정경계(desicion boundary)가 데이터 축에 수직이어서 특정 데이터에만 잘 작동하는 단점이 있다.
2. RandomForestClassifier
> 라벨링이 있고 샘플의 수가 10만개보다 적고 텍스트가 아닌 경우  
  **Desicion Tree 의 단점을 극복하기 위해** n개의 Decision Tree로 나온 결정들의 비율로 정답을 추론하는 방식  

3. SVC # SVM
> 라벨링이 있고 샘플의 수가 10만개보다 적고 텍스트가 아닌 경우  
  Support Vector 와 Hyperplane(초평면) 을 이용하여 분류를 수행한다. **주로 2개의 클래스가 존재할 때 사용**한다.  
  
4. SGD Classifier
> 라벨링이 있고 샘플의 수(train_x의 행 값)가 10만개가 넘을 경우   
  Stochastic Gradient Descent Classifier 확률적 경사하강법 이라고 불린다.  
  배치 크기가 1인 경사하강법 알고리즘으로, 데이터 세트에서 무작위로 균일하게 선택한 하나의 예를 의존하여   
  각 단계의 예측 경사를 계산한다.  
  이는 보통 **거대한 샘플에서 간단한 확률적 분포를 이용해 간단히 결과를 예측**하고 싶을 때 사용한다.
  
5. LogisticRegression
> 이름은 회귀지만 실제로는 분류를 사용한다.  
  가장 널리 알려진 선형 분류 알고리즘이다.   
  소프트맥스 (Softmax) 함수를 사용한 다중 클래스 분류 알고리즘이다. 이러한 로지스틱 회귀를 Softmax regression 이라고도 한다.  
  클래스가 n개일 때, N차원의 벡터가 각 클래스의 정답일 확률을 표현하도록 정규화해주는 함수를 Softmax 함수라고 한다.

이에 따른 분류기준은 sklearn 의 matrics 페이지에서 찾을 수 있다.

참고 : [sklearn.matrix](https://scikit-learn.org/stable/modules/classes.html#sklearn-metrics-metrics)

### About Report

sykit learn 은 약 15개의 측정 지표 메서드를 가지고 있다. 그 중 가장 대표적으로 사용되는 3개의 지표는 다음과 같다.

**1. accuracy - Precision, Recall**

classification_report() 메서드를 사용하면 전체적인 accuracy 값과 다음의 구체적인 지표를 알 수가 있다,  

**Precision(정밀도), Recall(재현율; sensitivity), F1 score** 
 
우리는 precision 과 Recall 의 중요도에 따라 다른 정확도를 비교할 필요가 있다.  
precision 는 FP (가짜양성, 아닌데 맞다고 한 비율) 이 낮을수록 높다.   
스팸문자같은건 스팸이 아닌걸 스팸이라 하면 문제가 크니까 이런거 precision 이 높아야 한다.  

recall 는 FN (가짜음성, 맞는데 아니라고 한 비율) 이 낮을수록 좋다.  
암 같은거, 빨리 발견해야 잡는데 아니라고 하면 문제가 크니까 이런거 recall 이 높아야 한다.  

**2. top - K accuracy**  
데이터셋에서 가장 높은 확률이 나온 K개의 자료를 일반화하여 계산해준다.

**3. balanced accuracy**  
데이터 셋 라벨의 불균형성을 고려해 계산해준다.
데이터 불균형성이 높을수록 정확도가 떨어지게 만들어준다.

---

측정지표를 선정하기 위해서는  
알고리즘의 사용 의도를 알아야 한다.

1. Digit data
알고리즘을 통해 숫자 이미지를 보고 어떤 수를 의미하는지를 판별하고자 했다.  
우리가 직접 적은 숫자 그림을 보고 판별하는 알고리즘이기 때문에 다른 숫자와 혼동해서는 안된다.  
때문에 FP FN 모두 중요하다.  

2. Wine data
와인의 각 특징을 입력하면 어떤 종류의 와인인지 구별하고자 했다.  
이 또한 다른 와인들과 섞이면 안되기 때문에 FP FN 모두 중요하다.  


3. Breast Cancer data
환자의 데이터를 통해 유방암이 양성인지(걸렸는지) 음성인지를 판별하고자 했다.  
구별 자체도 중요하지만 상대적으로  FP 보다는 FN 이 적게 나오도록 해야만 한다.  
다시 말해서, 유방암 환자인데 유방암 환자가 아니라고 말하는 비율을 최대한 줄여야만 한다.  

유방암이 아닌데 유방암이라 하는 것은 돌이킬 수 있지만, 그 반대의 경우  
질병을 늦게 발견하게 된다면 돌이킬 수 없는 결과를 초래하기 때문이다.  

그래서 recall 값이 중요해진다.  


---
다음의 이해를 바탕으로,

digit 데이터는 

약 1800개의 샘플로 이루어져 있는 이미지 데이터를 10개의 클래스로 나누어 분류하고 있으므로

Decision Tree , Randomforest, Rogistic Regression 적합한 모델이고,  
데이터의 특성 상 accuracy로 판단해야 한다고 생각한다.

각각 0.84, 0.98, 0.97 이 나왔고 상당히 높은 수치이다.


# Second_Data : Wine data

In [6]:
from sklearn.datasets import load_wine


wine_data = load_wine()

wine_data.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])

data 와 target 을 x와 y 변수에 넣자

In [7]:
wine_x, wine_y =  wine_data['data'], wine_data['target']

In [8]:
for i in (wine_x, wine_y):
    print(i.shape)

(178, 13)
(178,)


x에는 13개의 feature 값이 178개의 행으로 이루어져 있다.
y에는 178 개의 라벨링 데이터가 들어있다.

13개의 Feature_name이 뭘까? Target_Name 에서 알 수 있다

In [9]:
print(wine_data['feature_names'])

['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']


위와 같이 와인 관련 13가지의 항목을 기록한 하나의 와인 값이 총 178개가 있음을 알 수 있다.  
이는 DESCR을 통해서도 알 수 있다.

In [16]:
print(wine_data.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

## 1. 데이터 분리하기

In [10]:
train_x, test_x, train_y, test_y = train_test_split(digit_x,digit_y, test_size=0.2, random_state=42)

## 2. 적합한 모델 찾아 진행

### 2-1 Decision Tree

In [11]:
Tree_model = DecisionTreeClassifier()
Tree_model.fit(train_x, train_y)

Tree_y_pred = Tree_model.predict(test_x)

print(classification_report(test_y, Tree_y_pred))
print("accuracy = ", accuracy_score(test_y, Tree_y_pred))

              precision    recall  f1-score   support

           0       0.97      0.88      0.92        33
           1       0.92      0.79      0.85        28
           2       0.83      0.76      0.79        33
           3       0.74      0.91      0.82        34
           4       0.82      0.89      0.85        46
           5       0.91      0.89      0.90        47
           6       0.83      1.00      0.91        35
           7       0.91      0.88      0.90        34
           8       0.81      0.70      0.75        30
           9       0.89      0.82      0.86        40

    accuracy                           0.86       360
   macro avg       0.86      0.85      0.85       360
weighted avg       0.86      0.86      0.86       360

accuracy =  0.8583333333333333


### 2-2 Random Forest

In [12]:
Forest_model = RandomForestClassifier()
Forest_model.fit(train_x, train_y)

Forest_y_pred = Forest_model.predict(test_x)

print(classification_report(test_y, Forest_y_pred))
print("accuracy = ", accuracy_score(test_y, Forest_y_pred))

              precision    recall  f1-score   support

           0       1.00      0.97      0.98        33
           1       0.93      1.00      0.97        28
           2       1.00      1.00      1.00        33
           3       1.00      0.97      0.99        34
           4       0.98      1.00      0.99        46
           5       0.94      0.96      0.95        47
           6       0.97      0.97      0.97        35
           7       0.97      0.97      0.97        34
           8       1.00      0.93      0.97        30
           9       0.95      0.95      0.95        40

    accuracy                           0.97       360
   macro avg       0.97      0.97      0.97       360
weighted avg       0.97      0.97      0.97       360

accuracy =  0.9722222222222222


### 2-3 SVM

In [13]:
SVM_model = SVC()
SVM_model.fit(train_x, train_y)

SVM_y_pred = SVM_model.predict(test_x)

print(classification_report(test_y, SVM_y_pred))
print("accuracy = ", accuracy_score(test_y, SVM_y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        33
           1       1.00      1.00      1.00        28
           2       1.00      1.00      1.00        33
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        46
           5       0.98      0.98      0.98        47
           6       0.97      1.00      0.99        35
           7       0.97      0.97      0.97        34
           8       1.00      0.97      0.98        30
           9       0.95      0.95      0.95        40

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360

accuracy =  0.9861111111111112


### 2-4 SGD Classifirer

In [14]:
SGD_model = SGDClassifier()
SGD_model.fit(train_x, train_y)

SGD_y_pred = SGD_model.predict(test_x)

print(classification_report(test_y, SGD_y_pred))
print("accuracy = ", accuracy_score(test_y, SGD_y_pred))

              precision    recall  f1-score   support

           0       1.00      0.97      0.98        33
           1       1.00      0.79      0.88        28
           2       1.00      1.00      1.00        33
           3       1.00      0.97      0.99        34
           4       0.98      1.00      0.99        46
           5       0.94      0.98      0.96        47
           6       1.00      0.97      0.99        35
           7       1.00      0.97      0.99        34
           8       0.72      0.97      0.83        30
           9       0.97      0.90      0.94        40

    accuracy                           0.96       360
   macro avg       0.96      0.95      0.95       360
weighted avg       0.96      0.96      0.96       360

accuracy =  0.9555555555555556


### 2-5 Logistic Regression

In [15]:
Log_model = LogisticRegression(max_iter=5000)
Log_model.fit(train_x, train_y)

Log_y_pred = Log_model.predict(test_x)

print(classification_report(test_y, Log_y_pred))
print("accuracy = ", accuracy_score(test_y, Log_y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        33
           1       0.97      1.00      0.98        28
           2       0.97      1.00      0.99        33
           3       0.97      0.97      0.97        34
           4       1.00      0.98      0.99        46
           5       0.92      0.94      0.93        47
           6       0.97      0.97      0.97        35
           7       1.00      0.97      0.99        34
           8       0.97      0.97      0.97        30
           9       0.97      0.95      0.96        40

    accuracy                           0.97       360
   macro avg       0.97      0.97      0.97       360
weighted avg       0.97      0.97      0.97       360

accuracy =  0.9722222222222222


## 3 성능 평가지표 선정 및 이유

wine 데이터는 

약 180개의 샘플로 이루어져 있는 와인 특성 데이터를 3개의 클래스로 나누어 분류하고 있으므로

Decision Tree , Randomforest, Rogistic Regression 적합한 모델이고,  
데이터의 특성 상 accuracy로 판단해야 한다고 생각한다.

각각 0.86, 0.97, 0.97 이 나왔고 양호하다고 생각한다.

# Third_Data : Breast Cancer

In [17]:
from sklearn.datasets import load_breast_cancer


breast_cancer_data = load_breast_cancer()

breast_cancer_data.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

data 와 target 을 x와 y변수에 넣자

In [23]:
breast_cancer_x, breast_cancer_y =  breast_cancer_data['data'], breast_cancer_data['target']

In [24]:
for i in (breast_cancer_x, breast_cancer_y):
    print(i.shape)

(569, 30)
(569,)


유방암 데이터는 30개의 특성을 가진 하나의 자료가 579개의 행으로 이루어져 있다. 그러면 30개의 특성은 어떤 것들이 있을까?   
feature_name을 알아보자

In [26]:
breast_cancer_data['feature_names']

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

전문용어인지 그냥 영어로만 보니 무슨 특성을 가진 것인지 알기가 어렵다. DESCR 키를 불러와 전체적인 설명을 읽어보자.

In [28]:
print(breast_cancer_data['DESCR'])

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

위의 내용을 보면
radius 는 암으로 추정되는 것의 반지름  
texture 는 회색 물체 값의 표준편차 등  
feature 속성 들에 대한 값을 확인해 볼 수가 있다.  

## 1. 데이터 분리하기

In [29]:
train_x, test_x, train_y, test_y = train_test_split(breast_cancer_x,breast_cancer_y, test_size=0.2, random_state=30)

## 2. 적합한 모델 찾아 진행

### 2-1 Decision Tree

In [30]:
Tree_model = DecisionTreeClassifier()
Tree_model.fit(train_x, train_y)

Tree_y_pred = Tree_model.predict(test_x)

print(classification_report(test_y, Tree_y_pred))
print("accuracy = ", accuracy_score(test_y, Tree_y_pred))

              precision    recall  f1-score   support

           0       0.93      0.89      0.91        44
           1       0.93      0.96      0.94        70

    accuracy                           0.93       114
   macro avg       0.93      0.92      0.93       114
weighted avg       0.93      0.93      0.93       114

accuracy =  0.9298245614035088


### 2-2 Random Forest

In [31]:
Forest_model = RandomForestClassifier()
Forest_model.fit(train_x, train_y)

Forest_y_pred = Forest_model.predict(test_x)

print(classification_report(test_y, Forest_y_pred))
print("accuracy = ", accuracy_score(test_y, Forest_y_pred))

              precision    recall  f1-score   support

           0       0.97      0.89      0.93        44
           1       0.93      0.99      0.96        70

    accuracy                           0.95       114
   macro avg       0.95      0.94      0.94       114
weighted avg       0.95      0.95      0.95       114

accuracy =  0.9473684210526315


### 2-3 SVM

In [32]:
SVM_model = SVC()
SVM_model.fit(train_x, train_y)

SVM_y_pred = SVM_model.predict(test_x)

print(classification_report(test_y, SVM_y_pred))
print("accuracy = ", accuracy_score(test_y, SVM_y_pred))

              precision    recall  f1-score   support

           0       0.97      0.77      0.86        44
           1       0.87      0.99      0.93        70

    accuracy                           0.90       114
   macro avg       0.92      0.88      0.89       114
weighted avg       0.91      0.90      0.90       114

accuracy =  0.9035087719298246


### 2-4 SGD Classifirer

In [33]:
SGD_model = SGDClassifier()
SGD_model.fit(train_x, train_y)

SGD_y_pred = SGD_model.predict(test_x)

print(classification_report(test_y, SGD_y_pred))
print("accuracy = ", accuracy_score(test_y, SGD_y_pred))

              precision    recall  f1-score   support

           0       0.97      0.77      0.86        44
           1       0.87      0.99      0.93        70

    accuracy                           0.90       114
   macro avg       0.92      0.88      0.89       114
weighted avg       0.91      0.90      0.90       114

accuracy =  0.9035087719298246


### 2-5 Logistic Regression

In [39]:
Log_model = LogisticRegression(max_iter=3000)
Log_model.fit(train_x, train_y)

Log_y_pred = Log_model.predict(test_x)

print(classification_report(test_y, Log_y_pred))
print("accuracy = ", accuracy_score(test_y, Log_y_pred))

              precision    recall  f1-score   support

           0       0.88      0.84      0.86        44
           1       0.90      0.93      0.92        70

    accuracy                           0.89       114
   macro avg       0.89      0.88      0.89       114
weighted avg       0.89      0.89      0.89       114

accuracy =  0.8947368421052632


## 성능 평가지표 선정 및 이유

breast cancer 데이터는 

약 600명의 환자 데이터를 2개의 클래스로 나누어 분류하고 있으므로

Decision Tree , Randomforest, Support Vector Machin 이 적합한 모델이고,  
데이터의 특성 상 악성 라벨인 0 의 recall 로 판단해야 한다고 생각한다.  
(0 = 악성 유방암, 1 = 초기 유방암)


각각 0.89, 0.89, 0.77 이 나왔다. SVM 은 미흡한 수치가 나왔다.

# 회고

* **print()메서드의 작동방식에 한걸음 이해**

여기서 단순한 호출(return) 과 print의 차이를 알게 될 줄은 몰랐다.

단순히 DESCR 을 호출할 경우는 사람이 읽기에 쉽지 않다. 그리고 정규식 표현이 되지 않은 row형태로 출력된다.
예를 들어 \n 은 줄바꿈을을 의미하는 수식인데, 단순 return은 이러한 것을 표현식으로 인지하지 못하고 그냥 출력한다.
하지만 print() 메서드를 쓰면 그런 수식들을 감안해 사람이 읽기 쉽게 호출해주었다.

기본기의 중요성을 꺠닫는 순간이었다.


* **각 알고리즘에 대한 원리 이해 부족**

세 데이터 모두 알고리즘에 따라 다른 정확도가 나온다.  
그러면 단순히 가장 높은 정확도를 보이는 모델이 가장 좋은 모델일까?  

난 그렇게 생각하지 않는다.  

5개의 알고리즘은 저마다 학습방법이 다르다.  
때문에 각 학습 유형을 이해하고 그 데이터에 가장 적합한 알고리즘을 찾아 학습시키는 것이  
정확도의 정확도를 가장 높이는 방법이라고 생각한다.

말한 바와 같이 각 알고리즘의 원리를 이해해야 하지만,   
아직 견문이 부족한지라 그 원리는 아직 잘 모르겠다.  

허나 다행히도 scikit learn 에서 제공하는 guide 에 따라 
각 데이터 특성에 맞는 모델을 선정했다.

이렇게 하면 표면적으로는 어느정도 좋은 결과를 보이겠지만,
분명 한계가 있을 것이다.

특히 Logistic Regression 에서 그 문제가 드러났다.
배운대로 기존코드를 넣었을때 물론 작동은 했지만,  
scikit-learn 홈페이지 내부에서 자체적으로 warning이  출력되었다.

In [35]:
Log_model = LogisticRegression()
Log_model.fit(train_x, train_y)

Log_y_pred = Log_model.predict(test_x)

print(classification_report(test_y, Log_y_pred))
print("accuracy = ", accuracy_score(test_y, Log_y_pred))

              precision    recall  f1-score   support

           0       0.91      0.89      0.90        44
           1       0.93      0.94      0.94        70

    accuracy                           0.92       114
   macro avg       0.92      0.91      0.92       114
weighted avg       0.92      0.92      0.92       114

accuracy =  0.9210526315789473


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


이 경고문이 무슨 의미를 가지고 있는지,
그리고 경고문이 뜨지 않기 위해서는 어떻게 해야 하는지 전문가에게 묻거나 검색을 하여 방법을 찾았다.  

[stack over flow](https://stackoverflow.com/questions/62658215/convergencewarning-lbfgs-failed-to-converge-status-1-stop-total-no-of-iter) 에서는 각지의 프로그래머들이 오류를 해결하는 커뮤니티 사이트이다. 이 사이트에서 이 경고문에 대해 설명하는 글이 있다.

경고문 첫 문장을 보면 ConvergenceWarning: lbfgs failed to converge  이라고 되어 있다.  
(수렴오류 : Ibfgs 는 수렴에 실패했습니다.  )

Ibfgs 는 Limited-memoy Brouden-Fletcher-Goldfarb-Shanno Algorithm 의 약자로,  
scikit learn 에서 제공하는 알고리즘의 하나다.

이 알고리즘이 정상적으로 수렴하기 위해서는 로지스틱 회귀 메서드의 키워드 인자인 max_iter 의 값을 크게 설정해주면 된다고  
설명되어 있었다. 

덕분에 경고를 해결하긴 했지만

Ibfgs 라는 solver Algorithm 이 어떤 방식으로 동작하는 것인지  
( gradients approximation 을 저장한다고 한다 )  

max_iter 가 정확하게 무엇을 반복시키는 것인지  

왜 처음부터 반복값을 크게 정하지 않았는지, 의문은 더 늘었다.

바로 궁금증을 해결하고 싶지만, 알고리즘은 기본이 없는 상태에선 파도 파도 모르는 것만 나오는 것을 경험했다.  
그래서 순방향 신경망부터 차례대로 공부해보려고 한다.

다음에는 아래의 알고리즘에 대한 질문을 스스로 답할 수 있도록 하고 싶다.

1. DecisionTreeClassifier 
>  결정경계(desicion boundary)란?  
   오버피팅과 가지치기에 대해 설명한다면?
   
3. SVC # SVM
> Support Vector 와 Hyperplane(초평면)이 무엇인가?

4. SGD Classifier
> Stochastic Gradient Descent Classifier 확률적 경사하강법이 무엇인지?
  예측경사와 배치 간의 관계는?
  
5. LogisticRegression
> 소프트맥스 (Softmax) 함수눈 무엇인지?
  로지스틱 회귀의 오차는 어떻게 구하는지?