# 1. 문제정의
- 머신러닝으로 어떤것을 해결한것인가를 정하기
- 유방암 환자 데이터를 통해서 암 예측해보기

# 2. 데이터 수집
- 정의된 문제를 해결하기위한 데이터 모으기

In [1]:
import numpy as np
import pandas as pd
# 수집된 데이터를 numpy or pandas를 사용해서 read하기
# pd.read_csv('경로')

In [2]:
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()

In [3]:
cancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [4]:
# 0 : malignant = 암
# 1 : benign = 암 아님
cancer['target_names']

array(['malignant', 'benign'], dtype='<U9')

In [5]:
# 여러 컬럼들이 있다 정도만 참고하기
cancer['feature_names']

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

# 3. 데이터 전처리
- 수집된 데이터를 학습할 수 있는 형태로 처리하기

In [6]:
# value_counts() : 컬럼안에서 값의 갯수 세기
# fillna() : 결측치 채우기
# info() : 데이터 전반적으로 확인하기

In [7]:
# X와 y나누기
X = cancer['data']
y = cancer['target']


In [8]:
# 수치형 데이터
X

array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]])

## 데이터 스케일링
- 데이터의 범위를 같게 만드는 기술
- 거리 기반의 모델들을 학습시키기 전에 활용하면 효과가 좋다
1. Standard Scaler
- 평균 0 , 분산 1인 상태로 변환
- 데이터가 정규분포의 형태를 이룰때 사용
2. MinMax Scaler
- 데이터의 최소값을 0 최대값을 1로 변환
- 이상치가 변환의 기준이되서 이상치가 있는경우에는 사용 불가
3. Robust Scaler
- 데이터의 1/4 지점을 0으로 3/4 지점을 1로 변환
- 이상치가 변환에 개입을 거의 안해서 이상치가 있는 경우에도 사용 가능

In [9]:
from sklearn.preprocessing import RobustScaler
rb_scaler = RobustScaler()
# 변환할 기준을 학습해야함
rb_scaler.fit(X)
# 학습해서 알게된 기준으로 값 변환
X_scaler = rb_scaler.transform(X)

In [10]:
# train과 test구분하기
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.3,
                                                   random_state = 25)

X_train_scaler, X_test_scaler, y_train, y_test = train_test_split(X_scaler,y,test_size = 0.3,
                                                   random_state = 25)
# train : test = 7 : 3 or 7.5 : 2.5
# train의 비율을 더 높게할때(test의 비율이 더 낮아도 상관 없을때)
## 1. 데이터의 수가 많을때 > 테스트 할 데이터가 많아진다, test의 비율을 낮춰도 된다
## 2. 데이터의 수가 적을때 > 학습할 데이터도 부족할때, train의 비율을 높게한다

# train의 비율을 더 낮게할때(test의 비율이 더 높게 할때)
## 1. 평가 결과의 신뢰도를 높이고 싶을때 > 기존 데이터의 수로는 신뢰하기 애매할때
## 2. 데이터가 충분히 많을때 > 학습할 데이터가 충분할때는 train의 비율을 낮춰도 된다

# 4. 탐색적 데이터 분석
- 데이터의 특징, 생김새 확인하기

In [11]:
import matplotlib.pyplot as plt
import seaborn as sns

In [12]:
# 생략

# 5. 모델 선택 및 하이퍼 파라미터 튜닝
- 데이터에 어울리는 모델 찾기
- 모델 세부 기능 설정하기

In [13]:
# 머신러닝에서는 sklearn
# 딥러닝에서는 tensorflow

In [14]:
# knn, DecisionTree모델 하이퍼 파라미터 튜닝해서 사용하기
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier

knn = KNeighborsClassifier(n_neighbors = 4)# 이웃의 수 4
dt = DecisionTreeClassifier(max_depth = 4)# 노드의 최대 깊이 4

# 6. 학습
- 모델이 데이터에서 규칙 찾기

In [28]:
from sklearn.linear_model import LogisticRegression

from sklearn.svm import LinearSVC

In [29]:
lr = LogisticRegression()
svm = LinearSVC()

In [30]:
lr.fit(X_train,y_train)
svm.fit(X_train,y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [15]:
# model.fit(X_train, y_train)

In [16]:
# knn, DecisionTree모델 학습하기
knn.fit(X_train,y_train)
dt.fit(X_train,y_train)

In [17]:
# scaler로 변환된 데이터 학습하기
knn.fit(X_train_scaler,y_train)
dt.fit(X_train_scaler,y_train)

# 7. 평가 및 예측
- 평가 : 만들어진 규칙이 얼마나 정확한지 알아보기
- 예측 : 만들어진 규칙 사용해보기

In [18]:
# model.predict(X_test)
# model.score(X_test, y_test)

In [19]:
# model.score() 사용해서 평가하기
print(knn.score(X_train,y_train))
print(knn.score(X_test,y_test))
print('*'*20)
print(dt.score(X_train,y_train))
print(dt.score(X_test,y_test))

0.3869346733668342
0.3391812865497076
********************
0.3869346733668342
0.3391812865497076


In [20]:
# 교차검증 사용해서 평가하기
from sklearn.model_selection import cross_val_score
knn_cv = cross_val_score(knn,X_train,y_train,cv = 5)
dt_cv = cross_val_score(dt,X_train,y_train,cv = 5)
print(knn_cv)
print(knn_cv.mean())
print('*'*20)
print(dt_cv)
print(dt_cv.mean())

[0.9625     0.9625     0.9375     0.91139241 0.94936709]
0.9446518987341772
********************
[0.9375     0.9375     0.95       0.88607595 0.93670886]
0.9295569620253165


In [21]:
print(knn.score(X_train_scaler,y_train))
print(knn.score(X_test_scaler,y_test))
print('*'*20)
print(dt.score(X_train_scaler,y_train))
print(dt.score(X_test_scaler,y_test))

0.9798994974874372
0.9707602339181286
********************
0.9899497487437185
0.9239766081871345


In [22]:
knn_cv = cross_val_score(knn,X_train_scaler,y_train,cv = 5)
dt_cv = cross_val_score(dt,X_train_scaler,y_train,cv = 5)
print(knn_cv)
print(knn_cv.mean())
print('*'*20)
print(dt_cv)
print(dt_cv.mean())

[0.9375     0.975      0.9375     0.96202532 0.97468354]
0.9573417721518988
********************
[0.9375     0.9375     0.95       0.93670886 0.94936709]
0.9422151898734178


## 분류 평가 지표 확인하기
- 예측값과 실제값의 비교를 통해서 값을 계산

In [23]:
from sklearn.metrics import classification_report
# 예측값 생성
# dt에 학습할때 scaler를 사용한 데이터로 학습했기때문에 예측할때도 scaler를 사용한 데이터로 예측
y_pred = dt.predict(X_test_scaler)
# 지표 확인
# 0 : 암 , 1 : 암 아님
print(classification_report(y_test,y_pred))
# precision : 예측하면 맞출 확률
# recall : 실제값중에서 얼마나 맞췄는지
# f1-score : 정밀도와 재현율의 조화평균, 하나만 봐야한다면 f1 score 확인하기
## 0이 0.89로 조금 더 낮은 값 > 모델 업그레이드할거라면 0에 집중

# macro : 그대로 평균을 계산하기
## 전체 정밀도 = (0의 정밀도 + 1의 정밀도 / 2) = (0의 정밀도 * 0.5 + 1의 정밀도 * 0.5)
# weighted : 데이터의 비율대로 평균을 계산하기
## 데이터의 비율이 높은게 더 중요하다
## 전체 정밀도 = (0의 정밀도 * 전체에서 0의비율 + 1의정밀도 * 전체에서 1의비율)

# 얼마나 자세하게 말해야 하느냐
# 덜 자세하게 말해도 된다 = macro
# 더 자세하게 말해야 한다 = macro, weighted

              precision    recall  f1-score   support

           0       0.88      0.90      0.89        58
           1       0.95      0.94      0.94       113

    accuracy                           0.92       171
   macro avg       0.91      0.92      0.92       171
weighted avg       0.92      0.92      0.92       171



In [24]:
# 결과의 편차가 dt보다 더 작고 전체적인 값이 더 높다
# 따라서 knn이 dt보다 더 예측을 잘했다
y_pred = knn.predict(X_test_scaler)
# 지표 확인
# 0 : 암 , 1 : 암 아님
print(classification_report(y_test,y_pred))

              precision    recall  f1-score   support

           0       0.96      0.95      0.96        58
           1       0.97      0.98      0.98       113

    accuracy                           0.97       171
   macro avg       0.97      0.97      0.97       171
weighted avg       0.97      0.97      0.97       171



In [33]:
# 선형 분류 모델 평가 하기
print(lr.score(X_train,y_train))
print(lr.score(X_test,y_test))
print('-'*20)
print(svm.score(X_train,y_train))
print(svm.score(X_test,y_test))


0.964824120603015
0.9239766081871345
--------------------
0.9824120603015075
0.935672514619883


In [34]:
lr_cv = cross_val_score(lr,X_train,y_train,cv=5)
svm_cv = cross_val_score(svm,X_train,y_train,cv=5)

print(lr_cv)
print(lr_cv.mean())
print('*'*20)
print(svm_cv)
print(svm_cv.mean())

[0.9375     0.95       1.         0.93670886 0.94936709]
0.9547151898734179
********************
[0.95       0.95       0.9875     0.93670886 0.97468354]
0.9597784810126584


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

In [35]:
y_pred = lr.predict(X_test)
#지표 확인
# 0: positive, 1: negative
print(classification_report(y_test,y_pred))

              precision    recall  f1-score   support

           0       0.92      0.84      0.88        58
           1       0.92      0.96      0.94       113

    accuracy                           0.92       171
   macro avg       0.92      0.90      0.91       171
weighted avg       0.92      0.92      0.92       171



In [36]:
y_pred = svm.predict(X_test)
#지표 확인
# 0: positive, 1: negative
print(classification_report(y_test,y_pred))

              precision    recall  f1-score   support

           0       0.93      0.88      0.90        58
           1       0.94      0.96      0.95       113

    accuracy                           0.94       171
   macro avg       0.93      0.92      0.93       171
weighted avg       0.94      0.94      0.94       171



In [46]:
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier

# RandomForest : Bagging 계열의 모델
# AdaBoost : Boosting 계열의 모델

rf = RandomForestClassifier(max_depth= 3, n_estimators= 75, max_features=0.5)
ab = AdaBoostClassifier()

In [47]:
rf.fit(X_train,y_train)
ab.fit(X_train,y_train)



In [48]:
rf_cv = cross_val_score(rf,X_train_scaler,y_train,cv = 5)
ab_cv = cross_val_score(ab,X_train_scaler,y_train,cv = 5)
print(rf_cv)
print(rf_cv.mean())
print('*'*20)
print(ab_cv)
print(ab_cv.mean())



[0.9375     0.9625     0.9625     0.94936709 0.93670886]
0.9497151898734175
********************
[0.975      0.95       0.9625     0.96202532 0.96202532]
0.9623101265822784




In [49]:
from sklearn.metrics import classification_report
y_pred = rf.predict(X_test)
#지표 확인
# 0: positive, 1: negative
print(classification_report(y_test,y_pred))

              precision    recall  f1-score   support

           0       0.93      0.91      0.92        58
           1       0.96      0.96      0.96       113

    accuracy                           0.95       171
   macro avg       0.94      0.94      0.94       171
weighted avg       0.95      0.95      0.95       171



In [50]:
from sklearn.metrics import classification_report
y_pred = ab.predict(X_test)
#지표 확인
# 0: positive, 1: negative
print(classification_report(y_test,y_pred))

              precision    recall  f1-score   support

           0       0.96      0.91      0.94        58
           1       0.96      0.98      0.97       113

    accuracy                           0.96       171
   macro avg       0.96      0.95      0.95       171
weighted avg       0.96      0.96      0.96       171

