# 분류 분석 

- 1. [로지스틱 회귀 분석] 특징 데이터로 유방암 진단하기
- 2. [결정트리 분석 + 산점도/선형 회귀 그래프] 센서 데이터로 움직임 분류하기

## 1. [로지스틱 회귀 분석] 특징 데이터로 유방암 진단하기

목표 : 로지스틱 회귀 분석을 이용해 유방암에 영향을 미치는 특징 데이터를 분석하고 유방암 여부를 진단하는 예측 모델을 생성

- 분류는 대표적인 지도 학습 유형의 머신러닝 기법으로 데이터에서 주어진 클래스 값을 학습하여 각 클래스를 구별할 수 있는 패턴을 찾아 학습 모델을 생성하고 새로운 데이터에 대한 클래스를 예측 및 분류하는 기법

### 1) 데이터 수집

In [1]:
import numpy as np
import pandas as pd

from sklearn.datasets import load_breast_cancer



In [2]:
b_cancer = load_breast_cancer()

### 2) 데이터 수집 및 탐색

In [11]:
#데이터 탐색
#print(b_cancer.DESCR)

In [4]:
b_cancer_df = pd.DataFrame(b_cancer.data, columns = b_cancer.feature_names)

In [5]:
b_cancer_df['diagnosis']= b_cancer.target

In [7]:
# b_cancer_df.head()

In [8]:
print('유방암 진단 데이터셋 크기 : ', b_cancer_df.shape)

유방암 진단 데이터셋 크기 :  (569, 31)


In [9]:
# diagnosis 1:악성 0:양성
# b_cancer_df.info()

In [12]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

In [13]:
b_cancer_scaled = scaler.fit_transform(b_cancer.data)

In [12]:
print(b_cancer.data[0])

[1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
 1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02
 6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01
 1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01
 4.601e-01 1.189e-01]


In [13]:
print(b_cancer_scaled[0])

[ 1.09706398 -2.07333501  1.26993369  0.9843749   1.56846633  3.28351467
  2.65287398  2.53247522  2.21751501  2.25574689  2.48973393 -0.56526506
  2.83303087  2.48757756 -0.21400165  1.31686157  0.72402616  0.66081994
  1.14875667  0.90708308  1.88668963 -1.35929347  2.30360062  2.00123749
  1.30768627  2.61666502  2.10952635  2.29607613  2.75062224  1.93701461]


### 3) 분석 모델 구축 : 로지스틱 회귀를 이용한 이진 분류 모델

In [14]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

In [15]:
# X, Y 설정하기
Y = b_cancer_df['diagnosis']
X = b_cancer_scaled 

In [16]:
# 훈련용 데이터와 평가용 데이터 분할하기
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, 
                                                    random_state=0)

In [21]:
#b_cancer_scaled .shape

In [22]:
#X_train.shape

In [23]:
#X_test.shape

In [29]:
# 로지스틱 회귀 분석 : (1)모델 생성
lr_b_cancer = LogisticRegression()

In [30]:
# 로지스틱 회귀 분석 : (2)모델 훈련
lr_b_cancer.fit(X_train, Y_train)

LogisticRegression()

In [31]:
# 로지스틱 회귀 분석 : 
#(3)평가 데이터에 대한 예측 수행 -> 예측 결과 Y_predict 구하기
Y_predict = lr_b_cancer.predict(X_test)

### 4) 결과 분석 

In [32]:
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score

In [33]:
# 오차 행렬 
confusion_matrix(Y_test, Y_predict)

array([[ 60,   3],
       [  1, 107]], dtype=int64)

In [34]:
accuracy = accuracy_score(Y_test, Y_predict)
precision = precision_score(Y_test, Y_predict)
recall = recall_score(Y_test, Y_predict)
f1 = f1_score(Y_test, Y_predict)
roc_auc = roc_auc_score(Y_test, Y_predict)

In [35]:
print('정확도: {0:.3f}, 정밀도: {1:.3f}, 재현율: {2:.3f},  F1: {3:.3f}'.format(
    accuracy,precision,recall,f1))

정확도: 0.977, 정밀도: 0.973, 재현율: 0.991,  F1: 0.982


In [36]:
print('ROC_AUC: {0:.3f}'.format(roc_auc))

ROC_AUC: 0.972
