# 특징 데이터로 유방암 진단하기 (로지스틱 회귀 분석)

#### - 로지스틱 회귀분석을 이용해 유방암에 영향을 미치는 특징 데이터를 분석하고 유방암 여부를 진단하는 예측 모델을 생성한다.
#### - 분류(classification)는 대표적인 지도 학습 유형의 머신러닝 기법으로, 데이터에 주어진 클래스 값을 구별할 수 있는 패턴을 찾아 학습 모델을 생성하고 새로운 데이터에 대한 클래스를 예측 및 분류하는 기법이다.
#### - 로지스틱 회귀분석은 분석하고자 하는 대상들이 두 집단 혹은 그 이상의 집단(다변수 데이터)으로 나누어진 경우에 개별 관측치들이 어느 집단으로 분류될 수 있는가를 분석하고 이를 예측하는 모형을 개발하는데 사용되는 대표적이 통계 알고리즘이다.
#### - 로지스틱 회귀는 선형 회귀 방식을 참(True, 1) / 거짓(False, 2) 의 이진 분류에 적용한 기법이다. (S자 함수 = 시그모이드 함수 사용)
#### - 시그모이드 함수는 x의 값이 커지면 y의 값은 1에 근사하게 되고 x값이 작아지면 y의 값은 0에 근사하게 되어 S자 형태의 그래프가 된다. 이러한 특성을 이용하여 두개의 값은 분류하는 이진 분류에 많이 사용한다.
#### - 로지스틱 회귀 모델의 성능 평가 지표는 이진 분류 결과를 평가하기 위해 오차 행렬에 기반한 성능 지표인 정밀도(Precision), 재현율(Recall), F1 스코어(F1 score), ROC_AUC를 사용한다.



## 데이터 준비하기

In [1]:
import numpy as np
import pandas as pd

from sklearn.datasets import load_breast_cancer # sklearn 에서 유방암 진단 데이터 셋트를 제공.

In [2]:
b_cancer = load_breast_cancer() # load_breast_cancer() 는 유방암 진단 데이터 로드 함수
                                # 데이터 셋트를 로드하여 b_cancer이라는 객체를 생성한다.


## 데이터 탐색하기

In [3]:
print(b_cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

In [None]:
### 596개의 데이터와 30개의 특성이 있다.

In [4]:
# 데이터셋 객체의 data 배열(b_cancer.data), 즉 독릭 변수 X가 되는 피처를 DataFrame 자료형으로 젼환하여 b_cancer_df를 생성한다.
b_cancer_df = pd.DataFrame(b_cancer.data, columns = b_cancer.feature_names)

In [5]:
# 유방암 유무 class로 사용할 diagnosis 컬럼을 b_cancer_df에 추가하고 데이터셋 객체의 target 컬럼 b_cancer.target을 저장한다.
b_cancer_df['diagnosis'] = b_cancer.target

In [6]:
b_cancer_df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,diagnosis
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,0
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,0
