## scikit-learn 에 들어 있는 위스콘신 유방암 데이터셋
#### 유방암 종양의 임상 데이터를 기록해 놓은 위스콘신 유방암 데이터셋이다.
#### 각 종양은 양성benign(해롭지 않은 종양)과 악성malignant(암 종양)으로 레이블 되어 있고,
#### 조직 데이터를 기반으로 종양이 악성인지를 예측할 수 있도록 학습하는 것이 과제이다.

In [1]:
import numpy as np
import pandas as pd

In [2]:
# 위스콘신 유방암 데이터셋 로드
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
print('cancer.keys(): \n{}'.format(cancer.keys()))

cancer.keys(): 
dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])


In [3]:
# 데이터셋은 569개의 데이터 포인트를 가지고 있고 30개의 특성이 있다.
print('유방암 데이터의 형태: {}'.format(cancer.data.shape))

유방암 데이터의 형태: (569, 30)


In [4]:
# 569개의 데이터 포인트 중 212개는 악성이고 357개는 양성이다.
print('클래스별 샘플 개수: \n{}'.format( {n: v for n, v in zip(cancer.target_names, np.bincount(cancer.target))}))

클래스별 샘플 개수: 
{'malignant': 212, 'benign': 357}


In [5]:
# feature_names 속성을 확인하면 각 특성의 의미를 알 수 있다.
print('특성 이름:\n{}'.format(cancer.feature_names))

특성 이름:
['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']


In [None]:
# cancer 데이터셋을 파일로 저장
print(cancer.shape)
np.savetxt("mean_rating_by_user.csv", mean_rating_by_user_array, fmt='%.3f', delimiter=',')

In [8]:
type(cancer.data)

numpy.ndarray

In [17]:
cancer['data']

array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]])