# 2-박주홍
## Setting

라이브러리를 로드합니다. 주요 라이브러리로 pandas와 sklearn을 사용합니다.

In [14]:
# Import required modules
import pandas as pd
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

## Analysis

데이터를 로드합니다. 데이터의 정보를 간단하게 살펴봅니다.

In [15]:
# Load Dataset
data_set = datasets.load_breast_cancer()
X = data_set.data
y = data_set.target

# Show data fields
print('Data fields data set:')
print(data_set.feature_names)

# Show classifications
print('\nClassification outcomes:')
print(data_set.target_names)

Data fields data set:
['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']

Classification outcomes:
['malignant' 'benign']


학습을 위해 데이터를 Split 합니다. Train와 Test로 분류하여 학습과 평가에 사용합니다. Test의 크기는 0.25로 합니다. Reproducible 한 결과를 위해 split에 사용할 random seed(random_state)는 0으로 지정합니다.

In [16]:
# Create training and test data sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

학습을 잘하기 위해 standard scaler를 사용합니다. 이렇게 하면 Feature들의 Scale에 의한 효과가 보정되어서 안정적으로 학습이 됩니다.

In [17]:
# Initialise a new scaling object for normalising input data
sc = StandardScaler() 

# Set up the scaler just on the training set
sc.fit(X_train)

# Apply the scaler to the training and test sets
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

학습을 합니다. Penalty 파라미터(C)로 100을 주었으며 Penalty는 Overfitting을 막는 효과가 있습니다. Reproducible한 결과를 위해 random_state는 위와 동일하게 0으로 지정하였습니다.

In [19]:
# Run logistic regression model from sklearn
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(C=100,random_state=0)
lr.fit(X_train_std,y_train)



LogisticRegression(C=100, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=0, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

학습 결과를 출력합니다. 여기서는 Accuracy를 계산합니다.

In [20]:
y_pred = lr.predict(X_test_std)

correct = (y_test == y_pred).sum()
incorrect = (y_test != y_pred).sum()
accuracy = correct / (correct + incorrect) * 100

print('\nPercent Accuracy: %0.1f' %accuracy)


Percent Accuracy: 93.7


학습 결과를 직접 확인하기 위해 각 데이터에 대한 결과과 실제 값, 예측 여부를 보여줍니다.

In [21]:
# Show more detailed results

prediction = pd.DataFrame()
prediction['actual'] = data_set.target_names[y_test]
prediction['predicted'] = data_set.target_names[y_pred]
prediction['correct'] = prediction['actual'] == prediction['predicted']

print ('\nDetailed results for first 20 tests:')
print (prediction.head(20))


Detailed results for first 20 tests:
       actual  predicted  correct
0   malignant  malignant     True
1      benign     benign     True
2      benign     benign     True
3      benign     benign     True
4      benign     benign     True
5      benign     benign     True
6      benign     benign     True
7      benign     benign     True
8      benign     benign     True
9      benign     benign     True
10     benign     benign     True
11     benign     benign     True
12     benign     benign     True
13     benign  malignant    False
14     benign     benign     True
15  malignant  malignant     True
16     benign     benign     True
17  malignant  malignant     True
18  malignant  malignant     True
19  malignant  malignant     True
