In [5]:
# 위스콘신 유방암 데이터셋을 이용해서 Logistic Regression을 구현해보자!

import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# Raw Data Set Loading
cancer = load_breast_cancer()

x_data = cancer.data     # 2차원 ndarray - 독립변수, feature
t_data = cancer.target   # 1차원 ndarray - 종속변수, label

train_x_data, test_x_data, train_t_data, test_t_data = \
train_test_split(x_data,
                 t_data,
                 test_size=0.3,
                 stratify=t_data,
                 random_state=2)

# Model 생성
model = linear_model.LogisticRegression()

# Model 학습
model.fit(train_x_data, train_t_data)

# accuracy로 model 평가
test_score = model.score(test_x_data, test_t_data)

print('Logistic Regression Model의 정확도 : {}'.format(test_score))
# 0.9473684210526315

Logistic Regression Model의 정확도 : 0.9473684210526315


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [7]:
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# Raw Data Set Loading
cancer = load_breast_cancer()

x_data = cancer.data     # 2차원 ndarray - 독립변수, feature
t_data = cancer.target   # 1차원 ndarray - 종속변수, label

train_x_data, test_x_data, train_t_data, test_t_data = \
train_test_split(x_data,
                 t_data,
                 test_size=0.3,
                 stratify=t_data,
                 random_state=2)

# Model 생성
sgd = linear_model.SGDClassifier(loss='log',   # logistic regression을 이용
                                 tol=1e-5,     # loss 값의 차이가 tol값보다 작을 때까지 반복
                                 random_state=2)

# Model 학습
sgd.fit(train_x_data, train_t_data)

# Accuracy 측정
test_score = sgd.score(test_x_data, test_t_data)

print('SGDClassifier의 정확도 : {}'.format(test_score))
# 0.8947368421052632
# 왜 그럴까...???
# 정규화 안했다!  => 각 feature마다 scale이 제각각이다!


SGDClassifier의 정확도 : 0.8947368421052632
[[1.799e+01 1.038e+01 1.228e+02 ... 2.654e-01 4.601e-01 1.189e-01]
 [2.057e+01 1.777e+01 1.329e+02 ... 1.860e-01 2.750e-01 8.902e-02]
 [1.969e+01 2.125e+01 1.300e+02 ... 2.430e-01 3.613e-01 8.758e-02]
 ...
 [1.660e+01 2.808e+01 1.083e+02 ... 1.418e-01 2.218e-01 7.820e-02]
 [2.060e+01 2.933e+01 1.401e+02 ... 2.650e-01 4.087e-01 1.240e-01]
 [7.760e+00 2.454e+01 4.792e+01 ... 0.000e+00 2.871e-01 7.039e-02]]


In [9]:
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# Raw Data Set Loading
cancer = load_breast_cancer()

x_data = cancer.data     # 2차원 ndarray - 독립변수, feature
t_data = cancer.target   # 1차원 ndarray - 종속변수, label

train_x_data, test_x_data, train_t_data, test_t_data = \
train_test_split(x_data,
                 t_data,
                 test_size=0.3,
                 stratify=t_data,
                 random_state=2)

# Data 정규화
scaler = StandardScaler()
scaler.fit(train_x_data)

# Model 생성
sgd = linear_model.SGDClassifier(loss='log',   # logistic regression을 이용
                                 tol=1e-5,     # loss 값의 차이가 tol값보다 작을 때까지 반복
                                 random_state=2)

# Model 학습
sgd.fit(scaler.transform(train_x_data), train_t_data)

# Accuracy 측정
test_score = sgd.score(scaler.transform(test_x_data), test_t_data)

print('정규화를 이용한 SGDClassifier의 정확도 : {}'.format(test_score))
# 0.9649122807017544


정규화를 이용한 SGDClassifier의 정확도 : 0.9649122807017544


In [18]:
# 위의 코드에 L2 Regularization(규제)도 포함해보자!

import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# Raw Data Set Loading
cancer = load_breast_cancer()

x_data = cancer.data     # 2차원 ndarray - 독립변수, feature
t_data = cancer.target   # 1차원 ndarray - 종속변수, label

train_x_data, test_x_data, train_t_data, test_t_data = \
train_test_split(x_data,
                 t_data,
                 test_size=0.3,
                 stratify=t_data,
                 random_state=2)

# Data 정규화
scaler = StandardScaler()
scaler.fit(train_x_data)

# Model 생성
sgd = linear_model.SGDClassifier(loss='log',   # logistic regression을 이용
                                 tol=1e-5,     # loss 값의 차이가 tol값보다 작을 때까지 반복
                                 penalty='l2',  # L2 규제를 이용!
                                 alpha=0.001,   # 규제 강도
                                 random_state=2)

# Model 학습
sgd.fit(scaler.transform(train_x_data), train_t_data)

# Accuracy 측정
test_score = sgd.score(scaler.transform(test_x_data), test_t_data)

print('정규화와 규제를 이용한 SGDClassifier의 정확도 : {}'.format(test_score))
# 0.9707602339181286

# 규제를 이용하면 조금 더 나은 모델을 만들 수 있다.

정규화와 규제를 이용한 SGDClassifier의 정확도 : 0.9707602339181286


In [49]:
%reset

# BMI 예제 구현 - sklearn으로 먼저 구현하고 성능평가를 진행
# 성능평가의 metric은 accuracy로 진행
import numpy as np
import pandas as pd
from sklearn import linear_model
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from scipy import stats
import tensorflow as tf

# Raw Data Loading
df = pd.read_csv('../data/bmi.csv', skiprows=3)
# display(df.head())
print(df.shape)

Once deleted, variables cannot be recovered. Proceed (y/[n])? y
(20000, 3)


In [50]:
## 데이터 전처리

## 결측치 체크부터 해야한다!
# print(df.isnull().sum())   # 데이터에 결측치가 없다!

## 이상치 체크하고 이상치가 존재하면 처리해야 한다!
## z-score 방식으로 알아보자!
# zscore_threshold = 2.0

# (np.abs(stats.zscore(df['height'])) > zscore_threshold).sum() # => 0이면 이상치가 없다
# (np.abs(stats.zscore(df['weight'])) > zscore_threshold).sum() # => 이상치가 없다.
# np.unique(df['label'], return_counts=True)   # unique 값의 빈도를 알 수 있다.
# 이상치도 없고 데이터의 편향도 존재하지 않는다! 상태가 좋은 데이터이다!

# 정규화(Nomalization)를 해야한다!
# 일단 먼저 train data와 validation data를 분리한 후 정규화를 진행!
train_x_data, test_x_data, train_t_data, test_t_data = \
train_test_split(df[['height', 'weight']],
                 df['label'],
                 test_size=0.3,
                 random_state=1,
                 stratify=df['label'])

scaler = MinMaxScaler()
scaler.fit(train_x_data)

norm_train_x_data = scaler.transform(train_x_data)
norm_test_x_data = scaler.transform(test_x_data)

In [48]:
# Model 생성 후 학습 및 평가
model = linear_model.LogisticRegression(C=1000)
# 규제를 적용할 수 있다!(L2 규제)
# alpha값은 우리가 정해줘야 한다!
# C = 1 / alpha

model.fit(norm_train_x_data, train_t_data)

# 평가를 위한 예측 결과를 얻어낸다!
predict_val = model.predict(norm_test_x_data)
# 이렇게 나온 예측 결과와 test_t_data를 비교해야 한다!
acc = accuracy_score(predict_val, test_t_data)

print('sklearn으로 구한 Accuracy : {}'.format(acc))
# 0.9851666666666666

# predict
result = model.predict(scaler.transform(np.array([[187, 81]])))
print(result)   # [1] 표준이다!

sklearn으로 구한 Accuracy : 0.9845
[1]


  "X does not have valid feature names, but"


In [60]:
# Tensorflow를 이용해서 구현해보자!

# multinomial 문제이기 때문에 label을 one-hot encoding 처리 해야한다!
# train_t_data, test_t_data를 one-hot encoding으로 변경할건데..
# tensorflow의 기능을 이용해서 변경 => tensorflow node로 생성.
sess = tf.Session()

onehot_train_t_data = sess.run(tf.one_hot(train_t_data, depth=3))   # depth는 class의 개수
onehot_test_t_data = sess.run(tf.one_hot(test_t_data, depth=3))   # depth는 class의 개수

# tensorflow graph를 그려보자!
X = tf.placeholder(shape=[None,2], dtype=tf.float32)
T = tf.placeholder(shape=[None,3], dtype=tf.float32)

# Weight & bias
W = tf.Variable(tf.random.normal([2,3]))
b = tf.Variable(tf.random.normal([3]))

# model, Hypothesis
logit = tf.matmul(X,W) + b
H = tf.nn.softmax(logit)

# loss function
loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(logits=logit,
                                                                 labels=T))
# train
train = tf.train.GradientDescentOptimizer(learning_rate=1e-1).minimize(loss)

# session, 초기화
sess.run(tf.global_variables_initializer())

# 반복 학습
# 그런데 반복학습할 때 주의해야 할 점이 있다.
# 학습데이터의 사이즈가 매우 크면 메모리에 데이터를 한번에 모두 loading할 수 없다.
# memory fault나면서 수행이 중지!
# 어떻게 해결해야 하나요? => batch 처리를 해야 한다!
num_of_epoch = 1000   # 학습을 위한 전체 epoch 수
num_of_batch = 100    # 한번에 학습할 데이터 량

for step in range(num_of_epoch):
    total_batch = int(norm_train_x_data.shape[0] / num_of_batch)
    
    for i in range(total_batch):
        batch_x = norm_train_x_data[i*num_of_batch:(i+1)*num_of_batch]
        batch_y = onehot_train_t_data[i*num_of_batch:(i+1)*num_of_batch]
        _, loss_val = sess.run([train, loss],
                               feed_dict={X: batch_x,
                                          T: batch_y})
    if step % 100 == 0:
        print('loss value : {}'.format(loss_val))

# for step in range(10000):
#     _, loss_val = sess.run([train, loss], feed_dict={X: norm_train_x_data,
#                                                      T: onehot_train_t_data})
#     if step % 1000 == 0:
#         print('loss value : {}'.format(loss_val))

loss value : 0.8768877983093262
loss value : 0.1644938439130783
loss value : 0.12263288348913193
loss value : 0.10339578986167908
loss value : 0.09187238663434982
loss value : 0.08403457701206207
loss value : 0.07828311622142792
loss value : 0.0738421082496643
loss value : 0.0702851265668869
loss value : 0.06735719740390778


In [68]:
# 학습이 종료되었다!

# 성능평가를 해야한다!
# result = sess.run(H, feed_dict={X:scaler.transform(np.array([[187,81]]))})
# print(result)
# print(np.argmax(result, axis=1))   # 가장 큰 값의 index를 알려준다!

predict = tf.argmax(H,1)   # 가장 큰 값의 위치를 찾는다 axis=1
correct = tf.equal(predict, tf.argmax(T,1))
accuracy = tf.reduce_mean(tf.cast(correct, dtype=tf.float32))

result = sess.run(accuracy, feed_dict={X: norm_test_x_data,
                                       T: onehot_test_t_data})
print(result)   # 0.9855

0.9855
