<a href="https://colab.research.google.com/github/sturu1/THU-PM/blob/master/Copy_of_sung_lec03_logistic_regression(2)_diabetes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# logistic_regression 실습(1)
> 이번 시간에는 보다 많은 데이터에 대해 2개의 class를 분류(binary classification)하는 logistic regression 실습을 하겠습니다.

> 이 자료는 신체의 여러 측정치를 바탕으로 당뇨병(diabetes)를 예측하는 문제 입니다. 먼저 자료를 가져오도록 하겠습니다.  


* 자료출처: https://github.com/hunkim/DeepLearningZeroToAll/tree/master/keras




In [None]:
!wget https://raw.githubusercontent.com/hunkim/DeepLearningZeroToAll/master/keras/data-03-diabetes.csv

디렉토리에 다운받은 내용을 확인해 보겠습니다. 

In [None]:
!ls

다음으로 데이터 전처리 및 모델 생성을 위해 필요한 모듈을 불러옵니다. 

In [None]:
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import SGD
import numpy as np

데이터를 여러분의 작업공간으로 불러와서 전처리 작업을 하겠습니다. 

numpy의 `loadtxt()` 함수를 이용하여 디렉토리에 저장된 csv 파일을 xy 변수에 저장합니다. 

In [None]:
xy = np.loadtxt('data-03-diabetes.csv', delimiter=',', dtype=np.float32)

데이터의 내용과 모양을 확인해 볼까요? 

In [None]:
xy

In [None]:
xy.shape

데이터를 살펴보면, 총 759명의 개체(샘플)가 있으며, 각 샘플별로 8개의 입력 속성과 1개의 출력속성으로 구성되어 있음을 알 수 있습니다. 출력데이터의 값은 0 (정상)과 1 (당뇨병)으로 2진분류에 맞게 구성된 것을 알 수 있습니다.

또한, 입력데이터 값의 scale이 엇비슷 하므로 이 예제에서는 데이터 정규화(normalization)는 생략하겠습니다. 

In [None]:
np.min(xy, axis=0)

In [None]:
np.max(xy, axis=0)

이제 데이터를 입력과 출력데이터로 분활합니다. 

In [None]:
x_data = xy[:,:-1]
y_data = xy[:,[-1]]

각 입출력 데이터의 모양을 확인합니다. 

In [None]:
x_data.shape, y_data.shape

이제 모델을 생성하고 컴파일 하겠습니다. 

활성함수(activation function)로 2진분류의 결과를 도출하는 `simoid`, 손실함수(loss function)로 2진분류에 사용하는 `binary_crossentropy`를 사용함을 주의하시기 바랍니다. 

In [None]:
model = Sequential()
model.add(Dense(units=1, input_shape=(8,), activation='sigmoid'))
model.compile(optimizer=SGD(learning_rate=0.01), loss='binary_crossentropy', metrics=["accuracy"])

그럼, 모델의 정보를 확인해 볼까요? 

In [None]:
model.summary()

이제 총 500회의 반복을 통해 모델을 학습시키도록 하겠습니다. 

In [None]:
history = model.fit(x_data, y_data, epochs=500)

학습이 진행되는 동안 손실함수 값의 변화를 살펴보겠습니다.

In [None]:
import matplotlib.pyplot as plt
plt.plot(history.history["loss"])
plt.title("Loss")
plt.xlabel("epochs")
plt.ylabel("loss")
plt.show()

꾸준히 손실값이 감소되는 것을 알 수 있군요. 앞서 설명했듯이, 정확도 값의 변화가 없더라도 손실값은 지속해서 감소할 수 있으니 충분한 학습이 필요하겠죠? 

histroy.history 에는 학습기간동안 변화된 `loss` 값이 저장된다는 것은 이미 배웠습니다. 더불어 모델의 compile 시에 metric 값을 지정했을 경우 (본 예제에서는 `"accuracy"`) 지정된 지표에 대한 변화값 역시 저장하고 있습니다. 

history.history 변수는 dictionary 변수인데, 먼저 키값을 조회해 보지요. 

In [None]:
history.history.keys()

앞서 설명한 것 처럼, `loss`와 'accuracy'를 키로 가지고 있습니다. 

각 키에 대한 `'value'`로 반복학습 동안 변화된 값을 리스트로 갖습니다. 

In [None]:
history.history["accuracy"]

`'accuracy'`의 변화를 그래프로 그려볼까요?

In [None]:
plt.plot(history.history["accuracy"])
plt.title("Model Accuracy")
plt.xlabel("Epochs")
plt.ylabel("Accuracy")
plt.show()

학습이 진행되면서 정확도가 높아지는 것을 알 수 있네요. 

이제, 새로운 데이터에 대한 예측을 수행해 보겠습니다. 

다음과 같은 지표를 갖는 사람에 대해 당요병을 진단해 보시기 바랍니다. 

`[0.176471, 0.155779, 0, 0, 0, 0.052161, -0.952178, -0.733333]`

우선 입력데이터에 대한 sigmoid 함수 결과까지만 살펴 삭펴보겠습니다. 

In [None]:
y_predict = model.predict(np.array([[0.176471, 0.155779, 0, 0, 0, 0.052161, -0.952178, -0.733333]]))

In [None]:
print("Predict value: {0}".format(y_predict))

`predict` 값은 입력데이터에 대한 출력이 특정 클래스에 속할 확률로 생각할 수 있습니다. 따라서 'y_predict'값과 0.5를 비교하여 0 클래스인지, 1클래인지를 결정할 수 있습니다. 

입력데이터가 어떤 클래스에 속할 것인지 바로 살펴보려면, `model.predict_classes'라는 함수를 사용하면 됩니다. 

In [None]:
y_predict_class = model.predict_classes(np.array([[0.176471, 0.155779, 0, 0, 0, 0.052161, -0.952178, -0.733333]]))
print("predict class: ", y_predict_class)

위와 같은 입력데이터를 갖은 사람은 당뇨병이라고 진단하네요. 

이번 예제를 통해 여러분은 간단한 당뇨병 진단 모델을 개발하였습니다. 
수고많으셨습니다. 