# Logistic regression

**Note:** 이 `notebook`을 진행하기 이전에 다음과 같은 내용들을 미리 설명하여야 합니다. 
 1. 활성함수 (**activation function**): sigmoid, Relu, tanh
 2. 선형 회귀 (linear regression)과 로지스틱 회귀 (logistic regression)의 차이
 3. Loss function
 4. min-max normalization
 5. optimizer (learning rate)
 6. formants *(optional)*

이번에는 `선형 회귀 (linear regression)`과 비슷하지만 약간은 다른 `로지스틱 회귀 (logistic regression)` 모델을 살펴보겠습니다. 이번에 다룰 데이터는 Park & Jang (2016)에서 사용하였던 실제 데이터를 이용하여 영어 유음 /l/과 /r/을 구별하는 로지스틱 회귀 분석을 하는 모델을 만들어 보겠습니다. 이 모델은 발화된 음소의 `F2`와 `F3` 값을 이용하여서 발화된 음소가 /l/인지 /r/인지 구분하는 것을 그 목적으로 합니다. 
 - Seongjin Park, & Tae-Yeoub Jang. 2016. Acoustic characteristics of English liquids produced by Korean learners of English. *Studies in Phonetics, Phonology and Morphology* 22(2): 289-315.

데이터의 구조는 다음과 같습니다. 

In [463]:
%%bash
head data/liquid_regression.txt

Spk	Consonant	f2	f3
S1	retroflex	1441.277508	2869.284673
S1	retroflex	1196.771082	2455.18832
S1	retroflex	1171.343058	2062.017984
S1	retroflex	1328.246028	2539.038397
S1	retroflex	873.623052	2283.855398
S1	retroflex	1657.414313	3359.304476
S1	retroflex	1870.860324	2611.92996
S1	retroflex	1286.257271	2596.406174
S1	retroflex	821.9162893	1520.435742


## Load data

이전 `notebook`에서와 마찬가지로 데이터 파일을 불러와서 `data` 변수에 저장하도록 하겠습니다. 

In [425]:
with open("data/liquid_regression.txt", "r") as f:
    data = f.readlines()
    f.close()

`선형 회귀 (linear regression)`에서와 같이, 우리는 결과를 예측하기 위해서 사용할 값을 **X_data** 변수에, 실제 결과값을 **y_data** 변수에  각각 `<list>`의 형태로 저장하도록 하겠습니다. 실제 데이터에서 **retroflex**가 연속적으로 나타난 이후, **lateral**이 나오기 때문에, 이전 `notebook`의 경우와 같이 `training`,  `validation`, 그리고 `test` 데이터셋으로 적절하게 나누기 위해서는 먼저 데이터 순서를 무작위로 변경하도록 하겠습니다.

`로지스틱 회귀 (logistic regression)`에서 실제 결과값은 문자가 아닌 숫자로 주어져야 합니다. 그렇기 때문에 `/r/`을 0, `/l/`을 1의 숫자로 변경하도록 하겠습니다. 숫자를 정수형이 아닌 **float** 형태로 하기 위해, `0` 대신 `0.`, `1` 대신 `1.`을 사용하였습니다. 

In [2]:
import random

X_data = []
y_data = []

ndata = data[1:]
random.shuffle(ndata)

for i in ndata:

    line = i.strip()
    (spk, con, f2, f3) = line.split("\t")
    f2 = float(f2)
    f3 = float(f3)
    X = [f2, f3]

    if (con == "retroflex"):
        y = [0.]
    elif (con == "lateral"):
        y = [1.]
    X_data.append(X)
    y_data.append(y)

print(len(X_data))
print(X_data[0:20])
print(y_data[0:20])

NameError: name 'data' is not defined

## Split data

이전 `notebook`에서와 마찬가지로, 결과를 `training`, `validation`, 그리고 `test` 데이터셋으로 나누도록 하겠습니다. 

In [496]:
X_train = np.array(X_data[0:250])
y_train = np.array(y_data[0:250])

X_val = np.array(X_data[250:300])
y_val = np.array(y_data[250:300])

X_test = np.array(X_data[300:])
y_test = np.array(y_data[300:])

## Import modules

이전 `notebook`에서 사용하였던 것과 동일한 모듈들을 불러오겠습니다. 

In [435]:
import numpy as np
from keras import optimizers
from keras.layers import Dense
from keras.models import Sequential
from keras.callbacks import TensorBoard

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


## Build the model

앞에서와 마찬가지로 모델의 구조를 만들도록 하겠습니다. 이전 `notebook`에서는 하나의 값으로 하나의 값을 예측하였기 때문에, **`Dense`** layer의 입력값도 하나, 출력값도 하나였습니다. 이번에는 두 개의 값으로 하나의 값을 예측하기 때문에, **`Dense`** layer의 입력값은 두 개가 되고, 출력값은 하나가 됩니다. 

**Note:** 그렇기 때문에 이전에 `선형 회귀`에서는 모델의 구조가 $ax + b$ 의 구조였지만, 여기에서는 $ax_1 + bx_2 + c$의 구조를 갖게 됩니다. 

이전에 `선형 회귀 (linear regression)`에서는 예측값과 실제값을 비교할 때 `MSE (Mean Square Error)` 값을 사용하였습니다. 이번에는 `binary_crossentropy` 값을 사용하여, `이진 분류`에서 얼마나 오류가 발생하였는지를 예측값과 실제값을 이용하여 구하도록 하겠습니다. 그리고 최종 결과는 `accuracy`를 이용하여 주어진 데이터를 얼마나 잘 분류하였는지 확인하도록 하겠습니다. 

In [452]:
model = Sequential()

model.add(Dense(1, input_dim = 2, activation = 'sigmoid'))

adam = optimizers.Adam(lr=0.001)

model.compile(loss="binary_crossentropy", optimizer=adam, metrics = ['accuracy'])

model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_5 (Dense)              (None, 1)                 3         
Total params: 3
Trainable params: 3
Non-trainable params: 0
_________________________________________________________________


## Training the model

이전 `notebook`과 동일하게, 실제 `training` 데이터를 사용하여 모델을 학습시켜보겠습니다. 

In [498]:
tensorboard = TensorBoard(log_dir='./logs', histogram_freq = 0, 
                         write_graph=True, write_images=False)

model.fit(X_train, y_train, batch_size = 10, epochs = 100, verbose = 1, validation_data=(X_val, y_val), 
          shuffle = True, 
          callbacks=[tensorboard])

Train on 250 samples, validate on 50 samples
Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100


Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78/100
Epoch 79/100
Epoch 80/100
Epoch 81/100
Epoch 82/100
Epoch 83/100
Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<keras.callbacks.History at 0x7fcd434209b0>

## Evaluation

실제 값과 예측된 값 첫 10개를 비교해보겠습니다. 

In [461]:
predictions = model.predict(X_test)
for j in range(0, 10):
    print(y_test[j], predictions[j][0])

[0.] 0.0
[1.] 0.0
[1.] 0.0
[0.] 0.0
[1.] 0.0
[0.] 0.0
[0.] 0.0
[1.] 1.0
[0.] 0.0
[0.] 0.0


모델의 `loss`와 `accuracy`를 확인하겠습니다. 

In [459]:
score = model.evaluate(X_test, y_test, verbose = 0)

print("Test score:\t", score[0])
print("Test accuracy:\t", score[1])

Tet score:	 6.447238604227702
Test accuracy:	 0.599999996026357


## The effect of min-max normalization


실제 모델에서 **너무 큰 값**들을 이용하여서 `training` 및 `test`를 진행하였기 때문에 모델이 제대로 구축되지 않았을 수 있습니다. 그렇기 때문에 **`min-max normalization`** 을 사용하여서 모든 값이 **0~1**의 값을 갖도록 수정하겠습니다. 

**numpy** 기능들을 이용하여서 각각의 열의 **최대/최소값**을 이용하여서 `min-max normalization`을 실행하는 명령어를 설정하겠습니다. 


In [484]:
def minmax_scale(original_array, target_array):
    (min_f2, min_f3) = np.min(original_array, axis = 0)
    (max_f2, max_f3) = np.max(original_array, axis = 0)
    for i in range(0, len(original_array)):
        for j in range(0, len(original_array[i])):
            if (j == 0):
                target_array[i][j] = (original_array[i][j] - min_f2) / (max_f2 - min_f2)
            else:
                target_array[i][j] = (original_array[i][j] - min_f3) / (max_f3 - min_f3)
    return target_array
            



Then, we will convert X_data into min-max scaled data. 

In [501]:
X_zeros = np.zeros_like(X_data)
X_data = minmax_scale(X_data, X_zeros)

X_train = np.array(X_data[0:250])
y_train = np.array(y_data[0:250])

X_val = np.array(X_data[250:300])
y_val = np.array(y_data[250:300])

X_test = np.array(X_data[300:])
y_test = np.array(y_data[300:])

## Training model again

`min-max normalization`을 실행한 이후, 다시 모델을 학습시켜보겠습니다. `accuracy`가 상승하는 것을 확인할 수 있습니다. 

In [502]:
tensorboard = TensorBoard(log_dir='./logs', histogram_freq = 0, 
                         write_graph=True, write_images=False)

model.fit(X_train, y_train, batch_size = 100, epochs = 300, verbose = 1, validation_data=(X_val, y_val), 
          shuffle = True, 
          callbacks=[tensorboard])

Train on 250 samples, validate on 50 samples
Epoch 1/300
Epoch 2/300
Epoch 3/300
Epoch 4/300
Epoch 5/300
Epoch 6/300
Epoch 7/300
Epoch 8/300
Epoch 9/300
Epoch 10/300
Epoch 11/300
Epoch 12/300
Epoch 13/300
Epoch 14/300
Epoch 15/300
Epoch 16/300
Epoch 17/300
Epoch 18/300
Epoch 19/300
Epoch 20/300
Epoch 21/300
Epoch 22/300
Epoch 23/300
Epoch 24/300
Epoch 25/300
Epoch 26/300
Epoch 27/300
Epoch 28/300
Epoch 29/300
Epoch 30/300
Epoch 31/300
Epoch 32/300
Epoch 33/300
Epoch 34/300
Epoch 35/300
Epoch 36/300
Epoch 37/300
Epoch 38/300
Epoch 39/300
Epoch 40/300
Epoch 41/300
Epoch 42/300
Epoch 43/300
Epoch 44/300
Epoch 45/300
Epoch 46/300
Epoch 47/300
Epoch 48/300
Epoch 49/300
Epoch 50/300
Epoch 51/300
Epoch 52/300
Epoch 53/300
Epoch 54/300
Epoch 55/300
Epoch 56/300
Epoch 57/300
Epoch 58/300
Epoch 59/300
Epoch 60/300
Epoch 61/300
Epoch 62/300
Epoch 63/300
Epoch 64/300
Epoch 65/300
Epoch 66/300
Epoch 67/300
Epoch 68/300
Epoch 69/300
Epoch 70/300
Epoch 71/300
Epoch 72/300
Epoch 73/300
Epoch 74/300
Ep

Epoch 122/300
Epoch 123/300
Epoch 124/300
Epoch 125/300
Epoch 126/300
Epoch 127/300
Epoch 128/300
Epoch 129/300
Epoch 130/300
Epoch 131/300
Epoch 132/300
Epoch 133/300
Epoch 134/300
Epoch 135/300
Epoch 136/300
Epoch 137/300
Epoch 138/300
Epoch 139/300
Epoch 140/300
Epoch 141/300
Epoch 142/300
Epoch 143/300
Epoch 144/300
Epoch 145/300
Epoch 146/300
Epoch 147/300
Epoch 148/300
Epoch 149/300
Epoch 150/300
Epoch 151/300
Epoch 152/300
Epoch 153/300
Epoch 154/300
Epoch 155/300
Epoch 156/300
Epoch 157/300
Epoch 158/300
Epoch 159/300
Epoch 160/300
Epoch 161/300
Epoch 162/300
Epoch 163/300
Epoch 164/300
Epoch 165/300
Epoch 166/300
Epoch 167/300
Epoch 168/300
Epoch 169/300
Epoch 170/300
Epoch 171/300
Epoch 172/300
Epoch 173/300
Epoch 174/300
Epoch 175/300
Epoch 176/300
Epoch 177/300
Epoch 178/300
Epoch 179/300
Epoch 180/300
Epoch 181/300
Epoch 182/300
Epoch 183/300
Epoch 184/300
Epoch 185/300
Epoch 186/300
Epoch 187/300
Epoch 188/300
Epoch 189/300
Epoch 190/300
Epoch 191/300
Epoch 192/300
Epoch 

Epoch 241/300
Epoch 242/300
Epoch 243/300
Epoch 244/300
Epoch 245/300
Epoch 246/300
Epoch 247/300
Epoch 248/300
Epoch 249/300
Epoch 250/300
Epoch 251/300
Epoch 252/300
Epoch 253/300
Epoch 254/300
Epoch 255/300
Epoch 256/300
Epoch 257/300
Epoch 258/300
Epoch 259/300
Epoch 260/300
Epoch 261/300
Epoch 262/300
Epoch 263/300
Epoch 264/300
Epoch 265/300
Epoch 266/300
Epoch 267/300
Epoch 268/300
Epoch 269/300
Epoch 270/300
Epoch 271/300
Epoch 272/300
Epoch 273/300
Epoch 274/300
Epoch 275/300
Epoch 276/300
Epoch 277/300
Epoch 278/300
Epoch 279/300
Epoch 280/300
Epoch 281/300
Epoch 282/300
Epoch 283/300
Epoch 284/300
Epoch 285/300
Epoch 286/300
Epoch 287/300
Epoch 288/300
Epoch 289/300
Epoch 290/300
Epoch 291/300
Epoch 292/300
Epoch 293/300
Epoch 294/300
Epoch 295/300
Epoch 296/300
Epoch 297/300
Epoch 298/300
Epoch 299/300
Epoch 300/300


<keras.callbacks.History at 0x7fcd4343cd30>

## Evaluation

첫 20개의 실제 값과 예측된 값을 비교해보겠습니다. 

In [509]:
predictions = model.predict(X_test)
for j in range(0, 20):
    print(y_test[j], "\t", predictions[j][0], "\t", round(predictions[j][0]))

[1.] 	 0.5457557 	 1.0
[0.] 	 0.31999463 	 0.0
[0.] 	 0.4475377 	 0.0
[1.] 	 0.62982273 	 1.0
[1.] 	 0.6540006 	 1.0
[1.] 	 0.68327624 	 1.0
[1.] 	 0.681811 	 1.0
[0.] 	 0.5052919 	 1.0
[1.] 	 0.6862972 	 1.0
[0.] 	 0.46987912 	 0.0
[0.] 	 0.50035286 	 1.0
[0.] 	 0.36918986 	 0.0
[1.] 	 0.69166553 	 1.0
[0.] 	 0.32230976 	 0.0
[1.] 	 0.65236694 	 1.0
[0.] 	 0.36553663 	 0.0
[0.] 	 0.35776863 	 0.0
[0.] 	 0.4223056 	 0.0
[1.] 	 0.6796833 	 1.0
[1.] 	 0.69289535 	 1.0


학습된 모델의 `loss`와 `accuracy`를 비교해보겠습니다. 

In [504]:
score = model.evaluate(X_test, y_test, verbose = 0)

print("Test score:\t", score[0])
print("Test accuracy:\t", score[1])

Test score:	 0.5004931886990865
Test accuracy:	 0.900000003973643


최종 결과를 살펴보면, `min-max normalization`을 실시하였을 경우, 모델은 `retroflex /r/`과 `lateral /l/`을 이전보다 높은 정확도로 분류할 수 있었다는 것을 알 수 있습니다. 