## 다중 선형 회귀


In [62]:
# 다중 선형 회귀

# 오존 데이터 활용

# 1. 필요한 module 불러들이기
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
# scikit-learn
#     모델을 쉽게 다룰 수 있을 뿐만 아니라 데이터 핸들링에서도 도움이 된다.
#     데이터 정규화하는 데 사용할 예정
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Flatten, Dense
from tensorflow.keras.optimizers import Adam
# optimizer
#     w와 b를 수정하기 위한 옵티마이저
#     SGD : Gredient Descent의 다음 버전. 좋은 건 아닌데, 그래도 좋아진 버전
#     Adam
#         옵티마이저들의 장점들만 모아놓은 버전. 사람들이 많이 사용한다.
# 그림은 못 그려. 데이터가 4차원이라서. 그래서 그래프 그리는 건 패스


In [63]:
# 2. Raw Data Loading
raw_data = pd.read_csv('./data/ozone.csv')
display(raw_data.head(), raw_data.shape) # 출력 : (153, 6)

# 결측치 처리 => 그냥 삭제하자.
raw_data = raw_data.dropna(how='any')
display(raw_data.head(), raw_data.shape) # 출력 : (111, 6)

# 이상치는 반드시 처리를 해야 전체 데이터가 안 망가지는데, 일단은 처리하지 말자.

# 정규화
#     MinMaxScaling으로 진행하기
scaler_x = MinMaxScaler()
scaler_t = MinMaxScaler()

# scaler한테 최댓값과 최솟값을 알려줘야 이 놈이 정보를 가지고 정규화를 진행한다.
scaler_x.fit(raw_data[['Solar.R', 'Wind', 'Temp']].values)
scaler_t.fit(raw_data['Ozone'].values.reshape(-1, 1))
#     scaler에게 정보를 줄 때는 2차원 matrix로 줘야 한다.
#     단순히 ['Ozone'] 이라고만 하면 Series 라서 reshape을 해줘야하는 것


Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
0,41.0,190.0,7.4,67,5,1
1,36.0,118.0,8.0,72,5,2
2,12.0,149.0,12.6,74,5,3
3,18.0,313.0,11.5,62,5,4
4,,,14.3,56,5,5


(153, 6)

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
0,41.0,190.0,7.4,67,5,1
1,36.0,118.0,8.0,72,5,2
2,12.0,149.0,12.6,74,5,3
3,18.0,313.0,11.5,62,5,4
6,23.0,299.0,8.6,65,5,7


(111, 6)

In [16]:
# 3. Training Data Set
x_data = scaler_x.transform(raw_data[['Solar.R', 'Wind', 'Temp']].values)
print(x_data)
t_data = scaler_t.transform(raw_data[['Ozone']].values.reshape(-1, 1))
print(t_data)

[[0.55963303 0.27717391 0.25      ]
 [0.33944954 0.30978261 0.375     ]
 [0.43425076 0.55978261 0.425     ]
 [0.93577982 0.5        0.125     ]
 [0.89296636 0.3423913  0.2       ]
 [0.28134557 0.625      0.05      ]
 [0.03669725 0.9673913  0.1       ]
 [0.76146789 0.40217391 0.3       ]
 [0.86544343 0.375      0.225     ]
 [0.81651376 0.4673913  0.275     ]
 [0.17737003 0.5923913  0.025     ]
 [1.         0.5        0.175     ]
 [0.91743119 0.52717391 0.225     ]
 [0.21712538 0.875      0.        ]
 [0.96330275 0.5        0.275     ]
 [0.11314985 0.40217391 0.125     ]
 [0.0030581  0.40217391 0.05      ]
 [0.95718654 0.77717391 0.4       ]
 [0.05504587 0.40217391 0.1       ]
 [0.25993884 0.52717391 0.1       ]
 [0.01834862 0.52717391 0.25      ]
 [0.74923547 0.68478261 0.6       ]
 [0.66055046 0.18478261 0.55      ]
 [0.83180428 0.27717391 0.475     ]
 [0.36697248 0.40217391 0.625     ]
 [0.86850153 0.625      0.825     ]
 [0.96636086 0.5        0.75      ]
 [0.43119266 0.30978261 0.62

In [18]:
# 이제 이 아래 부분들만 잘 설정해줘도 Model이 나온다.
#     그런데 실패하는 이유는 대부분 데이터 핸들링이 제대로 안 됐기 때문이다.

# Model
model = Sequential()

# Layer 추가
model.add(Flatten(input_shape=(3,)))
model.add(Dense(1, activation='linear'))

# Model 설정
model.compile(optimizer=Adam(learning_rate=1e-4), loss='mse')

# Model 학습
model.fit(x_data, t_data, epochs=2000, verbose=0)
#     출력 : <keras.callbacks.History at 0x1e5b9b8b640>


<keras.callbacks.History at 0x1e5b9b8b640>

In [19]:
# 우리 모델이 잘 만들어졌는지, 좋은 모델인지 평가하기
# 적당한 평가 기준이 없기 때문에 지금은 일단 넘어가자.


In [23]:
# 모델이 완성됐으니, 예측 작업 시작
# 예측하고자 하는 목표 : 태양광 150, 바람 10, 온도 80 일 경우의 오존량
predict_data = np.array([[150.0, 10.0, 80.0]])
scaled_predict_data = scaler_x.transform(predict_data)
print(scaled_predict_data) # 출력 : [[0.43730887 0.41847826 0.575     ]]
result = model.predict(scaled_predict_data)
print(result)
# 출력
#     1/1 [==============================] - 0s 58ms/step
#     [[0.20896652]]
final_result = scaler_t.inverse_transform(result)
# transfrom
#     정규화. 0과 1 사이의 값으로 변환
# inverse_transform
#     역정규화
print(final_result) # 출력 : [[35.897408]]

[[0.43730887 0.41847826 0.575     ]]
[[0.20896652]]
[[35.897408]]


## Logistic Regression 구현 예제
### Binary Classification

In [64]:
# Logistic Regression 구현하기
# Binary Classification(이항분류)

# admission.zip

# 필요한 모듈 불러오기
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler # 정규화
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Flatten, Dense
from tensorflow.keras.optimizers import Adam
#     옵티마이저 뭐 쓸 지 잘 모르겠으면 그냥 Adam 쓰면 된다.


In [65]:
# Raw Data Loading + Data Preprocessing

# 데이터 전처리 중 반드시 해야할 3가지
# 1. 결측치
# 2. 이상치
# 3. 정규화

df = pd.read_csv('./data/admission.csv')
display(df.head(), df.shape) # 출력 : (400, 4)
#     admit : 합격여부 (종속변수)
#     gre, gpa : 시험 과목 성적
#     rank : 등급(사용 안 할 예정)

# 1. 결측치 처리
print(df.info()) # data frame에 대한 정보 출력
# Non-Null Count
#     non-null인 데이터의 개수
#     모두 400개로 나오기 때문에, 결측치 없음을 확인

# 2. 이상치 처리
# 이상치 처리 방법
# 가장 대표적인 방법 2가지
#     1. Tukey Fence
#         4분위를 이용하는 방법
#     2. Z-Score 방식
#         정규분포를 이용하는 방법
# 우리는 2번 Z-Score 방식을 활용해보자.
#     코드는 교수님께서 제공해주심

# Z-Score 방식으로 이상치 처리하기
from scipy import stats
zscore_threshold = 2.0 # zscore outliers 임계값 (2.0이하가 optimal)
for col in df.columns:
    outliers = df[col][(np.abs(stats.zscore(df[col])) > zscore_threshold)]
    df = df.loc[~df[col].isin(outliers)]
print(df.shape)  # (382, 4)
#     18개의 이상치를 발견해서 제거한 것

# 3. 정규화 작업
scaler = MinMaxScaler()
scaler.fit(df[['gre', 'gpa']].values) # fancy indexing 써서 두 열 뽑아오기

Unnamed: 0,admit,gre,gpa,rank
0,0,380,3.61,3
1,1,660,3.67,3
2,1,800,4.0,1
3,1,640,3.19,4
4,0,520,2.93,4


(400, 4)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   admit   400 non-null    int64  
 1   gre     400 non-null    int64  
 2   gpa     400 non-null    float64
 3   rank    400 non-null    int64  
dtypes: float64(1), int64(3)
memory usage: 12.6 KB
None
(382, 4)


In [66]:
# Training Data Set
x_data = scaler.transform(df[['gre', 'gpa']].values)
# print(x_data)
# 출력
#     앞열은 gre점수, 뒷열은 gpa점수
t_data = df['admit'].values.reshape(-1, 1)
# 정규화가 필요없다. 그냥 가져오면 됨


In [67]:
# Model
model = Sequential()

# Model에 Layer 추가
# 독립변수의 개수만큼 input layer의 동그라미가 있어야 한다.
# 지금 독립변수 2개니까 동그라미 2개 사용
model.add(Flatten(input_shape=(2,)))
model.add(Dense(1, activation='sigmoid'))
# linear
#     예전에는 결과값을 그대로 내보냈다.
# sigmoid
#     이제는 결과값을 sigmoid라는 함수에 넣어서 내보낸다.

# Model 설정
model.compile(optimizer=Adam(learning_rate=1e-4), loss='binary_crossentropy')
# loss
#     binary_crossentropy
#     loss 계산식의 종류.

# Model 학습
model.fit(x_data, t_data, epochs=2000, verbose=0)
# 출력
#     <keras.callbacks.History at 0x1e5bb10bcd0>


<keras.callbacks.History at 0x1e5c2a95580>

## 만들어진 모델 평가하기

In [43]:
# 예측하기
# 성적이 550, 3.5 일 때의 합격여부 알아보기

# 정규화
predict_data = np.array([[550.0, 3.5]])
scaled_predict_data = scaler.transform(predict_data)
result = model.predict(scaled_predict_data)
print(result)
# 출력
#     [[0.30640313]]
#     합격할 확률이 0.3 정도 된다고 판단할 수 있다.


[[0.30640313]]


## Metric 적용하기

In [72]:
# Training Data Set
x_data = scaler.transform(df[['gre', 'gpa']].values)
t_data = df['admit'].values.reshape(-1, 1)

from sklearn.model_selection import train_test_split
x_data_train, x_data_test, t_data_train, t_data_test = \
    train_test_split(x_data, t_data, test_size=0.2)
# 역슬래시 '\' 는 코드가 아랫줄에 이어져있다는 의미


In [73]:
# Model
model = Sequential()

# Model에 Layer 추가
model.add(Flatten(input_shape=(2,)))
model.add(Dense(1, activation='sigmoid'))

# Model 설정
model.compile(optimizer=Adam(learning_rate=1e-3), loss='binary_crossentropy',
              metrics=['accuracy'])

# Model 학습
model.fit(x_data_train, t_data_train, epochs=500,
          validation_split=0.2,
          verbose=1)
# validation_split=0.2
#     metrics 와 연결되어있는 속성
# verbose=1
#     과정을 출력하기
# 출력
# 10/10 [==============================] - 0s 5ms/step - loss: 0.6143 - accuracy: 0.6754 - val_loss: 0.6022 - val_accuracy: 0.6883
#     <keras.callbacks.History at 0x1e5bc346d90>
#     val_accuracy 가 제일 중요하다. 0.68정도 이상으로는 올라가지 않네

# Hyper Parameter 튜닝
# 가장 좋은 솔루션을 찾아낼 때까지 이것저것 계속 바꿔보기


Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500


Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78/500
Epoch 79/500
Epoch 80/500
Epoch 81/500
Epoch 82/500
Epoch 83/500
Epoch 84/500
Epoch 85/500
Epoch 86/500
Epoch 87/500
Epoch 88/500
Epoch 89/500
Epoch 90/500
Epoch 91/500
Epoch 92/500
Epoch 93/500
Epoch 94/500
Epoch 95/500
Epoch 96/500
Epoch 97/500
Epoch 98/500
Epoch 99/500
Epoch 100/500
Epoch 101/500
Epoch 102/500
Epoch 103/500
Epoch 104/500
Epoch 105/500
Epoch 106/500
Epoch 107/500
Epoch 108/500
Epoch 109/500
Epoch 110/500
Epoch 111/500
Epoch 112/500
Epoch 113/500
Epoch 114/500
Epoch 115/500
Epoch 116/500
Epoch 117/500


Epoch 118/500
Epoch 119/500
Epoch 120/500
Epoch 121/500
Epoch 122/500
Epoch 123/500
Epoch 124/500
Epoch 125/500
Epoch 126/500
Epoch 127/500
Epoch 128/500
Epoch 129/500
Epoch 130/500
Epoch 131/500
Epoch 132/500
Epoch 133/500
Epoch 134/500
Epoch 135/500
Epoch 136/500
Epoch 137/500
Epoch 138/500
Epoch 139/500
Epoch 140/500
Epoch 141/500
Epoch 142/500
Epoch 143/500
Epoch 144/500
Epoch 145/500
Epoch 146/500
Epoch 147/500
Epoch 148/500
Epoch 149/500
Epoch 150/500
Epoch 151/500
Epoch 152/500
Epoch 153/500
Epoch 154/500
Epoch 155/500
Epoch 156/500
Epoch 157/500
Epoch 158/500
Epoch 159/500
Epoch 160/500
Epoch 161/500
Epoch 162/500
Epoch 163/500
Epoch 164/500
Epoch 165/500
Epoch 166/500
Epoch 167/500
Epoch 168/500
Epoch 169/500
Epoch 170/500
Epoch 171/500
Epoch 172/500
Epoch 173/500
Epoch 174/500
Epoch 175/500


Epoch 176/500
Epoch 177/500
Epoch 178/500
Epoch 179/500
Epoch 180/500
Epoch 181/500
Epoch 182/500
Epoch 183/500
Epoch 184/500
Epoch 185/500
Epoch 186/500
Epoch 187/500
Epoch 188/500
Epoch 189/500
Epoch 190/500
Epoch 191/500
Epoch 192/500
Epoch 193/500
Epoch 194/500
Epoch 195/500
Epoch 196/500
Epoch 197/500
Epoch 198/500
Epoch 199/500
Epoch 200/500
Epoch 201/500
Epoch 202/500
Epoch 203/500
Epoch 204/500
Epoch 205/500
Epoch 206/500
Epoch 207/500
Epoch 208/500
Epoch 209/500
Epoch 210/500
Epoch 211/500
Epoch 212/500
Epoch 213/500
Epoch 214/500
Epoch 215/500
Epoch 216/500
Epoch 217/500
Epoch 218/500
Epoch 219/500
Epoch 220/500
Epoch 221/500
Epoch 222/500
Epoch 223/500
Epoch 224/500
Epoch 225/500
Epoch 226/500
Epoch 227/500
Epoch 228/500
Epoch 229/500
Epoch 230/500
Epoch 231/500
Epoch 232/500
Epoch 233/500


Epoch 234/500
Epoch 235/500
Epoch 236/500
Epoch 237/500
Epoch 238/500
Epoch 239/500
Epoch 240/500
Epoch 241/500
Epoch 242/500
Epoch 243/500
Epoch 244/500
Epoch 245/500
Epoch 246/500
Epoch 247/500
Epoch 248/500
Epoch 249/500
Epoch 250/500
Epoch 251/500
Epoch 252/500
Epoch 253/500
Epoch 254/500
Epoch 255/500
Epoch 256/500
Epoch 257/500
Epoch 258/500
Epoch 259/500
Epoch 260/500
Epoch 261/500
Epoch 262/500
Epoch 263/500
Epoch 264/500
Epoch 265/500
Epoch 266/500
Epoch 267/500
Epoch 268/500
Epoch 269/500
Epoch 270/500
Epoch 271/500
Epoch 272/500
Epoch 273/500
Epoch 274/500
Epoch 275/500
Epoch 276/500
Epoch 277/500
Epoch 278/500
Epoch 279/500
Epoch 280/500
Epoch 281/500
Epoch 282/500
Epoch 283/500
Epoch 284/500
Epoch 285/500
Epoch 286/500
Epoch 287/500
Epoch 288/500
Epoch 289/500
Epoch 290/500
Epoch 291/500


Epoch 292/500
Epoch 293/500
Epoch 294/500
Epoch 295/500
Epoch 296/500
Epoch 297/500
Epoch 298/500
Epoch 299/500
Epoch 300/500
Epoch 301/500
Epoch 302/500
Epoch 303/500
Epoch 304/500
Epoch 305/500
Epoch 306/500
Epoch 307/500
Epoch 308/500
Epoch 309/500
Epoch 310/500
Epoch 311/500
Epoch 312/500
Epoch 313/500
Epoch 314/500
Epoch 315/500
Epoch 316/500
Epoch 317/500
Epoch 318/500
Epoch 319/500
Epoch 320/500
Epoch 321/500
Epoch 322/500
Epoch 323/500
Epoch 324/500
Epoch 325/500
Epoch 326/500
Epoch 327/500
Epoch 328/500
Epoch 329/500
Epoch 330/500
Epoch 331/500
Epoch 332/500
Epoch 333/500
Epoch 334/500
Epoch 335/500
Epoch 336/500
Epoch 337/500
Epoch 338/500
Epoch 339/500
Epoch 340/500
Epoch 341/500
Epoch 342/500
Epoch 343/500
Epoch 344/500
Epoch 345/500
Epoch 346/500
Epoch 347/500
Epoch 348/500
Epoch 349/500


Epoch 350/500
Epoch 351/500
Epoch 352/500
Epoch 353/500
Epoch 354/500
Epoch 355/500
Epoch 356/500
Epoch 357/500
Epoch 358/500
Epoch 359/500
Epoch 360/500
Epoch 361/500
Epoch 362/500
Epoch 363/500
Epoch 364/500
Epoch 365/500
Epoch 366/500
Epoch 367/500
Epoch 368/500
Epoch 369/500
Epoch 370/500
Epoch 371/500
Epoch 372/500
Epoch 373/500
Epoch 374/500
Epoch 375/500
Epoch 376/500
Epoch 377/500
Epoch 378/500
Epoch 379/500
Epoch 380/500
Epoch 381/500
Epoch 382/500
Epoch 383/500
Epoch 384/500
Epoch 385/500
Epoch 386/500
Epoch 387/500
Epoch 388/500
Epoch 389/500
Epoch 390/500
Epoch 391/500
Epoch 392/500
Epoch 393/500
Epoch 394/500
Epoch 395/500
Epoch 396/500
Epoch 397/500
Epoch 398/500
Epoch 399/500
Epoch 400/500
Epoch 401/500
Epoch 402/500
Epoch 403/500
Epoch 404/500
Epoch 405/500
Epoch 406/500
Epoch 407/500


Epoch 408/500
Epoch 409/500
Epoch 410/500
Epoch 411/500
Epoch 412/500
Epoch 413/500
Epoch 414/500
Epoch 415/500
Epoch 416/500
Epoch 417/500
Epoch 418/500
Epoch 419/500
Epoch 420/500
Epoch 421/500
Epoch 422/500
Epoch 423/500
Epoch 424/500
Epoch 425/500
Epoch 426/500
Epoch 427/500
Epoch 428/500
Epoch 429/500
Epoch 430/500
Epoch 431/500
Epoch 432/500
Epoch 433/500
Epoch 434/500
Epoch 435/500
Epoch 436/500
Epoch 437/500
Epoch 438/500
Epoch 439/500
Epoch 440/500
Epoch 441/500
Epoch 442/500
Epoch 443/500
Epoch 444/500
Epoch 445/500
Epoch 446/500
Epoch 447/500
Epoch 448/500
Epoch 449/500
Epoch 450/500
Epoch 451/500
Epoch 452/500
Epoch 453/500
Epoch 454/500
Epoch 455/500
Epoch 456/500
Epoch 457/500
Epoch 458/500
Epoch 459/500
Epoch 460/500
Epoch 461/500
Epoch 462/500
Epoch 463/500
Epoch 464/500
Epoch 465/500


Epoch 466/500
Epoch 467/500
Epoch 468/500
Epoch 469/500
Epoch 470/500
Epoch 471/500
Epoch 472/500
Epoch 473/500
Epoch 474/500
Epoch 475/500
Epoch 476/500
Epoch 477/500
Epoch 478/500
Epoch 479/500
Epoch 480/500
Epoch 481/500
Epoch 482/500
Epoch 483/500
Epoch 484/500
Epoch 485/500
Epoch 486/500
Epoch 487/500
Epoch 488/500
Epoch 489/500
Epoch 490/500
Epoch 491/500
Epoch 492/500
Epoch 493/500
Epoch 494/500
Epoch 495/500
Epoch 496/500
Epoch 497/500
Epoch 498/500
Epoch 499/500
Epoch 500/500


<keras.callbacks.History at 0x1e5bec9b1c0>

In [70]:
# 평가하기
# 위에서 여러가지 방법으로 (하이퍼 파라미터를 수정하는 방법) 모델을 완성시킨 후,
# 최종적으로 우리 모델의 정확도를 계산한다.
eval_result = model.evaluate(x_data_test, t_data_test)
print(eval_result) # 출력 : [0.6548946499824524, 0.6233766078948975]


[0.6548946499824524, 0.6233766078948975]


In [75]:
# 예측하기
# 성적이 550, 3.5 일 때의 합격여부 알아보기

# 정규화
predict_data = np.array([[550.0, 3.5]])
scaled_predict_data = scaler.transform(predict_data)
result = model.predict(scaled_predict_data)
print(result)
# 출력 : [[0.32131314]]


[[0.32131314]]
