In [1]:
import pandas as pd
data = pd.read_csv('data/gpascore.csv')
data.head()

Unnamed: 0,admit,gre,gpa,rank
0,0,380.0,3.21,3
1,1,660.0,3.67,3
2,1,800.0,4.0,1
3,1,640.0,3.19,4
4,0,520.0,2.33,4


admit: 합격여부   
gre: 영어성적   
gpa: 학점   
rank: 지원한 대학원 수준

In [2]:
# gre, gpa group by rank
data.groupby('rank').mean()

Unnamed: 0_level_0,admit,gre,gpa
rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0.602941,630.447761,3.502206
2,0.43038,601.64557,3.34462
3,0.503876,579.844961,3.443411
4,0.394366,570.28169,3.268028


## Preprocessing(전처리)

In [3]:
# 결측치 확인
data.isnull().sum()

admit    0
gre      1
gpa      0
rank     0
dtype: int64

In [4]:
# 결측치가 하나 뿐이니 지우고 가자
data = data.dropna()
data.isnull().sum()

# 결측치를 평균으로 대체 > 이미 제거해버려서 없음
data.fillna(data.mean(), inplace=True)

In [5]:
# rank의 종류 파악
sorted(data['rank'].unique())

[1, 2, 3, 4]

In [6]:
# 영어점수 최소값 최대값 파악
data['gre'].min(), data['gre'].max()

(220.0, 800.0)

In [7]:
# gpa 최소값 최대값 파악
data['gpa'].min(), data['gpa'].max()

(2.12, 4.0)

In [8]:
# X와 Y 나누기
x = data[['gre', 'gpa', 'rank']]
y = data['admit']

In [9]:
x.count()

gre     425
gpa     425
rank    425
dtype: int64

> 입력층(=column갯수): 3개   
> 출력층(=target column): 1개 - 2진분류  
> 현재 레이어: 1개(입력층은 층으로 안 침. 출력층 1개)   
> 2진분류이므로 softmax가 아니라 sigmoid를 쓰면 됨   
> 이제 히든 레이어를 하나 만들 예정(2개 층이 될 것)   

---
### Deep Learning Model 만들기

In [10]:
from tensorflow import keras

## 아래부터는 03번에 비해 좀 옛날 방식인데 중간 데이터 보기 좋음

In [23]:
input_layer = keras.layers.InputLayer(input_shape=(3,))
hidden_layer = keras.layers.Dense(256, activation='tanh')
output_layer = keras.layers.Dense(1, activation='sigmoid')

In [31]:
model = keras.Sequential([input_layer, hidden_layer, output_layer])

In [32]:
# 손실함수
model.compile(
  loss='binary_crossentropy', # 손실함수. sparse는 못 씀 - 이진 분류를 사용하므로 binary_crossentropy를 사용
  optimizer='adam',
  metrics=['accuracy']
)

##### 현재 데이터가 numpy가 아닌 pandas에 들어있어서 못 씀. numpy로 바꿔야 함

In [34]:
import numpy as np

# 학습하기
model.fit(np.array(x), np.array(y), epochs=500)
# verbose=0은 훈련 데이터를 출력하지 않음(지금 어느정도 진행중인지도 파악 불가)

Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78

<keras.callbacks.History at 0x7f9f4f95e450>

In [35]:
# hidden layer의 가중치 값 출력
hidden_layer.get_weights()[0]

array([[-0.07133334, -0.0137394 ,  0.03636187, -0.11957747, -0.02503796,
         0.06375796,  0.03377645, -0.13362649, -0.04743797,  0.04708387,
         0.13259071,  0.07117869,  0.0517599 , -0.03801563,  0.06995015,
        -0.08817555, -0.03092746,  0.10777268,  0.03673236, -0.02482302,
        -0.13832876, -0.05444527, -0.14014368, -0.01442202, -0.11258204,
        -0.10075366,  0.08192697,  0.08943719, -0.00211698,  0.04849324,
         0.03655443,  0.01257276,  0.10168779, -0.13283558, -0.01295753,
        -0.14382635, -0.05352475,  0.12002659, -0.1480402 ,  0.0720312 ,
         0.043551  , -0.11676045,  0.07627261, -0.02788122, -0.11835654,
         0.12480739,  0.11878514,  0.11036986, -0.03918573, -0.04302409,
        -0.05437382, -0.06754267,  0.14126399, -0.10082182, -0.05234389,
         0.09647086, -0.06669066, -0.04508606, -0.08242364,  0.03848323,
         0.08699813,  0.03640505,  0.01736211,  0.0820588 ,  0.07197757,
        -0.14016269, -0.04590001,  0.00376545,  0.1

In [39]:
hidden_layer.get_weights()[0].shape

(3, 256)

In [41]:
len(hidden_layer.get_weights())

2

In [37]:
# hidden layer의 출력 확인하기
intermediate_layer_model = keras.Model(inputs=model.input, outputs=model.layers[0].output)
intermediate_output = intermediate_layer_model(np.array(x))

In [38]:
intermediate_output

<tf.Tensor: shape=(425, 256), dtype=float32, numpy=
array([[-1.       , -0.9999927,  1.       , ..., -1.       , -1.       ,
        -1.       ],
       [-1.       , -1.       ,  1.       , ..., -1.       , -1.       ,
        -1.       ],
       [-1.       , -1.       ,  1.       , ..., -1.       , -1.       ,
        -1.       ],
       ...,
       [-1.       , -0.9999994,  1.       , ..., -1.       , -1.       ,
        -1.       ],
       [-1.       , -1.       ,  1.       , ..., -1.       , -1.       ,
        -1.       ],
       [-1.       , -1.       ,  1.       , ..., -1.       , -1.       ,
        -1.       ]], dtype=float32)>