In [98]:
import numpy as np
import pandas as pd
data = pd.read_csv('../Data/gpascore.csv')
data.head()

Unnamed: 0,admit,gre,gpa,rank
0,0,380.0,3.21,3
1,1,660.0,3.67,3
2,1,800.0,4.0,1
3,1,640.0,3.19,4
4,0,520.0,2.33,4


- admit : 합격여부 (1합격,0불합격)
- gre   : 영어성적
- gpa   : 학점
- rank  : 지원한 대학원 수준 (1이 좋은곳)

### Preprocessing(전처리)

In [99]:
# 결측치 확인
data.isna().sum()

admit    0
gre      1
gpa      0
rank     0
dtype: int64

In [100]:
# 결측치 데이터 삭제
data.dropna(inplace=True)
data.isna().sum()

admit    0
gre      0
gpa      0
rank     0
dtype: int64

In [101]:
# rank 종류
sorted(data['rank'].unique())

[1, 2, 3, 4]

In [102]:
# 영어 점수의 최소값과 최대값
print('최대값 :',data['gre'].max())
print('최소값 :',data['gre'].min())

최대값 : 800.0
최소값 : 220.0


In [103]:
# 합격여부 데이터 빈도수 확인
print('합격여부 수 :', data[data['admit']==1].count())
print('-'*35)
print('불합격여부 수 :', data[data['admit']!=1].count())

합격여부 수 : admit    201
gre      201
gpa      201
rank     201
dtype: int64
-----------------------------------
불합격여부 수 : admit    224
gre      224
gpa      224
rank     224
dtype: int64


In [104]:
data[data['admit']==1].count() / data[data['admit']!=1].count()
# 약 90% 이므로 target으로 충분하다 

admit    0.897321
gre      0.897321
gpa      0.897321
rank     0.897321
dtype: float64

### Train Data 만들기

In [105]:
x = data[['gre','gpa','rank']]
x.head()

Unnamed: 0,gre,gpa,rank
0,380.0,3.21,3
1,660.0,3.67,3
2,800.0,4.0,1
3,640.0,3.19,4
4,520.0,2.33,4


In [106]:
y = data['admit']
y.head()

0    0
1    1
2    1
3    1
4    0
Name: admit, dtype: int64

### Deep Learning Model 만들기

In [107]:
from tensorflow import keras

In [108]:
model = keras.Sequential()
model.add(keras.layers.Dense(256,activation='tanh', input_shape=(3,))) # column이 3개 = 은닉층3개 , 출력층1개 = y(admit) 
#Dense() < 이 값은 대충 임의로 넣은거임 // 지금은 아무거나 tanh로 한번 해보는거임 

model.add(keras.layers.Dense(1,activation='sigmoid')) # column이 3개 = 은닉층3개 , 출력층1개 = y(admit) 
#여기는 출력층, 여기는 출력값이 0 아니면 1이니까 sigmoid 로 해야댐 

In [109]:
# 컴파일 시키기 
model.compile(optimizer='adam',loss='binary_crossentropy', metrics = ['accuracy'])

In [110]:
# 학습시키기
model.fit(np.array(x), np.array(y), epochs=500, verbose=1)

Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78

<keras.callbacks.History at 0x28c23f280>

In [111]:
model.evaluate(np.array(x), np.array(y))



[0.5672997236251831, 0.7082353234291077]

In [112]:
# 예측하기

# gre : 700, 학점: 3.7, Rank:4 학교 ?

model.predict([
    [700, 3.7,1],
    [700, 3.7,2],
    [700, 3.7,3],
    [700, 3.7,4]
])



array([[0.7171188 ],
       [0.69053817],
       [0.6552539 ],
       [0.60897243]], dtype=float32)

In [113]:
# 예측하기

# gre : 400, 학점: 2.2, Rank:1 학교 ?

model.predict([
    [400, 2.2,4],
    [400, 2.2,3],
    [400, 2.2,2],
    [400, 2.2,1]
])



array([[0.06788979],
       [0.09939184],
       [0.1450179 ],
       [0.20612322]], dtype=float32)