In [1]:
# Admission 예제

import numpy as np
import pandas as pd
import tensorflow as tf
from scipy import stats
from sklearn.preprocessing import MinMaxScaler
from sklearn import linear_model
import matplotlib.pyplot as plt

# python 구현을 위한 수치미분함수가 필요!
# 수치미분함수(for python)
def numerical_derivative(f,x):
    
    # f : 미분하려고 하는 다변수 함수(loss 함수)
    # x : 모든 값을 포함하는 numpy array => [W, b] 
    delta_x = 1e-4
    derivative_x = np.zeros_like(x)    # [0 0]
    
    it = np.nditer(x, flags=['multi_index'])
    
    while not it.finished:
        
        idx = it.multi_index   # 현재의 iterator의 index를 추출 => tuple형태로 나와요
        
        tmp = x[idx]     # 현재 index의 값을 잠시 보존.
                         # delta_x를 이용한 값으로 ndarray를 수정한 후 편미분을 계산
                         # 함수값을 계산한 후 원상복구를 해 줘야 다음 독립변수에
                         # 대한 편미분을 정상적으로 수행할 수 있어요!
        x[idx] = tmp + delta_x        
        fx_plus_delta = f(x)    # f([1.00001, 2.0])   => f(x + delta_x)
        

        x[idx] = tmp - delta_x
        fx_minus_delta = f(x)    # f([0.99999, 2.0])   => f(x - delta_x)
        
        derivative_x[idx] = (fx_plus_delta - fx_minus_delta) / (2 * delta_x)
        
        x[idx] = tmp
        
        it.iternext()
        
    return derivative_x

# Raw Data Loading
df = pd.read_csv('./data/admission.csv')
# display(df)

# 데이터 전처리
# 1. 결측치 처리
# print(df.isnull().sum())  # 결측치는 없어요!

# 2. 이상치 처리
# 이상치가 있는지 먼저 눈으로 확인 => boxplot을 이용
# fig = plt.figure()
# fig_gre = fig.add_subplot(1,3,1)
# fig_gpa = fig.add_subplot(1,3,2)
# fig_rank = fig.add_subplot(1,3,3)
# fig_gre.boxplot(df['gre'])
# fig_gpa.boxplot(df['gpa'])
# fig_rank.boxplot(df['rank'])

# fig.tight_layout()
# plt.show()

# 이상치가 존재해요!!
# Z-Score방식으로 이상치를 제거
zscore_threshold = 2.0 # 2.0이하로 설정하는게 optimal

for col in df.columns:
    outlier = df[col][(np.abs(stats.zscore(df[col])) > zscore_threshold)]
    df = df.loc[~df[col].isin(outlier)]
    
# display(df)   # 382 rows × 4 columns  

# 이상치를 성공적으로 제거했으니 이제 Normalization(정규화)처리를 해 보아요!
x_data = df.drop('admit', axis=1, inplace=False).values
# print(x_data)
t_data = df['admit'].values.reshape(-1,1)
# print(t_data)

# sklearn은 정규화하지 않은 데이터를 이용.
# python구현과 tensorflow 구현은 데이터를 정규화해서 사용해야 해요!
scaler_x = MinMaxScaler()
scaler_x.fit(x_data)
norm_x_data = scaler_x.transform(x_data)   # for python, tensorflow
# print(norm_x_data)

# python 구현부터 알아보아요!


ModuleNotFoundError: No module named 'tensorflow'

In [2]:
import tensorflow

ModuleNotFoundError: No module named 'tensorflow'