![](https://www.luisllamas.es/wp-content/uploads/2019/02/tensorflowkeras.png)
* 텐서플로우
    * 구글이 2011년에 개발을 시작하여 2015년에 오픈 소스로 공개한 신경망 라이브러리.
* 케라스
    * 케라스(Keras)는 파이썬으로 작성된 오픈 소스 신경망 라이브러리.
    * ONEIROS(Open-ended Neuro-Electronic Intelligent Robot Operating System) 프로젝트의 연구적 노력의 일환으로 개발.
    * 텐서플로우를 쉽게(!) 활용하여 모델링할 수 있는 함수 제공.

----

# 딥러닝 코드 구조 익히기

* 딥러닝 코드 구조를 익히는 연습을 합니다.(다음 절차와 코드를 외웁시다.)
    * 구조 설계
    * 컴파일 및 학습
    * 검증 및 평가
* 여기서는 성능에 초점을 두지 맙시다. 



### 라이브러리 Import

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.metrics import *
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 딥러닝을 위한 함수들
from keras.models import Sequential
from keras.layers import Dense
from keras.backend import clear_session

# Regression

## 1.Boston House Price

### (1) 데이터 전처리

#### 1) 데이터 준비

In [None]:
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/boston.csv'
data = pd.read_csv(path)
data.head()

|	변수	|	설명	|
|	----	|	----	|
|	medv	|	타운별 집값(중위수)	|
|	crim	|	범죄율	|
|	zn	|	25,000 평방피트를 초과 거주지역 비율	|
|	indus	|	비소매상업지역 면적 비율	|
|	chas	|	찰스강변 위치(범주 : 강변1, 아니면 0)	|
|	nox	|	일산화질소 농도	|
|	rm	|	주택당 방 수	|
|	age	|	1940년 이전에 건축된 주택의 비율	|
|	dis	|	직업센터의 거리	|
|	rad	|	방사형 고속도로까지의 거리	|
|	tax	|	재산세율	|
|	ptratio	|	학생/교사 비율	|
|	black	|	인구 중 흑인 비율	|
|	lstat	|	인구 중 하위 계층 비율	|


In [None]:
target = 'medv'
x = data.drop(target, axis=1)
y = data.loc[:, target]

#### 2) 변수정리

#### 3) NA 조치

In [None]:
x.isna().sum()

#### 4) 가변수화

#### 5) 데이터분할

In [None]:
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=.2, random_state = 2022)

#### 6) Scaling

In [None]:
scaler = MinMaxScaler()
x_train = scaler.fit_transform(x_train)
x_val = scaler.transform(x_val)

### (2) 모델링

#### 1) 모델 설계

In [None]:
# 분석단위 구조
nfeatures = x_train.shape[1] #num of columns
nfeatures

In [None]:
# 메모리 정리
clear_session()

# Sequential 타입 모델 선언
model = Sequential()

# Layer 정의
layer = Dense(1, input_shape = (nfeatures,))

# 모델에 추가
model.add(layer)

# 모델요약
model.summary()

#### 2) 컴파일

In [None]:
model.compile(optimizer='adam', loss='mse')

#### 3) 학습

In [None]:
history = model.fit(x_train, y_train, epochs = 100, validation_split=0.2).history

#### 4) 학습그래프

In [None]:
plt.plot(history['loss'], label='train_err')
plt.plot(history['val_loss'], label='val_err')

plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend()
plt.grid()
plt.show()

#### 5) 검증 및 평가
만든 모델은 얼마나 정확한지 검증해 봅시다.



In [None]:
pred = model.predict(x_val)

print(f'MSE  : {mean_squared_error(y_val, pred)}')
print(f'RMSE : {mean_squared_error(y_val, pred, squared=False)}')
print(f'MAE  : {mean_absolute_error(y_val, pred)}')

## 2.(실습) Car Seat Sales

### (1) 데이터 전처리

#### 1) 데이터 준비

In [None]:
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/Carseats.csv'
data = pd.read_csv(path)
data.head()

|	변수명	|	설명	|	구분	|
|	----	|	----	|	----	|
|	Sales 	|	 각 지역 판매액(단위 : 1000달러)	|	Target	|
|	CompPrice 	|	지역별 경쟁사 판매가격(달러)	|	feature	|
|	Income 	|	가구당 평균 소득액(1000달러)	|	feature	|
|	Advertising 	|	 각 지역, 회사의 광고 예산(1000달러)	|	feature	|
|	Population 	|	 지역 인구수(단위 : 1000명)	|	feature	|
|	Price 	|	 자사 지역별 판매가격(달러)	|	feature	|
|	ShelveLoc 	|	 진열상태(범주 : Bad, Medium, Good)	|	feature	|
|	Age 	|	 지역 인구의 평균 연령	|	feature	|
|	Education 	|	 교육수준(범주 : 10~18)	|	feature	|
|	Urban 	|	 매장이 도심에 있는지 여부(범주 : Yes, No)	|	feature	|
|	US 	|	 매장이 미국에 있는지 여부(범주 : Yes, No)	|	feature	|


In [None]:
target = 'Sales'
x = data.drop(target, axis=1)
y = data.loc[:, target]

#### 2) 변수정리

#### 3) NA 조치

In [None]:
x.isna().sum()

#### 4) 가변수화

In [None]:
cat_cols = ['ShelveLoc', 'Education', 'US', 'Urban']
x = pd.get_dummies(x, columns = cat_cols, drop_first = True)

#### 5) 데이터분할

In [None]:
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=.2, random_state = 2022)

#### 6) Scaling

In [None]:
scaler = MinMaxScaler()
x_train = scaler.fit_transform(x_train)
x_val = scaler.transform(x_val)

### (2) 모델링

In [None]:
# 함수들 불러오기


#### 1) 모델 설계

In [None]:
# 분석단위 구조


In [None]:
# 메모리 정리


# Sequential 타입 모델 선언


# Layer 정의


# 모델에 추가


# 모델요약


#### 2) 컴파일

#### 3) 학습

#### 4) 학습그래프

In [None]:
plt.plot(history['loss'], label='train_err')
plt.plot(history['val_loss'], label='val_err')

plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend()
plt.grid()
plt.show()

#### 5) 검증 및 평가
만든 모델은 얼마나 정확한지 검증해 봅시다.



In [None]:
pred = model.predict(x_val)

print(f'MSE  : {mean_squared_error(y_val, pred)}')
print(f'RMSE : {mean_squared_error(y_val, pred, squared=False)}')
print(f'MAE  : {mean_absolute_error(y_val, pred)}')

## 3.(실습) Advertising

### (1) 데이터 전처리

#### 1) 데이터 준비

In [None]:
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/advertising.csv'
data = pd.read_csv(path)
data.head()

In [None]:
target = 'Sales'
x = data.drop(target, axis=1)
y = data.loc[:, target]

#### 2) 변수정리

#### 3) NA 조치

#### 4) 가변수화

#### 5) 데이터분할

In [None]:
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=.2, random_state = 2022)

#### 6) Scaling

In [None]:
scaler = MinMaxScaler()
x_train = scaler.fit_transform(x_train)
x_val = scaler.transform(x_val)

### (2) 모델링

In [None]:
# 함수들 불러오기




#### 1) 모델 설계

In [None]:
# 분석단위 구조


In [None]:
# 메모리 정리


# Sequential 타입 모델 선언


# Layer 정의


# 모델에 추가


# 모델요약


#### 2) 컴파일

#### 3) 학습

#### 4) 학습그래프

In [None]:
plt.plot(history['loss'], label='train_err')
plt.plot(history['val_loss'], label='val_err')

plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend()
plt.grid()
plt.show()

#### 5) 검증 및 평가
만든 모델은 얼마나 정확한지 검증해 봅시다.



# Classification

## 4.타이타닉 생존자 예측

### (1) 데이터 전처리

#### 1) 데이터 준비

In [None]:
path = "https://raw.githubusercontent.com/DA4BAM/dataset/master/titanic.3.csv"
data = pd.read_csv(path)
data.drop(['Age_scale1', 'AgeGroup', 'SibSp','Parch' ], axis = 1, inplace = True)
data.head()

In [None]:
target = 'Survived'
x = data.drop(target, axis=1)
y = data.loc[:, target]

#### 2) 변수정리

#### 3) NA 조치

In [None]:
x.isna().sum()

#### 4) 가변수화

가변수화를 수행하시오.

In [None]:
cat_cols = ['Pclass','Sex', 'Embarked']
x = pd.get_dummies(x, columns = cat_cols, drop_first = True)

#### 5) 데이터분할

In [None]:
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=.2, random_state = 2022)

#### 6) Scaling

In [None]:
scaler = MinMaxScaler()
x_train = scaler.fit_transform(x_train)
x_val = scaler.transform(x_val)

### (2) 모델링

In [None]:
# 함수들 불러오기
from keras.models import Sequential
from keras.layers import Dense
from keras.backend import clear_session

#### 1) 모델 설계

In [None]:
nfeatures = x_train.shape[1] #num of columns
nfeatures

In [None]:
# 메모리 정리
clear_session()

# Sequential 타입 모델 선언
model = Sequential()

# Layer 정의
layer = Dense(1, input_shape = (nfeatures,), activation= 'sigmoid')

# 모델에 추가
model.add(layer)

# 모델요약
model.summary()

#### 2) 컴파일

In [None]:
model.compile(optimizer='adam', loss='binary_crossentropy')

#### 3) 학습

In [None]:
history = model.fit(x_train, y_train, epochs = 50,
                    validation_split=0.2).history

#### 4) 학습그래프

In [None]:
plt.plot(history['loss'], label='train_err')
plt.plot(history['val_loss'], label='val_err')

plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend()
plt.grid()
plt.show()

#### 5) 검증 및 평가
만든 모델은 얼마나 정확한지 검증해 봅시다.



In [None]:
pred = model.predict(x_val)
pred = np.where(pred>=.5,1,0)

In [None]:
print(confusion_matrix(y_val, pred))
print('-'*50)
print(classification_report(y_val, pred))

## 5.(실습) 이동통신고객 이탈 예측

### (1) 데이터 전처리

#### 1) 데이터 준비

In [None]:
path = "https://raw.githubusercontent.com/DA4BAM/dataset/master/mobile_churn_simple.csv"
data = pd.read_csv(path)
data['CHURN'] = data['CHURN'].map({'STAY':0, 'LEAVE':1})
data.head()

|	구분	|	변수 명	|	내용	|	type	|	비고	|
|	----	|	----	|	----	|	----	|	----	|
|	**Target**	|	**CHURN**	|	이탈여부	|	범주	| 0,1	|
|	feature	|	INCOME	|	소득수준(달러)	|	숫자	|		|
|	feature	|	OVERAGE	|	월평균 초과사용시간(분)	|	숫자	| |
|	feature	|	LEFTOVER	|	월평균 잔여시간(%)	|	숫자	| 	|
|	feature	|	HOUSE	|	집가격(달러)	|	숫자	|	|
|	feature	|	HANDSET_PRICE	|	휴대폰가격(달러)	|	숫자	|		|
|	feature	|	OVER_15MINS_CALLS_PER_MONTH	|	월평균 장기통화 횟수	|	숫자	| 		|
|	feature	|	AVERAGE_CALL_DURATION	|	평균통화시간(분)	|	숫자	|		|

In [None]:
target = 'CHURN'
x = data.drop(target, axis=1)
y = data.loc[:, target]

#### 2) 변수정리

#### 3) NA 조치

In [None]:
x.isna().sum()

#### 4) 가변수화

#### 5) 데이터분할

In [None]:
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=.2, random_state = 2022)

#### 6) Scaling

In [None]:
scaler = MinMaxScaler()
x_train = scaler.fit_transform(x_train)
x_val = scaler.transform(x_val)

### (2) 모델링

In [None]:
# 함수들 불러오기




#### 1) 모델 설계

In [None]:
# 메모리 정리


# Sequential 타입 모델 선언


# Layer 정의


# 모델에 추가


# 모델요약


#### 2) 컴파일

#### 3) 학습

#### 4) 학습그래프

In [None]:
plt.plot(history['loss'], label='train_err')
plt.plot(history['val_loss'], label='val_err')

plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend()
plt.grid()
plt.show()

#### 5) 검증 및 평가
만든 모델은 얼마나 정확한지 검증해 봅시다.



## 6.(실습) 대학원 지원

### (1) 데이터 전처리

#### 1) 데이터 준비

In [None]:
path = "https://raw.githubusercontent.com/DA4BAM/dataset/master/Graduate_apply.csv"
data = pd.read_csv(path)
data.head()

In [None]:
target = 'admit'
x = data.drop(target, axis=1)
y = data.loc[:, target]

#### 2) 변수정리

#### 3) NA 조치

#### 4) 가변수화

#### 5) 데이터분할

In [None]:
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=.2, random_state = 2022)

#### 6) Scaling

In [None]:
scaler = MinMaxScaler()
x_train = scaler.fit_transform(x_train)
x_val = scaler.transform(x_val)

### (2) 모델링

In [None]:
# 함수들 불러오기




#### 1) 모델 설계

In [None]:
# 메모리 정리


# Sequential 타입 모델 선언


# Layer 정의


# 모델에 추가


# 모델요약


#### 2) 컴파일

#### 3) 학습

#### 4) 학습그래프

In [None]:
plt.plot(history['loss'], label='train_err')
plt.plot(history['val_loss'], label='val_err')

plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend()
plt.grid()
plt.show()

#### 5) 검증 및 평가
만든 모델은 얼마나 정확한지 검증해 봅시다.

