In [None]:
!python -m pip install tensorflow

In [None]:
!python -m pip install pydot

In [None]:
# 1. 딥러닝 개요

In [None]:
# AI (인공지능) - 가장 넓은 개념
# 정의: 인간의 지능을 모방하여 문제를 해결하는 기술
# 예시: 체스 AI, 음성비서, 자율주행
# 사용기술: 규칙 기반 시스템, 딥러닝, 머신러닝 포함

# ML (머신러닝) - AI 의 하위 개념
# 정의: 데이터를 이용해 스스로 학습하는 알고리즘
# 예시: 스팸 메일 분류, 추천 시스템
# 사용기술: 지도학습, 비지도학습, 강화학습

# DL (딥러닝) - ML 의 하위 개념
# 정의: 인공신경망을 통해 특징을 자동으로 학습하는 기술
# 예시: 얼굴인식, 음성인식, 번역
# 사용 기술: CNN, RNN, Transformer

In [None]:

# 1-2 실습
# 머신러닝 vs 딥러닝

# 머신러닝: 특징을 사람이 직접 추출 → 학습
# 딥러닝: 특징 추출도 신경망이 자동으로 → 학습

import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.utils import to_categorical

# 1) 데이터 불러오기
X, y = load_iris(return_X_y=True)

# 2) 훈련/테스트 나누기
X_train_raw, X_test_raw, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3) 전처리
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train_raw)
X_test = scaler.transform(X_test_raw)

# 4) 머신러닝 모델 (Random Forest)
# 정수형 예측이므로 One-Hot Encoding X
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
rf_pred = rf.predict(X_test)

# 5) 딥러닝 모델 (Dense NN)
# to_categorical = 딥러닝 모듈의 내장 One-Hot Encoding
y_train_cat = to_categorical(y_train, 3)
y_test_cat = to_categorical(y_test, 3)

dl_model = Sequential([
  Input(shape=(X.shape[1],)),
  Dense(16, activation='relu'),
  Dense(3, activation='softmax')
])
dl_model.compile(
  optimizer='adam',
  loss='categorical_crossentropy',
  # loss='sparse_categorical_crossentropy'
  # 해당 값을 이용하면 굳이 정수형으로 되어있는 클래스 값들을 One-Hot Encoding으로 변환해줄 필요가 없음
  metrics=['accuracy']
)
dl_model.fit(X_train, y_train_cat, epochs=30, verbose=0)

# 6) 평가
rf_acc = accuracy_score(y_test, rf_pred)
_, dl_acc = dl_model.evaluate(X_test, y_test_cat, verbose=0)

# 7) 결과 비교
result_df = pd.DataFrame({
  '모델 종류': ['Random Forest (scikit-learn)', 'Neural Network (keras)'],
  '정확도': [rf_acc, dl_acc]
})
print("[머신러닝과 딥러닝 비교 결과]")
display(result_df)


In [None]:
# 1-3 과제1
# 머신러닝 vs 딥러닝 dataset: wine

import numpy as np
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.utils import to_categorical

# 데이터 불러오기
X, y = load_wine(return_X_y=True)

# 훈련/테스트 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 머신러닝 모델 (RandomForest)
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
rf_pred = rf.predict(X_test)

# 딥러닝 모델 (Keras)
# 1)전처리: scaling + One-Hot Encoding(to_categorical)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
y_train_cat = to_categorical(y_train)
y_test_cat = to_categorical(y_test)
# 2)모델 정의
dl = Sequential([
  Input(shape=(X.shape[1],)),
  Dense(16, activation='relu'),
  Dense(len(np.unique(y)), activation='softmax')
])
# 3)모델 컴파일 및 훈련
dl.compile(
  optimizer='adam',
  loss='categorical_crossentropy',
  metrics=['accuracy']
)
dl.fit(X_train_scaled, y_train_cat, epochs=30, verbose=1)

# 평가
rf_acc = accuracy_score(y_test, rf_pred)
_, dl_acc = dl.evaluate(X_test_scaled, y_test_cat, verbose=0)

# 결과 비교 출력
result_df = pd.DataFrame({
  '모델 종류': ['Random Forest (scikit-learn)', 'Neural Network (keras)'],
  '정확도': [rf_acc, dl_acc]
})
print("[머신러닝과 딥러닝 비교 결과]")
display(result_df)

In [None]:
# 2. 신경망의 구조

# 1) 퍼셉트론 (Perceptron)
# 인공 신경망의 기본 단위
# 입력값에 가중치를 곱하고 합산 후, 활성화 함수로 출력을 만듦
# 입렵값과 가중치가 선형 결합됨
# 여기에 편향 bbb를 더하고, 활성화 함수 fff를 거쳐 결과 yyy출력
# 가장 기본적인 신경만 단위로 AND, OR 논리 게이트 구현 가능

In [None]:
# 2 - 실습1

import numpy as np

# 1) 입력데이터 (AND 연산)
# 각 행은 [x1, x2]
x = np.array([[0,0], [0,1], [1,0], [1,1]])

# 2. 정답 레이블 (AND 연산의 결과)
# 0 AND 0 = 0,
# 0 AND 1 = 0,
# 1 AND 0 = 0,
# 1 AND 1 = 1
y = np.array([0,0,0,1])

# 3. 퍼셉트론 파라미터 초기화 (y=wx+b)
# 가중치 2개(w1, w2), 편향 b
w = np.random.rand(2)
b = np.random.rand()

# 4. 학습률 (Learning Rate)
# 모델이 얼마나 빠르게 학습할 지 속도 조절
# 보통 0.01 ~ 0.1 설정 (추후 재확인)
lr = 0.1

# 5. 활성화 함수 (계단 함수 - step function)
def step(x):
  return 1 if x >= 0 else 0

# 6. 학습 반복
for epoch in range(20):
  print(f"\nEPoch {epoch+1}")
  for i in range(len(x)):
    z = np.dot(x[i], w) + b # z = w1*x1 + w2*x2 + b
    y_pred = step(z)
    error = y[i] - y_pred # 오차 = 정답 - 예측값
    w = w + lr * error * x[i]
    b = b + lr * error
    print(f"x:{x[i]}, y:{y[i]}, pred:{y_pred}, w:{w}, b:{b}")

for x_input in x:
  z = np.dot(x_input, w) + b
  y_output = step(z)
  print(f"입력: {x_input} -> 출력: {y_output}")


In [None]:
# 2 - 과제1
# 퍼셉트론 논리 게이트 구현 (AND, OR)

import numpy as np

def perceptron(x1, x2, w1, w2, b):
  x = np.array([x1, x2])
  w = np.array([w1, w2])
  output = np.dot(w, x) + b
  return 1 if output > 0 else 0

# AND 게이트
print("AND 게이트 결과:") 
for x in [(0,0),(0,1),(1,0),(1,1)]:
  print(f"{x}: {perceptron(x[0],x[1],0.5,0.5,-0.7)}")
  
# OR 게이트
print("\nOR 게이트 결과:")
for x in [(0,0),(0,1),(1,0),(1,1)]:
  print(f"{x}: {perceptron(x[0],x[1],1,1,-0.7)}")
  
# NAND 게이트
print("\nNAND 게이트 결과:")
for x in [(0,0),(0,1),(1,0),(1,1)]:
  print(f"{x}: {perceptron(x[0],x[1],-0.5,-0.5,0.7)}")
  
# XOR 게이트 - Multi Perceptron (다층 퍼셉트론) 사용해야함
print("\nXOR 게이트 결과(Multi Perceptron 사용해야함):")
for x in [(0,0),(0,1),(1,0),(1,1)]:
  print(f"{x}: {perceptron(x[0],x[1],0.5,0.5,-0.7)}")

In [None]:
!python -m pip install numpy==1.24.3

In [None]:
# 2 - 실습2
# MLP (Multi-Layer Perceptron)은 입력층 → 은닉층 → 출력층 구조로 구성되어 있고, 단일 퍼셉트론과 달리 비선형 문제도 해결 가능

import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Input

# XOR 을 MLP 에서 동작 확인하기

# 1) xor
X = np.array([[0,0], [0,1], [1,0], [1,1]]) # 입력
y = np.array([[0], [1], [1], [0]]) # 정답
# y_pred = 예측값
# error(손실,loss) = 정답 - y_pred

# 2) model
model = Sequential()
model.add(Input(shape=(2,)))
model.add(Dense(4, activation='tanh'))
model.add(Dense(1, activation='sigmoid'))

# 3) compile
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 4) 모델 학습
model.fit(X, y, epochs=500, verbose=1)
# verbose(학습과정 출력)
# 0 = 아무것도 출력하지 않음
# 1 = 진행 상황을 1줄씩(epoch별) 출력
# 2 = 1과 비슷하지만 조금 더 간략하게 출력

# 예측 결과 출력
predictions = model.predict(X)
print("입력값\t 예측값\t 라운딩")
for i, pred in enumerate(predictions):
  print(f"{X[i]} → {pred[0]:.4f} → {np.round(pred[0])}")

In [None]:
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Input
from tensorflow.keras.optimizers import SGD

# XOR 을 MLP 에서 동작 확인하기

# 입력 데이터 (XOR 문제)
X = np.array([
  [0,0],
  [0,1],
  [1,0],
  [1,1]
])

# XOR 의 정답
y = np.array([0, 1, 1, 0])

# 모델 정의
model = Sequential()

# 입력 데이터 형태를 지정
model.add(Input(shape=(2,)))

# 은닉층: 2개의 뉴런(노드), 활성화 함수: relu
model.add(Dense(2, activation='relu'))

# 출력층: 1개의 뉴런(노드), 활성화 함수: sigmoid(이진 분류)
model.add(Dense(1, activation='sigmoid'))

# 모델 컴파일
model.compile(
  optimizer=SGD(learning_rate=0.1),
  loss='binary_crossentropy',
  metrics=['accuracy']
)

# 모델 학습
model.fit(X, y, epochs=500, verbose=0)
# verbose(학습과정 출력)
# 0 = 아무것도 출력하지 않음
# 1 = 진행 상황을 1줄씩(epoch별) 출력
# 2 = 1과 비슷하지만 조금 더 간략하게 출력

# 모델 평가
loss, acc = model.evaluate(X, y, verbose=0)
print(f"최종 정확도: {acc:.2f}")

# 예측 결과 출력
pred = model.predict(X)
print(f"\n예측 결과 (확률값):\n{pred.round(3)}")
print(f"\n예측 결과 (이진 출력):\n{(pred > 0.5).astype(int)}")

In [None]:
#
# 2 - 과제2
#

In [None]:
# 2 - 과제2-1
# NAND 게이트 구현

In [None]:
# 2 - 과제2-2
# XOR 게이트가 퍼셉트론으로 구현 안되는 이유

In [None]:
# 2 - 과제2-3
# MLP 가 XOR 문제를 해결할 수 있는 이유

In [None]:
#
# 2 - 과제2
#

In [None]:
# Deep Learning 보충학습
# 단순 신경망 훈련(선형회귀)

import matplotlib.pyplot as plt
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Input, Dense

# 샘플 데이터셋 생성
x = np.arange(1,6).reshape(-1,1)
y = 3*x + 2
print(x)
print(y)

# 시각화
plt.plot(x, y)
plt.title("y = 3x + 2")
plt.show()

# 단순선형회귀 모델 생성, 구조

dl = Sequential([
  Input(shape=(1,)),
  Dense(1)
])
dl.summary()

# 컴파일, 훈련
dl.compile(
  optimizer='sgd',
  loss='mse',
  metrics=['mae']
)
history = dl.fit(x, y, epochs=1200, verbose=0)

# 20 에포크까지 Loss 수렴에 대한 시각화
plt.plot(history.history['loss'], label='loss')
plt.plot(history.history['mae'], label='mae')
plt.xlim(-1, 20)
plt.title('Loss')
plt.legend()
plt.show()

# 검증
loss, mae = dl.evaluate(x, y, verbose=0)
print(loss, mae)

# 예측
# x=10 → y=?
result = dl.predict(np.array([[10]]))
print("예측 결과:", result)

In [None]:
# 3. 역전파(Backpropagation) 와 학습 

# 손실 함수 (Loss Function)
# 모델의 예측값과 실제값 사이의 오차 정도를 수치화
# 회귀 문제: MSE (Mean Squared Error)
# 분류 문제: Cross Entropy Loss

# 역전파 알고리즘
# 오차를 기준으로 가중치를 거꾸로 전파하여 수정하는 알고리즘
# Chain Rule 을 이용하여 각 층의 가중치에 대한 기울기 계산

# 학습률 (Learning Rate)
# 가중치를 얼마나 크게 수정할 것인지 결정하는 하이퍼파라미터
# 너무 크면 발산, 너무 작으면 학습 속도 저하

In [None]:
# 3-2 실습
# 간단한 손실 함수와 그래디언트 계산

import numpy as np

# MSE 손실 함수 (Mean Square Error) - 평균제곱오차
def mse_loss(y_true, y_pred):
  return np.mean((y_true-y_pred)**2)

y_true = np.array([1, 0, 1]) # 정답
y_pred = np.array([0.8, 0.2, 0.6]) # 예측

loss = mse_loss(y_true, y_pred)
print("손실값(MSE):", loss)

# 가중치에 대한 그래디언트(기울기) 계산 예시 (y=ax+b)
x = np.array([1.0, 2.0])
w = np.array([0.5, -0.5])
y = 1.0 # 정답

y_pred = np.dot(w, x)
error = y_pred - y
gradient = 2 * error * x
print("Gradient(기울기):", gradient)


In [None]:
# 3-3 과제
# 1) MSE 와 Cross Entropy 의 차이를 서술
'''
MSE = 회귀에 사용,
      연속형 값의 오차를 측정,
      큰 오차에 민감

Cross Entropy = 분류에 사용,
                확률값 기반으로 분류 평가
                잘못된 확률에 민감
'''

# 2) y_true = [1, 0, 1], y_pred = [0.9, 0.3, 0.7]
#    해당 데티어에서의 손실값(MSE)을 계산
import numpy as np
y_true = np.array([1, 0, 1])
y_pred = np.array([0.9, 0.3, 0.7])
mse = np.mean((y_true - y_pred) ** 2)
print("MSE손실값:", mse)

# 3) 학습률이 너무 큰 경우와 너무 작은 경우의 문제점을 설명
'''
큰경우: 손실값이 수렴하지 않고 발산할 수 있으며, 최적값 근처에서 오락가락할 수 있음
* 발산: 손실값이 점점 줄어들어야 하는데 오히려 점점 커지는 현상을 말함

작은경우: 학습 속도가 매우 느려지고, 최적값에 도달하기까지 시간이 오래걸림
'''

In [None]:
# 4. 활성화 함수
# 뉴런에서 입력값의 합을 비선형적으로 변환하여 다음 층으로 전달하는 함수
# 모델이 비선형 문제를 학습할 수 있게 해줌

# 주요 활성화 함수
# 함수명 / 특징 / 단점
# Sigmoid / 출력값을 0 ~ 1 로 제한 / 기울기 소실, 출력 범위 좁음
# Tanh / 출력값 -1 ~ 1, 평균 0 / 기울기 소실
# ReLU / 빠른 계산, 좋은 성능 / 음수 입력 시 뉴런 증발
# Leaky ReLU / 음수도 일부 통과 / 학습 안정성 향상
# Softmax / 다중 클래스 확률 표현 / 분류 문제에서만 사용

In [None]:
# 주요 활성화 함수 시각화

import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-10, 10, 100)
sigmoid = 1 / (1 + np.exp(-x))
tanh = np.tanh(x)
relu = np.maximum(0, x)
leaky_relu = np.where(x > 0, x, 0.1 * x)

plt.figure(figsize=(10,6))
plt.plot(x, sigmoid, label='Sigmoid')
plt.plot(x, tanh, label='Tanh')
plt.plot(x, relu, label='Relu')
plt.plot(x, leaky_relu, label='Leaky relu')
plt.legend()
plt.title('Activation Functions')
plt.grid(True)
plt.show()

In [None]:
# 4-2
import matplotlib.pyplot as plt
import numpy as np

# 1) ReLU 와 Leaky ReLU 를 그래프로 비교
'''
ReLU 에서 음수를 0으로 만듦으로 인해 뉴런이 죽음
Leaky ReLU 에서는 음수를 0.1배 값으로 보존 시킴으로 인해 뉴런이 죽음을 방지, 그로 인해 표현이 확장됨
'''
x = np.linspace(-10, 10, 100)
relu = np.maximum(0, x)
leaky_relu = np.where(x > 0, x, 0.1 * x)

plt.figure(figsize=(8,5))
plt.plot(x, relu, label="ReLU")
plt.plot(x, leaky_relu, label="Leaky ReLU", linestyle='--')
plt.axhline(0, color='black', linewidth=0.5)
plt.axvline(0, color='black', linewidth=0.5)
plt.title('ReLU vs Leaky ReLU')
plt.legend()
plt.grid(True)
plt.show()

# 2) Sigmoid 함수의 기울기 소실 문제가 왜 발생하는지 설명
'''
입력값을 적당한 범위로 만들어주는 정규화/표준화를 거치지 않거나,
초기 가중치, 편향이 너무 작거나 크면 기울기 소실이 발생할 수 있음 (더이상 학습이 되지 않음)

또한 너무 많은 학습이 필요한 경우에는 네트워크가 깊어지면서 각 층의 활성화 함수 입력값들이 반복적으로 곱해지고 누적되어 초기 입력값이 적절했음에도 불구하고 함수의 미분값(기울기)이 0에 가까워져 기울기 소실이 발생함
'''
sigmoid = lambda x: 1 / (1 + np.exp(-x))
sigmoid_prime = lambda x: sigmoid(x) * (1 - sigmoid(x))

x = np.linspace(-10, 10, 100)
y = sigmoid_prime(x)

plt.plot(x, y)
plt.title('sigmoid Gradient')
plt.grid(True)
plt.show()
# 중심부(x=0) - sigmoid의 기울기가 최대값, 가장민감 반응
# 양극단(x<<0, x>>0) - 출력이 0,1에 매우 가까움, 기울기는 0

# 3) 다중 클래스 분류에서 Softmax 함수가 필요한 이유를 설명
logits = np.array([2.0, 1.0, 0.1])
exps = np.exp(logits)
softmax = exps / np.sum(exps)
print('Softmax 출력:', softmax)
print('총합:', np.sum(softmax))

In [None]:
# 5. HyperParameter Tuning & Optimizer 비교

# DeepLearning 에 해당하는 Parameter, HyperParameter

# Parameter(매개변수)
'''
주어진 데이터로부터 학습을 통해 모델 내부에서 결정되는 변수
1) 매개변수 최적화
학습 모델과 실제 레이블의 차이는 손실 함수로 표현되고, 학습의 목적은 오차와 손실 함수의 값을 최대한 작게 하도록 하는 매개변수(가중치, 편향)를 찾는 것임
2) 매개변수 종류
가중치(Weight) - 각 입력값에 각기 다르게 곱해지는 수치
편향(Bias) - 하나의 뉴런에 입력된 모든 값을 다 더한 값(가중합)에 더해주는 상수
3) 매개변수 최적화 과정
x축에는 가중치, y축에는 손실값을 갖는 2차원 손실 함수 그래프를 이용하여 최적화 시킴
'''

# HyperParameter
'''
모델 외부에서 사람이 설정해주는 값, 성능에 큰 영향 미침
1) Learning Rate - 한 번 업데이트 시 가중치 변경 크기
2) Batch Size - 한 번에 학습할 데이터 개수
3) Epoch - 전체 데이터를 학습시키는 반복 횟수
4) Optimizer - 손실 함수를 최소화하는 알고리즘 (Adam, SGD, ...)
'''

In [None]:
# 5-2-2 기본학습

# 파라미터 & 하이퍼파라미터

import pandas as pd
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.utils import plot_model
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 1. 데이터 생성 (이진 분류용)
X, y = make_classification(n_samples=1000, n_features=100, n_classes=2, random_state=42)
print(f"X shape: {X.shape}")
print(f"y shape: {y.shape}")

# 상위 5개 샘플
print("\nX 샘플:")
print(pd.DataFrame(X).head())
print("\ny 샘플:")
print(pd.DataFrame(y).head())

# 라벨 분포
print(f"\n라벨 분포:\n{pd.Series(y).value_counts()}")

# 2. 데이터 전처리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
print(f"train_data Size: {X_train_scaled.shape}, {y_train.shape}")
print(f"test_data Size: {X_test_scaled.shape}, {y_test.shape}")

# 3) 하이퍼 파라미터: 입력 형태 정의
# 1) 입력층 (특성 수)
# 2) 은닉층 (노드 수, activation)
# 3) 출력층 (노드 수, activation)
dl = Sequential([
  Input(shape=(X.shape[1],)),
  Dense(64, activation='relu'),
  Dense(1, activation='sigmoid')
])

# 4) 컴파일 (하이퍼 파라미터 포함)
dl.compile(
  optimizer=Adam(learning_rate=0.01),
  loss='binary_crossentropy',
  metrics=['accuracy']
)

# 5) 모델 구조 요약 (파라미터 수 확인)
print("\n모델 summary()")
dl.summary()

# 6) 개별 층의 파라미터 수 출력
for i, layer in enumerate(dl.layers):
  print(f"Layer{i+1} ({layer.name}): {layer.count_params():,} parameters")

# 7) 모델 구조 시각화
plot_model(
  dl,
  to_file='start_hyper.png',
  show_shapes=True,
  show_layer_names=True,
  dpi=100
)
print("모델 구조 이미지가 'start_hyper.png'로 저장되었습니다.\n")

# 8) 모델 학습 (하이퍼 파라미터: epochs, batch_size, validation_split, verbose)
history = dl.fit(
  X_train_scaled, y_train,
  epochs=10,
  batch_size=32,
  validation_split=0.2,
  verbose=1
)

# 9) 모델 평가
loss, acc = dl.evaluate(X_test_scaled, y_test, verbose=0)
print(f"\n딥러닝 정확도: {acc:.4f}")

In [None]:
# 5-2-3 HyperParameter 연습

# 1) 피마 인디언의 당뇨병 예측

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Input, Dense

# 피마 인디언 당뇨병 데이터셋 불러오기
data = pd.read_csv('pima-indians-diabetes3.csv')

# 데이터 전처리
# X = data.drop('diabetes', axis=1)
# y = data['diabetes']
X = data.iloc[:, 0:8]
y = data.iloc[:, 8]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 모델 정의
model = Sequential([
  Input(shape=(X.shape[1],)),
  Dense(12, activation='relu'),
  Dense(8, activation='relu'),
  Dense(1, activation='sigmoid')
])
model.compile(
  optimizer='adam',
  loss='binary_crossentropy',
  metrics=['accuracy']
)

# 모델 학습
history = model.fit(
  X_train_scaled, y_train,
  epochs=100,
  batch_size=4,
  verbose=1
)

# 모델 평가
_, acc = model.evaluate(X_test_scaled, y_test, verbose=0)

print("\n정확도:", acc)

In [None]:
# 5-2-3 HyperParameter 연습

# 2) RandomSearchCV

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier

# 데이터 준비
X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 하이퍼 파라미터 후보 설정
param_dist = {
  'n_estimators': [50, 100, 200],
  'max_depth': [3, 5, 10, None],
  'min_samples_split': [2, 5, 10]
}

# 모델 생성
rf = RandomForestClassifier()

# 랜덤 서치 실행
random_search = RandomizedSearchCV(
  rf,
  param_distributions=param_dist,
  n_iter=10,
  cv=3
)
random_search.fit(X_train, y_train)

# 결과 출력
print("최적 하이퍼파라미터:", random_search.best_params_)
print("최고 정확도:", random_search.best_score_)

In [None]:
# 5-2-3 HyperParameter 연습

# 3) GridSearchCV

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier

# 데이터 로드
X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 하이퍼파라미터 후보 리스트 정의
param_dist = {
  'n_estimators': [50, 100, 200],
  'max_depth': [3, 5, 10, None],
  'min_samples_split': [2, 5, 10]
}

# 모델 생성 (RandomForestClassifier)
rf = RandomForestClassifier()

# GridSearchCV 정의
grid_search = GridSearchCV(
  rf,
  param_grid=param_dist,
  n_jobs=-1,
  cv=3,
  verbose=1
)

# 모델 학습
grid_search.fit(X_train, y_train)

# 결과 출력
print("\n최적 하이퍼파라미터:", grid_search.best_params_)
print("최고 정확도:", grid_search.best_score_)


In [None]:
# 5-3 실습1

# iris 데이터셋으로 최적화 기법 비교

# 데이터 - iris (4개의 특성, 3개의 클래스)
# 모델 - Dense(64) - Dense(32) - Dense(3)
# Optimizer - SGD, SGD+Momentum, RMSprop, Adam
# 평가 기준 - Accuracy, Loss, 학습 시간

import pandas as pd
import time
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.optimizers import SGD, RMSprop, Adam

# 데이터 로드
X, y = load_iris(return_X_y=True)

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 표준화
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 옵티마이저 설정
optimizers = {
  'SGD': SGD(),
  'SGD+Momentum': SGD(momentum=0.9),
  'RMSprop': RMSprop(),
  'Adam': Adam()
}

# 결과 저장 리스트
results = []

# Optimizer 별 반복 학습
for name, opt in optimizers.items():
  print(f"Optimizer: {name} 학습 시작")
  
  # 모델 정의
  model = Sequential([
    Input(shape=(X.shape[1],)),
    Dense(64, activation='relu'),
    Dense(32, activation='relu'),
    Dense(3, activation='softmax')
  ])
  
  model.compile(
    optimizer=opt,
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
  )
  
  start = time.time() # Traning time 측정을 위한 타이머 시작 값
  
  history = model.fit(
    X_train_scaled, y_train,
    epochs=50,
    batch_size=16,
    verbose=0,
    validation_data=(X_test_scaled, y_test)
  )
  
  end = time.time()
  
  # val_loss, val_accuracy
  # 모델 비교에 사용
  # 조기종료(EarlyStop)에 사용 fit의 callbacks 하이퍼파라미터 값에 리스트 형태로 사용
  
  # ex) 
  # from tensorflow.keras.callbacks import EarlyStopping
  
  # early_stop = EarlyStopping(
  #   monitor='val_loss',
  #   # 모니터링할 값
  
  #   patience=3,
  #   # 몇 번까지 참고 기다릴지
  
  #   restore_best_weights=True
  #   # 가장 성능 좋았던 가중치로 복원
  # )    
  
  # history = model.fit(callbacks=[early_stop])
  
  val_loss = history.history['val_loss'][-1]
  val_acc = history.history['val_accuracy'][-1]
  
  results.append({
    "Optimizer": name,
    "Final Loss": round(val_loss, 4),
    "Final Accuracy": round(val_acc, 4),
    "Traning Time(s)": round(end - start, 2)
  })

# 결과 정리 및 출력
df = pd.DataFrame(results)
print(f"\nOptimizer 비교 결과 (iris):\n{df}")


In [None]:
# 5-3 실습2

# Optimizer 비교 실험 (MNIST)

import matplotlib.pyplot as plt
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Input, Dense, Flatten
from tensorflow.keras.datasets import mnist
from tensorflow.keras.optimizers import SGD, Adam, RMSprop

(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train, X_test = X_train / X_train.max(), X_test / X_train.max()

optimizers = {
  'SGD': SGD(),
  'Adam': Adam(),
  'RMSprop': RMSprop()
}

results = {}

for name, opt in optimizers.items():
  print(f"\nTraining with {name} optimizer...")
  
  model = Sequential([
    Input(shape=(28, 28)),
    Flatten(),
    Dense(128, activation='relu'),
    Dense(10, activation='softmax')
  ])
  
  model.compile(
    optimizer=opt,
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
  )
  
  history = model.fit(
    X_train, y_train,
    epochs=5,
    batch_size=64,
    validation_split=0.1,
    verbose=1
  )
  
  loss, acc = model.evaluate(X_test, y_test, verbose=1)
  results[name] = acc
  
print("\n[테스트 결과]")
for opt_name, acc in results.items():
  print(f"{opt_name} 테스트 정확도: {acc:.4f}")

In [None]:
# 6. 과적합과 일반화 + Dropout 실습

# 과적합(Overfitting)
# 모델이 학습 데이터에는 잘 맞지만, 테스트 데이터에는 성능이 떨어지는 현상
# 모델이 너무 복잡하거나, 학습이 너무 오래되었을 때

# 일반화(Generalization)
# 모델이 새로운 데이터에도 잘 작동하는 능력
# 일반화를 위해 모델이 너무 외우지 않게끔 훈련해야 함

# 과소적합(Underfitting)
# 모델이 학습 데이터와 테스트 데이터 모두에서 성능이 안좋은 현상
# 모델이 데이터에 대하여 충분한 학습을 못해 데이터셋의 일반적인 패턴을 다 찾아내지 못한 것이 원인

# 과적합 방지 기법
# Dropout: 학습 중 일부 뉴런을 랜덤하게 제거해 과적합 방지
# EarlyStopping: 검증 성능이 나빠지면 조기 종료
# Data Augmentation: 학습 데이터를 늘려서 더 다양한 케이스를 학습
# 교차 검증: 학습 데이터의 일불ㄹ 따로 모델 성능 검증용으로 사용하는 기법
# 정규화: L1, L2 정규화 및 Dropout을 통해 모델의 복잡성을 제한
# 모델 단순화: 파라미터 수를 줄이거나 덜 복잡한 구조의 모델을 사용하여 과적합 가능성을 낮춤
# Ensemble Methods: 여러 모델의 예측 결과를 결합하여 개별 모델의 약점을 보완하고 과적합을 방지
# 충분한 데이터 확보: 더 많은 데이터를 수집하면 모델이 일반적인 패턴을 보다 잘 학습할 수 있어 과적합 가능성을 줄일 수 있음

In [None]:
# 6-2 실습

# Dropout과 EarlyStopping 적용

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Input, Dense, Flatten, Dropout
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.datasets import mnist
import numpy as np

# 데이터 준비
(X_train, y_train), (X_test, y_test) = mnist.load_data()
X_train, X_test = X_train / 255.0, X_test / 255.0

# 모델 구성
model = Sequential([
  Input(shape=(X_train.shape[1], X_train.shape[2])),
  Flatten(),
  Dense(128, activation='relu'),
  Dropout(0.5),
  Dense(len(np.unique(y_train)), activation='softmax')
])

# 콜백 설정
early_stop = EarlyStopping(
  monitor='val_loss',
  patience=3,
  restore_best_weights=True
)

# 컴파일 및 학습
model.compile(
  optimizer='adam',
  loss='sparse_categorical_crossentropy',
  metrics=['accuracy']
)
history = model.fit(
  X_train, y_train,
  epochs=30,
  batch_size=32,
  callbacks=[early_stop],
  validation_data=(X_test, y_test)
)

# 평가
_, acc = model.evaluate(X_test, y_test)
print("정확도:", acc)

In [None]:
# 6-3 과제

# 1) 작은 데이터셋으로 과적합 실험

import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['axes.unicode_minus'] = False
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Input, Dense, Flatten
from tensorflow.keras.datasets import mnist

# 데이터 준비 (mnist 에서 일부만 사용)
(X_train, y_train), (X_test, y_test) = mnist.load_data()
X_train = X_train[:1000] / 255.0
y_train = y_train[:1000]
X_test = X_test / 255.0

# 모델 정의 (Dropout 없음)
model = Sequential([
  Input(shape=(X_train.shape[1], X_train.shape[2])),
  Flatten(),
  Dense(512, activation='relu'),
  Dense(10, activation='softmax')
])
model.compile(
  optimizer='adam',
  loss='sparse_categorical_crossentropy',
  metrics=['accuracy']
)

# 학습
history = model.fit(
  X_train, y_train,
  epochs=30,
  batch_size=32,
  validation_data=(X_test, y_test),
  verbose=1
)

plt.plot(history.history['accuracy'], label='Train')
plt.plot(history.history['val_accuracy'], label='Validation')
plt.title("과적합 현상 관찰")
plt.xlabel("Epoch")
plt.ylabel("Accuracy")
plt.legend()
plt.grid(True)
plt.show()


In [None]:
# 6-3 과제

# 2) Dropout 적용 비교 실험

import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['font.family'] = 'Malgun Gothic'
mpl.rcParams['axes.unicode_minus'] = False
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Input, Dense, Flatten, Dropout
from tensorflow.keras.datasets import mnist

# 데이터 준비 (mnist 에서 일부만 사용)
(X_train, y_train), (X_test, y_test) = mnist.load_data()
X_train = X_train[:1000] / 255.0
y_train = y_train[:1000]
X_test = X_test / 255.0

# 모델 정의 (Dropout 없음)
model = Sequential([
  Input(shape=(X_train.shape[1], X_train.shape[2])),
  Flatten(),
  Dense(512, activation='relu'),
  Dense(10, activation='softmax')
])
model_dropout = Sequential([
  Input(shape=(X_train.shape[1], X_train.shape[2])),
  Flatten(),
  Dense(512, activation='relu'),
  Dropout(0.5),
  Dense(10, activation='softmax')
])
model.compile(
  optimizer='adam',
  loss='sparse_categorical_crossentropy',
  metrics=['accuracy']
)
model_dropout.compile(
  optimizer='adam',
  loss='sparse_categorical_crossentropy',
  metrics=['accuracy']
)

# 학습
history = model.fit(
  X_train, y_train,
  epochs=30,
  batch_size=32,
  validation_data=(X_test, y_test),
  verbose=1
)
history_d = model_dropout.fit(
  X_train, y_train,
  epochs=30,
  batch_size=32,
  validation_data=(X_test, y_test),
  verbose=1
)

plt.plot(history.history['val_accuracy'], label='Without Dropout')
plt.plot(history_d.history['val_accuracy'], label='With Dropout')
plt.title("Dropout 효과 비교")
plt.xlabel("Epoch")
plt.ylabel("Validation Accuracy")
plt.legend()
plt.grid(True)
plt.show()

In [None]:
# 6-3 과제

# 3) EarlyStopping + Dropout 으로 일반화 성능 향상

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Input, Dense, Flatten, Dropout
from tensorflow.keras.datasets import mnist
from tensorflow.keras.callbacks import EarlyStopping

(X_train, y_train), (X_test, y_test) = mnist.load_data()
X_train = X_train / 255.0
X_test = X_test / 255.0

model = Sequential([
  Input(shape=(28, 28)),
  Flatten(),
  Dense(512, activation='relu'),
  Dropout(0.5),
  Dense(10, activation='softmax')
])
model.compile(
  optimizer='adam',
  loss='sparse_categorical_crossentropy',
  metrics=['accuracy']
)

early_stop = EarlyStopping(
  monitor='val_loss',
  patience=3,
  restore_best_weights=True
)

history = model.fit(
  X_train, y_train,
  epochs=30,
  batch_size=32,
  verbose=1,
  validation_data=(X_test, y_test),
  callbacks=[early_stop]
)

print(f"\n테스트 정확도: {model.evaluate(X_test, y_test)[1]:.4f}")
