In [26]:
# !pip install torch

import torch

#torch.tensor()는 함수(function)
#[[1.0], [2.0]]: 2×1 열 벡터 (Column vector)
#requires_grad=True: 이후 미분(gradient)을 계산할 수 있도록 자동 미분 트래킹 활성화
x = torch.tensor([[1.0], [2.0]], requires_grad=True)

#2×2 실수 행렬을 생성. 
#기본적으로 requires_grad=False이므로 A에 대해 미분은 계산되지 않음
A = torch.tensor([[1.0, 2.0], [2.0, 3.0]])

#torch.matmul()은 함수(function)
#torch.matmul(A, x) → Ax: 2×2 행렬과 2×1 벡터의 곱 → 결과는 2×1
#최종적으로 𝑥⊤𝐴𝑥를 계산 → 결과는 스칼라 (1×1 텐서)
f = torch.matmul(x.T, torch.matmul(A,x))
print(f"f matrix : {f}")

#backward()는 함수(function)
#f에 대해 미분값을 자동으로 계산하여, 
#f에 연결된 모든 requires_grad=True인 텐서들(x 등)에 대해 
#.grad 속성에 gradient 저장
# 수학적 의미는 f를 x에 대해 미분한 것이고, 그 미분값을 저장한 것이다.
f.backward()

#item()은 함수(function)
#1×1 텐서 (스칼라 텐서) f에서 파이썬 숫자 값(float)로 꺼내는 함수
print(f"f = {f.item()}")

#x.grad는 속성(attribute)
#f.backward() 실행 이후 x에 대해 계산된 미분 결과(gradient)를 저장한 텐서
print(f"∇ f:{x.grad}")

f matrix : tensor([[21.]], grad_fn=<MmBackward0>)
f = 21.0
∇ f:tensor([[10.],
        [16.]])


In [36]:
# !pip install tensorflow

import tensorflow as tf

# 변수 선언
x = tf.Variable([[1.0], [2.0]])
A = tf.constant([[1.0, 2.0], [2.0, 3.0]])

# 미분
with tf.GradientTape() as tape:
    f = tf.matmul(tf.transpose(x), tf.matmul(A, x))

grad = tape.gradient(f, x)

print("f =", f.numpy())
print("∇f =", grad.numpy())


f = [[21.]]
∇f = [[10.]
 [16.]]


In [35]:
from reportlab.pdfgen import canvas
from reportlab.pdfbase import pdfmetrics
from reportlab.pdfbase.ttfonts import TTFont
import os

# 1) Locate DejaVuSans.ttf that comes with matplotlib
import matplotlib
dejavu_path = os.path.join(matplotlib.get_data_path(), "fonts", "ttf", "DejaVuSans.ttf")

# 2) Register it under a friendly name
pdfmetrics.registerFont(TTFont("DejaVuSans", dejavu_path))

# 3) Your proof text (English, with math symbols)
proof_text = """Mathematical Proof and Intuitive Explanation:
Why ∂f/∂x = 2Ax for f = xᵗAx when A is symmetric (A = Aᵗ).

Function definition:
f(x) = xᵗ A x
x ∈ ℝⁿ : an n×1 column vector
A ∈ ℝⁿˣⁿ : a square matrix with A = Aᵗ

Goal:
Find ∂f/∂x.

[Method 1] Component-wise Expansion:
f = xᵗ A x = Σ(i=1 to n) Σ(j=1 to n) xᵢ Aᵢⱼ xⱼ

∂f/∂xₖ = Σ(j=1 to n) Aₖⱼ xⱼ + Σ(i=1 to n) Aᵢₖ xᵢ
       = (Ax)ₖ + (Aᵗx)ₖ

Therefore: ∂f/∂x = Ax + Aᵗx

[Symmetric Case]
If A = Aᵗ then ∂f/∂x = Ax + Ax = 2Ax.

[Method 2] Matrix-Differentiation Formula:
For f(x) = xᵗ A x,
∂f/∂x = 
  • 2Ax   if A = Aᵗ
  • Aᵗx + Ax   in the general case

[Intuitive Meaning]
f(x) = xᵗ A x is a quadratic form.
Geometrically, its gradient points in the 2Ax direction.

[Example: 2×2 Case]
A = [[1, 2],
     [2, 3]]
x = [x₁, x₂]ᵗ

f = x₁² + 4x₁x₂ + 3x₂²

∂f/∂x₁ = 2x₁ + 4x₂
∂f/∂x₂ = 4x₁ + 6x₂

Thus ∂f/∂x = [2x₁ + 4x₂, 4x₁ + 6x₂]ᵗ = 2Ax.
"""

# 4) Create the PDF
pdf_filename = "gradient_proof_dejavu.pdf"
c = canvas.Canvas(pdf_filename)
c.setFont("DejaVuSans", 11)

# Simple line-by-line drawing with line-wrap at ~80 chars
y = 800
for paragraph in proof_text.split("\n\n"):
    for line in paragraph.splitlines():
        c.drawString(40, y, line)
        y -= 14
        if y < 40:
            c.showPage()
            c.setFont("DejaVuSans", 11)
            y = 800
    y -= 10  # extra space between paragraphs

c.save()

print("PDF generated:", pdf_filename)


PDF generated: gradient_proof_dejavu.pdf


In [25]:
# !pip install tensorflow

import tensorflow as tf

# 변수 선언
x = tf.Variable([[1.0], [2.0]])
A = tf.constant([[1.0, 2.0], [2.0, 3.0]])

# 미분
with tf.GradientTape() as tape:
    f = tf.matmul(tf.transpose(x), tf.matmul(A, x))

grad = tape.gradient(f, x)

print("f =", f.numpy())
print("∇f =", grad.numpy())


f = [[21.]]
∇f = [[10.]
 [16.]]


In [1]:
import torch
print(torch.cuda.is_available())   # True → GPU 사용 가능 / False → CPU 전용

True


In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

model = Sequential()
print(model)

# 3개의 입력과 2개의 출력
model.add(Dense(2, input_dim =3, activation='relu'))
model.summary()

<Sequential name=sequential_2, built=False>


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


In [6]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

model = Sequential()

model.add(Dense(8, input_dim = 4, activation ='relu'))
model.add(Dense(8, activation = 'relu'))
model.add(Dense(3, activation ='softmax'))

model.summary()


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


In [None]:
import random
import math

# ReLU 활성화 함수
def relu(x):
    return [max(0, val) for val in x]

# Dense Layer 클래스 정의
class DenseLayer:
    def __init__(self, input_dim, output_dim, activation=relu):
        self.input_dim = input_dim
        self.output_dim = output_dim
        self.activation = activation

        # 가중치 초기화: W는 input_dim x output_dim 행렬
        self.weights = [[random.uniform(-1, 1) for _ in range(output_dim)] for _ in range(input_dim)]

        # 바이어스 초기화: output_dim 크기의 벡터
        self.biases = [random.uniform(-1, 1) for _ in range(output_dim)]

    def forward(self, input_vector):
        if len(input_vector) != self.input_dim:
            raise ValueError("입력 벡터 차원이 일치하지 않습니다.")

        # 선형 결합: z = xW + b
        z = [0 for _ in range(self.output_dim)]
        for j in range(self.output_dim):
            for i in range(self.input_dim):
                z[j] += input_vector[i] * self.weights[i][j]
            z[j] += self.biases[j]

        # 활성화 함수 적용
        return self.activation(z)

# 사용 예시
input_vector = [0.5, -0.2, 0.1, 0.9]
dense = DenseLayer(input_dim=4, output_dim=8)
output = dense.forward(input_vector)

print("출력 벡터:", output)
# 출력 벡터: [1.1007609447179034, 0, 0, 0.7572516085970521, 0, 0.7196539051623831, 0.5352140492242567, 0.766976580974997]

출력 벡터: [1.1007609447179034, 0, 0, 0.7572516085970521, 0, 0.7196539051623831, 0.5352140492242567, 0.766976580974997]


In [None]:
import random
import math

# ======== 활성화 함수 및 그라디언트 ========
# 활성화 함수 정의
def relu(x):
    return [max(0, val) for val in x]

def relu_derivative(x):
    # 기울기
    return [1 if i > 0 else 0 for i in x]

def softmax(x):
    exps = [math.exp(i) for i in x]
    sum_exps = sum(exps)
    return [j / sum_exps for j in exps]


# ======== 손실 함수 (크로스 엔트로피) ========
def cross_entropy(predicted, actual):
    return -sum(a * math.log(p + 1e-9) for p, a in zip(predicted, actual))

def cross_entropy_derivative(predicted, actual):
    return [p - a for p, a in zip(predicted, actual)]


# ======== Dense Layer 클래스 ========
class DenseLayer:
    def __init__(self, input_dim, output_dim, activation, activation_derivative):
        self.input_dim = input_dim
        self.output_dim = output_dim
        self.activation = activation
        self.activation_derivative = activation_derivative
        self.weights = [[random.uniform(-1, 1) for _ in range(output_dim)] for _ in range(input_dim)]
        self.biases = [random.uniform(-1, 1) for _ in range(output_dim)]

    def forward(self, input_vector):
        self.input = input_vector # for backprop
        self.z = [sum(input_vector[i] * self.weights[i][j] for i in range(self.input_dim)) + self.biases[j] for j in range(self.output_dim)]
        self.output = self.activation(self.z)
        return self.output
    
    # output_gradient: 다음 레이어(또는 출력층)에서 전달된 gradient (즉, ∂L/∂output)
    # learning_rate: 학습률 (gradient에 곱해서 가중치를 업데이트할 때 사용)
    # 1단계: dz 계산
    # dz = 역전파에서 항상 다음과 같은 chain rule을 적용합니다:
    #       ∂L/∂z = ∂L/∂a × ∂a/∂z
    #           ∂L/∂a = output_gradient (다음 레이어에서 넘어온 값)
    #           ∂a/∂z = 활성화 함수의 도함수(현재 레이어에 정의된 activation function의 미분값)
    #           따라서 dz[i] = output_gradient[i] × f'(z[i])
    # 2단계: 가중치 및 편향 gradient 계산
    # dw[i][j] = ∂L/∂W[i][j]
    #   이 레이어의 가중치 W[i][j]는 입력 self.input[i]와 출력 z[j]의 gradient(dz[j])에 의해 결정됩니다.    
    #   따라서 각 weight에 대한 gradient는 다음과 같습니다:
    #   ∂L/∂W[i][j] = input[i] × dz[j]
    # 바이어스(bias)는 각각 출력 뉴런마다 하나씩 연결되어 있으므로
    # 바이어스에 대한 gradient는 단순히 dz[j] 값과 동일합니다:
    #   ∂L/∂b[j] = dz[j]
    # 3단계: 가중치와 바이어스 업데이트
    # SGD(확률적 경사하강법)를 사용한 weight 갱신
    # 기존 가중치에서 gradient의 반대방향으로 이동:
    #   W[i][j] ← W[i][j] - η × ∂L/∂W[i][j]
    # 편향도 위와 동일한 방식으로 업데이트:
    #   b[j] ← b[j] - η × ∂L/∂b[j]
    # 4단계: 이전 레이어로 보낼 gradient 계산
    # 다음 레이어의 입력이자, 현재 레이어의 입력 x[i]에 대한 gradient를 계산
    # 즉, 이 레이어의 입력 x[i]가 전체 손실에 어떤 영향을 주는지 계산
    #   ∂L/∂x[i] = ∑(W[i][j] × dz[j]) over j
    #   이것을 이전 레이어의 backward 함수로 전달
    def backward(self, output_gradient, learning_rate):
        dz = [output_gradient[i] * self.activation_derivative([self.z[i]])[0] for i in range(self.output_dim)]

        # weight, bias gradients
        dw = [[self.input[i] * dz[j] for j in range(self.output_dim)] for i in range(self.input_dim)]
        db = dz[:]

        #update weights and biases
        for i in range(self.input_dim):
            for j in range(self.output_dim):
                self.weights[i][j] -= learning_rate * dw[i][j]

        for j in range(self.output_dim):
            self.biases[j] -= learning_rate * db[j]

        # return gradient for previous layer
        prev_grad = [sum(self.weights[i][j] * dz[j] for j in range(self.output_dim)) for i in range(self.input_dim)]
        return prev_grad

# ======== Softmax + Cross Entropy Output Layer ========
class SoftmaxLayer:
    def __init__(self, input_dim, output_dim):
        self.input_dim = input_dim
        self.output_dim = output_dim
        self.weights = [[random.uniform(-0.5, 0.5) for _ in range(output_dim)] for _ in range(input_dim)]
        self.biases = [0.0 for _ in range(output_dim)]

    def forward(self, input_vector):
        self.input = input_vector
        self.z = [sum(input_vector[i] * self.weights[i][j] for i in range(self.input_dim)) + self.biases[j] for j in range(self.output_dim)] 
        self.output = softmax(self.z)
        return self.output
    
    # 실제값과 예측값의 차이(dz)를 구한 다음에
    # 현재 레이어로 들어온 입력값과 그 차이(dz)를 곱해서 dw 벡터를 만들고,
    # db 벡터도 dz에서 가져와서 만들고,
    # 현재 가중치에서 (dw × 학습률)을 빼서 가중치를 업데이트하고,
    # 편향도 동일하게 업데이트한 후,
    # 이 새로 계산한  가중치와 dz와 곱한 후 더한 gradient를 이전 레이어로 넘겨 다음 레이어도 같은 과정을 반복한다.
    def backward(self, target_vector, learning_rate):
        # derivative of cross entropy + softamx
        # dz = y_hat - y_real
        # dz = [-0.3, 0.2, 0.1] if self.output(pred) = [0.7, 0.2, 0.1] and target_vector(real) = [1, 0, 0]
        dz = cross_entropy_derivative(self.output, target_vector) 

        # weight, bias gradients
        # dw[i,j] : weights[i][j] 에 대한 편미분
        # self.input[i] : 이 레이어로 들어온 입력 값(앞 레이어의 출력)
        # dz[j] : 손실에 대한 j번째 출력 뉴런의 gradient
        # 즉, ∂L/∂W[i][j] = input[i] * dz[j]
        # 가중치 W의 각 항목은 입력값에 곱해지므로, W의 gradient는 입력값 × dz입니다.
        dw = [[self.input[i] * dz[j] for j in range(self.output_dim)] for i in range(self.input_dim)]
        
        # 편향(biases)의 gradient는 dz와 동일하다.
        # ∂L/∂b[j] = dz[j]이므로 그대로 복사
        db = dz[:]

        # update
        # SGD 방식으로 가중치를 업데이트
        # 새로운 가중치 = 기존 가중치 - 학습률 × gradient
        # 손실을 줄이기 위해 gradient 방향의 반대로 이동
        for i in range(self.input_dim):
            for j in range(self.output_dim):
                self.weights[i][j] -= learning_rate * dw[i][j]

        # 위와 동일한 방식으로 bias 업데이트
        for j in range(self.output_dim):
            self.biases[j] -= learning_rate * db[j]

        # return gradient for previous layer
        # 다음 역전파를 위해 이전 레이어로 넘길 gradient를 계산합니다.
        # ∂L/∂x_i = ∑(W[i][j] * dz[j]) 형태
        # 현재 레이어의 출력은 이전 레이어의 입력에 의존하므로, chain rule을 적용
        prev_grad = [sum(self.weights[i][j] * dz[j] for j in range(self.output_dim)) for i in range(self.input_dim)]
        return prev_grad



# Sequential 모델 정의
class SequentialModel:
    def __init__(self):
        self.layers = []

    def add(self, layer):
        self.layers.append(layer)

    def forward(self, x):
        for layer in self.layers:
            x = layer.forward(x)
        return x
    
    def backward(self, y_true, learning_rate):
        grad = y_true
        for layer in reversed(self.layers):
            grad = layer.backward(grad, learning_rate)
    
    def train(self, x, y, epochs, learning_rate):
        for epoch in range(epochs):
            total_loss = 0

            for xi, yi in zip(x, y):
                y_pred = self.forward(xi)
                total_loss += cross_entropy(y_pred, yi)
                self.backward(yi, learning_rate)
            
            print(f"Epoch{epoch + 1}: Loss = {total_loss:.4f}")

    def summary(self):
        print("모델 요약:")
        for idx, layer in enumerate(self.layers):
            print(f" Layer {idx + 1}: 입력 {layer.input_dim}, 출력 {layer.output_dim}, 활성화 {layer.activation.__name__}")


# ======== 학습 데이터 (간단한 분류 문제) ========
# 입력: 4차원 / 출력: one-hot 3차원
train_x = [
    [1, 0, 0, 0],
    [0, 1, 0, 0],
    [0, 0, 1, 0],
    [0, 0, 0, 1]
]

train_y = [
    [1, 0, 0],  # class 0
    [0, 1, 0],  # class 1
    [0, 0, 1],  # class 2
    [1, 0, 0],  # class 0
]

# ======== 모델 구성 및 학습 ========
model = SequentialModel()
model.add(DenseLayer(input_dim=4, output_dim=8, activation=relu, activation_derivative=relu_derivative))
model.add(DenseLayer(input_dim=8, output_dim=8, activation=relu, activation_derivative=relu_derivative))
model.add(SoftmaxLayer(input_dim=8, output_dim=3))

model.train(train_x, train_y, epochs=50, learning_rate=0.1)

Epoch1: Loss = 5.6215
Epoch2: Loss = 4.9021
Epoch3: Loss = 4.3225
Epoch4: Loss = 3.7863
Epoch5: Loss = 3.4286
Epoch6: Loss = 3.3146
Epoch7: Loss = 3.3861
Epoch8: Loss = 3.6765
Epoch9: Loss = 3.8822
Epoch10: Loss = 2.7682
Epoch11: Loss = 1.4083
Epoch12: Loss = 0.0187
Epoch13: Loss = 0.0138
Epoch14: Loss = 0.0118
Epoch15: Loss = 0.0107
Epoch16: Loss = 0.0100
Epoch17: Loss = 0.0095
Epoch18: Loss = 0.0091
Epoch19: Loss = 0.0088
Epoch20: Loss = 0.0085
Epoch21: Loss = 0.0082
Epoch22: Loss = 0.0080
Epoch23: Loss = 0.0077
Epoch24: Loss = 0.0075
Epoch25: Loss = 0.0073
Epoch26: Loss = 0.0071
Epoch27: Loss = 0.0069
Epoch28: Loss = 0.0067
Epoch29: Loss = 0.0066
Epoch30: Loss = 0.0064
Epoch31: Loss = 0.0063
Epoch32: Loss = 0.0061
Epoch33: Loss = 0.0060
Epoch34: Loss = 0.0058
Epoch35: Loss = 0.0057
Epoch36: Loss = 0.0056
Epoch37: Loss = 0.0055
Epoch38: Loss = 0.0053
Epoch39: Loss = 0.0052
Epoch40: Loss = 0.0051
Epoch41: Loss = 0.0050
Epoch42: Loss = 0.0049
Epoch43: Loss = 0.0048
Epoch44: Loss = 0.00