# 04. Vectorization – Linear Regression

## Definition

Vectorization은 반복문 (for - loop)을 사용하지 않고  
벡터/행렬 연산을 통해 한 번에 계산하는 방식이다.  


수학적으로는 $f(x)=w^Tx+b$

코드로는 np.dot(w, x) + b

# Why Vertorzation?

벡터화는 단순히 코드를 짧게 만들기 위한 것이 아니다.

1. 속도 향상
    - 파이썬 for문은 느리다 (인터프리터 오버헤드)
    - numpy는 내부적으로 C/BLAS/SIMD 최적화 사용

2. 수학식과 코드의 일치
    - 수학: $w^Tx$
    - 코드: np.dot(w, x)
    - 구조가 동일하다
3. 대규모 학습 가능
    - feature 수가 방대할 때 필수

# Dot product 구현 비교

## Loop 방식

In [3]:
import numpy as np
import time

In [5]:
def dot_loop(w, x):
    total = 0
    for j in range(len(w)):
        total += w[j] * x[j]
    return total

## Vectorization 방식

np.dot(w, x)

# 실험

In [6]:
n = 200000
w = np.random.randn(n)
x = np.random.randn(n)

# Loop 방식
start = time.time()
dot_loop(w, x)
end = time.time()
print("Loop time:", end - start)

# Vertorized
start = time.time()
np.dot(w, x)
end = time.time()
print("Vectorized time:", end - start)

Loop time: 0.030144691467285156
Vectorized time: 0.0005080699920654297


# Gradient Update 벡터화

## Loop 방식

In [12]:
# for j in range(len(w)):
#   w[j] = w[j] - alpha * d[j]

# Mathematical Insight
dot product는 다음과 같다
$$
w \cdot x = \sum_{j=1}^{n} w_j x_j
$$

이는 각 feature에 대한 가중합(Weighted sum) 이다.  
두 벡터의 방향 정렬 정도를 나타낸다.

# Observations

- Loop와 Vectorized 결과는 동일하다.
- Vectorized 방식이 훨씬 빠르다.
- 수학식과 코드가 거의 동일하다.
- 벡터화는 구현 최적화가 아니라, 선형대수 기반 ML의 필수 구조이다.

Vectorization does not change the mathematics of linear regression.  
It changes how we express the computation to match the hardware structure of modern computers.