# Mathematics for Artificial Intelligence

## Lecture1. What is Vector?

### Vector
: 숫자를 원소로 가지는 list or array  

- 공간에서 한 점을 나타냄  

    ex) 1차원 => 수직선에 놓여있는 한 점  
    ex) 2차원 => 좌표평면에 놓여있는 한 점  
    ex) n차원 => n개의 좌표평면에 놓여있는 한 점  


- 벡터는 원점으로부터 상대적 위치를 표현  
=> 화살표 모양  

- 벡터의 숫자를 곱해주면 길이만 변함  
=> 이때 이것을 스칼라 곱이라 부름  
    - 1보다 크면 길이 증가
    - 1보다 작으면 길이 감소
    - But, 0 보다 작으면 반대 방향이 됨  






In [1]:
import numpy as np

# 행 벡터
x = [1, 7, 2]
x

[1, 7, 2]

In [3]:
# 행 벡터
x = np.array([1, 7, 2])
x

array([1, 7, 2])

### 벡터의 차원
: 벡터안의 숫자의 개수

### 벡터의 계산

벡터끼리 같은 모양을 가지면 덧셈, 뺄셈 계산 가능  

벡터끼리 같은 모양을 가지면 성분곱(Hadamard product) 계산 가능  

두 벡터의 덧셈은 다른 벡터로부터 상대적 이동을 표현

In [6]:
x = np.array([1,7,2])
y = np.array([5,2,1])

In [7]:
x + y

array([6, 9, 3])

In [8]:
x - y

array([-4,  5,  1])

In [9]:
x * y

array([ 5, 14,  2])

### 벡터의 노름
: 원점에서부터의 거리

- || . || 기호 : 노름
- ⛔ 임의의 차원 d에 대해 성립

### L1
: 각 성분의 변화량의 절대값을 모두 더함

$|| X ||_1 = \sum_{i=1}^d |x_i|$


### L2
: 피타고라스 정리를 이용해 유클리드 거리를 계산

-  ```np.linalg.norm 을 이용해도 구현 가능 ``` 

$|| X ||_2 = \sqrt{\sum_{i=1}^d |x_i|^2}$

x = [x1, x2, ... xd]

In [11]:
def l1_norm(x):
    x_norm = np.abs(x)
    x_norm = np.sum(x_norm)
    return x_norm

In [12]:
def l2_norm(x):
    x_norm = x * x
    x_norm = np.sum(x_norm)
    x_norm = np.sqrt(x_norm)
    return x_norm

### Why L1, L2 다르게 정의?

- 노름의 종류에 따라 기하학적 성질이 달라짐
- 머신 러닝에서는 각 성질들이 필요할 때가 있으므로 둘 다 사용

![difference](https://ifh.cc/g/CMK8mb.png)


### 두 벡터 사이의 거리
- L1, L2 노름을 이용해 두 벡터 사이의 거리 계산 가능
- 두 벡터 사이의 거리를 계산할 때는 벡터의 뺄셈을 이용
- 뺄셈을 거꾸로 해도 거리는 동일

![distance](https://ifh.cc/g/MTow5k.png)


### 두 벡터 사이의 각도
⚠ L2노름만 사용 가능!

- 제 2 코사인 법칙에 의해 두 벡터 사이의 각도 계산 가능
- 내적을 이용해서 분자 쉽게 계산 가능

![cos](https://ifh.cc/g/WzZAcW.png)  
![cos1](https://ifh.cc/g/BsHQsW.png)

#### 내적 공식
- np.inner 이용해서 계산 

<x, y> = $\sum_{i=1}^d x_i y_i$

In [14]:
def angle(x,y):
    v = np.inner(x,y)/(l2_norm(x) * l2_norm(y))
    # 역 cos
    theta = np.arccos(v)
    return theta

### 내적

- 내적은 정사영(orthogonal projection)된 벡터의 길이와 관련
- Proj(x)의 길이는 코사인 법칙에 의해 $||X||cos\theta$


![proj](https://ifh.cc/g/MKfcdf.png)

Proj(x) : 벡터 y로 정사영된 벡터 x의 그림자


내적은 정사영의 길이를 벡터 y의  길이 ||y||만큼 조정한 값
- 내적은 두 벡터의 유사도(similarity)를 측정하는데 사용 가능

![proj1](https://ifh.cc/g/Jx2X0J.png)

## 행렬
: 벡터를 원소로 가지는 2차원 배열

- 행(row)과 열(column)이라는 인덱스를 가짐
    - X = ($x_{ij}$)
- numpy에서는 행(row)이 기본 단위 
- 행렬의 특정 행(열)을 고정하면 행(열)벡터라 부름   
- vector가 공간에서 한 점을 의미한다면 행렬은 여러 점들을 나타냄  
- 행렬의 행벡터 $X_i$는 i번째 데이터를 의미  
- 행렬의 $x_{ij}$는 i번째 데이터의 j번째 변수의 값을 말함

In [15]:
x = np.array([[1,2,3],
              [4,5,6],
              [7,8,9]])

### 전치 행렬 (transpose matrix)
: 행과 열의 인덱스가 바뀐 행렬  

- $X^T$ = ($x_{ji}$)

### 행렬의 덧셈, 뺄셈, 성분곱, 스칼라곱
- 벡터를 원소로 가지는 2차원 배열
- 행렬끼리 같은 모양을 가지면 덧셈, 뺄셈 계산 가능
- 성분곱과 스칼라곱은 벡터와 동일

#### 덧셈, 뺄셈
$X \pm Y$ = $(x_{ij} + y_{ij})$  

### 성분곱
$X * Y$ = $(x_{ij} * y_{ij})$

### 스칼라곱
: 모든 성분에 똑같이 숫자를 곱해줌  
$\alpha X = (\alpha x_{ij})$

### 행렬 곱셈 (matrix multiplication)
: i번째 행벡터와 j번째 열벡터 사이의 내적을 성분으로 가지는 행렬을 계산
 
- 행렬곱은 X의 행의 개수와 Y의 열의 개수가 동일해야 함
- numpy에선 @연산을 사용
    - ex) X@Y

$XY = (\sum_k x_{ik} y_{kj})$

### 행렬도 내적이 있을까?
- np.inner은 i번째 행벡터와 j번째 행벡터 사잉의 내적을 성분으로 가지는 행렬을 계산  
    => X의 행 개수와 $Y^T$의 행 개수가 동일해야 함

- 수학에서 말하는 내적과는 다름
- 수학에선 보통 $tr(XY^T)$을 내적으로 계산

#### 🚫 행렬의 곱셈과 내적은 다름!!!

In [20]:
X = np.array([[1,2,3],
            [4,5,6],
            [7,8,9]])


Y = np.array([[1,2,3],
             [4,5,6]])

In [21]:
np.inner(X, Y)

array([[ 14,  32],
       [ 32,  77],
       [ 50, 122]])

### 행렬을 이해하는 방법

- 행렬은 벡터공간에서 사용되는 연산자(operator)로 이해
- 행렬곱을 통해 벡터를 다른 차원의 공간으로 보낼 수 있다  
    Ex) m차원 -> n차원
- 행렬곱을 통해 패턴을 추출할 수 있고 데이터 압축 가능
- 모든 선형변환(linear transform)은 행렬곱으로 계산 가능

### 역행렬
- 어떤 행렬 A의 연산을 거꾸로 되돌리는 행렬을 역행렬(inverse matrix)이라 부르고 $A^{-1}$라 표기
- 역행렬은 행과 열 숫자가 같고 
- 행렬식(determinant)이 0이 아닌 경우에만 계산 가능
    - 항등 행렬  
        $AA^{-1} = A^{-1}A = I$  
- 만일 역행렬 계산 불가능 -> 유사역행렬(pseudo-inverse) or 무어펜로즈(Moore-Penrose) 역행렬 $A^{+}$을 이용

### 유사 역행렬 응용 
#### 응용 1 : 연립 방정식
- np.linalg.pinv를 이용하면 연립방정식의 해를 구할 수 있다  

(n : 행의 개수 / m : 열의 개수)  

$n \geq m$ 인 경우  
: 데이터가 변수 개수보다 많거나 같아야 함

$A^+ = (A^TA)^-1A^T$   
=> $A^+A = I$만 성립  

#### 응용 2 : 선형회귀분석
- np.linalg.pinv를 이용하면 데이터를 선형모델(linear model)로 해석 하는 선형회귀식 찾을 수 있다
- 선형 회귀 분석은 X와 y가 주어진 상황에서 계수 $\beta$를 찾아야 한다
- 선형 회귀 분석은 연립 방정식과 달리 행이 더 크므로 방정식을 푸는 건 불가능  
- 예측한 값과 실제 값 차이를 최소화
- y절편 항을 직접 추가해야 함


$n \leq m$ 인 경우  
: 식이 변수 개수보다 작거나 같아야 함  

$A^+ = A^T(AA^T)^-1$   
=> $AA^+ = I$만 성립  
- 무어-펜로즈 역행렬을 이용하면 y에 근접하는 $\hat{y}$ 찾기 가능

![moore](https://ifh.cc/g/o5D4Dw.png)![moore1](https://ifh.cc/g/zTKCCs.png)

- L2노름을 최소화하는 계수 베타를 찾으면 됨

- sklearn의 LiniearRegression과 같은 결과를 가져올 수 있다 
    - y절편을 자동으로 찾아서 추가해 줌


```
# Scikit Learn을 활용한 회귀분석
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X,y)
y_test = model.predict(x_test)

# Moore-Penrose 역행렬
# intercept 항 추가
X_ = np.array([np.append(x,[1]) for x in X])
beta = np.linalg.pinv(X_) @ y
y_test = np.append(x, [1]) @ beta
```

In [22]:
X = np.array([[1,-2,3],
              [7,5,0],
              [-2,-1,2]])

### 역행렬 계산

In [23]:
np.linalg.inv(X)

array([[ 0.21276596,  0.0212766 , -0.31914894],
       [-0.29787234,  0.17021277,  0.44680851],
       [ 0.06382979,  0.10638298,  0.40425532]])

In [24]:
X @ np.linalg.inv(X)

array([[ 1.00000000e+00, -1.38777878e-17,  0.00000000e+00],
       [ 0.00000000e+00,  1.00000000e+00, -5.55111512e-17],
       [-2.77555756e-17,  0.00000000e+00,  1.00000000e+00]])

### 유사 역행렬

In [25]:
Y = np.array([[0,1],
              [1,-1],
              [-2,1]])

In [26]:
np.linalg.pinv(Y)

array([[ 5.00000000e-01, -5.55111512e-17, -5.00000000e-01],
       [ 8.33333333e-01, -3.33333333e-01, -1.66666667e-01]])

In [27]:
# 항등 행렬 구하기 가능
np.linalg.pinv(Y) @ Y

array([[1.00000000e+00, 2.22044605e-16],
       [0.00000000e+00, 1.00000000e+00]])