# [AI Math] 02. Matrix


---

## 행렬 (Matrix)

- 행렬(matrix)은 행(row) 벡터를 원소로 가지는 2차원 배열

    - numpy 에선 행(row)이 기본 단위!!! 보통 열(column)벡터로 해석
    
- 행렬은 행(row)과 열(column)이라는 인덱스(index)를 가집니다.
    - X(n,m) :  n 개의 행과, m 개 의 열
    - 행 벡터는 m개의 열 원소 성분들을 가지는 벡터
    - 열 벡터는 n개의 행 원소 성분들을 가지는 벡터
    
- 전치행렬(transpose matrix)은 행과 열의 인덱스가 바뀐 행렬을 말합니다.
     - $X^{\intercal} $ = $(x_{ji})$



![image-2.png](attachment:image-2.png)

---

## 행렬 이해

- 벡터가 공간에서 한 점을 의미한다면, 행렬은 벡터를 구성 성분으로 가지므로, 여러 점들을 나타냅니다.

- 행렬의 행벡터 xi 는 i 번째 데이터를 의미합니다.

- 행렬의 x(i,j) 는 **i 번째 데이터의 j 번째 변수의 값**을 말합니다. 
    
    - i = 4, j = 8 > 4행 8열, 4 번째 행 데이터의 8 번째 변수의 값


![image.png](attachment:image.png)

---

## EWO (Element Wise Operations) 행렬의 덧셈, 뺄셈, 성분 곱(EWM), 스칼라 곱

- 행렬은 벡터를 원소로 가지는 2차원 배열

- 행렬끼리 차원이 같으면, 덧셈, 뺄셈, 성분 곱(EWM) 을 계산할 수 있습니다.
    - 성분곱은 각 인덱스 위치끼리 곱합니다.
    
- 행렬의 스칼라를 곱하면, 스칼라 곱으로, 모든 성분에 똑같이 숫자를 곱해줍니다.


In [1]:
# 성분 곱 (EWM) 두 행렬의 차원이 같아야 함

import numpy as np

# 3 x 3
X = np.array([
             [1, -2, 3],
             [7, 5, 0],
             [-2, -1, 2]
             ])

# 3 x 2
Y = np.array([
             [0, 1],
             [1, -1],
             [-2, 1]
             ])

# Error,차원이 같지 않음. (3 x 3) * (3 x 2) 

X * Y

ValueError: operands could not be broadcast together with shapes (3,3) (3,2) 

---

In [2]:
# Element-wise Multiplication
# X행렬, Y행렬의 차원이 같아야함,

# 성분 곱 (EWM) 두 행렬의 차원이 같아야 함

import numpy as np

# 3 x 3
X = np.array([
             [1, -2, 3],
             [7, 5, 0],
             [-2, -1, 2]
             ])

# 3 x 3
Y = np.array([
             [0, 1, 0],
             [1, -1, 0],
             [-2, 1, 0]
             ])

X * Y

array([[ 0, -2,  0],
       [ 7, -5,  0],
       [ 4, -1,  0]])

---

## 행렬 곱셉 (Matrix Multiplication)


- 행렬 곱셈(matrix multiplication) : 두 행렬의 **i번째 행 벡터와 j번째 열 벡터 사이의 내적**을 성분으로 가지는 행렬을 계산

    - $XY = (\sum_k x_{ik}y_{kj})$

    - X 행렬의 열의 개수와 Y행렬 의 행의 개수가 반드시 같아야 함


- `@` 연산
- `np.dot`


In [3]:
# 행렬 곱(MM)
# X의 열의 개수 == Y의 행의 개수 

import numpy as np

# 3 x 3
X = np.array([
             [1, -2, 3],
             [7, 5, 0],
             [-2, -1, 2]
             ])

# 3 x 2
Y = np.array([
             [0, 1],
             [1, -1],
             [-2, 1]
             ])

# 행렬 곱 matrix multiplication, 3 x 2, @ 연산
X @ Y

array([[-8,  6],
       [ 5,  2],
       [-5,  1]])

---

## 행렬 곱셈-np.inner()



- `np.inner()` : 두 행렬의 **i번째 행 벡터와 j번째 행 벡터 사이의 내적** 을 성분으로 가지는 행렬 계산 
    - (행) (행)

- 행렬 곱셈(matrix multiplication) : 두 행렬의 **i번째 행 벡터와 j번째 열 벡터 사이의 내적**을 성분으로 가지는 행렬을 계산 
    - (행) (열)

- 따라서, `np.inner()` 연산을 통해 행렬 곱셉 (matrix multiplication) 처리 가능
    - `np.inner(X,Y)` == $X$ @ $Y^T$
    - $XY^\intercal = (\sum_k x_{ik}y_{kj})$ 

    - 이때 $X$ 의 열의 길이와 $Y^T$ 의행의 길이가 반드시 같아야함 
   

In [4]:
# 3 x 3
X = np.array([
             [1, -2, 3],
             [7, 5, 0],
             [-2, -1, 2]
             ])

# 3 x 2
Y = np.array([
             [0, 1],
             [1, -1],
             [-2, 1]
             ])

# (2 x 3) <- (3 x 2) 
Y_T = np.transpose(Y)

# X @ (Y_T)^T == X @ Y

# X 행렬의 i번째 행 벡터와 Y_T 행렬의 j번째 행 벡터 (Y 행렬의 j번째 열 벡터 ) 사이의 내적
# 을 성분으로 가지는 행렬 계산 == Matirx Multiplication

np.inner(X, Y_T)

array([[-8,  6],
       [ 5,  2],
       [-5,  1]])

In [5]:
# Error, MM (3 x 3) @ ( 2 x 3 ) :  열,  행 의 개수가 같지 않음

np.inner(X, Y)

ValueError: shapes (3,3) and (2,3) not aligned: 3 (dim 1) != 2 (dim 0)

---

##  행렬 곱셉 이해  

- 행렬은 벡터공간에서 사용되는 연산자(operator)!!!
    - 변환 행렬 : 대칭 행렬, 전치 행렬, 이동 행렬, 회전 행렬 등.

- 행렬 곱셉 (matrix multiplication)은, 벡터를 다른 차원의 공간으로 보낼 수 있습니다.
    - 3x2 행렬 * 2x3 행렬 의 행렬곱 MM 을 통해, 3x3 행렬 차원으로 이동.

- 행렬 곱셉 (matrix multiplication)은, 패턴을 추출하거나 데이터를 압축할 수 있습니다.
    - 모든 선형 변환(linear transform)은 행렬 곱셉 (matrix multiplication) 으로 계산할 수 있습니다.

- A(n x m) : n 개의 행, m 개 열 행렬 
- x(m x 1) : m 개의 행, 1 개 열 열 벡터 (열 고정) 
- z(n x 1) 벡터 열 벡터
    - x -> z 
    - m차원 에서 n차원 이동
    
![image.png](attachment:image.png)

---

## 역행렬(inverse matrix) 

- 어떤 행렬 A 의 연산을 거꾸로 되돌리는 행렬, 역행렬(inverse matrix)이 라 부르고 $A^{-1}$ 라 표기한다. 
    - 역행렬은 n == m (행과 열 숫자가 같고), 
    - 행렬식 (determinant)이 0이 아닌 경우에만 계산할 수 있다.

- `np.linalg.inv(X)`


- 항등행렬(Identity Matrix)
    - $AA^{-1} = A^{-1}A = I$ 

In [6]:
# 1-1) 행 과 열의 숫자가 같아야함 -> 3 x 3
# 1-2) det != 0

X = np.array([[1, -2, 3], 
			  [7, 5, 0],
              [-2, -1, 2]])


# 항등행렬(identity matrix), X와 X의 역행렬을 곱, 컴퓨터 연산, 0에 가까운, 1에 가깝게 계산
X @ np.linalg.inv(X)  

array([[ 1.00000000e+00, -1.38777878e-17,  0.00000000e+00],
       [-2.22044605e-16,  1.00000000e+00, -5.55111512e-17],
       [-2.77555756e-17,  0.00000000e+00,  1.00000000e+00]])

In [7]:
np.dot(X, np.linalg.inv(X))

array([[ 1.00000000e+00, -1.38777878e-17,  0.00000000e+00],
       [-2.22044605e-16,  1.00000000e+00, -5.55111512e-17],
       [-2.77555756e-17,  0.00000000e+00,  1.00000000e+00]])

---

## 무어-펜로즈 유사 역행렬 (Moore-Penrose pseudo inverse) 

- if 행 과 열의 개수가 다르다면?, 역행렬 구할수 x 

- 연산을 되돌리는 행위를 유사역행렬(pseudo-inverse) 또는 무어-펜로즈(Moore-Penrose) 역행렬 $A^{+}$ 을 구해서 처리
    
    - `np.linalg.pinv(X)`

- 행의 개수 (n)가 많은 경우, 열의 개수 (m)가 많은 경우 차이가 있음


---

###  무어-펜로즈 유사 역행렬 (n ≥ m인 경우), (행의 개수가 더 많은 경우)

- $ A^{+} = (A^{\intercal}A)^{-1}A^{\intercal} $ 

    - ( m x n @ n x m ) 행렬곱 결과(m x m), 
    - 행의 개수와 열의 개수가 같아졌음, 역행렬 계산 가능 
    - 그 역행렬과 A^T 와 다시 행렬곱 계산 처리 - (m x m @ m x n)

    - $ A^{+} $ = (m x n) 

- $ A^{+}A = I$ 

In [8]:
# 1-1) 행의 개수 n = 3, 열의 개수 m = 2, 역행렬을 구할수 없음

A = np.array([[0, 1],
              [1, -1],
              [-2, 1]
             ])

# 1-2) 무어-펜로즈 유사 역행렬을 계산
# (m x n)
A_p = np.linalg.pinv(A)

# 1-3) (m x n) @ (n x m)
# (m x m)
I = A_p @ A

In [9]:
threshold = 1e-10

I[ np.abs(I) < threshold ] = 0

I

array([[1., 0.],
       [0., 1.]])

---

### 무어-펜로즈 유사 역행렬  (n ≤ m인 경우), (열의 개수가 더 많은 경우)

- $A^{+}$ 구하는 과정도 다르며, 곱셈 순서 도 다르므로 주의!

    - $ A^{+} = A^{\intercal}(A A^{\intercal})^{-1} $
    - $ AA^{+} = I $
   

---

### 응용 1 - 연립 방정식 풀이 (n ≤ m 인 경우), (열의 개수가 더 많은 경우)

- 연립 방정식 풀이 : 식(행)의 개수와 변수(열)의 개수가 같아야 해를 구할수 있음.

    - 식의 개수(행, n) 보다 변수의 개수(열, m)보다 많을 때, (n ≤ m 무한히 많다, 부정)
    
    - 무어-펜로즈 유사 역행렬을 이용하여, 연립방정식을 만족하는 해 중 하나인, $X_{j}$ 를 구할 수 있습니다.

- 행렬 A(n,m), 행의 개수와 열의 개수가 다르지만, 무어 펜로즈 유사 역행렬 `np.linalg.pinv(X)`  를 이용하여 연립방정식의 해를 구할 수 있습니다.
    - 계수 (a, coefficient )
    - 식의 개수 (n, 행, 데이터)
    - 변수의 개수 (m, 열)

- $Ax=b$ 식 
    - $x=A^+b$
    - $x=A^T(AA^T)^-1b$
    - 양변에 $A$를 곱해서, $Ax=b$ 가 성립
    - 연립방정식을 만족하는 해 중 하나인, $(x_{j})= A^{+} b$ 라고 할수 있다.


![image.png](attachment:image.png)

---

### 선형 회귀 분석

- 선형 회귀 분석 : 
    - 데이터에서 변수 간의 관계를 찾고 이 관계를 사용하여 값을 예측하는 통계적 방법입니다.
    - 주로 연속형 변수 사이의 관계를 모델링하는 데 사용됩니다.

- 선형 모델:
    - 선형 회귀에서 사용되는 모델은 "선형 모델"이라고 불립니다.
    
    - 선형 모델은 독립 변수(입력 변수)와 종속 변수(목표 변수 또는 예측하려는 변수) 간의 관계를 선형 관계로 가정합니다.


- 선형 회귀식 :
    
    - 선형 회귀 모델은 종속 변수를 독립 변수의 선형 조합으로 설명하는 방정식으로 나타낼 수 있습니다.
    
    - 가장 간단한 형태의 선형 회귀 모델은 단순 선형 회귀로, 다음과 같은 선형 회귀식으로 나타낼 수 있습니다.
   
    - $𝑦 = 𝑋 * β + ε$
        - y: 종속 변수(예를 들면, 집 가격) 예측하려는 변수
        - X: 독립 변수(예를 들면, 집 크기, 방의 수, 위치)
        - β: 가중치(회귀 계수): 독립 변수와 종속 변수 간의 관계를 나타냅니다. 이 값이 양수이면 양의 상관관계를, 음수이면 음의 상관관계를 나타냅니다.
        - ε: 오차 항 (모든 관찰값에 대한 오차) 모델이 설명하지 못하는 랜덤한 노이즈

        


---

### 응용 2 -  무어-펜로즈 역행렬을 활용한 선형 회귀 분석 (n ≥ m인 경우) (행의 개수가 더 많은 경우)


- 선형 회귀: 선형 회귀는 데이터를 설명하기 위한 선형 모델을 만드는 통계적 기법
    - 데이터를 선형모델(linear model)로 해석하는 선형 회귀식(y)
    - $𝑦 = 𝑋 * β + ε$
    
- 계수 $ β $ 를 어떻게 찾을 건인가? 
    - 변수 개수 (열, m) 보다 식의 개수 (행, n, 데이터)가 더 크므로, 방정식을 푸는 것은 불가능 (해를 구할 수 X)
 
 
- Moore-Penrose 역행렬을 이용하여 y 에 근접,근사 하는 ŷ 를 찾을 수 있습니다.
    - 벡터의 크기나 길이를 측정하는 방법으로 L2 norm을 이용하여, 예측값과 실제 값 간의 차이(오차)를 최소화 하는 방식으로 처리

    - $X * β = y$, 행과 열의 개수가 같지 않으므로, 무어-펜로즈 유사역행렬을 양변 곱 처리

    - $β = X^{+}*y$

    - $β = (X^TX)^{-1} * X^T * y$

- 일반적으로 선형 회귀에서는 데이터 포인트의 개수 'n'이 설명 변수의 개수 'm'보다 많거나 같아야 합니다. 

- 이는 모델을 훈련시키고 데이터에 맞추기 위한 충분한 정보가 필요하다는 것을 의미합니다.
  

---

![image.png](attachment:image.png)

---

In [None]:
# Moore=penrose 역행렬 활용

# 1-1) intercept 항 (y 절편)을 직접 추가해야 함.
X_ = np.array( [np.append(x,[1]) for x in X] )

# 1-2) 무어-펜로즈 유사역행렬 곱
beta = np.linalg.pinv(X_) @ y

y_test = np.append(x, [1]) @ beta

---

### sklearn을 활용한 회귀 분석
- intercept 항 (y 절편) 자동 추가 

In [None]:
from sklearn.linear_model import LinearRegressionRegression

model = LinearRegression()

model.fit(X, y)

y_test = model.predict(x_test)

---

In [3]:
A = np.array([[1, 2, 3],
              [2, 3, 5],
              [1, 0, 2]
             ])

In [4]:
np.linalg.inv(A) 

array([[-6.,  4., -1.],
       [-1.,  1., -1.],
       [ 3., -2.,  1.]])

---