# 벡터가 뭐에요?

## 벡터
벡터는 숫자를 원소로 가지는 리스트(list) 또는 배열(arrary)입니다.
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

- 벡터는 공간에서 `한 점`을 나타냅니다.
- 벡터는 원점으로부터 상대적 `위치`를 표현합니다.
- 벡터에 숫자를 곱해주면 `길이만 변합니다`.
- 벡터는 숫자를 원소로 가지는 `리스트(list)` 또는 `배열(array)`입니다.
- 벡터끼리 같은 모양을 가지면 덧셈, 뺄셈을 계산할 수 있습니다.

In [1]:
import numpy as np

In [2]:
x=[1, 7, 2]
x=np.array([1, 7, 2])

### 벡터의 덧셈/뺄셈
- 두 벡터의 덧셈은 다른 벡터로부터 `상대적 위치이동`을 표현합니다.
    - 뺄셈은 방향을 뒤집은 덧셈입니다.

In [3]:
x=np.array([1,7,2])
y=np.array([5,2,1])

In [4]:
x+y

array([6, 9, 3])

In [5]:
x-y

array([-4,  5,  1])

In [6]:
x*y

array([ 5, 14,  2])

## 벡터의 노름
- 벡터의 노름(norm)은 `원점에서부터의 거리`를 말합니다.
- L1-노름은 각 성분의 `변화량의 절대값`을 모두 더합니다.
- L2-노름은 피타고라스 정리를 이용해 `유클리드 거리`를 계산합니다.
    - L2-노름은 `np.linalg.norm`을 이용해도 구현 가능하다.

In [7]:
def l1_norm(x):
    x_norm=np.abs(x)
    x_norm=np.sum(x_norm)
    return x_norm

def l2_norm(x):
    x_norm=x*x
    x_norm=np.sum(x_norm)
    x_norm=np.sqrt(x_norm)
    return x_norm

- 노름의 종류에 따라 `기하학적 성질`이 달라집니다.
- 머신러닝에선 각 성질들이 필요할 때가 있으므로 둘 다 사용합니다.
![image.png](attachment:image.png)

## 두 벡터 사이의 거리
- L1, L2-노름을 이용해 `두 벡터 사이의 거리`를 계산할 수 있습니다.
- 두 벡터 사이의 거리를 계산할 때는 `벡터의 뺄셈`을 이용합니다. 
![image.png](attachment:image.png)

- 뺄셈을 거꾸로 해도 거리를 같습니다!
![image-2.png](attachment:image-2.png)

## 두 벡터 사이의 각도
- `제2 코사인 법칙`에 의해 두 벡터 사이의 각도를 계산할 수 있다.
![image-2.png](attachment:image-2.png)

- 분자를 쉽게 계산하는 방법이 `내적`이다.
    - 내적은 `np.inner`을 이용해서 계산한다.
![image-3.png](attachment:image-3.png)

In [8]:
def angle(x,y):
    v=np.inner(x,y)/(l2_norm(x)*l2_norm(y))
    theta=np.arccos(v)
    return theta

## 내적
- 내적은 `정사영(orthogonal projection)된 벡터의 길이`와 관련있다.
![image.png](attachment:image.png)

- $Proj(x)$의 길이는 `코사인법칙`에 의해 $||x||cosθ$가 된다. 
![image-2.png](attachment:image-2.png)

- 내적은 정사영의 길이를 벡터 $y$의 길이 $||y||$만큼 조정한 값이다.
![image-3.png](attachment:image-3.png)

# 행렬은 뭔가요?

## 행렬
행렬(matrix)은 벡터를 원소로 가지는 `2차원 배열`입니다.
- `numpy`에선 행(row)이 기본 단위입니다.
![image.png](attachment:image.png)

In [9]:
X=np.array([[1,-2,3],
           [7,5,0],
           [-2,-1,2]])

- 행렬은 `행(row)`과 `열(column)`이라는 인덱스(index)를 가집니다.
- 행렬의 `특정 행(열)을 고정하면 행(열)벡터`라 부릅니다.
![image-3.png](attachment:image-3.png)

- `전치행렬(transpose matrix)`은 행과 열의 인덱스가 바뀐 행렬을 말합니다.
![image-2.png](attachment:image-2.png)

## 행렬을 이해하는 방법(1)
- 벡터가 공간에서 한 점을 의미한다면 행렬은 여러 점들을 나타냅니다.
- 행렬의 행백터 $x_i$는 $i$번째 데이터를 의미합니다.
- 행렬의 $x_{ij}$는 $i$번째 데이터의 $j$번째 변수의 값을 말합니다.
![image.png](attachment:image.png)

### 행렬의 덧셈, 뺄셈, 성분곱, 스칼라곱
- 행렬은 벡터를 원소로 가지는 `2차원 배열`입니다.
- 행렬끼리 `같은 모양을 가지면` 덧셈, 뺄셈을 계산할 수 있습니다.

![image.png](attachment:image.png)

- `성분곱`은 벡터와 똑같습니다.
![image.png](attachment:image.png)

- `스칼라곱`도 벡터와 차이가 없습니다.
![image.png](attachment:image.png)

### 행렬 곱셈
- 행렬 곱셈(matrix multiplication)은 `i번째 행벡터와 j번째 열벡터 사이의 내적`을 성분으로 가지는 행렬을 계산합니다.
    - `numpy`에선 `@`연산을 사용한다.
![image.png](attachment:image.png)

In [10]:
X=np.array([[1,-2,3],
           [7,5,0],
           [-2,-1,2]])

Y=np.array([[0,-1],
           [1,-1],
           [-2,1]])

In [11]:
X @ Y # 행렬 곱셈

array([[ -8,   4],
       [  5, -12],
       [ -5,   5]])

![image.png](attachment:image.png)

### 행렬도 내적이 있을까?
- 넘파이의 `np.inner`는 `i번째 행벡터와 j번째 행벡터 사이의 내적`을 성분으로 가지는 행렬을 계산합니다.
- 수학에서 말하는 내적과는 다르므로 주의!

    - 행렬 곱 : x의 행의 개수 = y의 열의 개수
    - inner : x의 행의 개수 = y의 행의 개수

In [12]:
X=np.array([[1,-2,3],
           [7,5,0],
           [-2,-1,2]])

Y=np.array([[0,1,-1],
           [1,-1,0]])

In [13]:
np.inner(X,Y)

array([[-5,  3],
       [ 5,  2],
       [-3, -1]])

![image.png](attachment:image.png)

## 행렬을 이해하는 방법(2)
- 행렬은 `벡터공간에서 사용되는 연산자(operator)`로 이해한다.
- 행렬곱을 통해 벡터를 `다른 차원의 공간`으로 보낼 수 있습니다.
- 행렬곱을 통해 `패턴을 추출`할 수 있고 `데이터를 압축`할 수도 있습니다.
![image-2.png](attachment:image-2.png)

### 역행렬 이해하기
어떤 행렬 $A$의 연산을 거꾸로 되돌리는 행렬을 `역행렬(inverse matrix)`이라 부르고 $A^{-1}$라 표기한다. 
- 역행렬은 `행과 열 숫자가 같고 행렬식(determinant)이 0이 아닌 경우`에만 계산할 수 있다.
    - `np.linalg.inv` 로 구할 수 있다.
![image.png](attachment:image.png)

In [14]:
X=np.array([[1,-2,3],
           [7,5,0],
           [-2,-1,2]])

In [15]:
np.linalg.inv(X)

array([[ 0.21276596,  0.0212766 , -0.31914894],
       [-0.29787234,  0.17021277,  0.44680851],
       [ 0.06382979,  0.10638298,  0.40425532]])

In [16]:
X @ np.linalg.inv(X)

array([[ 1.00000000e+00, -1.38777878e-17,  0.00000000e+00],
       [ 0.00000000e+00,  1.00000000e+00,  0.00000000e+00],
       [-2.77555756e-17,  0.00000000e+00,  1.00000000e+00]])

- 만일 역행렬을 계산할 수 없다면 `유사역행렬(pseudo-inverse)` 또는 `무어-펜로즈(Moore-Penrose) 역행렬` $A^+$을 이용한다.
![image.png](attachment:image.png)

In [17]:
Y=np.array([[0,-1],
           [1,-1],
           [-2,1]])

In [18]:
np.linalg.pinv(Y)

array([[-5.00000000e-01, -2.77555756e-17, -5.00000000e-01],
       [-8.33333333e-01, -3.33333333e-01, -1.66666667e-01]])

In [19]:
np.linalg.pinv(Y) @ Y

array([[1.00000000e+00, 0.00000000e+00],
       [3.88578059e-16, 1.00000000e+00]])

## 응용1: 연립방정식 풀기
- `np.linalg.pinv`를 이용하면 연립방정식의 해를 구할 수 있다.
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)

## 응용2: 선형회귀분석

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)

In [None]:
# 실행 X

In [None]:
# Scikit Learn을 활용한 회귀분석
from sklearn.linear_model import LinearRegression
model=LinearRegression()
model.fit(X,y)
y_test=model.predict(x_test)

# Moore_Penrose 역행렬
beta=np.linalg.pinv(X)@y
y_test=np.append(x_test)@beta

같은 방법이지만 결과가 다르게 된다. 왜일까?

    => y절편(intercept)항을 직접 추가해야 한다

In [None]:
# Scikit Learn을 활용한 회귀분석
from sklearn.linear_model import LinearRegression
model=LinearRegression()
model.fit(X,y)
y_test=model.predict(x_test)

# Moore_Penrose 역행렬
X_=np.array([np.append(x,[1]) for x in X]) # intercept 항 추가
beta=np.linalg.pinv(X)@y
y_test=np.append(x_test)@beta