# 기초 수학

## 벡터는 뭔가요?

- 열벡터는 `list`, 행벡터는 `np.array`로 표현
- 벡터는 공간에서 `한 점`을 나타냄.
- 벡터의 `노름(norm)`은 원점에서부터의 거리
  - L1 노름은 각 성분의 `변화량의 절대값`을 모두 더함
  - L2 노름은 피타고라스 정리를 이용해 `유클리드 거리`를 계산함
    - `np.linalg.norm`으로 구현 가능

- 내적
  - 내적은 `정사영된 벡터의 길이`와 관련이 있다
  - Proj(x)의 길이는 `코사인법칙`에의해 $||x||\cos{\theta}$가 된다
  - 내적은 정사영의 길이를 `벡터 y의 길이 `$||y||$`만큼 조정`한 값이다
<img src="./img/내적.JPG" width=400>

## 행렬은 뭔가요?

- 행렬(matrix)은 벡터를 원소로 가지는 `2차원 배열`
- 행렬 곱셈은 `i번째 행벡터와 j번째 열벡터 사이의 내적`을 성분으로 가지는 행렬을 계산함

In [1]:
import numpy as np

In [2]:
x = np.array([[1, -2, 3],
              [7,5,0],
              [-2,-1,2]])
y = np.array([[0,1],
              [1,-1],
              [-2,1]])

In [3]:
x @ y

array([[-8,  6],
       [ 5,  2],
       [-5,  1]])

In [4]:
np.dot(x, y)

array([[-8,  6],
       [ 5,  2],
       [-5,  1]])

- 넘파이의 `np.inner`는 `i번째 행벡터와 j번째 행벡터 사이의 내적`을 성분으로 가지는 행렬을 계산함.
- 수학에서 말하는 내적과는 다르므로 주의


- 행렬은 `벡터공간에서 사용되는 연산자`로 이해한다.
- 행렬곱을 통해 벡터를 `다른 차원의 공간`으로 보낼 수 있다.
- 행렬곱을 통해 `패턴을 추출`할 수 있고 `데이터를 압축`할 수도 있다.

- 역행렬
  - 어떤 행렬 A의 연산을 거꾸로 되돌리는 행렬을 `역행렬`이라고 부르고 $A^{-1}$라 표기한다. 역행렬은 `행과 열 숫자가 같고 행렬식이 0이 아닌 경우`에만 계산할 수 있다.

In [5]:
# 행과 열의 숫자가 같고 행렬식이 0이 아닌 행렬만 역행렬을 구할 수 있음
x = np.array([[1, -2, 3],
              [7,5,0],
              [-2,-1,2]])
np.linalg.inv(x)

array([[ 0.21276596,  0.0212766 , -0.31914894],
       [-0.29787234,  0.17021277,  0.44680851],
       [ 0.06382979,  0.10638298,  0.40425532]])

- 만일 역행렬을 계산할 수 없다면 `유사역행렬(pseudo-inverse)`또는 `무어-펜로즈(Moore-Penrose) 역행렬` $A^+$을 이용한다
  - 행의 개수와 열의 개수 중 무엇이 더 큰 지에 따라 계산식이 달라짐
  
  <img src="./img/유사역행렬.JPG" width=400>

In [7]:
x = np.array([[0, 1],
             [1, -1],
             [-2, 1]])
np.linalg.pinv(x)

array([[ 5.00000000e-01,  1.11022302e-16, -5.00000000e-01],
       [ 8.33333333e-01, -3.33333333e-01, -1.66666667e-01]])

In [8]:
np.linalg.pinv(x) @ x

array([[ 1.00000000e+00, -2.22044605e-16],
       [ 1.11022302e-16,  1.00000000e+00]])

## 확률론 맛보기

- 딥러닝은 `확률론 기반의 기계학습 이론`에 바탕을 두고 있다.
- 기계학습에서 사용되는 손실함수(loss function)들의 작동 원리는 데이터 공간을 통계적으로 해석해서 유도하게 된다.
- 회귀분석에서 손실함수로 사용되는 $L_2$-노름은 `예측오차의 분산을 가장 최소화하는 방향으로 학습`하도록 유도한다.
- 분류 문제에서 사용되는 교차 엔트로피(cross-entropy)는 `모델 예측의 불확실성을 최소화하는 방향으로 학습`하도록 유도한다.
- 분산 및 불확실성을 `최소화하기 위해서는 측정하는 방법`을 알아야 한다.

- 조건부확률 $P(y|x)$는 입력변수 x에 대해 정답이 y일 확률을 의미한다.
- 로지스틱 회귀에서 사용했던 선형모델과 소프트맥스 함수의 결합은 `데이터에서 추출된 패턴을 기반으로 확률을 해석`하는데 사용된다.
- 분류 문제에서 softmax($W\phi + b$)은 데이터 x로부터 추출된 특징패턴 $\phi(x)$과 가중치행렬 W을 통해 조건부확률$P(y|x)$을 계산한다.
- 회귀 문제의 경우 조건부기대값 $E[y|x]$을 추정한다.
- 딥러닝은 다층신경망을 사용하여 데이터로부터 특징패턴 $\phi$를 추출한다.

- 몬테카를로 샘플링
  - 기계학습의 많은 문제들은 확률분포를 명시적으로 모를 때가 대부분이다.
  - 확률분포를 모를 때 `데이터를 이용하여 기대값을 계산하려면 몬테카를로(Monte Carlo) 샘플링 방법을 사용`해야 한다.
  
  <img src='./img/몬테카를로식.JPG' width=400>

## 통계학 맛보기