In [2]:
import numpy as np
import random
import sympy as sym
from sympy.abc import x, y

Numerical Python - Numpy
==
- 파이썬의 고성능 과학 계산용 페키지
- Matrix와 Vector와 같은 Array연산의 사실상의 표준

## Numpy 특징
- 일반 list에 비해 빠르고, 메모리 효율적
- 반복문 없이 데이터 배열에 대한 처리를 지원함
- 선형대수와 관련된 다양한 기능을 제공항
- c, c++, 포트란 등의 언어와 통합가능

## ndarray
- numpy 는 np.array 함수를 활용하여 배열을 생성한다. => ndarray
- numpy는 하나의 데이터 type만 배열에 넣을 수 있음
- list와 가장 큰 차이점, Dynamic typing not supported
- C의 Array를 사용하여 배열을 생성함

In [5]:
test_array = np.array([1,2,3,4],float)  # data type을 설정하게되면 다 통일된다.
print(test_array)
display(test_array)
type(test_array[3])
print(test_array.shape)  # Array의 shape

[1. 2. 3. 4.]


array([1., 2., 3., 4.])

(4,)


- array shape\
=> (deep, row, column)\
=> ndim(number of dimension), size(data의 개수)

## Handling shape
- handling은 array의 shape의 크기를 변경함(element의 개수는 동일하지만 dimension만 달라진다.)\
=> 만일 reshape을 할 때 -1을 사용할 수 있다.

### flatten
- 다차원 array를 1차원 array로 만들어 준다. (2,2,2) => flatten => (8,)

In [14]:
print('2d => 3d')
test_matrix = np.array([[1,2,3,4,],[5,6,7,8]])
print(test_matrix.shape)
print(type(test_matrix))
print(test_matrix.ndim)
print('3d')
reshape_matrix = np.array(test_matrix).reshape(2,2,2)
print(reshape_matrix.shape)
print(type(reshape_matrix))
print(reshape_matrix.ndim)

2d => 3d
(2, 4)
<class 'numpy.ndarray'>
2
3d
(2, 2, 2)
<class 'numpy.ndarray'>
3


## Indexing & slicing
### indexing
- list와 달리 2차원 배열에서 [0,0]과 같은 표기법을 제공한다.
- Matrix일 경우 앞은 row, 뒤는 column을 의미한다.

In [15]:
print(test_matrix)
print(test_matrix[0,3])
print(test_matrix[0][3])
test_matrix[0,3] = 11
print(test_matrix)
test_matrix[0,3] = 111
print(test_matrix)

[[1 2 3 4]
 [5 6 7 8]]
4
4
[[ 1  2  3 11]
 [ 5  6  7  8]]
[[  1   2   3 111]
 [  5   6   7   8]]


### slicing
- list와 달리 행과 열 부분을 나눠서 slicing이 가능함
- matrix의 부분집합을 추출할 때 유용

In [27]:
print(test_matrix)
print(test_matrix[:,:2])  # 모든 행을 갖고오고 열은 처음부터 1번까지 slicing
print(test_matrix[:,2:])  # 모든 행을 갖고오고 열은 2번부터 끝까지 slicing
print(test_matrix[1,1:3]) # 1번 행을 갖고오고 열은 1,2번까지 slicing
print(test_matrix[0:2])  # 0 ~ 1번 행의 전체 slicing

[[  1   2   3 111]
 [  5   6   7   8]]
[[1 2]
 [5 6]]
[[  3 111]
 [  7   8]]
[6 7]
[[  1   2   3 111]
 [  5   6   7   8]]


## create function
### arange
- array의 범위를 지정하여 값의 list를 생성하는 명령어

In [37]:
a = np.arange(30)
print(type(a),'|',a.ndim,'|',a)
a_v2 = np.arange(0,30,2).reshape(-1,5)
print(type(a_v2),'|',a_v2.ndim,'|',a_v2)
b = np.arange(30).reshape(-1,5)
print(type(b),'|',b.ndim,'|\n',b)

<class 'numpy.ndarray'> | 1 | [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
<class 'numpy.ndarray'> | 2 | [[ 0  2  4  6  8]
 [10 12 14 16 18]
 [20 22 24 26 28]]
<class 'numpy.ndarray'> | 2 |
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]


### tip!
python에서는 step을 float로 할 수 없다.\
range(0,5,0.5) 입력 시 : TypeError: 'float' object cannot be interpreted as an integer

따라서 list로 묶어서 활용하고 싶다면 np.arange()를 활용하여 뒤에 .tolist()함수만 작성해주면 만들 수 있다.\
np.arange(0,5,0.5).tolist() 입력 시 : [0.0, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5]

### ones, zeros and empty
- zeros -0으로 가득찬 ndarray생성

In [44]:
np.zeros(shape=(10,),dtype=int) # 10 - zero vector 생성

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [46]:
np.zeros((3,5))  # 2 by 5 zero matrix 생성

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

### random sampling
- 데이터 분포에 따른 sampling으로 array를 생성

In [48]:
np.random.uniform(0,1,10).reshape(2,5)  # 균등분포

array([[0.63875202, 0.00441052, 0.10537645, 0.72843861, 0.72970474],
       [0.51263976, 0.72221837, 0.69097375, 0.28428014, 0.16278034]])

In [49]:
np.random.normal(0,1,10).reshape(2,5)  # 균등분포

array([[-1.09132893,  0.35240742, -0.21049697,  1.33381672, -0.98655211],
       [ 0.1550189 , -0.73283567,  2.22891171,  1.22766913,  2.09133645]])

## operation function
### sum
- list의 sum과 동일

### axis
- 모든 operation function을 실행할 때, 기준이 되는 dimension 축
- axis = 0 (행), axis = 1 (열)
- 살짝 헷갈릴 수 있다... 그냥 여러번 넣고 지우고 하면서 조정하면 된다.

In [58]:
print(test_matrix)
print('axis = 0, 행의 합')
print(test_matrix.sum(axis=0))
print('axis = 1, 열의 합')
print(test_matrix.sum(axis=1))

[[  1   2   3 111]
 [  5   6   7   8]]
axis = 0, 각 행의 합
[  6   8  10 119]
axis = 1, 각 열의 합
[117  26]


### Mathematical functions
- 다양한 식들이 있다.

### concatenate
- numpy array를 합치는 함수
- vstack, hstack, concatenate
- 많이 사용된다...

In [61]:
a = np.array([1,2,3])
b = np.array([4,5,6])
print(np.vstack((a,b)))

[[1 2 3]
 [4 5 6]]


In [62]:
a = np.array([[1],[2],[3]])
b = np.array([[4],[5],[6]])
print(np.hstack((a,b)))

[[1 4]
 [2 5]
 [3 6]]


In [64]:
a = np.array([[1],[2],[3]])
b = np.array([[4],[5],[6]])
print(np.concatenate((a,b),axis=0))  # 행을 기준으로 연결

[[1]
 [2]
 [3]
 [4]
 [5]
 [6]]


In [65]:
a = np.array([[1,2,3]])
b = np.array([[4,5,6]])
print(np.concatenate((a,b),axis=0))  # 행을 기준으로 연결

[[1 2 3]
 [4 5 6]]


In [66]:
a = np.array([[1],[2],[3]])
b = np.array([[4],[5],[6]])
print(np.concatenate((a,b),axis=1))  # 열을 기준으로 연결

[[1 4]
 [2 5]
 [3 6]]


In [68]:
a = np.array([[1,2,3]])
b = np.array([[4,5,6]])
print(np.concatenate((a,b),axis=1))  # 열을 기준으로 연결

[[1 2 3 4 5 6]]


### operations b/t arrays
- numpy는 array간의 기본적인 사칙 연산을 지원한다.

In [71]:
print(test_matrix)
print('test_matrix + test_matrix')
print(test_matrix+test_matrix)
print('test_matrix - test_matrix')
print(test_matrix-test_matrix)
print('test_matrix * test_matrix')
print(test_matrix*test_matrix)
print('test_matrix / test_matrix')
print(test_matrix/test_matrix)

[[  1   2   3 111]
 [  5   6   7   8]]
test_matrix + test_matrix
[[  2   4   6 222]
 [ 10  12  14  16]]
test_matrix - test_matrix
[[0 0 0 0]
 [0 0 0 0]]
test_matrix * test_matrix
[[    1     4     9 12321]
 [   25    36    49    64]]
test_matrix / test_matrix
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]]


### transpose
- transpose 또는 T attribute를 사용
- 전체 역 행렬 (2,3) => (3,2)

### broadcasting
- shape이 다른 배열간 연산을 지원

In [82]:
print('broadcasting')
print('test_matrix\n',test_matrix)
scalar = 3
print('scalar',scalar)
test_matrix + scalar  # matrix 각 element에 scalar가 더해짐

broadcasting
test_matrix
 [[  1   2   3 111]
 [  5   6   7   8]]
scalar 3


array([[  4,   5,   6, 114],
       [  8,   9,  10,  11]])

In [74]:
test_matrix - scalar  # matrix - scalar 뺄셈

array([[ -2,  -1,   0, 108],
       [  2,   3,   4,   5]])

In [75]:
test_matrix * scalar  # matrix - scalar 곱셈

array([[ -2,  -1,   0, 108],
       [  2,   3,   4,   5]])

In [76]:
test_matrix / scalar  # matrix - scalar 나눗셈

array([[ -2,  -1,   0, 108],
       [  2,   3,   4,   5]])

In [77]:
test_matrix // scalar  # matrix - scalar 몫

array([[ 0,  0,  1, 37],
       [ 1,  2,  2,  2]])

In [78]:
test_matrix % scalar  # matrix - scalar 나머지

array([[1, 2, 0, 0],
       [2, 0, 1, 2]])

In [83]:
test_matrix ** scalar  # matrix - scalar 제곱

array([[      1,       8,      27, 1367631],
       [    125,     216,     343,     512]])

- scalar - vector 외에도 vector - matrixr간의 연산도 지원한다.

### numpy performance
- 일반적으로 속도는 아래 순.\
=> for loop < list comprehension < numpy
- 1억번의 loop이 돌 떄 약 4배 이상의 성능차이를 보인다.
- numpy는 c로 구현되어 있어, 성능을 확보하는 대신 파이썬의 가장 큰 특징인 dynamic typing을 포기함
- 대용량 계산에서는 가장 흔히 사용된다.
- concatenate 처럼 계산이 아닌, 할당에서는 연산 속도의 이점이 없기 때문에 list로 먼저 한다음 ndarray로 변환을 해주는 것이 좋다.

## comparisons
- any & all
- broadcasting 과 같이 element하나하나식 비교를 해서 T | F를 보여준다.

In [88]:
a = np.array([1,2,3,4,5,6,7,8,9])
a

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [89]:
a > 5

array([False, False, False, False, False,  True,  True,  True,  True])

### np.where
- where(condition, True , False)
- 보통 T | F를 사용하지 않고 condition만 넣어 True에 해당하는 index 값만 갖고오는 형식으로 자주 활용한다.

In [92]:
a = np.array([0,3,-1])
a

array([ 0,  3, -1])

In [95]:
np.where(a>0, 3, 2)

array([2, 3, 2])

In [96]:
print('index 값 반환')
np.where(a>0)  # True에 해당하는 index인 1번을 갖고 왔다.

(array([1]),)

In [100]:
print('Null 값 확인')
a = np.array([1,np.NaN,np.Inf],float)
np.isnan(a)  # null 값이 있는지 확인하는 방법


Null 값 확인


array([False,  True, False])

### arg.max, arg.min
- 최대값과 최소값의 index를 갖고오는 방법
- 2차원 경우 axis를 넣어주면 해당 축을 기준으로 최소, 최대값을 반환해준다.

In [116]:
a = np.array([random.randint(0,500) for i in range(10)])
print('argmax :',np.argmax(a),a[np.argmax(a)])
print('argmin :',np.argmin(a),a[np.argmin(a)])

argmax : 8 402
argmin : 6 30


In [123]:
b = np.array([[1,14,35,234,1,53,2],[12,34,341,3215,134,3134,41423]])
print(b)
print('argmax axis = 1 :',np.argmax(b, axis=1))
print('argmin axis = 1 :',np.argmin(b, axis=1))
print('argmax axis = 0 :',np.argmax(b, axis=0))
print('argmin axis = 0 :',np.argmin(b, axis=0))

[[    1    14    35   234     1    53     2]
 [   12    34   341  3215   134  3134 41423]]
argmax axis = 1 : [3 6]
argmin axis = 1 : [0 0]
argmax axis = 0 : [1 1 1 1 1 1 1]
argmin axis = 0 : [0 0 0 0 0 0 0]


# 제일 많이 하는 실수!!!! numpy에 for 문을 써서 값을 찾으려 하는 것!!!

## boolean index
- numpy 배열은 특정 조건에 따른 값을 배열 형태로 추출할 수 있음
- comparison operation 함수들도 모두 사용이 가능
- boolean type으로 값을 갖고온 다음 astype을 활용하여 int 로 변환화는 방식도 있다.

In [128]:
print(a)
print(a>200)

[291 208 350 312 373 264  30 184 402 139]
[ True  True  True  True  True  True False False  True False]


In [129]:
a[a>200]  # True에 해당하는 index의 element 값만 갖고오도록 한다.

array([291, 208, 350, 312, 373, 264, 402])

## Fancy index
- numpy는 array를 index value로 사용해서 값을 추출하는 방법
- matrix 형태의 데이터도 가능하다.

In [130]:
a = np.array([2,4,6,8], float)
b = np.array([0,0,1,2,3,2,2,1,0], int)  # 반드시 integer로 선언
a[b]  # bracket index, b 배열의 값을 index로 하여 a의 값들을 추출함

array([2., 2., 4., 6., 8., 6., 6., 4., 2.])

In [131]:
a.take(b)  # take 함수 : bracket index와 같은 효과  / take를 활용하는 것을 추천,

array([2., 2., 4., 6., 8., 6., 6., 4., 2.])

# Vector
- 숫자를 원소로 갖는 list, array이다.
- 열벡터, 행벡터 
- 벡터는 n차원 공간에서의 한 점을 나타낸다.
- 벡터는 원점으로부터 상대적 위치를 표현
- 벡터에 스칼라(숫자)를 곱해주면 방향은 같고 길이만 변하게 된다. 단, 스칼라곱이 0보다 작을면 반대 방향이 됨
- 벡터끼리 같은 모양을 가지면 덧셈, 뺄셈, 성분곱을 할 수 있다.

## 벡터의 노름(norm)
- || || 기호는 노름이라 부름 / L1, L2 노름이 있다.
- 원점에서부터의 거리를 말한다.
- 임의의 차원 n에 대해 성립하는 것을 명심
- L1-노름은 각 성분의 **변화량의 절대값**을 모두 더한다.
- L2-노름은 **피타고라스 정리**를 이용해 **유클리드 거리**를 계산

In [11]:
print('L1, L2 norm')

def l1_norm(x):
    x_norm = np.abs(x)  # 절대값
    x_norm = np.sum(x_norm)
    return x_norm
 
def l2_norm(x):  # 피타고라스 정리
    x_norm = x*x  # 성분곱
    x_norm = np.sum(x_norm)
    x_norm = np.sqrt(x_norm)
    return x_norm

L1, L2 norm


In [25]:
x = np.array([-3,0])
y = np.array([0,4])
l2_norm(x)-l2_norm(y)

-1.0

### 왜 다른 노름을 소개하나?
- 노름의 종류에 따라 공간상에서 표현되는 기하학적 성질이 달라진다.\
=> l1-노름상의 원과 l2-노름상의 원이 다르게 표현된다.
- 머신러닝에선 각 성질들이 필요할 때가 있으므로 둘 다 사용한다.\
=> l1-노름 : Robust 학습, Lasso 회귀 / l2-노름 : Laplace 근사, Ridge 회귀

### 두 벡터 사이의 거리
- L1, L2 - 노름을 이용해 두 벡터 사이의 거리를 계산할 수 있다.
- 두 벡터 사이의 거리를 계산할 때는 벡터의 뺄셈을 이용한다.

### 두 벡터 사이의 각도
- 두 벡터 사이의 거리를 이용하여 각도도 계산할 수 있지만 **L2-노름에서만** 가능하다.
- 제 2코사인 법칙에 의해 두 벡터 사이의 각도를 계산할 수 있다. 
- 분자를 쉽게 계산하는 방법이 내적이다. \
=> 내적(inner product)은 두벡터들의 연산들의 성분곱을 취한다음 성분곱을 취한 벡터들의 모든 성분들을 다 더해주는 연산


In [12]:
print('내적은 np.inner를 이용해서 계산한다.')

def angle(x,y):
    v = np.inner(x,y) / (l2_norm(x) * l2_norm(y))  # inner를 이용하여 두 백터 사이의 내적을 구한다
    theta = np.arccos(v)  # 아크 코사인
    return theta

내적은 np.inner를 이용해서 계산한다.


In [24]:
x=np.array([1,-1,1,-1])
y=np.array([4,-4,4,-4])
angle(x,y)

0.0

### 내적은 어떻게 해석??
- 내적은 정사영(orthogonal projection)된 벡터의 길이와 관련있다.\
    => 정사영(Proj(x)) 은 벡터 y로 정사영된 벡터 x의 그림자를 의미\
    => Proj(x)의 길이는 코사인 법칙에 의해 ||x||*cosθ 가 된다.
- 내적은 정사영의 길이를 벡터 y의 길이 ||y||만큼 조정한 값이다.\
    => 내적은 두 벡터의 유사도(similarity)를 측정하는데 사용 가능하다.
    => 머신러닝에서는 두 데이터가 얼만큼 유사한가 또는 두 페턴이 얼만큼 유사한가를 보통 배울 때 두 벡터의 내적을 이용함으로서 유사도를 측정하여 두 벡터가 얼마나 유사한지를 확인할 수 있다.

# 행렬(matrix)
- 벡터를 원소로 갖는 2차원 배열
- 행(row)과 열(column)이라는 index를 갖는다.
- 행렬끼리 같은 모양을 가지면 덧셈, 뺄셈, 성분곱을 계산할 수 있습니다. 또한 스칼라곱도 벡터와 차이가 없다.


## 행렬 이해하기 1번
- 벡터가 공간에서 한 점을 의미한다면 행렬은 **여러 점들**을 나타낸다.
- 행렬의 행벡터 Xi는 i번째 데이터를 의미
- 행렬의 Xij는 i번째 데이터의 j번째 변수의 값


## 행렬곱셉(Matrix multiplication)
- 행렬곱셈은 **i번째 행벡터와 j번재 *열벡터* 사이의 내적**을 성분으로 가지는 행렬을 계산한다.
- X의 행과 Y의 행이 있다. XY를 할 경우, 행렬곱은 X의 열의 개수와 Y의 행의 개수가 같아야 한다.

In [5]:
X = np.array([[1,2,3],
              [-1,-3,3],
              [0,3,-6]])
Y = np.array([[5,4],
              [3,4],
              [1,1]])

In [7]:
print('그냥 성분곱을 할 경우에는 ValueError가 발생')
X * Y

그냥 성분곱을 할 경우에는 ValueError가 발생


ValueError: operands could not be broadcast together with shapes (3,3) (3,2) 

행렬곱셈을 하게되면 결괏값이 나온다.\
```
X @ Y
```

[[ 14,  15],\
[-11, -13],\
[  3,   6]]

14가 나온 이유는 X의 1행과 Y의 1열의 각 element들이 서로 곱한다음 총 합을 구한 값.\
1\*5 + 2\*3 + 3\*1 = 14


## 행렬도 내적이 있을까?
- numpy의 np.inner는 **i번째 행 벡터와, j번째 행벡터 사이의 내적**을 성분으로 가지는 행렬을 계산한다.
- 수학에서 말하는 내적과는 다르므로 주의!!!! 
- 계산하려는 두 행렬의 행벡터의 길이가 같아야 한다.

In [10]:
X = np.array([[1,2,3],
              [-1,-3,3],
              [0,3,-6]])
Y = np.array([[5,4,3],
              [4,1,1]])

In [11]:
X * Y

ValueError: operands could not be broadcast together with shapes (3,3) (2,3) 

In [12]:
X @ Y

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 2 is different from 3)

```
np.inner(X,Y)
```
[[22,  9],\
 [-8, -4],\
 [-6, -3]]
 
22가 나온 이유는 X의 1행과 Y의 1행의 같은 위치에 있는 element끼리 곱한다음 총 합을 구한 값\
1\*5 + 2\*4 + 3\*3 = 22

## 행렬 이해하기 2
- 행렬은 **벡터공간에서 사용되는 연산자(operator)**로 이해한다.
- 행렬곱을 통해 벡터를 **다른 차원의 공간**으로 보낼 수 있다.
- 행렬곱을 통해 패턴을 추출할 수 있고 데이터를 압출할 수도 있다.\
    => 모든 선형변환(linear transform)은 행렬곱으로 계산할 수 있다.
- 딥러닝 선형변환과 비선형 함수들의 합성으로 이루어져있기 때문에 행렬곱을 잘 알아야 한다.

## 역행렬
- 어떤 행렬 A의 연산을 거꾸로 되돌리는 행렬을 역행렬(inverse matrix)이라 부르고 A^-1라 표기한다. 역행렬은 행과 열 숫자가 같고 행렬식(determinant)이 0이 아닌 경우에만 계산할 수 있다.
- 역행렬은 n(행) = m(열)일 때만 가능하고 행렬 A의 행렬식이 0이 되면 안된다.

n차원에 있는 X 벡터가 A라는 행렬(operator)를 통해 N이라는 차원으로 이동하여 Z 벡터로 됐을 경우 다시 그 것을 n차원의 x벡터로 되돌리는 것을 역행렬이라 한다.

```
A*A^-1 = A^-1*A = I
```
I는 항등행렬 : 임의의 벡터 또는 행렬에 곱했줬을 때 자기 자신이 나오는 것을 말한다.

- np.linalg.inv로 구할 수 있다.
- 만일 역행렬을 계산할 수 없다면 **유사역행렬(pseudo-inverse)**또는 **무어펜로즈(Moore-Penrose) 역행렬** A^+을 이용\
    => n ≥ m인 경우와 n ≤ m 인 경우에 따라 곱하는 순서가 다르다.

In [22]:
X = np.array([[2,5,3],[-4,0,6],[1,-3,2]])

In [23]:
np.linalg.inv(X)  # np.linalg.inv()를 활용하여 역행렬을 구할 수 있는지 확인

array([[ 0.12676056, -0.13380282,  0.21126761],
       [ 0.09859155,  0.00704225, -0.16901408],
       [ 0.08450704,  0.07746479,  0.14084507]])

In [24]:
X @ np.linalg.inv(X)  # 항등행렬을 구할 수 있다.

array([[ 1.00000000e+00,  0.00000000e+00,  0.00000000e+00],
       [ 0.00000000e+00,  1.00000000e+00,  0.00000000e+00],
       [-5.55111512e-17,  5.55111512e-17,  1.00000000e+00]])

### 유사역행렬(pseudo - inverse)
- n ≥ m 이면 A^+ * A = I가 성립
- n ≤ m 이면 A * A^+ = I가 성립

In [29]:
Y = np.array([[0,1],[-2,1],[-2,0]])  
# n ≥ m 인 상황이다.

In [30]:
np.linalg.pinv(Y)

array([[ 0.16666667, -0.16666667, -0.33333333],
       [ 0.66666667,  0.33333333, -0.33333333]])

In [33]:
# Y @ np.linalg.pinv(Y)
# n ≥ m 인 경우여서 위와 같은 식은 성립되지 못한다.

In [32]:
np.linalg.pinv(Y) @ Y

array([[ 1.00000000e+00,  1.11022302e-16],
       [-2.22044605e-16,  1.00000000e+00]])

## 응용1 : 연립방정식 풀기
- np.linalg.pinv()를 이용하면 연립방정식의 해를 구할 수 있다.\
n ≤ m 인 경우 : 식이 변수 개수보다 작거나 같아야 함

## 응용2 : 선형회귀분석
- np.linalg.pinv()를 이용하면 데이터를 선형모델(linear model)로 해석하는 선형회귀식을 찾을 수 있다.\
n ≥ m 인 경우 : 식이 변수 개수보다 많거나 같아야 함

X \* β(계수 벡터) = y
 이때 어떤 β를 써야 점들을 잘 표현하는 선형모델식을 찾을 수 있느냐라고 물어보는 것이 선형회귀분석
 그래서 이때 β를 어떻게 찾아야 할까?

선형회귀분석은 연립방정식과 달리 행이 더 많기 때문에 방정식을 푸는것은 불가능하다. 우리가 할 수 있는 것은 β를 곱해줬을 때 이 X \* β라 표현되는 선이 주어진 데이터를 최대한 잘 표현할 수 있는 선을 찾는 것이 최선이다.
Q. 그럼 가장 최선이 되는 선형회귀식을 찾을 수 있나??
- X \* β = ŷ(y hat) ≈ y
- 무어펠로즈 역행렬을 이용하면 y에 근접하는 ŷ를 찾을 수 있다. 가장 최소화 되는 것이 예측을 가장 잘했다라고 볼 수 있다.
- sklearn의 LinearRegression과 같은 결과를 가져올 수 있다.

그런데 같은 방법이지만 결과가 다르게 될 경우가 있다.\
이 경우에는 y절편(intercept)항을 고려해줘야 한다.
- sklearn에서 제공하는 LinearRegression은 y절편에 자동으로 더해줘 추정을 해주기 때문이다. 그래서 Moore-penrose 역행렬을 할 경우 직접 추가해줘서 구해야 한다.

# 경사하강법(순한맛)

## 1. 미분?
- **변수의 움직임에 따른 함수값의 변화를 측정하기 위한 도구**로 최적화에서 제일 많이 사용하는 기법이다.
- 미분은 함수 f의 주어진 점(x,f(x))에서의 접선의 기울기를 구한다.
- 한 점에서 접선의 기울기를 알면 어느 방향으로 점을 움직여야 함수값이 증가하는지 / 감소하는지 알 수 있다 .
    - 증가시키고 싶다면 미분값을 더하고 / 감소하시키고 싶다면 미분값을 뺀다.
- 미분값을 더하면 경사상승법(gradient ascent)이라 하며 함수의 극대값의 위치를 구할 때 사용한다.
- 미분값을 빼면 경사하강법(gradient descent)이라 하며 함수의 극소값의 위치를 구할 때 사용한다.
- 경사상승 / 경사하강 방법은 극값에 도달하면 움직임이 멈춘다. 극값에선 미분값이 0이므로 더 이상 업데이트가 안 된다. 그러므로 목적함수 최적화가 자동으로 끝난다.

In [2]:
sym.diff(sym.poly(x**2 + 2*x + 3),x)

Poly(2*x + 2, x, domain='ZZ')

## 경사하강법 : 알고리즘
Input : gradient, init, lr, eps, Output : var
- gradient : 미분을 계산하는 함수
- init : 시작점, lr : 학습률, eps : 알고리즘 종료조건
- 컴퓨터로 계산할 때 미분이 정확히 0이 되는 것은 불가능 하므로 eps보다 작을 때 종료하는 조건이 반드시 필요.

```
var = init
grad = gradient(var)
while(abs(grad) > eps):
    var = var - lr*grad   #1
    grad = gradient(var)  #2
```
\#1 이 부분이 x - f'(x)을 계산하는 부분. lr 은 학습률로서 미분을 통해 업데이트하는 속도를 조절한다.
\#2 종료 조건이 성립하기 전까지 미분값을 계속 업데이트

## 만일 변수가 벡터이면?
- 미분(differentiation)은 변수의 움직임에 따른 함수값의 변화를 측정하기 위한 도구로 최적화에서 제일 많이 사용하는 기법이다.
- 벡터가 입력인 다변수 함수의 경우 편미분(partial differentiation)을 사용한다.\
    => 특정 방향의 좌표축으로 이동하는 형식의 미분
- 각 변수 별로 편미분을 계산한 그레디언트(gradient)벡터를 이용하여 경사하강/경사상승법에 사용할 수 있다.
```
∇𝑓 = (∂x1𝑓,∂x2𝑓, ... , ∂xd𝑓)
∇ : nabla
```
앞서 사용한 미분값인 𝑓'(x) 대신 벡터 ∇𝑓를 사용하여 변수 x = (x1,x2,x3,...,xd)를 동시에 업데이트 가능!

## 그레디언트 벡터란?
- ∇𝑓(x,y)는 각 점 (x,y)에서 가장 빨리 증가하는 방향으로 흐르게 된다.
- -∇𝑓는 ∇(-𝑓)랑 같고 이는 각점에서 가장 빨리 감소하게 되는 방향과 같다.

## 그레디언트 벡터 경사하강법 : 알고리즘
Input : gradient, init, lr, eps, Output : var
- gradient : **그레디언트 벡터**를 계산하는 함수
- init : 시작점, lr : 학습률, eps : 알고리즘 종료조건
- 컴퓨터로 계산할 때 미분이 정확히 0이 되는 것은 불가능 하므로 eps보다 작을 때 종료하는 조건이 반드시 필요.
```
var = init
grad = gradient(var)
while(norm(grad) > eps):
    var = var - lr*grad   #1
    grad = gradient(var)  #2
``` 
경사하강법 알고리즘은 그대로 적용된다. 그러나 벡터는 절대값 대신 노름(norm)을 계산해서 종료조건을 설정해야 한다.

In [13]:
sym.diff(sym.poly(x**2 + 2*x*y + 3)+sym.cos(x+2*y),x)

2*x + 2*y - sin(x + 2*y)

# 경사하강법 기반 선형회귀 알고리즘
Input : X, y, lr, T, Output : beta
- norm : L2-노름을 계산하는 함수
- lr : 학습률, T : 학습횟수

```
for t in range(T):
    error = y - X @ beta
    grad = - transpose(X) @ error
    beta = beta - lr * grad
```
종료조건을 일정 학습횟수로 변경한 점만 빼고 앞에서 배운 경사하강법 알고리즘과 같다.

- 이러한 경사하강법 알고리즘으로 역행렬을 이용하지 않고 회귀계수를 계산할 수 있다.
- 그러나 경사하강법 알고리즘에선 학습률과 학습횟수가 중요한 hyperparameter가 된다

## 경사하강법은 만능일까?
- 이론적으로 경사하강법은 미분가능하고 볼록(convex)한 함수에 대해선 **적절한 학습률과 학습횟수를 선택했을 때 수렴이 보장**되어 있다.
- 특히 선형회귀의 경우 목적식을 L2-노름을 사용하는데, L2-노름을 사용하는 성형회귀는 회귀계수 𝛽에 대해 볼록함수이기 때문에 알고리즘을 충분히 돌리면 수렴이 보장된다.
- 하지만 비선형회귀 문제의 경우 목적식이 볼록하지 않을 수 있으므로 수렴이 항상 보장되지는 않는다. 특히 딥러닝을 사용하는 경우 목적식은 대부분 볼록함수가 아니다.


## 확률적 경사하강법(SGD; Stochastic Gradient Descent)
- 모든 데이터를 사용해서 업데이트(gradient)하는 대신 데이터 한개 또는 일부 활용한 후 업데이트(gradient)한다.\
=> 데이터 일부를 활용한다면 mini-batch SGD라 하고 한개만 활용한다면 그냥 SGD라 부른다. 요즘  대부분 mini-batch SGD
- 볼록이 아닌 (Non-convex) 목적식은 SGD를 통해 최적화할 수 있다.
- SGD라고 해서 만능은 아니지만 딥러닝의 경우 SGD가 경사하강법보다 실증적으로 더 낫다고 검증되었다.
- SGD는 데이터의 일부를 가지고 패러미터를 업데이트하기 때문에 연산자원을 좀 더 효울적으로 활용하는데 도움이 된다.
- 확률적 경사하강법은 경사하강법의 학습률과 학습횟수가 중요한거에 더하여 mini batch도 중요하다.

## 확률적 경사하강법의 원리 : 미니배치 연산
- step을 하나씩 하나씩 경사하강법을 순차적으로 적용하면 목적식의 모양이 고정되지 않고 매번 미니배치를 샘플링할 때마다 목적식의 모양이 바뀌게 된다. 그래서 바뀐 모양에서의 그래디언트 벡터를 계산하기 때문에 다른 값이 나오게 되지만 방향은 얼추 비슷한 방향으로 갈 수 가 있다. 
- 이러한 원리로 non-convex일 경우 극소점, 극대점에 도착을 해서 미분값 그래디언트 벡터 값이 0벡터가 나온다고 하더라도 확률적 경사하강법을 이용하면 극소점이나 극대점에서 목적식이 확률적으로 바뀌기 때문에 더이상 극소점, 극대점이 아니게 된다. 그래서 확률적으로 극소점, 극대점이 아니게 되면 경사하강법 원리상 원래 경사하강법에서 사용했던 그래디언트 벡터가 0이라 하더라도 목적식이 바뀐상테에서 그래디언트 벡터를 계산하게되면 값이 0이 아니기 때문에 극소점에서 탈출을 할 수 있게 된다. 이걸 이용해서 확률적 경사하강법은 non-convex라 하더라도 최소점을 찾는데 사용이 된다.

## 확률적 경사하강법의 원리 : 하드웨어
- 256 X 256 X 3 X 1,000,000 ≈ 2^37 bytes  의 이미지 데이터 가 있다.
- 만일 일반적인 경사하강법처럼 모든 데이터를 업로드 하면 메모리가 부족하여 Out-of-memory가 발생
- 대신 미니배치로 데이터를 쪼갠다면 일부 이미지데이터로만 업로드 후 GPU에서 행렬 연산과 모델 패러미터를 업데이트하는 동안 CPU는 전처리와 GPU에서 업로드할 데이터를 준비한다. 그래서 빠르게 연산도 가능하고 하드웨어 적으로 극복을 할 수가 있다.

# 비선형모델
- 딥러닝에서 표현되는 화살표들은 선형모델에서 표현되는 가중치 w라 생각하면 된다


## 분류
### 소프트맥스 연산
- 모델의 출력을 확률로 해석할 수 있게 변환해 주는 연산
- 분류 문제를 풀 때 선형모델과 소프트맥스 함수를 결합하여 예측
```
softmax(O) = softmax(Wx+b)
```
- 그러나 추론을 할 때는 one-hot 백터로 최대값을 가진 주소만 1로 출력하는 연산을 사용해서 softmax를 사용하지 않는다.
    - 학습은 softmax, 추론은 one-hot

In [3]:
def softmax(vec):
    denumerator = np.exp(vec - np.max(vec,axis=-1,keepdims=True))
    numerator = np.sum(denumerator, axis=-1, keepdims=True)
    val = denumerator/numerator
    return val

In [4]:
vec = np.array([[1,2,0],[-1,0,1],[-10,0,10]])
softmax(vec)

array([[2.44728471e-01, 6.65240956e-01, 9.00305732e-02],
       [9.00305732e-02, 2.44728471e-01, 6.65240956e-01],
       [2.06106005e-09, 4.53978686e-05, 9.99954600e-01]])

In [5]:
def one_hot(val,dim):
    return [np.eye(dim)[_] for _ in val]  # np.eye = 대각행렬 I와 같은 것.

In [8]:
def one_hot_encoding(vec):
    vec_dim = vec.shape[1]
    vec_argmax = np.argmax(vec,axis=-1)
    return one_hot(vec_argmax, vec_dim)

In [16]:
print(vec.shape[1])
print(np.argmax(vec, axis=-1))
print(one_hot_encoding(vec))
print(one_hot_encoding(softmax(vec)))

3
[1 2 2]
[array([0., 1., 0.]), array([0., 0., 1.]), array([0., 0., 1.])]
[array([0., 1., 0.]), array([0., 0., 1.]), array([0., 0., 1.])]


## 활성화 함수(activation function)
- 선형모델이나 행렬곱을 사용하지 않고 비선형 함수로서 선형모델로 나오는 각각의 출력물인 각각의 원소에 적용된다.
- softmax와 차이점을 본다면 출력물 모든값에 다 고려를 해서 출력을 하는 반면 activation은 다른 주소에 있는 출력값을 고려하지 않고 오로지 해당하는 주소의 출력값만 갖고 계산을 하여 벡터를 input으로 받지 않고 하나의 실수값만 input으로 받는다.
- 딥러닝에서는 선형모델로 나온 출력물을 비선형모델로 전환시킬 수 있다. 변형을 시킨 벡터를 잠재벡터 또는 히든벡터라 하며 뉴런(신경망)이라 한다.
### 정리
- 활성함수(activation function)는 실수값을 받아서 실수값을 출력하는 비선형 함수로서 딥러닝에서 매우 중요한 개념이다.
- 활성함수를 쓰지 않으면 딥러닝은 선형모형과 차이가 없다.
- 시그모이드(sigmoid) 함수나 tanh 함수는 전통적으로 많이 쓰이던 활성함수지만 딥러닝에서는 ReLU함수를 많이 쓰고 있다.
- 신경망은 선형모델과 활성함수(activation function)를 합성한 함수이다.
- 선형모델과 활성함수를 반복적으로 사용하는 것이 오늘날의 딥러닝의 기본적인 모습
- 가중치 행렬이 n개면 n층(n-layer) 신경망이라 한다. 그래서 신경망이 여러층 합성된 함수인 다층(Multi-layer)퍼셉트론(MLP)라 한다.
- 활성화 함수를 씌울때 활성화 함수는 각 벡터에 개별적으로 적용이되는 것이고 각 벡터에 적용할 때도 각 벡터에 들어가는 요소들에 개별적으로 들어가게 된다.
- MLP의 패러미터는 L개의 가중치 행렬 W(L),...,W(2),W(1)과 L개의 y 절편 b(L),...,b(2),b(1)로 이루어져 있다.
- ℓ = 1,...,L 까지 순차적인 신경망 계산을 순전파(Forward propagation)라 부른다.
#### Forward propagation은 학습이 아니라 주어진 입력이 왔을 때 출력을 내뱉는 과정을 표현하는 연산이다.

### 순차적으로 표현한다면
X(input) => W1(가중치 행렬) => Z1 => activation function => H(잠재벡터) => W2(가중치 행렬) => Z2 => ... => Zℓ


### 왜 층을 여러개 쌓는가?
- 이론적으로는 2층 신경망으로도 임의의 연속함수를 근사할 수 있다. 그러나 실제로는 그렇지 않다.
- 층이 깊을수록 목적함수를 근사하는데 필요한 뉴런(노드)의 숫자가 훨씬 빨리 줄어들어 좀 더 효율적으로 학습이 가능하다.
    - 층이 깊을수록 적은 패러미터로도 복잡한 함수를 표현할 수 있다.
    - 층이 얇으면 필요한 뉴런의 숫자가 기하급수적으로 늘어나서 넓은(wide) 신경망이 되어야 한다.
- 주의할점!
    - 층이 깊다고 해서 복잡한 함수로 근사는 할 수 있지만 그렇다고 해서 최적화가 더 쉽다고는 할 수 없다. 좀더 복잡한 함수를 표현하면 할 수록 최적화는 많은 노력을 기울여야 한다. 그래서 층이 깊으면 깊을 수록 딥러닝 학습은 어려워 질 수 있다.

# 딥러닝 학습원리 : 역전파 알고리즘(Back propagation)
- 딥러닝은 역전파(back propagation) 알고리즘을 이용하여 각 층에 사용된 패러미터 {W, b}를 학습한다.
- 손실함수를 L이라 했을 때 역전파 알고리즘의 목적은 각각의 가중치 행렬 W(ℓ)에 대해서 손실함수 L에 대한 미분을 계산할 때 사용된다. ∂L / ∂W(ℓ)
- 역전파 알고리즘은 먼저 위층의 그레디언트를 계산한 다음에 점점 밑에 층으로 가면서 그레디언트 벡터를 계산하면서 업데이트를 하는 방식이다.
- 각 층 패러미터의 그레디언트 벡터를 계산한 다음에 윗층부터 역순으로 그레디언트 벡터를 전달하면서 계산하게 된다.
    - 역전파는 ℓ = L,...,1 순서로 연쇄법칙(합성함수의 미분법)을 통해 그레디언트 벡터를 전달한다.
- 역전파 알고리즘은 합성함수 미분법인 연쇄법칙(chain-rule)기반 자동미분(auto-differentiation)을 사용한다. 이것이 오늘날 딥러닝 프레임워크에서 딥러닝을 학습시키는 방법.
- 연쇄법칙의 작동원리가 그대로 동작하는 것이 바로 딥러닝에서 사용되는 역전파 알고리즘.
- 각 노드의 텐서(각 뉴런에 해당하는 값)값을 컴퓨터가 기억해야 미분 계산이 가능하기 때문에 순전파보다 역전파가 메모리를 더 많이 사용한다.
- 딥러닝을 학습시킬때는 이렇게 계산한(연쇄법칙을 이용한 계산) 각각의 가중치 행렬에 대한 그레디언트 벡터를 SGD이용해서 각각의 패러미터들을 mini-batch로 번갈아가며 학습을 하게되고 번갈아가며 학습을 하게 되므로서 주어진 목적식을 최소화하는 패러미터들을 찾을 수 있고 이러한 원리가 딥러닝의 학습 원리....

## 정리
딥러닝은 선형모델과 활성함수로 이루어진 층이 여러개로 이루어진 합성함수이며, 합성함수다보니 그레디언트를 계산하려면 연쇄법칙이 필요한 것이고, 연쇄법칙을 적용한 학습방법 알고리즘이 역전파(back propagation)이다. 즉 back propagation을 활용하여 그레디언트를 계산
