# 1. 파이썬의 컴퓨팅 라이브러리, numpy
**numpy를 이용해서 데이터를 다뤄봅시다!**

### Our Goal
1. Numpy 시작하기
    - prerequisite : Python의 List
    - numpy import하기
    - numpy.array

2. Numpy로 연산하기
    - Vector - Scalar : elementwise! (+, -, *, /)
    - Vector - Vector : elementwise / broadcasting (+, -, *, /)
    - Indexing & Slicing
3. Example : Linear Algebra with Numpy
    1. basics
    - 영벡터 : `.zeros()`
    - 일벡터 : `.ones()`
    - 대각행렬 : `.diag()`
    - 항등행렬 : `.eye()`
    - 행렬곱 : `@` / `.dot()`
  
    2. furthermore
    - 트레이스 : `.trace()`
    - 행렬식 : `.linalg.det()`
    - 역행렬 : `.linalg.inv()`
    - 고유값 : `.linalg.eig()`


## I. Numpy 시작하기

In [66]:
data = np.array([[0, 2, np.nan, np.nan, np.nan, np.nan, 0.39, 0.21, 0.54],
                  [1, 0, 0.74, 0.22, 0.22, np.nan, np.nan, np.nan, np.nan],
                  [2, 0, 0.65, 0.48, 0.79, np.nan, np.nan, np.nan, np.nan],
                  [3, 1, np.nan, np.nan, np.nan, 0.76, 0.64, 0.99, 0.87]])

In [91]:
def solution(data):
    answer = []
    answer.clear()
    for i in range(data.shape[0]):
        
        if data[i][1] == 0:
            result = np.dot(data[i][2:5],np.array([0.3,0.3,0.4]))
            if result >= 0.8:
                answer.append(int(data[i][0]))
                
        elif data[i][1] == 1:
            result = np.dot(data[i][-3:],np.array([0.3,0.4,0.3]))/2 + np.dot(data[i][5],np.array([0.5]))
            if result >= 0.75:
                answer.append(int(data[i][0]))
                
        else:
            result = np.dot(data[i][-3:],np.array([0.3,0.4,0.3]))
            if result >= 0.75:
                answer.append(int(data[i][0]))
                
    answer.sort(reverse = True)
    return answer

In [92]:
solution(data)

[3]

In [57]:
np.dot(data[0][-3:], np.array([2,2,2]))

2.2800000000000002

In [44]:
data[3][5]

0.76

## II. Numpy로 연산하기

Vector와 Scalar 사이의 연산
* 벡터의각 원소에 대해서 연산을 진행

In [1]:
import numpy as np
x = np.array([1,2,3])
c = 5

print(f"더하기 : ", x+c)
print(f"빼기 : ", x-c)
print(f"곱하기 : ", x*c)
print(f"나누기 : ", x/c)

더하기 :  [6 7 8]
빼기 :  [-4 -3 -2]
곱하기 :  [ 5 10 15]
나누기 :  [0.2 0.4 0.6]


Vector와 Vector 사이의 연산
* 벡터의 **같은 인덱스**끼리 연산이 진행

In [8]:
import numpy as np
x = np.array([1,3,5])
y = np.array([2,9,20])

print(f"더하기 : ", x+y)
print(f"빼기 : ", x-y)
print(f"곱하기 : ", x*y)
print(f"나누기 : ", x/y)

더하기 :  [ 3 12 25]
빼기 :  [ -1  -6 -15]
곱하기 :  [  2  27 100]
나누기 :  [0.5        0.33333333 0.25      ]


## Array Indexing

Python의 리스트와 유사하게 진행

$$ W = \left( \begin{matrix} 1 & 2 & 3 & 4 \\ 5 & 6 & 7 & 8 \\ 9 & 10 & 11 & 12 \end{matrix} \right) $$

In [98]:
W = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
W

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [104]:
arr = [[i * j for i in range(10)] for j in range(10)]
arr = np.array(arr)
arr.shape

(10, 10)

In [105]:
arr

array([[ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18],
       [ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27],
       [ 0,  4,  8, 12, 16, 20, 24, 28, 32, 36],
       [ 0,  5, 10, 15, 20, 25, 30, 35, 40, 45],
       [ 0,  6, 12, 18, 24, 30, 36, 42, 48, 54],
       [ 0,  7, 14, 21, 28, 35, 42, 49, 56, 63],
       [ 0,  8, 16, 24, 32, 40, 48, 56, 64, 72],
       [ 0,  9, 18, 27, 36, 45, 54, 63, 72, 81]])

In [108]:
arr[3:8, 6:10] = arr[3:8, 6:10]*2
arr

array([[  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   1,   2,   3,   4,   5,   6,   7,   8,   9],
       [  0,   2,   4,   6,   8,  10,  12,  14,  16,  18],
       [  0,   3,   6,   9,  12,  15,  36,  42,  48,  54],
       [  0,   4,   8,  12,  16,  20,  48,  56,  64,  72],
       [  0,   5,  10,  15,  20,  25,  60,  70,  80,  90],
       [  0,   6,  12,  18,  24,  30,  72,  84,  96, 108],
       [  0,   7,  14,  21,  28,  35,  84,  98, 112, 126],
       [  0,   8,  16,  24,  32,  40,  48,  56,  64,  72],
       [  0,   9,  18,  27,  36,  45,  54,  63,  72,  81]])

In [124]:
arr = np.array([[[51,60,74],[92,20,74]],[[14,82,87],[71,86,99]]])
arr[0][0]

array([51, 60, 74])

In [10]:
for i in range(W.shape[0]//2):
    for j in range(W.shape[1]):
        if W[i,j] == 12:
            W[i,j] = 1
W

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11,  1]])

In [10]:
W[0,0]

1

In [11]:
W[2,3]

12

In [12]:
# 7을 가져오려면?

W[1,2]

7

## Array Slicing

Python의 리스트와 유사하게 진행

In [14]:
W = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])

# 2, 3, -> 행: 인덱스 0~1 -> [0:2]
# 6, 7, -> 열: 인덱스 1~2 -> [1:3]
# 이거 그냥 [행,열] 이라고 생각하면 된다!    
W[0:2, 1:3] 

array([[2, 3],
       [6, 7]])

* [a:b]

* [:b] - 맨 처음부터 b까지 (~b-1까지)
* [a:] - a부터 끝까지
* [:] - 처음부터 끝까지

In [16]:
W[0:2, 0:4]

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [17]:
W[0:2] #명시를 해주지 않으면 열은 전체 가져오겠다는 말이다.

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [18]:
W[0:2,:]

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [19]:
W[0:3,2:4]

array([[ 3,  4],
       [ 7,  8],
       [11, 12]])

In [21]:
W[:,2:4]

array([[ 3,  4],
       [ 7,  8],
       [11, 12]])

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)![image.png](attachment:image.png)

## Array의 Broadcasting

기본적으로 같은 Type의 data에 대해서만 연산이 적용 가능  
하지만 만약에 피연산자가 연산 가능하도록 변환이 가능하다면 연산이 가능합니다.  
이를 **Broadcasting**이라고 합니다.


### 1. M by N, M by 1

In [93]:
np.random.seed(42)
A = np.random.randint(0, 5, size=(6, 1, 4))
B = np.random.randint(0, 5, size=(3,1))
A

array([[[3, 4, 2, 4]],

       [[4, 1, 2, 2]],

       [[2, 4, 3, 2]],

       [[4, 1, 3, 1]],

       [[3, 4, 0, 3]],

       [[1, 4, 3, 0]]])

In [28]:
A*B

array([[[0, 0, 0, 0],
        [6, 8, 4, 8],
        [6, 8, 4, 8]],

       [[0, 0, 0, 0],
        [8, 2, 4, 4],
        [8, 2, 4, 4]],

       [[0, 0, 0, 0],
        [4, 8, 6, 4],
        [4, 8, 6, 4]],

       [[0, 0, 0, 0],
        [8, 2, 6, 2],
        [8, 2, 6, 2]],

       [[0, 0, 0, 0],
        [6, 8, 0, 6],
        [6, 8, 0, 6]],

       [[0, 0, 0, 0],
        [2, 8, 6, 0],
        [2, 8, 6, 0]]])

In [25]:
a = np.array([[1,2,3],[4,5,6],[7,8,9]])
x = np.array([0,1,0]).reshape(3,1)

print(a+x)

[[1 2 3]
 [5 6 7]
 [7 8 9]]


### 2. M by N, M by 1

In [26]:
y = np.array([0,1,-1])

print(a * y)

[[ 0  2 -3]
 [ 0  5 -6]
 [ 0  8 -9]]


### 3. M by N, M by 1

In [28]:
t = np.array([1,2,3]).reshape(3,1)

u = np.array([2,0,-2])

print(t+u)

[[ 3  1 -1]
 [ 4  2  0]
 [ 5  3  1]]


## III. Numpy로 선형대수 지식 끼얹기

![image.png](attachment:image.png)

### 영벡터(행렬)

- 원소가 모두 0인 벡터(행렬)
- `np.zeros(dim)`을 통해 생성, dim은 값, 혹은 튜플 (,)

In [31]:
np.zeros(3)

array([0., 0., 0.])

In [34]:
np.zeros((3,3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [36]:
np.zeros((3,3,3))

array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]])

In [35]:
np.zeros(3,3)

TypeError: Cannot interpret '3' as a data type

![image.png](attachment:image.png)

### 일벡터(일행렬)

- 원소가 모두 1인 벡터(행렬)
- `np.ones(dim)`을 통해 생성, dim은 값, 혹은 튜플 (,)

In [37]:
np.ones(2)

array([1., 1.])

In [38]:
np.ones((3,3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

![image.png](attachment:image.png)

### 대각행렬

- Main Diagonal을 제외한 성분이 0인 행렬
- `np.diag((main_diagnoals))`을 통해 생성할 수있음

In [39]:
np.diag((2,4))

array([[2, 0],
       [0, 4]])

In [40]:
np.diag((1,3,5))

array([[1, 0, 0],
       [0, 3, 0],
       [0, 0, 5]])

![image.png](attachment:image.png)

### 항등행렬

- main diagonal == 1인 diagonal matrix(대각 행렬)
- `np.eye(n, (dtype = int, unit, float, complex...))`를 사용

In [42]:
np.eye(2).dtype

dtype('float64')

In [46]:
np.eye(2, dtype = int).dtype

dtype('int32')

In [44]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

![image-2.png](attachment:image-2.png)

### 행렬곱

- 행렬간에 정의되는 곱 연산(dot product)
- `np.dot()`, @를 사용

In [23]:
mat_1 = np.array([[[1,6],[2,3],[7,8]],[[1,4],[2,3],[7,8]]])
mat_1.shape[0]

2

In [21]:
mat_1[1]

array([[1, 4],
       [2, 3],
       [7, 8]])

In [24]:
mat_1 = np.array([[2,4],[3,6]])
mat_1/2

array([[1. , 2. ],
       [1.5, 3. ]])

In [48]:
mat_1 = np.array([[1,4],[2,3]])
mat_2 = np.array([[7,9],[0,6]])

mat_1.dot(mat_2)

array([[ 7, 33],
       [14, 36]])

In [50]:
mat_1 @ mat_2

array([[ 7, 33],
       [14, 36]])

강사님께서 2차원 행렬에 한하여 설명하시느라 np.dot() 과 @연산자를 같이 설명하셨는데, 3차원 이상 행렬에서 np.dot() 과 @ or np.matmul() 은 다르게 연산됩니다.  
참고링크: https://jimmy-ai.tistory.com/104

In [60]:
# 2차원 * 3차원
a = np.array([[1, 3], [2, 4]])
b = np.array([[[1, 1], [0, 1]], [[5, 0], [0, 0]]])

np.dot(a, b)
# '''
# array([[[ 1,  4],
#         [ 5,  0]],

#        [[ 2,  6],
#         [10,  0]]])'''

array([[[ 1,  4],
        [ 5,  0]],

       [[ 2,  6],
        [10,  0]]])

In [61]:
a @ b

array([[[ 1,  4],
        [ 2,  6]],

       [[ 5,  0],
        [10,  0]]])

In [62]:
np.matmul(a,b)

array([[[ 1,  4],
        [ 2,  6]],

       [[ 5,  0],
        [10,  0]]])

![image-2.png](attachment:image-2.png)

### 트레이스(trace)

- Main Diagonal의 Sum
- `np.trace()` 을 사용

In [64]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [65]:
arr.trace()

15

In [66]:
np.eye(2, dtype=int).trace()

2

![image.png](attachment:image.png)

![image.png](attachment:image.png)

### 행렬식

- 행렬을 대표하는 값 중 하나
- 선형변환 과정에서 Vector의 Scaling 척도
- `np.linalg.det()` 으로 계산

In [68]:
arr_2 = np.array([[2,3],[1,6]])
arr_2

array([[2, 3],
       [1, 6]])

In [69]:
np.linalg.det(arr_2)

9.000000000000002

In [70]:
arr_3 = np.array([[1,4,7],[2,5,8],[3,6,9]])
arr_3

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

In [71]:
np.linalg.det(arr_3)

0.0

![image.png](attachment:image.png)

### 역행렬

- 행렬 A에 대해서 AB = BA = I를 만족하는 행렬 B
- `np.linalg.inv()`을 사용

In [73]:
mat = np.array([[1,4],[2,3]])
mat

array([[1, 4],
       [2, 3]])

In [74]:
mat_inv = np.linalg.inv(mat)
mat_inv

array([[-0.6,  0.8],
       [ 0.4, -0.2]])

In [75]:
mat @ mat_inv

array([[ 1.00000000e+00,  0.00000000e+00],
       [-1.11022302e-16,  1.00000000e+00]])

### 고유값과 고유벡터


- 정방행렬(nxn) A에 대해서 Ax = $\lambda$x가 있을때 이 등식을 만족시키는 $\lambda$값과 이에 대응되는 x벡터를
- 고유값과 고유벡터라고 한다
- 선형변환 관점에서 보면 어떤 선형변환을 진행하는 과정에서 어떤 벡터는 방향이 변하지 않고 
- 즉 같은 span에 위치해서 크기만 변하는 경우가 생긴다 이때 span되는 raio를 고유값이라고 하고 
- span되는 영역에 대한 벡터를 고유벡터라고 한다.
- `np.linalg.eig()` 로 계산

![image.png](attachment:image.png)

- 이 함수의 값은 고유값과 고유벡터 2개가 나오게 된다. 여기서 중요한 것은 고유값에서의 index값이 중요하다
- 이 index에 대응되는 벡터가 index순서대로 있기 때문이다. 여기서 보면
- 1에 대응되는 고유벡터는 컬럼을 기준으로 봐야한다. 
- 고유벡터의 특성상 상수배가 이루어질 수있는대 이 벡터들은 정규화가 진행된 벡터들이다.
<br>
- ![image-2.png](attachment:image-2.png)

In [76]:
mat = np.array([[2,0,-2],[1,1,-2],[0,0,1]])
mat

array([[ 2,  0, -2],
       [ 1,  1, -2],
       [ 0,  0,  1]])

인덱스 0에 1에 대응되는 고유벡터가 np.array([[0,1,0]]).reshape(3,1)이고  
인덱스 1에 2대응되는 고유벡터가 np.array([[0.7...,0.7...,0]]).reshape(3,1)인 것이다

In [78]:
np.linalg.eig(mat)

(array([1., 2., 1.]),
 array([[0.        , 0.70710678, 0.89442719],
        [1.        , 0.70710678, 0.        ],
        [0.        , 0.        , 0.4472136 ]]))

### validation, 검증을 진행해 보도록 하자!

In [79]:
eig_val, eig_vec = np.linalg.eig(mat)
eig_val

array([1., 2., 1.])

In [80]:
eig_vec

array([[0.        , 0.70710678, 0.89442719],
       [1.        , 0.70710678, 0.        ],
       [0.        , 0.        , 0.4472136 ]])

In [81]:
mat @ eig_vec[:,0] # Ax

array([0., 1., 0.])

In [83]:
eig_val[0] * eig_vec[:,0] # (lambda)x

array([0., 1., 0.])

In [84]:
mat @ eig_vec[:,1] # Ax

array([1.41421356, 1.41421356, 0.        ])

In [85]:
eig_val[1] * eig_vec[:,1] # (lambda)x

array([1.41421356, 1.41421356, 0.        ])

In [86]:
mat @ eig_vec[:,2] # Ax

array([0.89442719, 0.        , 0.4472136 ])

In [87]:
eig_val[2] * eig_vec[:,2] # (lambda)x

array([0.89442719, 0.        , 0.4472136 ])

값이 서로 동일한 것을 알 수있다

## IV. Exercises

### 1. 어떤 벡터가 주어졌을 때 L2 norm을 구하는 함수 `get_L2_norm()`을 작성하세요

- **매개변수** : 1차원 벡터 (`np.array`)
- **반환값** : 인자로 주어진 벡터의 L2 Norm값 (`number`)

In [91]:
def l2_norm(x):
	x_norm = x * x
	x_norm = np.sum(x_norm)
	x_norm = np.sqrt(x_norm)
	return x_norm

In [92]:
import numpy as np
mat = ([1,2,3,4])
def get_L2_norm(mat):
    return np.linalg.norm(mat, 2)
get_L2_norm(mat)

5.477225575051661

In [93]:
arr = np.array([1,2,3,4])
l2_norm(arr)
get_L2_norm(mat)

5.477225575051661

### 2. 어떤 행렬이 singular matrix인지 확인하는 함수 `is_singular()` 를 작성하세요

- 매개변수 : 2차원 벡터(`np.array`)
- 반환값 : 인자로 주어진 벡터가 singular하면 True, non-singular하면 False를 반환 

In [94]:
# det값이 0이면 singular matrix(특이 행렬)이다!
mat = ([1,2],[3,4])
def is_singular(mat):
    answer = np.linalg.det(mat)
    if answer == 0:
        return True
    else:
        return False
is_singular(mat)

False