## 벡터화(Vectorization) - 벡터 연산
- 같은 형태(shape)의 배열(벡터, 행렬)간의 연산은 같은 index의 원소끼리 연산을 한다. 
    - **Element-wise(원소별) 연산** 이라고도 한다.
    - 배열간의 연산시 배열의 형태가 같아야 한다.
    - 배열의 형태가 다른 경우 Broadcast 조건을 만족하면 연산이 가능하다.

### 벡터/행렬과 스칼라간 연산

$$
\begin{align}
x=
\begin{bmatrix}
1 \\
2 \\
3 \\
\end{bmatrix}
\end{align}
$$

$$
\begin{align}
10 - x = 10 -
\begin{bmatrix}
1 \\
2 \\
3 \\
\end{bmatrix}
=
\begin{bmatrix}
10 - 1 \\
10 - 2 \\
10 - 3 \\
\end{bmatrix}
=
\begin{bmatrix}
9 \\
8 \\
7 \\
\end{bmatrix}
\end{align}
$$

$$
\begin{align}
10 \times
\begin{bmatrix}
1 & 2 \\
3 & 4
\end{bmatrix}
=
\begin{bmatrix}
10\times1 & 10\times2 \\
10\times3 & 10\times4 \\
\end{bmatrix}
=
\begin{bmatrix}
10 & 20 \\
30 & 40
\end{bmatrix}
\end{align}
$$

### 벡터/행렬의 연산
$$
\begin{align}
\begin{bmatrix}
1 \\
2 \\
3 \\
\end{bmatrix}
+
\begin{bmatrix}
10 \\
20 \\
30 \\
\end{bmatrix}
=
\begin{bmatrix}
1 + 10 \\
2 + 20 \\
3 + 30 \\
\end{bmatrix}
=
\begin{bmatrix}
11 \\
22 \\
33 \\
\end{bmatrix}
\end{align}
$$

$$
\begin{align}
\begin{bmatrix}
1 \\
2 \\
3 \\
\end{bmatrix}
-
\begin{bmatrix}
10 \\
20 \\
30 \\
\end{bmatrix}
=
\begin{bmatrix}
1 - 10 \\
2 - 20 \\
3 - 30 \\
\end{bmatrix}
=
\begin{bmatrix}
-9 \\
-18 \\
-27 \\
\end{bmatrix}
\end{align}
$$

$$
\begin{align}
\begin{bmatrix}
1 & 2 \\
3 & 4
\end{bmatrix}
+
\begin{bmatrix}
10 & 20 \\
30 & 40 \\
\end{bmatrix}
=
\begin{bmatrix}
1+10 & 2+20 \\
3+30 & 4+40
\end{bmatrix}
\end{align}
$$

#### 배열(1차원 배열-Vector) 과 scalar (상수) 간의 연산

In [1]:
import numpy as np

x = np.array([10,20,30])
print(x + 10)
print(x * 5)
print(x > 20)
print((x > 20) | (x < 5))

[20 30 40]
[ 50 100 150]
[False False  True]
[False False  True]


#### 배열과 배열간의 연산 - 같은 index의 원소끼리 연산

In [2]:
y = np.array([5,30,7])
print(x - y)
print(x % y)
print(x > y)

[  5 -10  23]
[ 0 20  2]
[ True False  True]


## 내적 (Dot product)
- `@` 연산자 또는 `numpy.dot(벡터/행렬, 벡터/행렬)`  함수 사용
- ### 벡터간의 내적
    - 같은 index의 원소끼리 곱한뒤 결과를 모두 더한다. ==> 가중합 구할 때 사용
    - 벡터간의 내적의 결과는 스칼라가 된다.
    - $ x \cdot y $ 또는 $x^T y$로 표현
    - 조건
        - 두 벡터의 차원(원소의개수)가 같아야 한다.
        - 앞의 벡터는 행벡터 뒤의 벡터는 열벡터 이어야 한다.
            - numpy 에서는 vector 끼리 연산시 앞의 벡터는 행벡터로 뒤의 벡터는 열벡터로 인식해 처리한다.

$$
\begin{align}
x =
\begin{bmatrix}
1 \\ 2 \\ 3 \\
\end{bmatrix}
,\;\;\;
y = 
\begin{bmatrix}
4 \\ 5 \\ 6 \\
\end{bmatrix} 
\end{align}
$$

$$
\begin{align}
x^T y = 
\begin{bmatrix}
1 & 2 & 3
\end{bmatrix}
\begin{bmatrix}
4 \\ 5 \\ 6 \\
\end{bmatrix} 
= 1 \times 4 + 2 \times 5 + 3 \times 6 = 32
\end{align}
$$

### 1차원

In [3]:
a = np.array([1,2,3])
b = np.array([4,5,6])
r1 = np.dot(a, b)  #dot함수를 이용
r2 = a @ b
r3 = np.sum(a * b)
print(r1, r2, r3)

32 32 32


### 행렬(2차원 배열)간의 내적
- 앞 행렬의 행과 뒤 행렬의 열간에 내적을 한다.
- 행렬과 행렬을 내적하면 그 결과는 행렬이 된다.
- 앞 행렬의 열수와 뒤 행렬의 행수가 같아야 한다.
- 내적의 결과의 형태(shape)는 앞행렬의 행수와 뒤 행렬의 열의 형태를 가진다.
    - (3 x 2)와 (2 x 5) = (3 x 5)
    - (1 x 5)와 (5 x 1) = (1 x 1)    

$$
\begin{align}
A = \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix}
\end{align}
$$

$$
\begin{align}
B = \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix}
\end{align}
$$

$$
\begin{align}
A\cdot B = \begin{bmatrix} 1\times 1 + 2\times 3 + 3 \times 5 & 1\times 2 + 2\times 4 + 3 \times 6  \\ 4\times 1 + 5\times 3 + 6 \times 5  & 4\times 2 + 5\times 4 + 6 \times 6  \end{bmatrix} = 
\begin{bmatrix} 22 & 28 \\ 49 & 64 \end{bmatrix}
\end{align}
$$

In [4]:
A = np.arange(1,7).reshape(2,3)
B = np.arange(1,7).reshape(3,2)
print(A.shape, B.shape)

(2, 3) (3, 2)


In [6]:
r1 = A @ B
r2 = np.dot(A, B)
print(r1)
print(r2)

[[22 28]
 [49 64]]
[[22 28]
 [49 64]]


# 범용함수(Ufunc, Universal function)
## 범용함수란
- 벡터화를 지원하는 넘파이 연산 함수들.
    - 유니버셜 뜻이 **"전체에 영향을 미치는"** 이다. 그래서 이 함수는 배열의 원소 전체에 영향을 미치는 기능을 제공하는 함수다.
    - 배열의 원소별로 연산을 처리하는 함수들
- 반복문을 사용해 연산하는 것 보다 유니버셜 함수를 사용하는 것이 속도가 빠르다.
- https://docs.scipy.org/doc/numpy-1.15.1/reference/ufuncs.html

# 주요함수
## 단항 범용함수(unary ufunc)
- 매개변수로 한개의 배열을 받는다.
- 한 배열내의 원소별로 연산
![1.png](attachment:1.png)

## 이항 범용함수
- 매개변수로 두개의 배열을 받는다.
- 두 배열의 같은 index 원소별로 연산
![2.png](attachment:2.png)

### Ufunc 예제
### 산술연산예제

In [8]:
x = np.arange(1,6)
y = np.arange(11, 16)
print(x + y)
print(np.add(x, y))

[12 14 16 18 20]
[12 14 16 18 20]


In [9]:
print(np.subtract(x, y))
print(np.multiply(x, y))
print(np.divide(x, y), x / y)
print(np.floor_divide(y, x), y // x)
print(np.mod(x, y), x % y)
print(np.maximum(x, y), np.minimum(x,y)) # 같은 index의 값중 큰/작은 것 반환
print(np.greater(x, y), x > y)

[-10 -10 -10 -10 -10]
[11 24 39 56 75]
[0.09090909 0.16666667 0.23076923 0.28571429 0.33333333] [0.09090909 0.16666667 0.23076923 0.28571429 0.33333333]
[11  6  4  3  3] [11  6  4  3  3]
[1 2 3 4 5] [1 2 3 4 5]
[11 12 13 14 15] [1 2 3 4 5]
[False False False False False] [False False False False False]


In [10]:
# 단항함수
a = np.array([-3.5, 2.8, 4.2])
print(np.abs(a))
# print(np.sqrt(a))  # -3.5의 제곱근 계산이 안되므로 nan(결측치)를 반환
print(np.sqrt(np.abs(a)))
print(np.modf(a)) # 실수부, 정수부 나눠서 반환.

b = np.array([10, 5, np.nan, 2, np.nan, 10])   #np.nan: 결측치를 표현하는 numpy 변수
print(np.isnan(b))  #각 원소별로 결측치 여부를 확인
print(np.sum(np.isnan(b))) #T: 1, F: 0 로 변환해서 합계를 구한다.

[3.5 2.8 4.2]
[1.87082869 1.67332005 2.04939015]
(array([-0.5,  0.8,  0.2]), array([-3.,  2.,  4.]))
[False False  True False  True False]
2


### 연산결과 출력 지정
- 연산결과를 특정 배열에 넣을 수있다.

In [12]:
a = np.arange(11,20).reshape(3,3)
b = np.arange(1,10).reshape(3,3)
print(a.shape, b.shape)
result = np.zeros(shape=(3,3))
result

(3, 3) (3, 3)


array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [13]:
np.add(a, b, out=result)

array([[12., 14., 16.],
       [18., 20., 22.],
       [24., 26., 28.]])

In [14]:
result

array([[12., 14., 16.],
       [18., 20., 22.],
       [24., 26., 28.]])

## 누적연산함수 - reduce()
- 결과가 하나만 남을 때 까지 해당 연산을 배열의 모든 요소에 반복해서 적용
- 구문
    - np.**이항범용함수이름**.reduce(배열, axis=0)
- 처리결과의 축의개수(rank)는 하나 줄어 든다.
    - 1차원 -> 스칼라
    - 2차원 - 1차원
    - 3차원 - 2차원
    - n 차원 - n-1차원

In [15]:
x = np.arange(1,11)
print(x)
# 누적합계
r = np.add.reduce(x)
print(r)
r = np.subtract.reduce(x)
print(r)
r = np.power.reduce(x)
print(r)

[ 1  2  3  4  5  6  7  8  9 10]
55
-53
1


In [16]:
x = np.arange(1,16).reshape(3,5)
print(x.shape)
x

(3, 5)


array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

In [17]:
r = np.add.reduce(x)  # axis=0
r

array([18, 21, 24, 27, 30])

In [18]:
r = np.add.reduce(x, axis=1)
r

array([15, 40, 65])

In [19]:
r = np.add.reduce(x, axis=None)  #axis=None :  flatten 후 처리
r

120

## 누적연산함수 - accumulate()
- 배열의 원소들에 해당연산을 누적해 적용
- 처리경과의 축의개수(rank)는 피연산자배열과 동일하다.
- 구문
    - np.**이항범용함수이름**.accumulate(배열, axis=0)

In [20]:
x = np.arange(1,11)
print(x.shape)
x

(10,)


array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [21]:
r = np.add.accumulate(x)
print(r.shape)
r

(10,)


array([ 1,  3,  6, 10, 15, 21, 28, 36, 45, 55])

In [22]:
x2 = np.arange(1, 16).reshape(3,5)
print(x2.shape)
x2

(3, 5)


array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

In [23]:
r = np.add.accumulate(x2)  # axis=0
print(r.shape)
r

(3, 5)


array([[ 1,  2,  3,  4,  5],
       [ 7,  9, 11, 13, 15],
       [18, 21, 24, 27, 30]])

In [24]:
r = np.add.accumulate(x2, axis=1)
print(r.shape)
r

(3, 5)


array([[ 1,  3,  6, 10, 15],
       [ 6, 13, 21, 30, 40],
       [11, 23, 36, 50, 65]])

### 과일별 판매량
- axis 0: 날짜, axis 1: 과일

In [25]:
amt = [
    [10, 5, 7], #[사과, 배, 귤]
    [15, 3, 10], 
    [1, 34, 10],
    [10, 12, 50]
]
amt_arr = np.array(amt)
amt_arr.shape

(4, 3)

In [26]:
# 과일별 총 판매량
np.add.reduce(amt_arr)

array([36, 54, 77])

In [27]:
# 날짜별 총 판매량
np.add.reduce(amt_arr, axis=1)

array([22, 28, 45, 72])

In [28]:
# 날짜별로 총판매량을 확인
np.add.accumulate(amt_arr)

array([[10,  5,  7],
       [25,  8, 17],
       [26, 42, 27],
       [36, 54, 77]])

## 기술통계함수
- 통계 결과를 계산해 주는 함수들
- 구문
    1. `np.전용함수(배열)`
        - np.sum(x)
    2. 일부는 `배열.전용함수()` 구문 지원
        - x.sum()
- 배열의 원소 중 누락된 값(NaN - Not a Number) 있을 경우 연산의 결과는 NaN으로 나온다.        
- 안전모드 함수
    - 배열내 누락된 값(NaN)을 무시하고 계산
        
- https://docs.scipy.org/doc/numpy-1.15.1/reference/routines.statistics.html
![3.png](attachment:3.png)

# 브로드캐스팅
- 사전적의미 : 퍼트린다. 전파한다. 
- 형태(shape)가 다른 배열 연산시 배열의 형태를 맞춰 연산이 가능하도록 한다.
    - 모든 형태를 다 맞추는 것은 아니고 조건이 맞아야 한다.
- 조건
    1. 두 배열의 축의 개수가 다르면 작은 축의개수를 가진 배열의 형태(shape)의 앞쪽을 1로 채운다.
        - (2, 3)  + (3, ) => (2, 3) + (1, 3)
    2. 두 배열의 차원 수가 같지만 각 차원의 크기가 다른 경우 어느 한 쪽에 1이 있으면 그 1이 다른 배열의 크기와 일치하도록 늘어난다.
         - 1 이외의 나머지 축의 크기는 같아야 한다.
         - 늘리면서 원소는 복사한다.
         - (2, 3) + (1, 3) => (2, 3)+(2, 3)
![4.png](attachment:4.png)

In [31]:
x = np.arange(6).reshape(2,3)
y = np.arange(3)
z = np.array([1,2])
x.shape, y.shape, z.shape

((2, 3), (3,), (2,))

In [32]:
x + y

array([[0, 2, 4],
       [3, 5, 7]])

In [33]:
a = np.arange(2*2*3*4).reshape(2,2,3,4)
b = np.arange(12).reshape(3,4)
print(a.shape, b.shape)

(2, 2, 3, 4) (3, 4)


In [34]:
a + b

array([[[[ 0,  2,  4,  6],
         [ 8, 10, 12, 14],
         [16, 18, 20, 22]],

        [[12, 14, 16, 18],
         [20, 22, 24, 26],
         [28, 30, 32, 34]]],


       [[[24, 26, 28, 30],
         [32, 34, 36, 38],
         [40, 42, 44, 46]],

        [[36, 38, 40, 42],
         [44, 46, 48, 50],
         [52, 54, 56, 58]]]])

In [35]:
a = np.arange(3).reshape(1,3)
b = np.arange(3).reshape(3,1)
print(a.shape, b.shape)

(1, 3) (3, 1)


In [36]:
r = a + b
r.shape

(3, 3)

# 배열을 파일에 저장 및 불러오기
- ## 바이너리 파일로 저장/불러오기
    - ### np.save("파일경로", 배열)
        - 배열을 raw 바이너리 형식으로 저장한다. (압축하지 않은)
        - 파일명에 확장자로 npy를 붙인다. (무조건 붙인다. abc.xxx 해도 abc.xxx.npy 로 저장)
    - ### np.load("파일경로") 
        - 파일에 저장된 배열을 불러온다.
    - ### np.savez("파일경로", 이름=배열, 이름=배열, ...)
        - 여러개의 배열을 저장할 때 사용
        - 파일명에 확장자로 npz가 붙는다.
        - 내부적으로 압축해서 저장한다.
        - load() 함수로 불러오면 저장된 배열목록이 반환 된다. 저장시 지정한 이름을 이용해 조회 
- ## 텍스트 파일로 저장하고 불러오기
    - ### savetxt("파일경로", 배열 [, delimiter='공백') 
        - 텍스트 형태로 저장.
        - 각 원소는 공백을 기준으로 나뉘며 delimiter 속성으로 구분자를 지정할 수 있다. (delimiter생략시 공백)
        - 1차원과 2차원 배열만 저장 가능하다. (3차원 이상은 저장이 안된다.)
    - ### loadtxt("파일경로" [,dtype=float, delimiter=공백)