# **넘파이 소개**

넘파이와 판다스는 데이터과학, 딥러닝 등 통계학 및 과학적 분야에서 많이 사용되는 패키지입니다.

대표적인 기능은 병렬처리를 통한 빠른 연산을 지원하는 것인데, 그것 뿐 아니라 수학, 논리적 연산과 정렬, 선형대수학 알고리즘, 랜덤 시뮬레이션 등 다양한 기능을 지원합니다.

`numpy` 는 패키지입니다. 



**패키지**: 

> 모듈과 서브패키지의 집합

**모듈**: 

> 하나의 .py 파일
>
> 클래스, 함수, 변수 등이 포함


패키지 또는 모듈을 사용하고자 불러올 때에는 `import` 를 사용합니다.






In [12]:
# numpy 패키지를 import
import numpy

# numpy 패키지를 np 로 import
import numpy as np

##**넘파이의 힘**

1,000,000번의 곱셈 연산을 단순하게 ```for 반복문```을 사용한 것과 넘파이 행렬 연산을 사용한 것을 비교해볼게요.

연산에 걸린 시간을 봅시다.

In [1]:
import time

start_time = time.monotonic()
MyList = []
for i in range(1000000):
    MyList.append(i * (i+1))
print(len(MyList))
print(MyList[:10])
print("elapsed time without numpy: {:.4f}s".format(
    time.monotonic() - start_time)
)

1000000
[0, 2, 6, 12, 20, 30, 42, 56, 72, 90]
elapsed time without numpy: 0.4833s


In [2]:
import numpy as np

start_time = time.monotonic()
MyArray = np.arange(1000000)
MyNewArray = MyArray * (MyArray+1)
print(len(MyNewArray))
print(MyNewArray[:10])
print("elapsed time with numpy: {:.4f}s".format(
    time.monotonic() - start_time)
)

1000000
[ 0  2  6 12 20 30 42 56 72 90]
elapsed time with numpy: 0.0227s


## 넘파이 배열(array) 만들기
### 리스트에서 만들기 

넘파이 배열은 다양한 방법으로 만들 수 있습니다.

그 중 하나가 python 에서 지원하는 list 형 변수를 바로 넘파이 배열 형태로 바꾸는 것입니다.

```numpy.array(list)```

또한 생성된 넘파이의 형태(shape)은 ```.shape``` 으로 접근할 수 있습니다.

1차원 배열에서 넘파이의 형태는 (n,)의 형태로 나오게 되는데, \\
이유는 numpy.ndarray.shape 의 반환값은 tuple 이기 때문입니다.

In [3]:
MyList = [1,2,3]
arr = np.array(MyList)
print(arr)
print(type(arr))
print(arr.shape)

[1 2 3]
<class 'numpy.ndarray'>
(3,)


### 리스트에서 2차원 배열 만들기

우리가 일반적으로 알고있는 행렬 형태의 2차원 배열을 만들 수 있습니다.

In [4]:
arr = np.array([[1, 2], [3, 4]])
print(arr)
print(arr.shape)

print(arr[0])
print(arr[1])

[[1 2]
 [3 4]]
(2, 2)
[1 2]
[3 4]


### 함수를 사용하여 배열 만들기

* `zeros`: 0으로 구성된 배열 만들기 [docs](https://docs.scipy.org/doc/numpy/reference/generated/numpy.zeros.html)
* `ones`: 1로 구성된 배열 만들기 [docs](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ones.html#numpy.ones)
* `arange`: 일정한 간격으로 배열 만들기 [docs](https://docs.scipy.org/doc/numpy/reference/generated/numpy.arange.html)
* `linspace`: 범위 내의 일정한 간격 값을 가진 배열 만들기 [docs](https://numpy.org/doc/stable/reference/generated/numpy.linspace.html)
*`random.~`: 랜덤한 배열 만들기 [docs](https://docs.scipy.org/doc/numpy/reference/routines.random.html). 

In [5]:
arr = np.zeros((2,3)) # (shape)
print(arr)

[[0. 0. 0.]
 [0. 0. 0.]]


In [6]:
arr = np.ones((2,3))  # (shape)
print(arr)

[[1. 1. 1.]
 [1. 1. 1.]]


In [7]:
arr = np.arange(0, 10, 2) # (start, end, step)

print(arr)
print(arr.shape)

[0 2 4 6 8]
(5,)


In [None]:
arr = np.linspace(0, 1, 4) # (start, end, number of elements)

print(arr)
print(arr.shape)

[0.         0.33333333 0.66666667 1.        ]
(4,)


랜덤한 값으로 배열을 생성할 수 있습니다.

- (`random.seed`: 랜덤값 seed 설정)
- `random.rand`: 0과 1사이의 값을 균일분포로 생성
- `random.randint`: 최소값 이상, 최대값 미만의 정수 구성된 랜덤 배열 생성
- `random.normal`: 정규 분포를 따르는 랜덤 배열 생성

[docs](https://numpy.org/doc/stable/reference/random/index.html)

In [9]:
arr1 = np.random.rand(2,3)
print(arr1)

arr2 = np.random.randint(0, 100, (2,3))
print(arr2)

mean = 10
stdev = 3

arr3 = np.random.normal(mean, stdev, (2,3))
print(arr3)

[[0.29280518 0.81132665 0.29009568]
 [0.54375366 0.67968222 0.7488439 ]]
[[ 5 62  6]
 [29 18 62]]
[[12.18093201 12.29516327 14.38310484]
 [12.80755567  8.37498267 13.15247454]]


생성한 배열의 형태를 바꾸는 것도 가능합니다.

인덱스에 따른 접근 순서에 따라, 하나하나 배열을 재정렬하는 개념입니다.

In [10]:
arr = np.arange(20)
print(arr)
print(arr.shape)

arr2 = arr.reshape((4,5))
print(arr2)
print(arr2.shape)

arr3 = arr.reshape((-1,10)) # -1 은 적절한 값으로 자동으로 채움
print(arr3)
print(arr3.shape)


arr4 = arr3.reshape((5,4)) # arr3 의 전치행렬이 아님
print(arr3)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
(20,)
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
(4, 5)
[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]]
(2, 10)
[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]]


## 배열의 인덱싱

기본적으로 인덱싱 방법은 리스트형 변수와 거의 동일합니다.

In [157]:
arr = np.arange(10)

print(arr)
print(arr.shape)
print(arr[0])
print(arr[2:5])
print(arr[2:])
print(arr[:5])
print(arr[:-1])

[0 1 2 3 4 5 6 7 8 9]
(10,)
0
[2 3 4]
[2 3 4 5 6 7 8 9]
[0 1 2 3 4]
[0 1 2 3 4 5 6 7 8]


다차원 배열에서도 slicing 을 적용 할 수 있습니다.

이 때 `:` 만 쓰는 것은 해당 차원 전체에 해당합니다.

In [158]:
arr = np.arange(20).reshape(4,5)

print(arr)

print(arr[:2, 2:4])

print(arr[:, 2:4])

print(arr[:2, :])

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
[[2 3]
 [7 8]]
[[ 2  3]
 [ 7  8]
 [12 13]
 [17 18]]
[[0 1 2 3 4]
 [5 6 7 8 9]]


특정 간격 또는 역순으로 슬라이싱 하는 것도 가능합니다.

In [None]:
arr = np.arange(20)

print(arr[::2])  # 2 step
print(arr[::3])  # 3 step

print(arr[::-1]) # reverse order
print(arr[::-2]) # reverse order with 2 step

[ 0  2  4  6  8 10 12 14 16 18]
[ 0  3  6  9 12 15 18]
[19 18 17 16 15 14 13 12 11 10  9  8  7  6  5  4  3  2  1  0]
[19 17 15 13 11  9  7  5  3  1]


인덱스 주소를 활용하여 새로운 배열을 만들 수 있습니다.

아래 예시를 참고하시기 바랍니다.

In [None]:
arr = np.arange(20)
indices1 = [0, 3, -5]
indices2 = [3, 0, -5]

print(arr[indices1])
print(arr[indices2])

[ 0  3 15]
[ 3  0 15]


넘파이에서 조건문을 활용하여 우리가 원하는 값으로 구성된 boolean 배열를 생성할 수 있습니다.

조건에 만족하는 인덱스는 `True`, 만족하지 않는 인덱스는 `False` 값이 들어가게 됩니다.

이렇게 생성된 boolean 어레이는 우리가 마스크(mask)라고 부르며, \\
우리가 원하는 값만 필터링할 때 매우 유용하게 사용할 수 있습니다.

In [161]:
arr = np.arange(10)
indices = (arr%2==0)
print(arr)
print(arr%2)
print(indices)

[0 1 2 3 4 5 6 7 8 9]
[0 1 0 1 0 1 0 1 0 1]
[ True False  True False  True False  True False  True False]


우리가 만들어낸 마스크를 활용하여 원하는 값만 필터링하여 사용할 수 있습니다.

`arr[mask]` 형태로 코드를 작성하면, \\
`mask`에서 `True`값이 들어간 인덱스 주소의 값은 포함하고, \\
`False`값이 들어간 인덱스 주소의 값은 제외한 배열이 반환됩니다.

아래에서 사용되는 `~` 연산자는 부정연사자로, `True`와 `False` 값을 바꿔줍니다.

데이터를 조건에 따라 2개의 그룹으로 나눌 때 \\
매우 유용하게 쓰입니다.

In [None]:
arr = np.arange(10)
indices = (arr%2==0)
print(arr[indices])
print(arr[~indices])

[0 2 4 6 8]
[1 3 5 7 9]


## 넘파이의 기본연산

가장 기본적인 넘파이 연산은 elementwise \\
즉 같은 위치에 있는 값끼리 연산하는 것입니다.

In [162]:
arrA = np.arange(1, 5).reshape((2,2))
arrB = np.arange(5, 9).reshape((2,2))

print(arrA)
print(arrB)

[[1 2]
 [3 4]]
[[5 6]
 [7 8]]


In [164]:
print(arrA+arrB) # == np.add(a,b)
print(arrA-arrB) # == np.substract(a,b)
print(arrA*arrB) # == np.multiply(a,b)
print(arrA/arrB) # == np.divide(a,b)

print(np.sqrt(arrA))

[[ 6  8]
 [10 12]]
[[-4 -4]
 [-4 -4]]
[[ 5 12]
 [21 32]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[1.         1.41421356]
 [1.73205081 2.        ]]


## 넘파이의 행렬 연산

넘파이에서는 기본적인 연산 방법 외에 2가지 행렬 연산을 지원합니다.

`matmul`: 우리가 알고 있는 행렬곱입니다. `@` 로 대체하여 쓸 수 있습니다.

`dot`: 우리가 알고 있는 내적입니다.

두 연산 모두 2차원 배열 간에는 동일한 결과를 보여주나, 3차원 이상에서는 다른 결과값을 보여줍니다.



In [None]:
arrA = np.arange(1,5,1).reshape((2,2))
arrB = np.arange(1,5,1).reshape((2,2))

print(arrA)
print(arrB)

print(np.matmul(arrA,arrB))
print(arrA @ arrB)
print(np.dot(arrA,arrB))

[[1 2]
 [3 4]]
[[1 2]
 [3 4]]
[[ 7 10]
 [15 22]]
[[ 7 10]
 [15 22]]
[[ 7 10]
 [15 22]]


In [None]:
arrA = np.arange(1,7,1).reshape((2,3))
arrB = np.arange(5,17,1).reshape((3,4))

print(arrA)
print(arrB)

print(arrA @ arrB)
#print(arrB @ arrA)      # Error!
print((arrA @ arrB).shape) # (2,3) (3,4) => (2,4)
print(np.dot(arrA,arrB))
#print(np.dot(arrB,arrA))         # Error!
print(np.dot(arrA,arrB).shape)    # (2,3) (3,4) => (2,4)

[[1 2 3]
 [4 5 6]]
[[ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]
[[ 62  68  74  80]
 [143 158 173 188]]
(2, 4)
[[ 62  68  74  80]
 [143 158 173 188]]
(2, 4)


### **numpy.matmul in 3-D array**
In document,
- 2) If either argument is N-D, N > 2, it is treated as a stack of matrices residing in the last two indexes and broadcast accordingly.
- 2) 만약 배열이 2차원보다 클 경우, 마지막 2개의 축으로 이루어진 행렬을 나머지 축에 따라 쌓아놓은 것이라고 생각한다.

조건

> A.shape # (**a1**, a2, **a3**)
>
> B.shape # (**b1**, **b2**, b3)
>
> (a1==b1) and (a3==b2)

결과

> ​C = np.matmul(A,B)
>
> C.shape # (a1, a2, b3)

수식
```
C[i,j,k] = np.sum(A[i,j,:] * B[i,:,k])
```

### **numpy.dot in 3-D array**
In document,
- 2) If a is an N-D array and b is an M-D array (where M>=2), it is a sum product over the last axis of a and the second-to-last axis of b.
- 2) 만약 a가 N차원 배열이고 b가 2이상의 M차원 배열이라면, dot(a,b)는 a의 마지막 축과 b의 뒤에서 두번째 축과의 내적으로 계산된다.

조건

> A.shape # (a1, a2, **a3**)
>
> B.shape # (b1, **b2**, b3)
>
> (a3==b2)

결과

> ​C = np.matmul(A,B)
>
> C.shape # (a1, a2, b1, b3)

수식
```
C[i,j,k] = np.sum(A[i,j,:] * B[k,:,m])
```





고차원 연산이 필요한 경우 위 설명을 참고하여 연산하시면 됩니다. \\
아래에서는 단순하게 차이를 가지는 코드만 보여주겠습니다.

In [None]:
arrA = np.arange(1,25,1).reshape((2,3,4))
arrB = np.arange(1,25,1).reshape((2,4,3))

print(arrA.shape)
print(arrB.shape)

print((arrA @ arrB).shape)
print(np.dot(arrA,arrB).shape)

(2, 3, 4)
(2, 4, 3)
(2, 3, 3)
(2, 3, 2, 3)


또한 다양한 수학적 함수를 제공합니다.

예를 들어서 행렬의 전치행렬을 구하는 함수를 제공합니다.

`.transpose` 또는 `.T`

In [None]:
arrA = np.arange(1,7,1).reshape((2,3))

print(arrA)
print(arrA.shape)

print(arrA.transpose()) 
print(arrA.transpose().shape)

print(arrA.T) 
print(arrA.T.shape)

[[1 2 3]
 [4 5 6]]
(2, 3)
[[1 4]
 [2 5]
 [3 6]]
(3, 2)
[[1 4]
 [2 5]
 [3 6]]
(3, 2)


## 브로드캐스팅

넘파이에서 매우 중요한 연산 중 하나인 브로드캐스팅(broadcasting) 입니다.

기본적인 개념은 차원이 맞지 않는 넘파이 배열 또는 값과 연산을 진행할 때, \\
차원을 자동으로 맞춰서 연산을 하는 것입니다.

아래 예시를 통해서 살펴보겠습니다.

In [None]:
# Broadcasting array with scalar
arr = np.array([1,2,3,4])
print(arr + 10)

[11 12 13 14]


어레이 간 브로드캐스팅은 아래의 룰을 따릅니다.

마지막 차원(`shape`의 마지막 값)부터 차례대로 비교하며, 아래의 2 경우에 호환 가능합니다.

1. 두 값이 같을 때
2. 둘 중에 하나가 1일 때

예시를 통해서 알아보겠습니다.

In [None]:
arrA = np.arange(120).reshape((2, 3, 4, 5))
arrB = np.arange(5).reshape(1,5)

print((arrA*arrB).shape)

(2, 3, 4, 5)


In [None]:
arrA = np.arange(120).reshape((2, 3, 4, 5))
arrB = np.arange(20).reshape(4,5)

print((arrA*arrB).shape)

(2, 3, 4, 5)


In [None]:
arrA = np.arange(120).reshape((2, 3, 4, 5))
arrB = np.arange(15).reshape(3,1,5)

print((arrA*arrB).shape)

(2, 3, 4, 5)


아래의 경우 arrA, arrB 모두 차원을 맞추기 위해서 브로드캐스팅 되는 경우입니다.

In [None]:
arrA = np.arange(12).reshape((3, 2, 1, 2))
arrB = np.arange(20).reshape(2,5,2)

print((arrA*arrB).shape)

(3, 2, 5, 2)


## 넘파이 함수 활용

넘파이에서는 다양한 함수를 제공합니다.

자주 사용하는 기본적인 함수에 대해서 알아봅시다.

`numpy.sum` 

sum 함수는 기본적으로 넘파이 배열의 모든 값을 더하는 함수입니다.

In [132]:
arr = np.arange(30).reshape((10,3))
print(arr)
print(np.sum(arr))

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]
 [15 16 17]
 [18 19 20]
 [21 22 23]
 [24 25 26]
 [27 28 29]]
435


여기서 우리는 축(axis)의 개념을 활용하여 \\
축별 합을 구할 수 있습니다.

In [133]:
print(np.sum(arr, axis=0))
print(np.sum(arr, axis=1))

[135 145 155]
[ 3 12 21 30 39 48 57 66 75 84]


여기서 지정되는 axis 개념은 \\
해당 차원(축)을 기준으로 합을 구하라는 의미입니다.

코딩을 하며 많이 헤깔리는 부분인데요, \\
**"해당 차원(축)을 수정하는 방향으로 연산하라"** \\
라고 이해하시면 조금 쉽습니다.

즉 현재 arr의 형태는 (10,3) 인데, \\
`axis=0`을 지정해주면 \\
첫번재 차원, 즉 10을 수정하는 방향으로 연산되며,
`axis=1`을 지정해주면 \\
두번재 차원, 즉 3을 수정하는 방향으로 연산됩니다.

이번에는 평균을 구하는 함수인 `numpy.mean`을 써볼텐데, \\
위에서 설명한 개념을 기반으로 결과를 확인해보세요.

In [134]:
print(np.mean(arr))
print(np.mean(arr, axis=0))
print(np.mean(arr, axis=1))

14.5
[13.5 14.5 15.5]
[ 1.  4.  7. 10. 13. 16. 19. 22. 25. 28.]


데이터를 다루다보면 데이터를 합쳐야 할 경우가 있습니다.

(2차원 배열 기준으로) 때로는 행을 기준으로, 때로는 열을 기준으로 \\
합쳐야 합니다. \\

In [146]:
arrA = np.arange(6)

print(np.concatenate((arrA, arrA)))

[0 1 2 3 4 5 0 1 2 3 4 5]
[0 1 2 3 4 5 0 1 2 3 4 5]


조금 더 복잡한 2차원 배열을 기준으로 해봅시다.

In [143]:
arrA = np.arange(6).reshape((2,3))
arrA = np.arange(8).reshape((2,4))

print(np.concatenate((arrA, arrA)))
print(np.concatenate((arrA, arrA), axis=0))
print(np.concatenate((arrA, arrA), axis=1))

[[0 1 2 3]
 [4 5 6 7]
 [0 1 2 3]
 [4 5 6 7]]
[[0 1 2 3]
 [4 5 6 7]
 [0 1 2 3]
 [4 5 6 7]]
[[0 1 2 3 0 1 2 3]
 [4 5 6 7 4 5 6 7]]


`numpy.concatenate` 는 직관적이지만, 현재 존재하는 차원에서만 \\
배열을 합칠 수 있습니다.

즉, 첫번째 예시에서 1차원 배열끼리 합칠 때 2차원으로 합칠 수는 없습니다.

이를 해결하기 위해서 1차원 배열을 2차원으로 높히는 방법도 있지만, \\
유용한 다른 함수를 쓰는 방법도 있습니다.

In [149]:
arrA = np.arange(6).reshape(1, 6)

print(np.concatenate((arrA, arrA), axis=0))

[[0 1 2 3 4 5]
 [0 1 2 3 4 5]]


In [150]:
arrA = np.arange(6)

print(np.vstack((arrA, arrA)))

[[0 1 2 3 4 5]
 [0 1 2 3 4 5]]


# Exercise

## 넘파이 배열의 마스킹

아래 arr 행렬에서 50보다 큰 값의 합과 갯수를 출력하시오.



In [None]:
np.random.seed(0) # 일관된 결과를 얻기 위한 설정

arr = np.random.randint(0, 100, (10,10))
print(arr)

[[44 47 64 67 67  9 83 21 36 87]
 [70 88 88 12 58 65 39 87 46 88]
 [81 37 25 77 72  9 20 80 69 79]
 [47 64 82 99 88 49 29 19 19 14]
 [39 32 65  9 57 32 31 74 23 35]
 [75 55 28 34  0  0 36 53  5 38]
 [17 79  4 42 58 31  1 65 41 57]
 [35 11 46 82 91  0 14 99 53 12]
 [42 84 75 68  6 68 47  3 76 52]
 [78 15 20 99 58 23 79 13 85 48]]


**Expected Output**

합: 3488

갯수: 47

## 넘파이 배열의 행렬곱

아래 고차원 행렬 간 행렬곱 연산 결과를 예측하고, \\
정상적으로 행렬곱이 진행될 코드를 골라보세요.

In [None]:
A = np.arange(2*3*4).reshape((2,3,4))
B1 = np.arange(2*3*4).reshape((2,3,4))
B2 = np.arange(2*3*4).reshape((2,4,3))
B3 = np.arange(2*3*4).reshape((3,2,4))
B4 = np.arange(2*3*4).reshape((4,2,3))
B5 = np.arange(2*3*4).reshape((4,3,2))

# 결과를 예상하고, 에러가 나지 않을 것 같은 라인을 골라보세요.
# 앞에 주석처리를 하나식 없애서 확인해보세요.

#print(np.matmul(A,B1).shape)
#print(np.matmul(A,B2).shape)
#print(np.matmul(A,B3).shape)
#print(np.matmul(A,B4).shape)
#print(np.matmul(A,B5).shape)

## 넘파이 배열을 생성

1. 0~1 숫자를 균일분포를 따르게 랜덤한 배열 생성(shape => (5,6))
2. 5~30 숫자를 사용하여 랜덤한 배열 생성 (shape => (10, 6))
3. 평균 2, 표준편차 3을 따르는 정규분포 배열 생성 (shape => (2, 6))
4. 1,2,3 에서 만든 배열을 행(1차원)을 기준으로 합쳐서 `arr` 변수에 저장

In [151]:
np.random.seed(0) # 일관된 결과를 얻기 위한 설정

In [None]:
arr = None