# numpy?
---
- numerical python
- 복잡한 행렬, 수치 연산을 빠르고 간편하게!

# In this tutorial

- Introduction : numpy 설치법을 배우고 numpy 를 사용하는 이유에 대해서 배웁니다.
- array : numpy 의 기본 자료구조 단위인 `array`에 대해 배웁니다.
- array creation : `array` 를 어떻게 생성할 수 있는 지에 대해 배웁니다.
- dtype : 데이터의 타입을 나타내는 `dtype` 에 대해 배웁니다.
- basic operations : 기본적인 사칙연산과 내장된 단항연산에 대해 배웁니다.
- Indexing, Slicing and Iterating : 인덱싱, 슬라이싱 그리고 반복(순회)에 대해 배웁니다.
- methods : 기타 유용한 내장 함수들을 배웁니다.

# Introduction

## installation

In [1]:
import numpy as np

numpy 를 사용하면 대량의 데이터에 대해 손쉬운 고급 수학적 계산을 빠른 속도로 할 수 있습니다.

### python

In [2]:
size = 10000000  # '10,000,000'

In [3]:
l, m = list(range(size)), list(range(size-1, -1, -1))

In [4]:
%%timeit

[x+y for x, y in zip(l, m)]

373 ms ± 7.43 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [5]:
%%timeit 

[x * 3 for x in l]

302 ms ± 2.07 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


### numpy

In [6]:
a, b = np.arange(size), np.arange(size-1, -1, -1)

In [7]:
%%timeit

a + b

8.61 ms ± 152 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [8]:
%%timeit

a * 3

8.25 ms ± 128 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


왜 이런 복잡한 계산을 빠르게 해야하는 걸까요?

### 딥러닝

딥러닝은 머신러닝의 한 방법으로 여러 층(layer)을 가진 인공신경망을 사용하여 학습을 수행하는 알고리즘을 말합니다.  
인공신경망은 복잡한 수식으로 이루어지는데요.  
아래 코드와 같이 복잡한 인공신경망의 수식도 numpy 로 하면 python 에 비해 비교적 쉽게 구현가능합니다.

예시로, 인공신경망에서 입력을 변환하는 함수(활성함수)로써 사용되는 softmax 식을 numpy 로 구현한 것 입니다.

$$ y_i = \frac{e^{z_i}}{\sum_{j=1}^Ke^{z_j}} $$

In [9]:
def softmax(z):
    exp_z = np.exp(z)
    exp_z_sum = exp_z.sum()
    y = exp_z / exp_z_sum
    return y

### 데이터 분석 및 처리

여러 소스에서 데이터를 들고오다보면 흔히 데터의 크기가 수 GB 가 넘어가게 됩니다.  
적게는 100만 줄부터 억 단위의 데이터를 다룰 때는 속도가 중요합니다.  
명령 하나를 수행하는데 몇 시간씩 걸리며 작업할 수는 없기 때문입니다.

이 때 효율적인 연산을 위해 numpy 와 numpy 를 기반으로 만들어진 pandas 를 사용합니다.

# array
---
numpy 의 주요 object 는 `homogeneous multidimensional array` 이다.  
→ `table of elements, all of the same type`  

numpy 의 array class 는 `ndarray` 라고 불리며, 보통 `array` 라는 별칭으로 쓰인다.

In [10]:
print(type(np.array([1, 2])))

<class 'numpy.ndarray'>


numpy 에서 `dimension` 은 `axes` 라고 불린다.

In [11]:
l = [[1, 2, 3, 4], [5, 6, 7, 8]]
a = np.array(l)

print(a)

[[1 2 3 4]
 [5 6 7 8]]


`shape` 속성은 `array` 의 `dimension` 을 나타낸다.  
tuple 의 각각의 숫자는 각 `dimension` 의 size 를 나타낸다.  
예를 들어 *n* 행 *m* 열을 가지는 행렬(matrix)의 경우 `shape` 는 `(n, m)` 이 된다.

In [12]:
print(a.shape)

(2, 4)


# array creation
---

- array 함수에 python list 또는 tuple (array_like) 를 전달
- arange 함수 사용
- zeros, ones 사용

In [13]:
np.array([1, 2])

array([1, 2])

In [14]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [15]:
np.zeros((5, 5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [16]:
np.ones((3, 6))

array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]])

### python list

python list 는 하나의 리스트안에 여러개의 데이터타입을 가질 수 있다.  

In [17]:
l = [1, "2"]

print([type(each) for each in l])

[<class 'int'>, <class 'str'>]


### numpy array

반면, numpy 는 배열안에 오직 한 가지 데이터타입만 가질 수 있다

In [18]:
a = np.array([1, "2"])

print([type(each) for each in a])

[<class 'numpy.str_'>, <class 'numpy.str_'>]


# dtype
---

`array` 안에 있는 원소(element)의 데이터타입을 나타내는 객체  

reference: https://numpy.org/doc/stable/reference/arrays.dtypes.html

In [19]:
a = np.arange(5)

print(a.dtype.name)

int64


In [20]:
a = np.array(["a", "b", "c", "문", "자", "열"])

print(a.dtype.name)

str32


# basic operations
---

행렬에 관한 많은 산술 연산을 기본 산술연산자(+, -, *, / 등)으로 사용가능하다.  
`array` 에 있는 모든 원소들의 합과 같은 단항 연산자들도 `ndarray` class 에 구현되어 있어 편하게 사용가능하다.

In [21]:
a = np.array([[1, 1], [0, 1]])
b = np.array([[2, 0], [3, 4]])

In [22]:
print(a + b)

[[3 1]
 [3 5]]


In [23]:
print(a * b)

[[2 0]
 [0 4]]


## 행렬 곱

$$ \begin{bmatrix} A_{11} & A_{12} & \cdots & A_{1k} \\ A_{21} & A_{22} & \cdots & A_{2k} \\ \vdots & \vdots & \vdots & \vdots \\ A_{m1} & A_{m2} & \cdots & A_{mk} \end{bmatrix} \times \begin{bmatrix} B_{11} & B_{12} & \cdots & B_{1n} \\ B_{21} & B_{22} & \cdots & B_{2n} \\ \vdots & \vdots & \vdots & \vdots \\ B_{k1} & B_{k2} & \cdots & B_{kn} \end{bmatrix} = \begin{bmatrix} C_{11} & C_{12} & \cdots & C_{1n} \\ C_{21} & C_{22} & \cdots & C_{2n} \\ \vdots & \vdots & \vdots & \vdots \\ C_{m1} & C_{m2} & \cdots & C_{kn} \end{bmatrix} $$

$$ C_{11} = A_{11}B_{11} + A_{12}B_{21} + \cdots + A_{1k}B_{k1} $$

In [24]:
print(a @ b)

[[5 4]
 [3 4]]


In [25]:
print(a.sum())  # 1 +1 + 0 + 1 = 3

3


In [26]:
print(b.mean())  # (2 + 0 + 3 + 4) / 4 = 2.25

2.25


### axis

`axis` 인자를 명시해줘서 `array` 의 특정 `axis(축)` 에 대해 연산을 적용시킬 수 있다.

- `axis=None`: element wise
- `axis=0`: row wise
- `axis=1`: column wise

In [27]:
a = np.array([[1, 2], [3, 4]])

print(a)

[[1 2]
 [3 4]]


In [28]:
a.sum()  # 모든 원소의 합 (=a.sum(axis=None))

10

In [29]:
a.sum(axis=0)  # 각 열에 대한 합

array([4, 6])

In [30]:
a.sum(axis=1)  # 각 행에 대한 합

array([3, 7])

# Indexing, Slicing and Iterating
---

1차원(`one-dimensional`) `array` 는 일반 python list 처럼 indexing, slicing, iterating 될 수 있다.

In [31]:
a = np.arange(10) ** 2

print(a)

[ 0  1  4  9 16 25 36 49 64 81]


In [32]:
a[2]

4

In [33]:
a[:2]

array([0, 1])

In [34]:
a[:-5]

array([ 0,  1,  4,  9, 16])

In [35]:
a[::-1]

array([81, 64, 49, 36, 25, 16,  9,  4,  1,  0])

In [36]:
for i in a:
    print(i**(1/2))

0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0


다차원(`multidimensional`)`array`는 하나의 축 당 `index`를 가진다.  
이러한 `index` 콤마(comma)로 분리된 튜플로 구분할 수 있다.

In [37]:
b = np.arange(12).reshape(3, 4)

print(b)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [38]:
b[2, 3]

11

In [39]:
b[1:,1:]

array([[ 5,  6,  7],
       [ 9, 10, 11]])

In [40]:
b[-1]

array([ 8,  9, 10, 11])

다차원 `array`의 `iterating` 은 첫번째 축(`axis`) 기준으로 진행된다.

In [41]:
for index, row in enumerate(b):
    print(f"{index}: {row}")

0: [0 1 2 3]
1: [4 5 6 7]
2: [ 8  9 10 11]


# methods
---

- array creations: `arange`, `linspace`, ...
- manipulations: `reshape`, `transpose`, ...
- questions: `all`, `any`, `where`, ...
- ordering: `argmax`, `searchsorted`, ...
- basic statistics: `std`, ...

`arange`: `start` 에서 `stop` 까지 주어진 `step` 을 interval(간격) 으로 가지는 `array` 를 반환

In [42]:
np.arange(0, 15, step=1)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

`linspace`: `start` 에서 `stop` 까지 `num` 개로 동일한 interval(간격) 으로 나눈 `array` 를 반환

In [43]:
np.linspace(0, 15, num=10)

array([ 0.        ,  1.66666667,  3.33333333,  5.        ,  6.66666667,
        8.33333333, 10.        , 11.66666667, 13.33333333, 15.        ])

`reshape`: 주어진 `array`의 데이터로 `shape`를 가지는 새로운 `array` 를 반환

In [44]:
a = np.arange(10)

print(a)

[0 1 2 3 4 5 6 7 8 9]


In [45]:
a.reshape(2, 5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

`transpose`: `array` 의 축의 순서를 바꾼다. 행렬은(두 개의 축을 가지는 `array`)는 전치행렬을 반환(=행과 열을 바꿈)

In [46]:
a = np.arange(10).reshape(2, 5)

print(a)

[[0 1 2 3 4]
 [5 6 7 8 9]]


In [47]:
np.transpose(a)  # == a.T

array([[0, 5],
       [1, 6],
       [2, 7],
       [3, 8],
       [4, 9]])

`all`: 주어진 `array` 의 값이 모두 `True` 인지 여부 반환

In [48]:
a = np.arange(10)

print(a)

[0 1 2 3 4 5 6 7 8 9]


In [49]:
np.all(a < 10)

True

In [50]:
np.all(a < 5)

False

`any`: 주어진 `array`의 값이 하나라도 `True` 인지 여부 반환

In [51]:
a = np.arange(10)

print(a)

[0 1 2 3 4 5 6 7 8 9]


In [52]:
np.any(a==1)

True

In [53]:
np.any(a==-1)

False

`where`: 조건(`condition`)에 따라 `x` 또는 `y` 값을 반환, 아래식과 동치임

```python
[x if c else y for c, x, y in zip(condition, xs, ys)]
```

In [54]:
a = np.arange(10)

print(a)

[0 1 2 3 4 5 6 7 8 9]


In [55]:
np.where(a<5, a, 10*a)

array([ 0,  1,  2,  3,  4, 50, 60, 70, 80, 90])

`argmax`: 지정된 축에 가장 최고값을 가지는 원소의 index 를 반환

In [56]:
a = np.array([10, 20, 30, 20, 10])

print(a)

[10 20 30 20 10]


In [57]:
np.argmax(a)  # 2번 원소 (30)이 가장 큰 값을 가짐

2

`searchsorted`: 정렬된 `array` 에서 빠르게 값을 찾기 위해 `binary search`를 수행

In [58]:
a = np.array(range(100)) ** 2

print(a)

[   0    1    4    9   16   25   36   49   64   81  100  121  144  169
  196  225  256  289  324  361  400  441  484  529  576  625  676  729
  784  841  900  961 1024 1089 1156 1225 1296 1369 1444 1521 1600 1681
 1764 1849 1936 2025 2116 2209 2304 2401 2500 2601 2704 2809 2916 3025
 3136 3249 3364 3481 3600 3721 3844 3969 4096 4225 4356 4489 4624 4761
 4900 5041 5184 5329 5476 5625 5776 5929 6084 6241 6400 6561 6724 6889
 7056 7225 7396 7569 7744 7921 8100 8281 8464 8649 8836 9025 9216 9409
 9604 9801]


In [59]:
np.searchsorted(a, 1600)  # 1600 이라는 값은 40번째 index 에 위치함

40

`std`: `array`의 특정 축에 대한 표준편차를 반환

In [60]:
np.array([1, 2, 3, 4]).std()

1.118033988749895

In [61]:
np.std(np.array([1, 2, 3, 4]))

1.118033988749895