# NumPy

NumPy는 Python에서 계산과학을 하기 위해 가장 기초가 되는 패키지입니다. 순수 Python으로 작성된 프로그램은 속도가 다른 컴파일 언어에 비해 훨씬 느리기 때문에, 다른 언어를 같이 이용해서 작성한 NumPy 등의 패키지를 잘 사용하는 것이 중요합니다.

In [1]:
import numpy as np

## Python 리스트를 NumPy 어레이로 바꾸기

In [2]:
int_array = np.array([1, 4, 2, 5, 3])
print(int_array)
print(type(int_array))
print(int_array.dtype)

[1 4 2 5 3]
<class 'numpy.ndarray'>
int32


In [3]:
float_array = np.array([1.0, 5.0, 1.41, 3.14, 2.71])
print(float_array)
print(type(float_array))
print(float_array.dtype)

[1.   5.   1.41 3.14 2.71]
<class 'numpy.ndarray'>
float64


Python과 달리 NumPy 어레이의 원소는 항상 같은 데이터 타입입니다.

In [4]:
upcasted_array = np.array([3.14, 1, 2, 3])
print(upcasted_array)
print(upcasted_array.dtype)

[3.14 1.   2.   3.  ]
float64


다차원 어레이도 만들 수 있습니다.

In [5]:
np.array(
    [
        [2, 3, 4],
        [4, 5, 6],
        [6, 7, 8],
    ]
)

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

## 어레이 직접 만들기

In [6]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [7]:
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [8]:
np.ones((2, 3, 5), dtype=int)

array([[[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]],

       [[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]]])

In [9]:
np.full((2, 4), 3.0)

array([[3., 3., 3., 3.],
       [3., 3., 3., 3.]])

In [10]:
np.eye(3, dtype=int)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]])

In [11]:
np.empty(3)

array([8.90092016e-307, 1.42419530e-306, 7.56599807e-307])

In [12]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [13]:
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [14]:
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [15]:
np.random.seed(42)

np.random.random((3, 3))

array([[0.37454012, 0.95071431, 0.73199394],
       [0.59865848, 0.15601864, 0.15599452],
       [0.05808361, 0.86617615, 0.60111501]])

In [16]:
print(np.random.random())
print(np.random.random(1))
print(np.random.random((1, 1)))
print(np.random.random((3, 3)))
print(np.random.normal(110, 10, (3, 4)))

0.7080725777960455
[0.02058449]
[[0.96990985]]
[[0.83244264 0.21233911 0.18182497]
 [0.18340451 0.30424224 0.52475643]
 [0.43194502 0.29122914 0.61185289]]
[[105.71953936 102.57593163 102.96656198  88.60379344]
 [103.70525039 115.97720467 135.59488031 113.94233022]
 [111.22219165 104.84564338 103.9974615  119.47439821]]


In [17]:
print(np.random.randint(10))

4


In [18]:
print(np.random.randint(5, 10, (10, 10)))

[[6 8 8 8 8 9 7 5 8 6]
 [8 6 6 8 9 6 6 8 6 6]
 [8 8 5 9 9 6 9 6 5 8]
 [8 8 9 5 9 9 5 5 5 5]
 [8 7 7 5 7 7 5 7 9 6]
 [6 5 8 5 8 6 5 9 7 8]
 [7 7 5 7 9 7 5 9 6 7]
 [5 6 6 8 9 7 5 8 9 8]
 [9 9 7 9 8 9 7 7 8 6]
 [6 9 5 9 8 8 8 8 8 7]]


In [19]:
# Error!
# print(np.random.randint(5, (10, 10)))

```python
>>> ?np.random.randint
Docstring:
randint(low, high=None, size=None, dtype='l')

Return random integers from `low` (inclusive) to `high` (exclusive).

Return random integers from the "discrete uniform" distribution of
the specified dtype in the "half-open" interval [`low`, `high`). If
`high` is None (the default), then results are from [0, `low`).
```

In [20]:
print(np.random.randint(10, None, (3, 3)))
print(np.random.randint(10, size=(3, 3)))  # Preferred

[[9 6 8]
 [6 0 0]
 [8 8 3]]
[[8 2 6]
 [5 7 8]
 [4 0 2]]


## NumPy 데이터 타입

| Data type | Description |
|:-|:-|
| `bool_`      | Boolean (True or False) stored as a byte |
| `int_`       | Default integer type (same as C `long`; normally either `int64` or `int32`) |
| `intc`       | Identical to C `int` (normally `int32` or `int64`) |
| `intp`       | Integer used for indexing (same as C `ssize_t`; normally either `int32` or `int64`) |
| `int8`       | Byte (-128 to 127) |
| `int16`      | Integer (-32768 to 32767) |
| `int32`      | Integer (-2147483648 to 2147483647) |
| `int64`      | Integer (-9223372036854775808 to 9223372036854775807) |
| `uint8`      | Unsigned integer (0 to 255) |
| `uint16`     | Unsigned integer (0 to 65535) |
| `uint32`     | Unsigned integer (0 to 4294967295) |
| `uint64`     | Unsigned integer (0 to 18446744073709551615) |
| `float_`     | Shorthand for `float64` |
| `float16`    | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa |
| `float32`    | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa |
| `float64`    | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa |
| `complex_`   | Shorthand for `complex128` |
| `complex64`  | Complex number, represented by two 32-bit floats |
| `complex128` | Complex number, represented by two 64-bit floats |

## NumPy 어레이 attributes

In [21]:
np.random.seed(42)  # random seed for reproducibility

x1 = np.random.randint(100, size=6)  # same as `size=(6,)`
print('x1:\n', x1, '\n')

x2 = np.random.randint(100, size=(3, 4))
print('x2:\n', x2, '\n')

x3 = np.random.randint(100, size=(3, 4, 5))
print('x3:\n', x3, '\n')

x1:
 [51 92 14 71 60 20] 

x2:
 [[82 86 74 74]
 [87 99 23  2]
 [21 52  1 87]] 

x3:
 [[[29 37  1 63 59]
  [20 32 75 57 21]
  [88 48 90 58 41]
  [91 59 79 14 61]]

 [[61 46 61 50 54]
  [63  2 50  6 20]
  [72 38 17  3 88]
  [59 13  8 89 52]]

 [[ 1 83 91 59 70]
  [43  7 46 34 77]
  [80 35 49  3  1]
  [ 5 53  3 53 92]]] 



NumPy array는 `ndim`, `shape`, `dtype` 등의 **attribute**를 가지고 있습니다.

In [22]:
print('x3.ndim:', x3.ndim)
print('x3.shape:', x3.shape)
print('x3.dtype:', x3.dtype)

x3.ndim: 3
x3.shape: (3, 4, 5)
x3.dtype: int32


## 어레이 인덱싱 (Basic slicing)

Python list와 동일하게 integer나 slice를 이용할 수 있습니다.

In [23]:
x1

array([51, 92, 14, 71, 60, 20])

In [24]:
x1[0]

51

In [25]:
x1[1]

92

In [26]:
x1[-2], x1[-1]

(60, 20)

In [27]:
x1[:3], x1[-3:]

(array([51, 92, 14]), array([71, 60, 20]))

2차 이상인 경우 Python list와는 달리 하나의 대괄호(`[]`) 안에 comma separated index(사실은 tuple)를 이용할 수 있습니다.

In [28]:
x2

array([[82, 86, 74, 74],
       [87, 99, 23,  2],
       [21, 52,  1, 87]])

In [29]:
x2[1, 2]

23

In [30]:
x2[1, -2]

23

In [31]:
x2[:2, -2:]

array([[74, 74],
       [23,  2]])

Python list와 마찬가지로 NumPy ndarray도 mutable입니다.

In [32]:
x = np.array([[1, 2, 3], [4, 5, 6]])
print(x)

[[1 2 3]
 [4 5 6]]


In [33]:
y = x
x[1, 2] = 100
print(x)
print(y)

[[  1   2   3]
 [  4   5 100]]
[[  1   2   3]
 [  4   5 100]]


Indexing할 때, **정수와 slice만** 가지고 하는 경우를 **basic slicing**이라 부르고, 이 경우 (스칼라인 경우를 제외하고) **Python list와 달리 복사하지 않습니다**.

In [34]:
x = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
x

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [35]:
a = x[1, 1:3]  # View!
print(a)

[5 6]


In [36]:
a[1] = 100
print(a)
print(x)

[  5 100]
[[  1   2   3]
 [  4   5 100]
 [  7   8   9]]


In [37]:
x = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# Copy! `1:3` (basic indexing) and 
# `[1, 2]` (fancy indexing) are not equivalent here.
b = x[1, [1, 2]]
print(b)

b[1] = 100
print(b)
print(x)

[5 6]
[  5 100]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


Basic slicing을 쓰면서 복사하려면 `copy` method를 이용하세요.

In [38]:
x = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

a_copy = x[1, 1:3].copy()
print(a_copy)

a_copy[1] = 100
print(a_copy)
print(x)

[5 6]
[  5 100]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


### 💻 Exercise

In [39]:
a = np.arange(30).reshape((5, 6))
a

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

다음 행렬을 만들어 보세요.

```
1.              2.              3.

 0  2  4         0  1  2         4
 6  8 10         6  7  8        10
12 14 16        12 13 14        16
18 20 22                        22
                                28

4.

12 13 14 15 16 17
18 19 20 21 22 23
```

In [40]:
a[:4, ::2]

array([[ 0,  2,  4],
       [ 6,  8, 10],
       [12, 14, 16],
       [18, 20, 22]])

In [41]:
a[:3, :3]

array([[ 0,  1,  2],
       [ 6,  7,  8],
       [12, 13, 14]])

In [42]:
a[:, 4:5]

array([[ 4],
       [10],
       [16],
       [22],
       [28]])

In [43]:
a[2:4, :]

array([[12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23]])

In [44]:
a[2:4]

array([[12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23]])

## 연산

In [45]:
a = np.array([[1, 1], [1, 1]])
b = np.array([[1, 2], [3, 4]])
x = np.array([1, 10])
y = np.array([[1], [10]])

In [46]:
a

array([[1, 1],
       [1, 1]])

In [47]:
b

array([[1, 2],
       [3, 4]])

In [48]:
a.shape, x.shape, y.shape

((2, 2), (2,), (2, 1))

In [49]:
a + b

array([[2, 3],
       [4, 5]])

In [50]:
a * b

array([[1, 2],
       [3, 4]])

In [51]:
a @ b

array([[4, 6],
       [4, 6]])

In [52]:
a @ x

array([11, 11])

In [53]:
a @ y

array([[11],
       [11]])

In [54]:
b + 10

array([[11, 12],
       [13, 14]])

In [55]:
b + x

array([[ 2, 12],
       [ 4, 14]])

In [56]:
b + y

array([[ 2,  3],
       [13, 14]])

In [57]:
m = b.mean(axis=0)
b - m

array([[-1., -1.],
       [ 1.,  1.]])

## 어레이 조작

In [58]:
x = np.arange(12)
x.ndim, x.shape

(1, (12,))

In [59]:
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [60]:
y1 = x.reshape((4, -1))
y1.ndim, y1.shape

(2, (4, 3))

In [61]:
y1

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [62]:
y2 = x[np.newaxis, :]
y2.ndim, y2.shape

(2, (1, 12))

In [63]:
x[0] = 100
print(x)
print(y1)
print(y2)

[100   1   2   3   4   5   6   7   8   9  10  11]
[[100   1   2]
 [  3   4   5]
 [  6   7   8]
 [  9  10  11]]
[[100   1   2   3   4   5   6   7   8   9  10  11]]


In [64]:
a = np.arange(24).reshape((3, 2, 4))
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [65]:
print(a.T)
print(a.T.shape)

[[[ 0  8 16]
  [ 4 12 20]]

 [[ 1  9 17]
  [ 5 13 21]]

 [[ 2 10 18]
  [ 6 14 22]]

 [[ 3 11 19]
  [ 7 15 23]]]
(4, 2, 3)


In [66]:
print(a.transpose())
print(a.transpose().shape)

[[[ 0  8 16]
  [ 4 12 20]]

 [[ 1  9 17]
  [ 5 13 21]]

 [[ 2 10 18]
  [ 6 14 22]]

 [[ 3 11 19]
  [ 7 15 23]]]
(4, 2, 3)


In [67]:
print(a.transpose((0, 2, 1)))
print(a.transpose((0, 2, 1)).shape)

[[[ 0  4]
  [ 1  5]
  [ 2  6]
  [ 3  7]]

 [[ 8 12]
  [ 9 13]
  [10 14]
  [11 15]]

 [[16 20]
  [17 21]
  [18 22]
  [19 23]]]
(3, 4, 2)


## 어레이 붙이기

In [68]:
a = np.arange(12).reshape((3, 4))
b = np.arange(100, 112).reshape((3, 4))

In [69]:
np.vstack((a, b, np.ones((10, 4))))

array([[  0.,   1.,   2.,   3.],
       [  4.,   5.,   6.,   7.],
       [  8.,   9.,  10.,  11.],
       [100., 101., 102., 103.],
       [104., 105., 106., 107.],
       [108., 109., 110., 111.],
       [  1.,   1.,   1.,   1.],
       [  1.,   1.,   1.,   1.],
       [  1.,   1.,   1.,   1.],
       [  1.,   1.,   1.,   1.],
       [  1.,   1.,   1.,   1.],
       [  1.,   1.,   1.,   1.],
       [  1.,   1.,   1.,   1.],
       [  1.,   1.,   1.,   1.],
       [  1.,   1.,   1.,   1.],
       [  1.,   1.,   1.,   1.]])

In [70]:
np.hstack((a, b, np.zeros((3, 2))))

array([[  0.,   1.,   2.,   3., 100., 101., 102., 103.,   0.,   0.],
       [  4.,   5.,   6.,   7., 104., 105., 106., 107.,   0.,   0.],
       [  8.,   9.,  10.,  11., 108., 109., 110., 111.,   0.,   0.]])

In [71]:
np.stack((a, b))

array([[[  0,   1,   2,   3],
        [  4,   5,   6,   7],
        [  8,   9,  10,  11]],

       [[100, 101, 102, 103],
        [104, 105, 106, 107],
        [108, 109, 110, 111]]])

In [72]:
np.stack((a, b)).shape

(2, 3, 4)