# 4장 넘파이 기본: 어레이와 연산

## 주요 내용

- 넘파이(numpy) 어레이 소개
- 어레이 연산

__참고:__ 핵심 설명과 코드는 &#x1f511;로 표시되었으며 꼭 알아둘 필요가 없는 코드는 &#x270b;로 표시되었다.

## 기본 설정

`numpy` 모듈과 시각화 도구 모듈인 `matplotlib.pyplot`에 대한 기본 설정을 지정한다.

In [2]:
import numpy as np
# 램덤 시드
np.random.seed(12345)
# 어레이 사용되는 부동소수점들의 정확도 지정. 
# 여기서는 소수점 이하 네 자리까지만 표기하는 것으로 설정
np.set_printoptions(precision=4, suppress=True)

import matplotlib.pyplot as plt
# 생성되는 도표의 크기 지정
plt.rc('figure', figsize=(10, 6))

## 넘파이(numpy)란? (p. 133)

넘파이(numpy)는 numerical python의 줄임말이며, 
파이썬 데이터 과학에서 가장 중요한 도구를 제공하는 패키지이다.
넘파이에서 제공하는 도구는 다음과 같다.

* `ndarray` 객체: 효율적인 계산을 지원하는 다차원 어레이(배열)
* 빠른 어레이 연산을 지원하는 다양한 함수
* 어레이 데이터 읽고, 쓰고, 저장하기 지원 함수
* 선형대수 지원 다양한 함수
* 난수를 생성하는 다양한 함수

넘파이는 모델링이나 통계 등 데이터 과학에 필요한 도구를 자체적으로 지원하지는 않는다.
하지만 넘파이의 기능을 잘 이해한다면 이어서 다룰 pandas 패키지가 지원하는 도구를 
매우 쉽게 활용할 수 있다. 

넘파이는 대용량 데이터 어레이를 효율적으로 다룰 수 있으며, 이런 이유로
데이터 과학 분야에서 넘파이가 매우 중요하다. 
넘파이의 효율성은 아래 세 가지 특성에서 잘 드러난다.

* 반복문 없이 빠르게 복잡한 계산 실행
* 적은 메모리 사용

리스트 연산과 넘파이 어레이 연산의 속도 차이를 아래 코드가 보여준다.
아래 코드는 0부터 999,999까지의 숫자를 각각 두 배하는 연산에 필요한 시간을 측정한다.
결과적으로 넘파이 어레이를 이용한 연산이 50배 정도 빠르다.

In [3]:
my_arr = np.arange(1000000)
my_list = list(range(1000000))

__주의사항:__ `my_arr`이 넘파이 어레이를 가리키기에 `my_arr * 2`는 항목별로 두 배 연산을 실행한다.
자세한 연산과정은 곧 설명된다.

In [4]:
%time for _ in range(10): my_arr2 = my_arr * 2

CPU times: user 14.5 ms, sys: 12.7 ms, total: 27.2 ms
Wall time: 25.2 ms


In [5]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: user 636 ms, sys: 179 ms, total: 815 ms
Wall time: 814 ms


이제부터 넘파이에 대해 필수적으로 알아 두어야만 하는 내용들을 정리하며 살펴본다.

## &#x1f511; 4.1 넘파이 다차원 어레이 객체(`ndarray`) (p. 135)

아래 코드는 2x3 모양의 2차원 어레이를 생성한다.
어레이의 항목은 표준 정규 분포를 이용하여 무작위로 지정된다.

In [6]:
data = np.random.randn(2, 3)
data

array([[-0.2047,  0.4789, -0.5194],
       [-0.5557,  1.9658,  1.3934]])

### 사칙연산

사칙연산은 항목 단위로 이루어진다.

In [7]:
data * 10

array([[-2.0471,  4.7894, -5.1944],
       [-5.5573, 19.6578, 13.9341]])

In [8]:
data + data

array([[-0.4094,  0.9579, -1.0389],
       [-1.1115,  3.9316,  2.7868]])

### 모양과 항목 자료형

#### `shape` 속성

어레이 객체의 `shape` 속성은 생성된 어레이의 모양을 저장한다.

In [9]:
data.shape

(2, 3)

#### `dtype` 속성

어레이 객체의 `dtype` 속성은 어레이에 사용된 항목들의 자료형을 저장한다.
모든 항목은 동일한 자료형을 가지며,
`randn()` 함수는 부동소수점으로 이루어진 어레이를 생성한다.

__참고:__ 넘파이는 파이썬 표준에서 제공하는 자료형보다 세분화된 자료형을 지원한다. 
예를 들어, `float64`는 64비트로 구현된 부동소수점 자료형을 가리킨다.
앞으로 계속해서 세분화된 자료형을 만나게 될 것이다.

In [10]:
data.dtype

dtype('float64')

### &#x1f511; 4.1.1 어레이 객체 생성 (p. 137)

리스트, 튜플 등을 `np.array()` 함수를 이용하여 어레이로 변환시킬 수 있다.

#### 1차원 어레이

In [11]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [12]:
data1 = (6, 7.5, 8, 0, 1)
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

#### 2차원 어레이

중첩된 리스트나 어레이는 2차원 어레이로 변환된다.
단, 항목으로 사용된 리스트의 길이가 모두 동일해야 한다.
즉, 2차원 어레이는 어레이의 모든 항목이 동일한 크기의 1차원 어레이이다.

In [13]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

위 어레이의 모양은 (2, 4)이다.

* 2: 항목이 두개
* 4: 각각의 항목은 길이가 4인 어레이

In [14]:
arr2.shape

(2, 4)

항목의 자료형은 `int64`, 즉, 64비트로 구현된 정수 자료형이다.

In [15]:
arr2.dtype

dtype('int64')

#### `ndim` 속성

차원은 `ndim` 속성에 저장되며, `shape` 속성인 튜플의 길이와 동일하다.

In [16]:
arr2.ndim

2

1차원 어레이의 차원은 1이다.

In [17]:
arr1.ndim

1

1차원 어레이의 모양은 어레이의 길이 정보를 길이가 1인 튜플로 저장한다.

In [18]:
arr1.shape

(5,)

#### 3차원 어레이

3차원 이상의 어레이는 처음에는 매우 생소하다.
하지만 이미지 데이터 분석에서 가장 기본으로 사용되는 차원이기에 3차원 어레이에 익숙해져야 한다.

`n x m x p` 모양의 3차원 어레이를 가장 쉽게 이해하는 두 가지 방법은 다음과 같다.

* 방법 1: 바둑판을 `n x m` 크기의 격자로 나누고 각각의 칸에 길이가 `p`인 1차원 어레이가 위치하는 것으로 이해하기.
    이미지 데이터를 이해하는 최선의 방법임.
    
* 방법 2: `m x p` 모양의 2차원 어레이 `n` 개를 항목으로 갖는 1차원 어레이로 이해하기.
    아래 그림 참조.

<img src="./images/np-array.png" style="width:500px;">

<그림 출처: [NumPy Arrays and Data Analysis](https://www.reallifeedublogging.com/2020/07/numpy-arrays-and-data-analysis.html)>

위 이미지를 직접 구현하면 다음과 같다.

In [19]:
np.array([7, 2, 9, 10])

array([ 7,  2,  9, 10])

In [20]:
np.array([[5.2, 3.0, 4.5], 
          [9.1, 0.1, 0.3]])

array([[5.2, 3. , 4.5],
       [9.1, 0.1, 0.3]])

방법 1을 이용하여 어레이를 정의하더라도 기본적으로 방법 2 방식으로 보여준다.

In [21]:
np.array([[[1, 2], [4, 3], [7, 4]],
          [[2, 3], [9, 10], [7, 5]],
          [[1, 2], [3, 4], [0, 2]],
          [[9, 11], [6, 5], [9, 8]]])

array([[[ 1,  2],
        [ 4,  3],
        [ 7,  4]],

       [[ 2,  3],
        [ 9, 10],
        [ 7,  5]],

       [[ 1,  2],
        [ 3,  4],
        [ 0,  2]],

       [[ 9, 11],
        [ 6,  5],
        [ 9,  8]]])

### `zeros()` 함수

0으로 이루어진 어레이를 생성한다. 
1차원인 경우 정수를 인자로 사용한다.

In [22]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

2차원부터는 정수들의 튜플로 모양을 지정한다.

In [23]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [24]:
np.zeros((4, 3, 2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

#### `empty()` 함수

지정된 모양의 어레이를 생성한다. 항목은 초기화되지 않는다. 
임의의 값이 보일 수 있지만 실제로는 어떤 항목도 임의로 지정된 게 아니다.다.

In [25]:
np.empty((2, 3, 2))

array([[[-1.7272e-077, -3.1111e+231],
        [ 2.9644e-323,  0.0000e+000],
        [ 2.1220e-314,  1.3366e+160]],

       [[ 5.2833e-091,  9.3077e+165],
        [ 4.2900e-038,  8.2424e-071],
        [ 3.9991e+252,  8.3440e-309]]])

In [26]:
np.empty((2, 3, 2)).dtype

dtype('float64')

#### `arange()` 함수

`range()` 함수와 유사하게 작동하며 부동소수점 스텝도 지원한다.

In [27]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [28]:
np.arange(0, 1, 0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])

__참고:__ 배열을 쉽게 생성할 수 있는 함수는 다음과 같으며, 
각 함수의 기능은 
[numpy cheat sheet](https://ipgp.github.io/scientific_python_cheat_sheet/?utm_content=buffer7d821&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer#numpy-import-numpy-as-np)를 
참고한다.

* `array()`
* `asarray()`
* `arange()`
* `ones()`, `ones_lke()`
* `zeros()`, `zeros_lke()`
* `empty()`, `empty_lke()`
* `full()`, `full_lke()`
* `eye()`, `identity()`

### &#x1f511; 4.1.2 어레이 항목의 자료형(`dtype`) (p. 139)

`dtype`은 어레이 항목의 자료형을 담고 있으며, 파이썬 표준 라이브러리에서 제공하는 
`int`, `float`, `str`, `bool` 등을 보다 세분화시킨 자료형을 제공한다.
여기서는 세분화된 자료형을 일일이 설명하기 보다는 예제를 이용하여 세분화된 자료형의 형식을 
이해하고자 한다.

__참고:__ 세분화는 주로 자료형의 객체가 사용하는 메모리 용량을 제한하는 형식으로 이루어진다. 
이를 통해 보다 메모리 효율적이며 빠른 계산이 가능해졌다.

| 자료형 | 기호 | 설명 |
| --- | --- | --- |
| int8, uint8 | i1, u1 | signed/unsigned 8 비트 정수|
| int16, uint16 | i2, u2 | signed/unsigned 16 비트 정수|
| int32, uint32 | i4, u5 | signed/unsigned 32 비트 정수|
| int64, uint64 | i8, u8 | signed/unsigned 64 비트 정수|
| float16 | f2 | 16비트(반 정밀도) 부동소수점 |
| float32 | f4 또는 f | 32비트(단 정밀도) 부동소수점 |
| float64 | f8 또는 d | 64비트(배 정밀도) 부동소수점 |
| float128 | f16 또는 g | 64비트(배 정밀도) 부동소수점 |
| bool | ? | 부울 값 |
| object | O | 임의의 파이썬 객체 |
| string_ | S | 고정 길이 아스키 문자열, 예) `S8`, `S10` |
| unicode_ | U | 고정 길이 유니코드 문자열, 예) `U8`, `U10`|

#### `float64` 자료형

In [30]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)
arr1.dtype
arr2.dtype

dtype('int32')

In [31]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

In [32]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10], dtype=int32)

In [37]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings.dtype

dtype('S4')

In [33]:
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

In [34]:
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [35]:
empty_uint32 = np.empty(8, dtype='u4')
empty_uint32

array([         0, 1075314688,          0, 1075707904,          0,
       1075838976,          0, 1072693248], dtype=uint32)

### &#x1f511; 4.1.3 넘파이 어레이 연산

- 142쪽

In [None]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr
arr * arr
arr - arr

In [None]:
1 / arr
arr ** 0.5

In [None]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2
arr2 > arr

### 4.1.4 색인과 슬라이싱 소개

- 144쪽

In [None]:
arr = np.arange(10)
arr
arr[5]
arr[5:8]
arr[5:8] = 12
arr

In [None]:
arr_slice = arr[5:8]
arr_slice

In [None]:
arr_slice[1] = 12345
arr

In [None]:
arr_slice[:] = 64
arr

In [None]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

In [None]:
arr2d[0][2]
arr2d[0, 2]

<img src="./images/numpy146.png" style="width:300px;">

In [None]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

In [None]:
arr3d[0]

In [None]:
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d
arr3d[0] = old_values
arr3d

In [None]:
arr3d[1, 0]

In [None]:
x = arr3d[1]
x
x[0]

#### &#x1f511; 슬라이싱

- 148쪽

In [None]:
arr
arr[1:6]

In [None]:
arr2d
arr2d[:2]

In [None]:
arr2d[:2, 1:]

In [None]:
arr2d[1, :2]

In [None]:
arr2d[:2, 2]

<img src="./images/numpy149.png" style="width:350px;">

In [None]:
arr2d[:, :1]

In [None]:
arr2d[:2, 1:] = 0
arr2d

### &#x1f511; 4.1.5 부울 인덱싱

- 150쪽

In [None]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
names
data

In [None]:
names == 'Bob'

In [None]:
data[names == 'Bob']

In [None]:
data[names == 'Bob', 2:]
data[names == 'Bob', 3]

In [None]:
names != 'Bob'
data[~(names == 'Bob')]

In [None]:
cond = names == 'Bob'
data[~cond]

In [None]:
mask = (names == 'Bob') | (names == 'Will')
mask
data[mask]

In [None]:
data[data < 0] = 0
data

In [None]:
data[names != 'Joe'] = 7
data

### &#x1f511; 4.1.6 팬시 인덱싱

- 153쪽

In [None]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

In [None]:
arr[[4, 3, 0, 6]]

In [None]:
arr[[-3, -5, -7]]

In [None]:
arr = np.arange(32).reshape((8, 4))
arr
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

In [None]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

### &#x1f511; 4.1.7 어레이 전치와 축 바꾸기

- 155쪽

In [None]:
arr = np.arange(15).reshape((3, 5))
arr
arr.T

In [None]:
arr = np.random.randn(6, 3)
arr
np.dot(arr.T, arr)

In [None]:
arr = np.arange(16).reshape((2, 2, 4))
arr
arr.transpose((1, 0, 2))

In [None]:
arr
arr.swapaxes(1, 2)

## &#x1f511; 4.2 항목별 함수 적용

- 158쪽

In [None]:
arr = np.arange(10)
arr
np.sqrt(arr)
np.exp(arr)

In [None]:
x = np.random.randn(8)
y = np.random.randn(8)
x
y
np.maximum(x, y)

In [None]:
arr = np.random.randn(7) * 5
arr
remainder, whole_part = np.modf(arr)
remainder
whole_part

In [None]:
arr
np.sqrt(arr)
np.sqrt(arr, arr)
arr

## &#x1f511; 4.3 어레이 중심 프로그래밍

- 161쪽

In [None]:
points = np.arange(-5, 5, 0.01) # 1000 equally spaced points
xs, ys = np.meshgrid(points, points)
ys

In [None]:
z = np.sqrt(xs ** 2 + ys ** 2)
z

In [None]:
plt.imshow(z, cmap=plt.cm.gray); plt.colorbar()
plt.title("Image plot of $\sqrt{x^2 + y^2}$ for a grid of values")

In [None]:
plt.draw()

In [None]:
plt.close('all')

### 4.3.1 삼항식과 어레이

- 163쪽

In [None]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

In [None]:
result = [(x if c else y)
          for x, y, c in zip(xarr, yarr, cond)]
result

In [None]:
result = np.where(cond, xarr, yarr)
result

In [None]:
arr = np.random.randn(4, 4)
arr
arr > 0
np.where(arr > 0, 2, -2)

In [None]:
np.where(arr > 0, 2, arr) # set only positive values to 2

### &#x1f511; 4.3.2 수학/통계 용도 메서드

- 165쪽

In [None]:
arr = np.random.randn(5, 4)
arr
arr.mean()
np.mean(arr)
arr.sum()

In [None]:
arr.mean(axis=1)
arr.sum(axis=0)

In [None]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7])
arr.cumsum()

In [None]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr
arr.cumsum(axis=0)
arr.cumprod(axis=1)

### &#x1f511; 4.3.3 부울 어레이 메서드: `all()`, `any()`

- 167쪽

In [None]:
arr = np.random.randn(100)
(arr > 0).sum() # Number of positive values

In [None]:
bools = np.array([False, False, True, False])
bools.any()
bools.all()

### &#x1f511; 4.3.4 정렬

- 168쪽

In [None]:
arr = np.random.randn(6)
arr
arr.sort()
arr

In [None]:
arr = np.random.randn(5, 3)
arr
arr.sort(1)
arr

In [None]:
large_arr = np.random.randn(1000)
large_arr.sort()
large_arr[int(0.05 * len(large_arr))] # 5% quantile

### 4.3.5 집합 관련 함수

- 169

In [None]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
np.unique(names)
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
np.unique(ints)

In [None]:
sorted(set(names))

In [None]:
values = np.array([6, 0, 0, 3, 2, 5, 6])
np.in1d(values, [2, 3, 6])

## &#x270b;! 4.4 배열 파일 저장 및 읽기

- 171쪽

In [None]:
arr = np.arange(10)
np.save('some_array', arr)

np.load('some_array.npy')

np.savez('array_archive.npz', a=arr, b=arr)

arch = np.load('array_archive.npz')
arch['b']

np.savez_compressed('arrays_compressed.npz', a=arr, b=arr)

!rm some_array.npy
!rm array_archive.npz
!rm arrays_compressed.npz

## &#x1f511; 4.5 선형 대수

- 172쪽

In [None]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])
x
y
x.dot(y)

In [None]:
np.dot(x, y)

In [None]:
np.dot(x, np.ones(3))

In [None]:
x @ np.ones(3)

In [None]:
from numpy.linalg import inv, qr
X = np.random.randn(5, 5)
mat = X.T.dot(X)
inv(mat)
mat.dot(inv(mat))
q, r = qr(mat)
r

## &#x1f511; 4.6 난수 생성

- 174쪽

In [None]:
samples = np.random.normal(size=(4, 4))
samples

In [None]:
from random import normalvariate
N = 1000000
%timeit samples = [normalvariate(0, 1) for _ in range(N)]
%timeit np.random.normal(size=N)

In [None]:
np.random.seed(1234)

In [None]:
rng = np.random.RandomState(1234)
rng.randn(10)

## 4.7 예제: 계단 오르기(Random Walks)

- 176쪽

In [None]:
import random
position = 0
walk = [position]
steps = 1000
for i in range(steps):
    step = 1 if random.randint(0, 1) else -1
    position += step
    walk.append(position)

In [None]:
plt.figure()

In [None]:
plt.plot(walk[:100])

In [None]:
np.random.seed(12345)

In [None]:
nsteps = 1000
draws = np.random.randint(0, 2, size=nsteps)
steps = np.where(draws > 0, 1, -1)
walk = steps.cumsum()

In [None]:
walk.min()
walk.max()

In [None]:
(np.abs(walk) >= 10).argmax()

### 4.7.1 한 번에 여러 계단 오르기

- 178쪽

In [None]:
nwalks = 5000
nsteps = 1000
draws = np.random.randint(0, 2, size=(nwalks, nsteps)) # 0 or 1
steps = np.where(draws > 0, 1, -1)
walks = steps.cumsum(1)
walks

In [None]:
walks.max()
walks.min()

In [None]:
hits30 = (np.abs(walks) >= 30).any(1)
hits30
hits30.sum() # Number that hit 30 or -30

In [None]:
crossing_times = (np.abs(walks[hits30]) >= 30).argmax(1)
crossing_times.mean()

In [None]:
steps = np.random.normal(loc=0, scale=0.25,
                         size=(nwalks, nsteps))