# 4장 넘파이 기본: 어레이와 연산

## 주요 내용

- 넘파이(numpy) 어레이 소개
- 어레이 연산

__참고:__ 핵심 설명과 코드는 &#x1f511;로 표시되었으며 꼭 알아둘 필요가 없는 코드는 &#x270b;로 표시되었다.

## 기본 설정

`numpy` 모듈과 시각화 도구 모듈인 `matplotlib.pyplot`에 대한 기본 설정을 지정한다.

In [66]:
# 넘파이
import numpy as np
# 램덤 시드
np.random.seed(12345)
# 어레이 사용되는 부동소수점들의 정확도 지정
np.set_printoptions(precision=4, suppress=True)

# 파이플롯
import matplotlib.pyplot as plt
# 도표 크기 지정
plt.rc('figure', figsize=(10, 6))

## 넘파이(numpy)란? (p. 133)

넘파이(numpy)는 numerical python의 줄임말이며, 
파이썬 데이터 과학에서 가장 중요한 도구를 제공하는 패키지이다.
넘파이에서 제공하는 도구는 다음과 같다.

* `ndarray` 객체: 효율적인 계산을 지원하는 다차원 어레이(배열)
* 빠른 어레이 연산을 지원하는 다양한 함수
* 선형대수 지원

넘파이는 모델링이나 통계 등 데이터 과학에 필요한 도구를 자체적으로 지원하지
않지만 넘파이의 기능을 잘 이해한다면 이어서 다룰 pandas 패키지가 지원하는 도구를 
매우 쉽게 활용할 수 있다. 
넘파이는 대용량 데이터 어레이를 효율적으로 다룰 수 있으며, 이런 이유로
데이터 과학 분야에서 가장 중요한 역할을 수행한다.
넘파이의 효율성은 아래 세 가지 특성에서 잘 드러난다.

* 반복문 없이 빠르게 복잡한 계산 실행
* 적은 메모리 사용

리스트 연산과 넘파이 어레이 연산의 속도 차이를 아래 코드가 보여준다.
아래 코드는 0부터 999,999까지의 숫자를 각각 두 배하는 연산에 필요한 시간을 측정한다.
결과적으로 넘파이 어레이를 이용한 연산이 50배 정도 빠르다.

In [2]:
my_arr = np.arange(1000000)
my_list = list(range(1000000))

__주의사항__ 

* `my_arr`이 넘파이 어레이를 가리키기에 `my_arr * 2`는 항목별로 두 배 연산을 실행한다.
자세한 연산과정은 곧 설명된다.
* `%time`은 코드 실행시간을 측정하는 IPython의 기능이며, 파이썬 자체의 기능이 아니다.

In [3]:
%time for _ in range(10): my_arr2 = my_arr * 2

CPU times: user 14 ms, sys: 4.43 ms, total: 18.4 ms
Wall time: 17.1 ms


In [4]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: user 515 ms, sys: 113 ms, total: 628 ms
Wall time: 630 ms


이제부터 넘파이에 대해 필수적으로 알아 두어야만 하는 내용들을 정리하며 살펴본다.

## 4.1 넘파이 다차원 어레이 객체(`ndarray`) (p. 135)

__예제:__ 어레이 생성

아래 코드는 2x3 모양의 2차원 어레이를 생성한다.
어레이의 항목은 표준 정규 분포를 이용하여 무작위로 지정된다.

In [5]:
data = np.random.randn(2, 3)
data

array([[-0.2047,  0.4789, -0.5194],
       [-0.5557,  1.9658,  1.3934]])

In [8]:
data2 = np.random.randn(2, 3)
data2

array([[ 0.0929,  0.2817,  0.769 ],
       [ 1.2464,  1.0072, -1.2962]])

__예제:__ 어레이 사칙연산

사칙연산은 항목 단위로 이루어진다.

In [6]:
data * 10

array([[-2.0471,  4.7894, -5.1944],
       [-5.5573, 19.6578, 13.9341]])

In [9]:
data + data2

array([[-0.1118,  0.7607,  0.2496],
       [ 0.6907,  2.973 ,  0.0972]])

In [10]:
data * data2

array([[-0.019 ,  0.1349, -0.3995],
       [-0.6927,  1.9799, -1.8062]])

In [11]:
data - data2

array([[-0.2976,  0.1972, -1.2885],
       [-1.8022,  0.9586,  2.6896]])

In [12]:
data / data2

array([[-2.2033,  1.6999, -0.6755],
       [-0.4459,  1.9517, -1.075 ]])

__`shape`__ 속성

어레이 객체의 `shape` 속성은 생성된 어레이의 모양을 저장한다.
행렬 모양의 어레이는 행과 열의 크기를 이용한 튜플로 보여준다.

In [13]:
data.shape

(2, 3)

__`dtype`__ 속성

어레이 객체의 `dtype` 속성은 어레이에 사용된 항목들의 자료형을 저장한다.
모든 항목은 __동일한 자료형__을 가지며,
`randn()` 함수는 부동소수점으로 이루어진 어레이를 생성한다.

__참고:__ 넘파이는 파이썬 표준에서 제공하는 자료형보다 세분화된 자료형을 지원한다. 
예를 들어, `float64`는 64비트로 구현된 부동소수점 자료형을 가리킨다.
앞으로 계속해서 세분화된 자료형을 만나게 될 것이다.

In [10]:
data.dtype

dtype('float64')

### 4.1.1 어레이 객체 생성 (p. 137)

리스트, 튜플 등을 `np.array()` 함수를 이용하여 어레이로 변환시킬 수 있다.

#### 1차원 어레이

In [14]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [15]:
data1 = (6, 7.5, 8, 0, 1)
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

#### 2차원 어레이

중첩된 리스트나 어레이는 2차원 어레이로 변환된다.
단, 항목으로 사용된 리스트의 길이가 모두 동일해야 한다.
즉, 2차원 어레이는 어레이의 모든 항목이 동일한 크기의 1차원 어레이이다.

In [16]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

위 어레이의 모양(shape)은 (2, 4)이다.

* 2: 항목이 두개
* 4: 각각의 항목은 길이가 4인 어레이

In [17]:
arr2.shape

(2, 4)

항목의 자료형은 `int64`, 즉, 64비트로 구현된 정수 자료형이다.

In [18]:
arr2.dtype

dtype('int64')

#### `ndim` 속성

차원은 `ndim` 속성에 저장되며, `shape`에 저정된 튜플의 길이와 동일하다.

In [19]:
arr2.ndim

2

1차원 어레이의 차원은 1이다.

In [20]:
arr1.ndim

1

1차원 어레이의 모양은 어레이의 길이 정보를 길이가 1인 튜플로 저장한다.

In [21]:
arr1.shape

(5,)

#### 3차원 어레이

3차원 이상의 어레이는 처음에는 매우 생소하게 다가올 수 있다.
하지만 이미지 데이터 분석에서 가장 기본으로 사용되는 차원이기에 3차원 어레이에 익숙해져야 한다.

`n x m x p` 모양의 3차원 어레이를 이해하는 두 가지 방법은 다음과 같다.

* 방법 1: 바둑판을 `n x m` 크기의 격자로 나누고 각각의 칸에 길이가 `p`인 1차원 어레이가 위치하는 것으로 이해하기.
    이미지 데이터를 이해하는 최선의 방법임.
    아래 그림은 (3, 3, 3) 모양의 어레이이며, (3, 3) 모양의 바둑판에 
    (R, G, B) 색상 정보를 담은 길이 3인 튜플을 표현함.
    (RGB 정보는 각각 0과 1 사이의 부동소수점으로 구현됨)

<img src="https://github.com/codingalzi/python-data-analysis/blob/master/notebooks/images/three_d_array.png?raw=true" style="width:350px;">

<그림 출처: [KDnuggets](https://www.kdnuggets.com/2019/12/convert-rgb-image-grayscale.html)>

* 방법 2: `m x p` 모양의 2차원 어레이 `n` 개를 항목으로 갖는 1차원 어레이로 이해하기.
    아래 그림 참조.

<img src="https://github.com/codingalzi/python-data-analysis/blob/master/notebooks/images/np-array.png?raw=true" style="width:500px;">

<그림 출처: [NumPy Arrays and Data Analysis](https://www.reallifeedublogging.com/2020/07/numpy-arrays-and-data-analysis.html)>

위 이미지를 직접 구현하면 다음과 같다.

* 1D 어레이

In [19]:
np.array([7, 2, 9, 10])

array([ 7,  2,  9, 10])

* 2D 어레이

In [20]:
np.array([[5.2, 3.0, 4.5], 
          [9.1, 0.1, 0.3]])

array([[5.2, 3. , 4.5],
       [9.1, 0.1, 0.3]])

* 3D 어레이

In [25]:
np.array([[[1, 2],
           [4, 3], 
           [7, 4]],
          
          [[2, 3], 
           [9, 10], 
           [7, 5]],
          
          [[1, 2], 
           [3, 4], 
           [0, 2]],
          
          [[9, 11], 
           [6, 5], 
           [9, 8]]])

array([[[ 1,  2],
        [ 4,  3],
        [ 7,  4]],

       [[ 2,  3],
        [ 9, 10],
        [ 7,  5]],

       [[ 1,  2],
        [ 3,  4],
        [ 0,  2]],

       [[ 9, 11],
        [ 6,  5],
        [ 9,  8]]])

#### `zeros()` 함수

0으로 이루어진 어레이를 생성한다. 
1차원인 경우 정수를 인자로 사용한다.

In [26]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

2차원부터는 정수들의 튜플로 모양을 지정한다.

In [27]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [28]:
np.zeros((4, 3, 2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

#### 어레이 객체 생성 함수

배열을 쉽게 생성할 수 있는 함수는 다음과 같으며, 
각 함수의 기능은 
[numpy cheat sheet](https://ipgp.github.io/scientific_python_cheat_sheet/?utm_content=buffer7d821&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer#numpy-import-numpy-as-np)를 
참고한다.

* `array()`
* `asarray()`
* `arange()`
* `ones()`, `ones_lke()`
* `zeros()`, `zeros_lke()`
* `empty()`, `empty_lke()`
* `full()`, `full_lke()`
* `eye()`, `identity()`

#### 예제: `empty()` 함수

지정된 모양의 어레이를 생성한다. 항목은 초기화되지 않는다. 
임의의 값이 보일 수 있지만 실제로는 어떤 항목도 임의로 지정된 게 아니다.다.

In [29]:
np.empty((2, 3, 2))

array([[[ 2.3158e+077, -3.1111e+231],
        [ 2.4191e-312,  2.4403e-312],
        [ 8.4880e-313,  9.3368e-313]],

       [[ 1.0822e-312,  6.7904e-313],
        [ 8.7002e-313,  4.3964e+175],
        [ 3.9991e+252,  8.3440e-309]]])

In [30]:
np.empty((2, 3, 2)).dtype

dtype('float64')

#### 예제: `arange()` 함수

`range()` 함수와 유사하게 작동하며 부동소수점 스텝도 지원한다.

In [31]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [32]:
np.arange(0, 1, 0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])

### &#x1f511; 4.1.2 어레이 항목 자료형(`dtype`) (p. 139)

`dtype`은 어레이 항목의 자료형을 담고 있으며, 파이썬 표준 라이브러리에서 제공하는 
`int`, `float`, `str`, `bool` 등을 보다 세분화시킨 자료형을 제공한다.
여기서는 세분화된 자료형을 일일이 설명하기 보다는 예제를 이용하여 세분화된 자료형의 형식을 
살펴본다.

__참고:__ 세분화는 주로 자료형의 객체가 사용하는 메모리 용량을 제한하는 형식으로 이루어진다. 
이를 통해 보다 메모리 효율적이며 빠른 계산이 가능해졌다.

| 자료형 | 자료형 코드 | 설명 |
| --- | --- | --- |
| int8, uint8 | i1, u1 | signed/unsigned 8 비트 정수|
| int16, uint16 | i2, u2 | signed/unsigned 16 비트 정수|
| int32, uint32 | i4, u5 | signed/unsigned 32 비트 정수|
| int64, uint64 | i8, u8 | signed/unsigned 64 비트 정수|
| float16 | f2 | 16비트(반 정밀도) 부동소수점 |
| float32 | f4 또는 f | 32비트(단 정밀도) 부동소수점 |
| float64 | f8 또는 d | 64비트(배 정밀도) 부동소수점 |
| float128 | f16 또는 g | 64비트(배 정밀도) 부동소수점 |
| bool | ? | 부울 값 |
| object | O | 임의의 파이썬 객체 |
| string_ | S | 고정 길이 아스키 문자열, 예) `S8`, `S10` |
| unicode_ | U | 고정 길이 유니코드 문자열, 예) `U8`, `U10`|

#### `float64` 자료형

In [37]:
arr1 = np.array([1, 2, 3], dtype=np.float64)

arr1.dtype

dtype('float64')

#### `int32` 자료형

In [38]:
arr2 = np.array([1, 2, 3], dtype=np.int32)

arr2.dtype

dtype('int32')

#### `astype()` 메서드: 형변환

`int` 자료형을 `float` 유형으로 강제로 변환할 수 있다.

In [41]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int64')

In [42]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

`float` 자료형을 `int` 유형으로 형변환을 하면 소수점 이하는 버린다.

In [44]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [45]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10], dtype=int32)

숫자 형식의 문자열을 숫자로 변환할 수 있다.

In [48]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings.dtype

dtype('S4')

In [49]:
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

__주의사항:__ 문자열 자료형의 크기는 넘파이가 알아서 임의로 정하며, 부동소수점으로 형변환하면 
지정된 정밀도에 따라 소수점 이하를 자른다.

In [72]:
numeric_strings2 = np.array(['1.25345', '-9.673811345', '42'], dtype=np.string_)
numeric_strings2.dtype

dtype('S12')

앞서 부동소수점 정밀도를 4로 지정하였다.

```python
np.set_printoptions(precision=4, suppress=True)
```

In [74]:
numeric_strings2.astype(float)

array([ 1.2534, -9.6738, 42.    ])

부동소수점 정밀도를 변경하면 그에 따라 다르게 결정된다.

In [75]:
np.set_printoptions(precision=6, suppress=True)

In [76]:
numeric_strings2.astype(float)

array([ 1.25345 , -9.673811, 42.      ])

다른 배열의 `dtype` 정보를 이용할 수도 있다.

In [83]:
int_array = np.arange(10)
int_array.dtype

dtype('int64')

In [84]:
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)

In [85]:
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

자료형 코드를 이용하여 `dtype`을 지정할 수 있다. (위 테이블 참조)

In [87]:
empty_uint32 = np.empty(8, dtype='u4')
empty_uint32.dtype

dtype('uint32')

### &#x1f511; 4.1.3 넘파이 어레이 연산 (p. 142)

넘파이 어레이 연산은 기본적으로 항목별로 이루어진다. 
즉, 지정된 연산을 동일한 위치의 항목끼리 실행하여 새로운, 동일한 모양의 어레이를 생성한다.

In [88]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [104]:
arr2 = np.array([[3., 4., 1.], [7., 2., 12.]])
arr2

array([[ 3.,  4.,  1.],
       [ 7.,  2., 12.]])

#### 덧셈

In [105]:
arr * arr2

array([[ 3.,  8.,  3.],
       [28., 10., 72.]])

숫자와의 연산은 모든 항목에 동일한 값을 사용한다.

In [106]:
arr * 2.4

array([[ 2.4,  4.8,  7.2],
       [ 9.6, 12. , 14.4]])

#### 뺄셈

In [107]:
arr - arr2

array([[-2., -2.,  2.],
       [-3.,  3., -6.]])

In [108]:
3.78 - arr

array([[ 2.78,  1.78,  0.78],
       [-0.22, -1.22, -2.22]])

#### 나눗셈

나눗셈 또한 항목별로 연산이 이루어진다. 
따라서 0이 항목으로 포함되면 오류가 발생한다.

In [109]:
arr / arr2

array([[0.333333, 0.5     , 3.      ],
       [0.571429, 2.5     , 0.5     ]])

In [110]:
1 / arr

array([[1.      , 0.5     , 0.333333],
       [0.25    , 0.2     , 0.166667]])

In [112]:
arr / 3.2

array([[0.3125, 0.625 , 0.9375],
       [1.25  , 1.5625, 1.875 ]])

#### 거듭제곱(지수승)

In [111]:
arr ** arr2

array([[1.000000e+00, 1.600000e+01, 3.000000e+00],
       [1.638400e+04, 2.500000e+01, 2.176782e+09]])

In [113]:
2 ** arr

array([[ 2.,  4.,  8.],
       [16., 32., 64.]])

In [93]:
arr ** 0.5

array([[1.      , 1.414214, 1.732051],
       [2.      , 2.236068, 2.44949 ]])

#### 비교

In [114]:
arr2 > arr

array([[ True,  True, False],
       [ True, False,  True]])

In [119]:
arr2 <= arr

array([[False, False,  True],
       [False,  True, False]])

In [117]:
1.2 < arr

array([[False,  True,  True],
       [ True,  True,  True]])

In [118]:
1.2 >= arr2

array([[False, False,  True],
       [False, False, False]])

### 4.1.4 인덱스, 인덱싱, 슬라이싱 (p. 144)

리스트의 인덱스, 인덱싱, 슬라이싱 개념을 넘파이 어레이에 확장시킨다.
리스트의 경우보다 보다 다양한 기능을 제공하며 데이터 분석에서 매우 중요한 역할을 수행한다.

#### 1차원 어레이 인덱싱, 슬라이싱

1차원 어레이의 경우 리스트의 경우와 거의 동일하게 작동한다.

In [120]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

* 인덱싱: 리스트의 경우와 동일

In [None]:
arr[5]

* 슬라이싱: 구간 확인 기능은 리스트의 경우와 동일

In [121]:
arr[5:8]

array([5, 6, 7])

* 슬라이싱: 하지만 구간을 특정 값으로 대체하는 기능은 넘파이 어레이만의 기능임.

In [123]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

위 기능은 리스트에서는 제공되지 않는다.

In [128]:
aList = list(arr)
aList

[0, 1, 2, 3, 4, 12, 12, 12, 8, 9]

In [129]:
aList[5:8] = 12
aList

TypeError: can only assign an iterable

아래와 같이 리스트를 값으로 지정하면 작동한다.

In [130]:
aList[5:8] = [12, 12, 12]
aList

[0, 1, 2, 3, 4, 12, 12, 12, 8, 9]

#### 뷰(view) 이해

넘파이 어레이에 대해 슬라이싱을 실행하면 지정된 구간에 해당하는 어레이를 새로 생성하는 게 아니라
지정된 구간의 정보를 이용만 한다. 
이렇게 작동하는 기능이 __뷰__(view)이다. 
즉, 어레이를 새로 생성하지 않고 기존 어레이만 적절하게 활용한다.

__참고:__ 넘파이 어레이와 관련된 많은 기능이 뷰 기능을 이용한다.

In [156]:
arr_slice = arr[5:8]
arr_slice

array([64, 64, 64])

In [157]:
arr_slice[1] = 3450
arr

array([   0,    1,    2,    3,    4,   64, 3450,   64,    8,    9])

어레이 전체 항목을 특정 값으로 한꺼번에 바꾸려면 `[:]`로 슬라이싱 한다.

In [158]:
arr_slice[:] = 64
arr_slice

array([64, 64, 64])

In [159]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

#### `copy()` 메서드

원본을 그대로 유지하고자 한다면 어레이를 새로 생성해서 사용하려면 `copy()` 메서드를 활용한다.

In [160]:
arr_slice2 = arr[5:8].copy()
arr_slice2

array([64, 64, 64])

`arr`이 더 이상 영향받지 않는다.

In [161]:
arr_slice2[1] = 12
arr_slice2

array([64, 12, 64])

In [162]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

#### 2차원 어레이 인덱싱

2차원 이상의 다차원 어레이는 보다 다양한 인덱싱, 슬라이싱 기능을 제공한다. 

In [163]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

리스트의 인덱싱을 그대로 사용할 수 있다.

* 0번 인덱스 항목: 길이가 3인 1차원 어레이

In [177]:
arr2d[0]

array([1, 2, 3])

* 0번 인덱스의 2번 인덱스 항목: 리스트 인덱싱 방식
    - 0번 인덱스의 항목이 리스트이며, 그 리스트의 2번 인덱스 항목 확인

In [178]:
arr2d[0][2]

3

* 0번 인덱스의 2번 인덱스 항목: 넘파이 어레이 인덱싱 방식
    - 0행 2열의 항목으로 지정.

In [179]:
arr2d[0, 2]

3

<img src="https://github.com/codingalzi/python-data-analysis/blob/master/notebooks/images/numpy146.png?raw=true" style="width:300px;">

#### 3차원 어레이 인덱싱

`arr3d`는 (2, 2, 3) 모양의 3차원 어레이다.

In [191]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [194]:
arr3d.shape

(2, 2, 3)

* 모양이 (2, 2, 3)인 3차원 어레이의 0번 인덱스 항목: (2, 3) 크기의 2차원 어레이

In [195]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

0번 인덱스 항목인 2차원 어레이의 항목을 일정한 값으로 바꾸기 위해 인덱싱을 활용 가능하다.

In [183]:
# 기존 항목 기억해 두기
old_values = arr3d[0].copy()

In [184]:
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

원래 값으로 되돌린다.

In [175]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

* 모양이 (2, 2, 3)인 3차원 행렬의 1번 행의 0번 열의 항목은 길이가 3인 1차원 어레이다.

In [188]:
arr3d[1, 0]

array([7, 8, 9])

실제로 아래 처럼 1번행과 1번 행의 0번 열의 값을 확인하면 동일한 값이 나온다.

In [189]:
x = arr3d[1]
x

array([[ 7,  8,  9],
       [10, 11, 12]])

In [187]:
x[0]

array([7, 8, 9])

#### 2차원 어레이 슬라이싱 (p. 148)

In [199]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [200]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [201]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [202]:
arr2d[1, :2]

array([4, 5])

In [203]:
arr2d[:2, 2]

array([3, 6])

<img src="https://github.com/codingalzi/python-data-analysis/blob/master/notebooks/images/numpy149-1.png?raw=true" style="width:350px;">

<img src="https://github.com/codingalzi/python-data-analysis/blob/master/notebooks/images/numpy149.png?raw=true" style="width:350px;">

In [None]:
arr2d[:, :1]

In [None]:
arr2d[:2, 1:] = 0
arr2d

### &#x1f511; 4.1.5 부울 인덱싱

- 150쪽

In [None]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
names
data

In [None]:
names == 'Bob'

In [None]:
data[names == 'Bob']

In [None]:
data[names == 'Bob', 2:]
data[names == 'Bob', 3]

In [None]:
names != 'Bob'
data[~(names == 'Bob')]

In [None]:
cond = names == 'Bob'
data[~cond]

In [None]:
mask = (names == 'Bob') | (names == 'Will')
mask
data[mask]

In [None]:
data[data < 0] = 0
data

In [None]:
data[names != 'Joe'] = 7
data

### &#x1f511; 4.1.6 팬시 인덱싱

- 153쪽

In [None]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

In [None]:
arr[[4, 3, 0, 6]]

In [None]:
arr[[-3, -5, -7]]

In [None]:
arr = np.arange(32).reshape((8, 4))
arr
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

In [None]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

### &#x1f511; 4.1.7 어레이 전치와 축 바꾸기

- 155쪽

In [None]:
arr = np.arange(15).reshape((3, 5))
arr
arr.T

In [None]:
arr = np.random.randn(6, 3)
arr
np.dot(arr.T, arr)

In [None]:
arr = np.arange(16).reshape((2, 2, 4))
arr
arr.transpose((1, 0, 2))

In [None]:
arr
arr.swapaxes(1, 2)

## &#x1f511; 4.2 항목별 함수 적용

- 158쪽

In [None]:
arr = np.arange(10)
arr
np.sqrt(arr)
np.exp(arr)

In [None]:
x = np.random.randn(8)
y = np.random.randn(8)
x
y
np.maximum(x, y)

In [None]:
arr = np.random.randn(7) * 5
arr
remainder, whole_part = np.modf(arr)
remainder
whole_part

In [None]:
arr
np.sqrt(arr)
np.sqrt(arr, arr)
arr

## &#x1f511; 4.3 어레이 중심 프로그래밍

- 161쪽

In [None]:
points = np.arange(-5, 5, 0.01) # 1000 equally spaced points
xs, ys = np.meshgrid(points, points)
ys

In [None]:
z = np.sqrt(xs ** 2 + ys ** 2)
z

In [None]:
plt.imshow(z, cmap=plt.cm.gray); plt.colorbar()
plt.title("Image plot of $\sqrt{x^2 + y^2}$ for a grid of values")

In [None]:
plt.draw()

In [None]:
plt.close('all')

### 4.3.1 삼항식과 어레이

- 163쪽

In [None]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

In [None]:
result = [(x if c else y)
          for x, y, c in zip(xarr, yarr, cond)]
result

In [None]:
result = np.where(cond, xarr, yarr)
result

In [None]:
arr = np.random.randn(4, 4)
arr
arr > 0
np.where(arr > 0, 2, -2)

In [None]:
np.where(arr > 0, 2, arr) # set only positive values to 2

### &#x1f511; 4.3.2 수학/통계 용도 메서드

- 165쪽

In [None]:
arr = np.random.randn(5, 4)
arr
arr.mean()
np.mean(arr)
arr.sum()

In [None]:
arr.mean(axis=1)
arr.sum(axis=0)

In [None]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7])
arr.cumsum()

In [None]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr
arr.cumsum(axis=0)
arr.cumprod(axis=1)

### &#x1f511; 4.3.3 부울 어레이 메서드: `all()`, `any()`

- 167쪽

In [None]:
arr = np.random.randn(100)
(arr > 0).sum() # Number of positive values

In [None]:
bools = np.array([False, False, True, False])
bools.any()
bools.all()

### &#x1f511; 4.3.4 정렬

- 168쪽

In [None]:
arr = np.random.randn(6)
arr
arr.sort()
arr

In [None]:
arr = np.random.randn(5, 3)
arr
arr.sort(1)
arr

In [None]:
large_arr = np.random.randn(1000)
large_arr.sort()
large_arr[int(0.05 * len(large_arr))] # 5% quantile

### 4.3.5 집합 관련 함수

- 169

In [None]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
np.unique(names)
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
np.unique(ints)

In [None]:
sorted(set(names))

In [None]:
values = np.array([6, 0, 0, 3, 2, 5, 6])
np.in1d(values, [2, 3, 6])

## &#x270b;! 4.4 배열 파일 저장 및 읽기

- 171쪽

In [None]:
arr = np.arange(10)
np.save('some_array', arr)

np.load('some_array.npy')

np.savez('array_archive.npz', a=arr, b=arr)

arch = np.load('array_archive.npz')
arch['b']

np.savez_compressed('arrays_compressed.npz', a=arr, b=arr)

!rm some_array.npy
!rm array_archive.npz
!rm arrays_compressed.npz

## &#x1f511; 4.5 선형 대수

- 172쪽

In [None]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])
x
y
x.dot(y)

In [None]:
np.dot(x, y)

In [None]:
np.dot(x, np.ones(3))

In [None]:
x @ np.ones(3)

In [None]:
from numpy.linalg import inv, qr
X = np.random.randn(5, 5)
mat = X.T.dot(X)
inv(mat)
mat.dot(inv(mat))
q, r = qr(mat)
r

## &#x1f511; 4.6 난수 생성

- 174쪽

In [None]:
samples = np.random.normal(size=(4, 4))
samples

In [None]:
from random import normalvariate
N = 1000000
%timeit samples = [normalvariate(0, 1) for _ in range(N)]
%timeit np.random.normal(size=N)

In [None]:
np.random.seed(1234)

In [None]:
rng = np.random.RandomState(1234)
rng.randn(10)

## 4.7 예제: 계단 오르기(Random Walks)

- 176쪽

In [None]:
import random
position = 0
walk = [position]
steps = 1000
for i in range(steps):
    step = 1 if random.randint(0, 1) else -1
    position += step
    walk.append(position)

In [None]:
plt.figure()

In [None]:
plt.plot(walk[:100])

In [None]:
np.random.seed(12345)

In [None]:
nsteps = 1000
draws = np.random.randint(0, 2, size=nsteps)
steps = np.where(draws > 0, 1, -1)
walk = steps.cumsum()

In [None]:
walk.min()
walk.max()

In [None]:
(np.abs(walk) >= 10).argmax()

### 4.7.1 한 번에 여러 계단 오르기

- 178쪽

In [None]:
nwalks = 5000
nsteps = 1000
draws = np.random.randint(0, 2, size=(nwalks, nsteps)) # 0 or 1
steps = np.where(draws > 0, 1, -1)
walks = steps.cumsum(1)
walks

In [None]:
walks.max()
walks.min()

In [None]:
hits30 = (np.abs(walks) >= 30).any(1)
hits30
hits30.sum() # Number that hit 30 or -30

In [None]:
crossing_times = (np.abs(walks[hits30]) >= 30).argmax(1)
crossing_times.mean()

In [None]:
steps = np.random.normal(loc=0, scale=0.25,
                         size=(nwalks, nsteps))