# 넘파이 어레이

**기본 설정**

Numpy 라이브러리를 별칭 np로 불러온다.

In [1]:
import numpy as np

**넘파이**<font size='2'>numpy</font>는 NUMerical PYthon의 줄임말이며, 
파이썬 데이터 과학에서 가장 중요한 도구를 제공하는 라이브러리다.
넘파이가 제공하는 가장 중요한 요소는 아래 두 가지이다.

* 다차원 어레이(배열)
* 메모리 효율적이며 빠른 어레이 연산

## 다차원 어레이

넘파이 어레이는 리스트와는 달리 항목으로 사용된 값 자체뿐만 아니라
포함된 데이터들의 모양, 항목들의 자료형 등에 대한 정보도 포함한다.
모양에 따라 차원이 결정되며, 모든 항목은 동일한 자료형을 가져야 한다.
가장 많이 활용되는 어레이의 차원은 다음과 같다.

### 1차원 어레이

중첩이 없는 리스트와 동일한 모양을 가지며, 리스트 등에 `np.array()` 함수를 적용하여 생성할 수 있다.
1차원 어레이는 **벡터**<font size='2'>vector</font>로도 불리며, 
한 개의 **축**<font size='2'>axis</font>을 갖는다.

In [2]:
data1 = [6, 7.5, 8, 0, 1]

arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

**`ndarray` 자료형**

넘파이 어레이는 `numpy.ndarray` 클래스의 객체다.

In [3]:
type(arr1)

numpy.ndarray

### 2차원 어레이

동일한 길이의 리스트를 항목으로 갖는 중첩 리스트를 
2차원 어레이로 변환할 수 있다.
2차원 어레이의 모든 항목은 동일한 크기의 1차원 어레이어야 한다.

2차원 어레이는 **행**<font size='2'>row</font>과 **열**<font size='2'>column</font> 
두 개의 축을 가지며, 이런 의미에서 **행렬**<font size='2'>matrix</font>로 불린다.

In [4]:
data2 = [[1, 2, 3, 4], 
         [5, 6, 7, 8]]

arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

아래 `list_ragged`처럼 리스트의 항목이 서로 길이가 다른 리스트인 경우엔 어레이로의 변환이 허용되지 않는다.

In [5]:
list_ragged = [[1, 2, 3, 4], [5, 6, 7], [8, 9]]
list_ragged

[[1, 2, 3, 4], [5, 6, 7], [8, 9]]

In [6]:
np.array(list_ragged)

ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (3,) + inhomogeneous part.

**`shape`** 속성

어레이 객체의 `shape` 속성은 생성된 어레이의 모양을 저장한다.
예를 들어 위 2차원 어레이의 모양은 행과 열의 개수로 구성된 튜플 `(2, 4)`이다.

In [7]:
arr2.shape

(2, 4)

1차원 어레이, 즉 벡터의 모양은 벡터에 포함된 항목의 개수로 구성된
길이가 1인 튜플로 표현된다.

In [8]:
arr1.shape

(5,)

참고로 길이가 1인 튜플은 반드시 쉼표를 포함해야 함에 주의한다.
쉼표를 표시하지 않으면 튜플이 아니다.

In [9]:
type((5,))

tuple

In [10]:
type((5))

int

**`ndim` 속성**

차원은 `ndim` 속성에 저장되며, `shape`에 저정된 튜플의 길이와 동일하다.

2차원 어레이의 차원은 2다.

In [11]:
arr2.ndim

2

1차원 어레이의 차원은 1이다.

In [12]:
arr1.ndim

1

**고차원 어레이**

3차원, 4차원 등의 고차원 어레이도 데이터 분석에서 많이 다루지만 
여기서는 사용하지 않는다.

**`np.arange()` 함수**

`np.arange()` 함수는 `range()` 함수와 유사하게 작동하지만 반환값은 항상 넘파이 어레이다.

In [13]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

그리고 부동소수점을 스텝으로 사용할 수도 있다.
예를 들어 아래 코드는 0부터 시작해서 0.1씩 키워 1이 되기 전까지의 값으로 구성된
1차원 어레이를 생성한다.

In [14]:
np.arange(0, 1, 0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])

### `dtype` 종류

넘파이 어레이의 `dtype` 속성은 어레이 항목의 자료형을 담고 있으며, 파이썬 표준 라이브러리에서 제공하는 
`int`, `float`, `str` 등을 보다 세분화시킨 자료형을 제공한다.

기본적으로 정수와 부동소수점은 64비트 형식으로 처리된다.
하지만 엄밀성이 중요하지 않거나, 데이터가 너무 많아 메모리 사용량을 줄여야 하는 경우엔
엄밀성을 어느 정도 포기하면서 효율적인 계산을 위해 32비트, 16비트, 8비트 형식으로 지정하기도 한다.

**`float` 자료형**

In [15]:
arr1 = np.array([1.0, 2, 3.2])

arr1.dtype

dtype('float64')

아래 코드는 `astype()` 라는 어레이 메서드를 이용하여 16비트 형식으로 부동수점으로 저장하라고 지정한다.
이러면 소수점이하의 자릿수를 줄여서 메모리에 저장하며 따라서
메모리 사용량이 줄어든다.

In [16]:
arr1 = np.array([1.0, 2, 3.2]).astype('float16')

arr1.dtype

dtype('float16')

**`int` 자료형**

정수의 경우도 부동소수점의 처리 방식과 동일하다.

In [17]:
arr2 = np.array([1, 2, 3])

arr2.dtype

dtype('int64')

In [18]:
arr2 = np.array([1, 2, 3]).astype('int16')

arr2.dtype

dtype('int16')

**문자열 자료형**

문자열은 기본적으로 유니코드로 처리되며 크기는 최장 길이의 문자열에 맞춰 결정된다.
예를 들어 아래 코드는 어레이에 포함된 가장 긴 `'python'` 문자열의 길이에
해당하는 `<U6`를 자료형으로 지정한다.

In [19]:
np.array(['python', 'data']).dtype

dtype('<U6')

반면에 아래 어레이의 자료형은 `<U4`다. 이유는 `'1.25'`가 가장 긴 문자열 항목이기 때문이다.

In [20]:
numeric_strings = np.array(['1.25', '-9.6', '42'])
numeric_strings.dtype

dtype('<U4')

## 어레이 연산

넘파이 어레이 연산은 기본적으로 항목별로 이루어진다. 
즉, 지정된 연산을 동일한 위치의 항목끼리 실행하여 새로운, 동일한 모양의 어레이를 생성한다.

In [21]:
arr1 + arr2

array([2.       , 4.       , 6.1992188], dtype=float32)

모양이 맞지 않아도 브로드캐스팅 기법으로 모양을 맞출 수 있는 경우에는 연산이 가능하다.
따라서 숫자와의 연산은 모든 항목에 동일한 값을 사용하게 된다.

In [22]:
arr1 - 2

array([-1.   ,  0.   ,  1.199], dtype=float16)

In [23]:
arr1 * arr2

array([1.      , 4.      , 9.597656], dtype=float32)

In [24]:
arr1 / 2.3

array([0.4346, 0.869 , 1.391 ], dtype=float16)

:::{admonition} 어레이 브로드캐스팅
:class: note

원하는 경우 [(코딩알지) 브로드캐스팅](https://codingalzi.github.io/datapy/numpy_4.html#id7)을 읽어볼 것을 권장한다.
:::

2차원 어레이 연산도 동일한 방식으로 진행된다.

In [25]:
arr3= np.array([[1., 2., 3.], [4., 5., 6.]])
arr3

array([[1., 2., 3.],
       [4., 5., 6.]])

In [26]:
arr4 = np.array([[3., 2., 1.], [4., 2., 12.]])
arr4

array([[ 3.,  2.,  1.],
       [ 4.,  2., 12.]])

In [27]:
arr3 + arr4

array([[ 4.,  4.,  4.],
       [ 8.,  7., 18.]])

In [28]:
arr3 - arr4

array([[-2.,  0.,  2.],
       [ 0.,  3., -6.]])

In [29]:
arr3 * arr4

array([[ 3.,  4.,  3.],
       [16., 10., 72.]])

In [30]:
arr3 / arr4

array([[0.33333333, 1.        , 3.        ],
       [1.        , 2.5       , 0.5       ]])

In [31]:
arr3 + 2.4

array([[3.4, 4.4, 5.4],
       [6.4, 7.4, 8.4]])

In [32]:
3.78 - arr3

array([[ 2.78,  1.78,  0.78],
       [-0.22, -1.22, -2.22]])

**비교 연산**

모양이 동일한 두 어레이의 크기 비교도 항목별로 계산된다.

In [33]:
arr4 > arr3

array([[ True, False, False],
       [False, False,  True]])

In [34]:
arr4 <= arr3

array([[False,  True,  True],
       [ True,  True, False]])

In [35]:
1.2 < arr3

array([[False,  True,  True],
       [ True,  True,  True]])

In [36]:
1.2 >= arr4

array([[False, False,  True],
       [False, False, False]])

In [37]:
arr3 == arr3

array([[ True,  True,  True],
       [ True,  True,  True]])

In [38]:
arr3 != arr4

array([[ True, False,  True],
       [False,  True,  True]])

**논리 연산**

어레이를 대상으로 사용 가능한 논리 연산은 아래 세 가지이다.
생성되는 값은 `bool`을 dtype으로 갖는 어레이다.
즉, 어레이의 모든 항목이 `True` 또는 `False`다.

* `~`: 부정(not) 연산자
* `&`: 논리곱(and) 연산자
* `|`: 논리합(or) 연산자

In [39]:
~(arr3 == arr3)

array([[False, False, False],
       [False, False, False]])

In [40]:
(arr3 == arr3) & (arr4 == arr4)

array([[ True,  True,  True],
       [ True,  True,  True]])

In [41]:
~(arr3 == arr3) | (arr4 == arr4)

array([[ True,  True,  True],
       [ True,  True,  True]])

## 어레이 모양 변형

주어진 어레이의 항목을 그대로 유지하면서 모양만 변형시키는 방식과
활용법을 소개한다.

**`reshape()` 메서드**

`reshape()` 메서드를 활용하여 주어진 어레이의 모양을 원하는 대로 변형한다.
단, 항목의 수가 변하지 않도록 모양을 지정해야 한다.
예를 들어, 길이가 8인 1차원 어레이가 다음과 같다.

In [42]:
arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

이제 (4, 2) 모양의 2차원 어레이로 모양을 변형할 수 있다.

In [43]:
arr.reshape((4, 2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

**`-1`의 역할**

어레의 모양을 지정할 때 튜플의 특정 위치에 -1을 사용할 수 있다.
그러면 그 위치의 값은 튜플의 다른 항목의 정보를 이용하여 자동으로 결정된다.
예를 들어, 아래 코드에서 -1은 4를 의미한다. 
이유는 20개의 항목을 5개의 행으로 이루어진 2차원 어레이로 지정하려면 열은 4개 있어야 하기 때문이다.

In [44]:
arr = np.arange(20)
arr.reshape((5, -1))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

In [45]:
arr.reshape((5, 4))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

반면에 아래 코드에서 -1은 5를 의미한다.

In [46]:
arr.reshape((-1, 4))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

## 어레이 인덱싱/슬라이싱

**1차원 어레이 인덱싱/슬라이싱**

1차원 어레이이 대해서는 리스트의 경우와 거의 동일하다.

In [47]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

* 인덱싱

In [48]:
arr[5]

5

* 슬라이싱

In [49]:
arr[5:8]

array([5, 6, 7])

**뷰<font size='2'>view</font>**

넘파이 어레이에 대해 슬라이싱을 실행하면 지정된 구간에 해당하는 어레이를 새로 생성하는 게 아니라
지정된 구간의 정보를 이용만 한다. 
이렇게 작동하는 기능이 **뷰**이다. 
즉, 어레이를 새로 생성하지 않고 기존 어레이를 필요에 따라 적절하게 활용한다.
넘파이 어레이와 관련된 많은 함수가 새로운 어레이를 생성하는 대신 뷰 기능을 이용한다.

예를들어 슬라이싱 또한 뷰 기능을 활용한다.

In [50]:
arr_slice = arr[5:8]
arr_slice

array([5, 6, 7])

슬라이스의 항목을 변경하면 `arr` 변수가 가리키는 어레이의 항목도 함께 달라진다.
이를 통해 슬라이싱이 새로운 어레이를 생성하는 것이 아님이 확인된다.

In [51]:
arr_slice[1] = 3450
arr

array([   0,    1,    2,    3,    4,    5, 3450,    7,    8,    9])

**`copy()` 메서드**

원본을 그대로 유지하려면 `copy()` 메서드를 이용하여 사본을 만들어 활용할 것을 권장한다.

In [52]:
arr_slice2 = arr[5:8].copy()
arr_slice2

array([   5, 3450,    7])

`arr_slice2`를 변경해도 `arr`은 영향받지 않는다.

In [53]:
arr_slice2[1] = 12
arr_slice2

array([ 5, 12,  7])

In [54]:
arr

array([   0,    1,    2,    3,    4,    5, 3450,    7,    8,    9])

**2차원 어레이 인덱싱/슬라이싱**

2차원 이상의 다차원 어레이는 리스트에 없는 보다 다양한 인덱싱, 슬라이싱 기능을 제공한다. 

In [55]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

우선 리스트의 인덱싱을 그대로 사용할 수 있다.

* 0번 인덱스 항목: 길이가 3인 1차원 어레이

In [56]:
arr2d[0]

array([1, 2, 3])

0번 인덱스의 항목 또한 어레이다. 따라서 그 어레이의 2번 인덱스 항목을 다음과 같이 확인할 수 있다.

In [57]:
arr2d[0][2]

3

하지만 어레이는 아래 같이 보다 쉽고 빠르게 동일한 값을 확인활 수 있다.

In [58]:
arr2d[0, 2]

3

슬라이싱 또한 리스트 슬라이싱 방식을 동일하게 적용할 수 있다.

* 1번 인덱스 이전까지

In [59]:
arr2d[:1]

array([[1, 2, 3]])

* 2번 인덱스 이전까지

In [60]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

* 전체 항목 슬라이싱

In [61]:
arr2d[:3]

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

행과 열을 함께 슬라이싱하려면 행과, 열에 대한 슬라이싱을 동시에 지정한다.

* 행 기준: 2번 행 이전까지
* 열 기준: 1번 열부터 끝까지

In [62]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

<div align="center" border="1px"><img src="https://raw.githubusercontent.com/codingalzi/datapy/master/jupyter-book/images/numpy149-1.png" style="width:350px;"></div>

인덱싱과 슬라이싱이 행과 열 각각에 대해 독립적으로 사용될 수 있다.

* 행 기준: 1번 행 인덱싱
* 열 기준: 2번 열 이전까지

In [63]:
arr2d[1, :2]

array([4, 5])

<div align="center" border="1px"><img src="https://raw.githubusercontent.com/codingalzi/datapy/master/jupyter-book/images/numpy149-4.png" style="width:350px;"></div>

**주의사항:** 

인덱싱을 사용하는 만큼 새로 반환되는 어레이의 차원이 기존 어레이의 차원보다 1씩 줄어든다.
예를 들어, 아래 코드는 0번 축에 대해 인덱싱을 사용하였기에 0번 축이 사라지고 1번 축이 대신 0번축의 역할을 한다 라고 말할 수 있다.

In [64]:
arr2d[1, :2].shape

(2,)

동일한 항목을 사용하지만 인덱싱을 사용할 때와 아닐 때의 결과는 다른 모양의 어레이가 된다.
아래 코든 모든 축에 대해 슬라이싱을 적용하였기에 차원이 그대로 유지된다.

In [65]:
arr2d[1:2, :2]

array([[4, 5]])

모양은 사용되는 슬라이싱의 구간에 의존한다.

* 행 기준: 1번 행 하나만 사용
* 열 기준: 0번 열, 1번 열 사용.

따라서 결과는 (1, 2) 모양의 어레이다.

In [66]:
arr2d[1:2, :2].shape

(1, 2)

## 예제

**예제 1**

아래 모양의 2차원 어레이를 지정된 단계를 따라 생성한다.

```python
array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])
```

(1) 먼저 아래 모양의 어레이를 생성한다.
단, `np.arange()` 함수와 `reshape()` 어레이 메서드만 활용한다.

```python
array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])
```

답:

2차원 어레이의 모양이 (6, 6)이지만 항목이 0에서 35까지의 정수로 구성된다.
따라서 `np.arange(36)`로 1차원 어레이를 만든 다음에 `reshape()` 메서드를 적용한다.

In [67]:
arr_e1 = np.arange(36)
arr_e1

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35])

이제 (6, 6) 모양의 2차원 어레이로 변환한다.

In [68]:
arr_e1 = arr_e1.reshape((6,6))
arr_e1

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

또는

In [69]:
arr_e1 = arr_e1.reshape((6,-1))
arr_e1

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

한줄 코드로 작성하면 다음과 같다.

In [70]:
arr_e1 = np.arange(36).reshape((6,-1))
arr_e1

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

(2) 아래 모양의 어레이를 생성한다.
단, `np.arange()` 함수와 `reshape()` 어레이 메서드만 활용한다.

```python
array([[ 0],
       [ 4],
       [ 8],
       [12],
       [16],
       [20]])
```

답:

2차원 어레이긴 하지만 0, 4, 8, 12, 16, 20으로 구성되었다.
따라서 먼저 해당 항목들로 구성된 1차원 어레이를 생성한다.

In [71]:
arr_e2 = np.arange(0, 21, 4)
arr_e2

array([ 0,  4,  8, 12, 16, 20])

이제 (6,1) 모양의 2차원 어레이로 변환한다.

In [72]:
arr_e2 = arr_e2.reshape((6,1))
arr_e2

array([[ 0],
       [ 4],
       [ 8],
       [12],
       [16],
       [20]])

한줄 코드로 작성하면 다음과 같다.

In [73]:
arr_e2 = np.arange(0, 21, 4).reshape((6,1))
arr_e2

array([[ 0],
       [ 4],
       [ 8],
       [12],
       [16],
       [20]])

(3) 이제 아래 모양의 어레이를 생성한다.
단 arr_e1과 arr_e2를 이용한다.

```python
array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])
```

답:

두 어레이를 더하면 된다.

In [74]:
arr = arr_e1 + arr_e2
arr

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

**예제 2**

아래 그림은 `arr`이 가리키는 2차원 어레이를 보여준다.
그림에 색깔별로 표시된 어레이를 슬라이싱을 이용하여 구해보자.

<div align="center" border="1px"><img src="https://raw.githubusercontent.com/codingalzi/datapy/master/jupyter-book/images/numpy-2darray.png" style="width:250px;"></div>

<p><div style="text-align: center">&lt;그림 출처: <a href="https://scipy-lectures.org/intro/numpy/array_object.html#indexing-and-slicing">Scipy Lecture Notes</a>&gt;</div></p>

(1) 빨강색 상자로 표시된 1차원 어레이

답:

0번 행의 3번 열에서 4번 열까지로 구성된 1차원 어레이를 생성한다.

In [75]:
arr[0, 3:5]

array([3, 4])

(2) 파랑색 상자로 표시된 2차원 어레이

답:

2번 열에 위치한 항목들로 구성된 2차원 어레이를 생성하려면 모든 행에 대해 2번 열만 추출한다.

In [76]:
arr[:, 2:3]

array([[ 2],
       [12],
       [22],
       [32],
       [42],
       [52]])

만약에 열에 대해서 인덱싱을 적용하면 1차원 어레이가 생성됨에 주의한다.

In [77]:
arr[:, 2]

array([ 2, 12, 22, 32, 42, 52])

(3) 보라색 상자로 감싸진 숫자들로 구성된 2차원 어레이

답:

행과 열에 대해 모두 스텝 2를 사용하는 슬라이싱을 적용한다.

In [78]:
arr[2:5:2, 0::2]

array([[20, 22, 24],
       [40, 42, 44]])

(4) 초록색 상자로 표시된 2차원 어레이

답:

4번 행과 4번 열로 구성되었기에 적절한 슬라이싱을 적용한다.

In [79]:
arr[4:, 4:]

array([[44, 45],
       [54, 55]])