(ch-numpy-array)=
# 넘파이 어레이

넘파이<font size='2'>numpy</font>는 NUMerical PYthon의 줄임말이며,
파이썬 데이터 사이언스에서 가장 유용하게 활용되는 도구를 제공하는 라이브러리다.
넘파이가 제공하는 핵심 요소는 효율적으로 데이터를 저장하고 관리하는 1차원, 2차원, 3차원 등 다차원 어레이(배열)와
메모리 효율적이며 빠른 어레이 연산이다.

`numpy` 라이브러리는 관습적으로 별칭 `np`로 불러온다.

In [1]:
import numpy as np

## 다차원 어레이

넘파이 어레이는 리스트 자료형처럼 많은 데이터를 하나의 객체로 묶어 다루는 모음 자료형이며,
데이터 분석, 머신러닝, 딥러닝 등 다량의 데이터로 구성된 데이터셋을
처리할 때 일반적으로 활용된다.
아래 표에 리스트와 넘파이 어레이의 차이점을 정리하였다.

| 특성 | 리스트 | 넘파이 어레이 |
|------|--------|---------------|
| 데이터 저장 | 여러 데이터를 묶어 관리 | 여러 데이터를 묶어 관리 |
| 객체 속성 | 없음. 값만 저장 | 값과 함께 데이터 저장 형식의 모양, 차원, 항목 자료형 등 객체의 메타 데이터를 속성으로 저장 |
| 메서드 | 기본 메서드 제공 | 데이터 과학에 유용한 많은 메서드 제공 |
| 자료형 제약 | 서로 다른 자료형 혼용 가능 | 모든 항목이 동일한 자료형으로 통일되어야 함 |
| 차원 | 차원 개념 없지만 중첩 리스트 지원 | 1차원, 2차원, 3차원, 4차원 등 다차원 구조 지원 |

여기서는 가장 많이 활용되는 1차원과 2차원 어레이의 사용법을 소개한다.

### 1차원 어레이

1차원 어레이는 중첩이 없는 리스트와 동일한 모양을 가지며, 리스트에 `np.array()` 함수를 적용하여 생성할 수 있다.
1차원 어레이는 **벡터**<font size='2'>vector</font>로도 불린다.

In [2]:
list_1D = [1, 17, -7.5, 3.14, 2.71828]
arr_1D = np.array(list_1D)

`arr_1D`는 `list_1D` 변수가 가리키는 리스트와 동일한 항목을 갖는 1차원 어레이를 가리킨다.

In [3]:
arr_1D

array([ 1.     , 17.     , -7.5    ,  3.14   ,  2.71828])

**항목 자료형**

리스트의 경우 임의의 자료형이 섞인 항목들을 가질 수 있지만
어레이는 항목들의 통일된 자료형을 요구한다.
따라서 위 출력 결과를 보면 `1`과 `17`이 각각 `1.`과 `17.` 변환되어 모든 항목이 부동소수점으로 구성되었다.
`1.`과 `17.`은 각각 `1.0`과 `17.0`을 가리킨다.
어레이 항목들의 통일된 자료형은 어레이 객체의 `dtype` 속성으로 확인된다.

In [4]:
arr_1D.dtype

dtype('float64')

**축**

1차원 어레이의 항목은 리스트처럼 왼쪽에서부터 오른쪽으로 하나의 방향으로만 이동하면서 확인할 수 있다.
이런 의미에서 1차원 어레이는 한 개의 **축**<font size='2'>axis</font>을 갖는다고 말한다.

**인덱스**

각 항목은 왼쪽에서부터 차례대로 0, 1, 2, ... 로 시작하는 **인덱스**를 갖는다.
예를 들어, `arr_1D`이 가리키는 1차원 어레이에 포함된 `-7.5`의 인덱스는 2다.

**차원**

어레이 자신의 차원은 `ndim` 속성에 할당되어 있다.

In [5]:
arr_1D.ndim

1

**모양**

어레이는 자신의 모양을 `shape` 속성에 튜플 자료형으로 저장한다.
1차원 어레이의 모양은 길이가 1인 튜플이며, 튜플의 유일한 항목은 1차원 어레이에 포함된 항목의 개수다.
`arr_1D`가 가리키는 1차원 어레이는 5개의 항목을 포함하기에 
모양은 `(5,)`이다.

In [6]:
arr_1D.shape

(5,)

:::{note} 쉼표의 중요성

길이가 1인 튜플은 `(5,)`처럼 반드시 쉼표가 포함되어 있음에 주의한다.
반면에 `(5)`는 그냥 정수 `5`와 동일하다. 즉, 튜플이 아닌 `int` 자료형이다.
:::

**어레이 객체 자료형**

넘파이 어레이 객체의 자료형은 항목 자료형, 차원, 모양과 상관없이 항상 `numpy.ndarray`다.
자료형은 `type()` 함수를 이용하여 확인한다.

In [7]:
type(arr_1D)

numpy.ndarray

### `np.arange()` 함수

`np.arange()` 함수는 `range()` 함수와 매우 유사한 기능을 갖지만, 리스트가 아닌 넘파이 어레이를 반환한다.
예를 들어, 아래 코드는 0부터 9 사이의 정수로 구성된 1차원 어레이를 생성한다.

In [8]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

`range()` 함수와는 다르게 부동소수점을 스텝으로 사용할 수도 있으며,
그러면 부동소수점으로 구성된 1차원 어레이가 생성된다.
예를 들어, 아래 코드는 0부터 시작해서 스텝 0.1씩 증가시키면서 생성되는 값들로 구성된 1차원 어레이를 생성한다.
단, 오른쪽 끝값인 1 이전까지 스텝을 반복 적용한다.

In [9]:
np.arange(0, 1, 0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])

### 2차원 어레이

2차원 어레이의 모든 항목은 동일한 모양의 1차원 어레이어야 한다.
따라서 동일한 길이의 리스트를 항목으로 갖는 중첩 리스트를 2차원 어레이로 변환할 수 있다.
아래 코드는 길이가 4인 세 개의 리스트를 항목으로 갖는 중첩 리스트 `list_2D`를 2차원 어레이 `arr_2D`로 변환한다.

In [10]:
list_2D = [[1, 2, 3, 4],
           [5, 6, 7, 8],
           [9, 10, 11, 12]]
arr_2D = np.array(list_2D)

arr_2D

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

**축과 행렬**

2차원 어레이는 **행**<font size='2'>row</font>과 **열**<font size='2'>column</font>
두 개의 축을 가지며, 행은 0번 축, 열은 1번 축이라 부르기도 한다. 
행과 열을 갖는다는 의미에서 **행렬**<font size='2'>matrix</font>로 불린다.
예를 들어, `arr_2D`는 3개의 행과 4개의 열을 갖는 아래 모양의 행렬에 대응한다.

$$
\begin{bmatrix}
1 & 2 & 3 & 4\\
5 & 6 & 7 & 8\\
9 & 10 & 11 & 12
\end{bmatrix}
$$

**행과 열 인덱스**

인덱스는 축별로 지정된다.
위 2차원 어레이의 경우 3개의 행에 대해 맨 위 행부터 차례대로 0, 1, 2 행 인덱스가,
4개의 열에 대해 맨 왼쪽 열부터 차례대로 0, 1, 2, 3 열 인덱스가 지정된다.
2차원 어레이에 포함된 모든 항목의 위치는 행과 열 인덱스를 조합해서 지정된다.
예를 들어, 정수 7의 위치는 1번 행 인덱스와 2번 열 인덱스로 특정된다.

**차원**

차원은 축의 개수로 지정되며, 따라서 `arr_2D`는 행과 열 두 개의 축을 갖는 2차원 어레이다.

In [11]:
arr_2D.ndim

2

**모양**

2차원 어레이의 모양은 행과 열의 개수를 항목으로 갖는, 길이가 2인 튜플이다.
`arr_2D`는 3개의 행과 4개의 열을 갖기에 `(3, 4)` 모양의 어레이다.

In [12]:
arr_2D.shape

(3, 4)

**어레이 객체 자료형**

2차원 어레이의 자료형도 항목 자료형, 모양과 무관하게 `numpy.ndarray`다.

In [13]:
type(arr_2D)

numpy.ndarray

### `reshape()` 메서드

`reshape()` 메서드를 활용하여 주어진 어레이의 모양을 원하는 대로 변형할 수 있다.
예를 들어, 길이가 12인 1차원 어레이가 다음과 같다.

In [17]:
arr_1D_p2 = np.arange(0, 1.2, 0.1)
arr_1D_p2

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. , 1.1])

이제 (6, 2) 모양의 2차원 어레이로 모양을 변형할 수 있으며,
`reshape()` 메서드의 인자로 원하는 모양을 나타내는 튜플 `(6, 2)`를 지정하면 된다.
하지만 항목들의 순서는 그대로 유지됨에 유의한다.
2차원 어레이의 전체 항목들의 순서를 맨 위 행부터,
그리고 각 행에서는 맨 왼쪽 열부터 차례대로 순서를 따진다.

In [18]:
arr_2D_62 = arr_1D_p2.reshape((6, 2))
arr_2D_62

array([[0. , 0.1],
       [0.2, 0.3],
       [0.4, 0.5],
       [0.6, 0.7],
       [0.8, 0.9],
       [1. , 1.1]])

(3, 4) 모양의 2차원 어레이도 생성할 수 있다.

In [19]:
arr_2D_34 = arr_1D_p2.reshape((3, 4))
arr_2D_34

array([[0. , 0.1, 0.2, 0.3],
       [0.4, 0.5, 0.6, 0.7],
       [0.8, 0.9, 1. , 1.1]])

(3, 4) 모양의 2차원 어레이를 1차원 어레이로 다시 변경할 수도 있다.

In [25]:
arr_1D_again = arr_2D_34.reshape((12,))
arr_1D_again

array([9. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. , 1.1])

또한 (3, 4) 모양의 2차원 어레이를 다른 모양의 2차원 어레이로도 만들 수 있다.

In [26]:
arr_2D_26 = arr_2D_34.reshape((2, 6))
arr_2D_26

array([[9. , 0.1, 0.2, 0.3, 0.4, 0.5],
       [0.6, 0.7, 0.8, 0.9, 1. , 1.1]])

이처럼 `reshape()` 메서드는 주어진 어레이의 모양을 변경하여 새로운 어레이를 생성할 때 자주 활용된다.

**`-1`의 역할**

어레의 모양을 지정하는 튜플의 특정 위치에 -1을 사용할 수 있다.
그러면 그 위치의 값은 튜플의 다른 항목의 정보를 이용하여 자동으로 결정된다.
예를 들어, 아래 코드에서 -1은 3를 의미한다. 
이유는 12개의 항목을 4개의 행으로 이루어진 2차원 어레이로 지정하려면 열은 3개 있어야 하기 때문이다.

In [23]:
arr_2D_43 = arr_1D_p2.reshape((4, -1))
arr_2D_43

array([[9. , 0.1, 0.2],
       [0.3, 0.4, 0.5],
       [0.6, 0.7, 0.8],
       [0.9, 1. , 1.1]])

반면에 아래 코드에서 -1은 6를 의미한다.
12개의 항목을 6개의 열로 배치하려면 2개의 행이 필요하기 때문이다.

In [24]:
arr_2D_26 = arr_1D_p2.reshape((-1, 6))
arr_2D_26

array([[9. , 0.1, 0.2, 0.3, 0.4, 0.5],
       [0.6, 0.7, 0.8, 0.9, 1. , 1.1]])

아래 코드에서 -1은 12를 의미한다.
12개의 항목을 1개의 행에 배치하면 길이가 12인 1차원 어레이가 필요하기 때문이다.

In [27]:
arr_1D_again = arr_2D_26.reshape((-1,))
arr_1D_again

array([9. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. , 1.1])

## 주요 항목 자료형

데이터 분석, 머신러닝, 딥러닝 등에서 사용되는 넘파이 어레이는
거의 대부분 부동소수점, 정수, 그리고 문자열로 구성된다.

### 부동소수점 자료형

부동소수점으로 구성된 `arr_1D`의 `dtype`은 부동소수점 자료형인 `float64`다.

In [14]:
print('arr_1D:', arr_1D)
print("arr_1D dtype:", arr_1D.dtype)

arr_1D: [ 1.      17.      -7.5      3.14     2.71828]
arr_1D dtype: float64


`float64`에서 64는 넘파이 어레이가 각각의 부동소수점을 저장하기 위해 64비트 크기의 메모리 공간을 할당한다는 의미다.
아래 코드는 `arr_1D`가 가리키는 어레이가 메모리상에서 총 40바이트를 사용함을 확인해준다.

In [15]:
print("항목 자료형:", arr_1D.dtype)
print("어레이 크기 (바이트):", arr_1D.nbytes)

항목 자료형: float64
어레이 크기 (바이트): 40


참고로 1바이트는 8비트에 해당한다.
`arr_1D`가 가리키는 어레이는 총 5개의 부동소수점이 포함되고 하나의 부동소수점이 8바이트 공간을 사용하기에,
총 `5 * 8 = 40` 바이트를 어레이가 차지한다.
어레이의 항목 하나가 차지하는 메모리 크기는 `itemsize` 속성에,
어레이에 포함된 항목의 개수는 `size` 속성에 저장되어 `nbytes`를 다음가 같이 계산할 수도 있다.

In [16]:
print("항목 크기 (바이트):", arr_1D.itemsize)
print("항목 수:", arr_1D.size)
print("전체 크기 (바이트):", arr_1D.itemsize * arr_1D.size)

항목 크기 (바이트): 8
항목 수: 5
전체 크기 (바이트): 40


머신러닝, 딥러닝에서 경우에 다루는 빅데이터는 항목의 개수가 수억개 이상인 경우도 있어서
그런 경우엔 메모리 사용량을 줄이기 위해 64비트 형식의 부동소수점 대신에 32비트, 16비트 형식을 사용하기도 한다.
아래 코드는 `arr_1D`를 생성할 때 `dtype`을 지정하는 방식으로 16비트 형식의 부동소수점을 사용하도록 강제한다.

In [20]:
arr_1D_16 = np.array(list_1D, dtype='float16')
arr_1D_16.dtype

dtype('float16')

기존에 생성된 어레이의 `dtype`을 `astype()` 메서드를 이용하여 변경할 수도 있다.
예를 들어, 아래 코드는 64비트가 아닌 8비트 형식의 부동소수점을 사용하도록 강제한다.

In [21]:
arr_1D_16 = arr_1D.astype('float16')

항목에 포함된 부동소수점이 2바이트만으로는 제대로 다뤄지지 않은 경우에는
소수점 이하 특정 자리에서 잘릴 수도 있다.
예를 들어, 5번째 항목이 `2.71828`에서 `2.719`로 소수점 이하 넷째 자리에서 반올림된 형식으로 지정된다.

In [22]:
arr_1D_16

array([ 1.   , 17.   , -7.5  ,  3.14 ,  2.719], dtype=float16)

항목 자료형인 `dtype`은 지정한대로 `float16`으로 확인된다.

In [24]:
arr_1D_16.dtype

dtype('float16')

각 항목이 차지하는 메모리 공간이 4분의 1로 줄었기에 어레이가 차지하는 메모리 공간 또한 4분의 1로 줄어든 10바이트다.

In [25]:
print("항목 크기 (바이트):", arr_1D_16.itemsize)
print("항목 수:", arr_1D_16.size)
print("전체 크기 (바이트):", arr_1D_16.itemsize * arr_1D_16.size)

항목 크기 (바이트): 2
항목 수: 5
전체 크기 (바이트): 10


### 정수 자료형

정수로 구성된 `arr_2D`의 `dtype`은 정수 자료형인 `int64`다.

In [30]:
arr_2D

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [29]:
print('arr_2D dtype:', arr_2D.dtype)

arr_2D dtype: int64


`int64`에서 64는 넘파이 어레이가 각각의 정수를 64비트 크기의 공간을 기본 크기로 사용한다는 의미다.
아래 코드는 `arr_2D`가 가리키는 어레이가 메모리상에서 총 96바이트를 사용함을 확인해준다.

In [31]:
arr_2D = np.array(list_2D)

print("항목 자료형:", arr_2D.dtype)
print("어레이 크기 (바이트):", arr_2D.nbytes)

항목 자료형: int64
어레이 크기 (바이트): 96


`arr_2D`가 가리키는 어레이는 총 12개의 정수가 포함되고 하나의 정수가 8바이트 공간을 차지하게
총 `12 * 8 = 96` 바이트를 어레이가 차지한다.

In [32]:
arr_2D.itemsize * arr_2D.size

96

빅데이터를 다룰 때 메모리 사용량을 줄이기 위해 64비트 형식의 정수 대신 32비트, 16비트, 심지어 8비트 형식의 정수를 사용하기도 한다.
아래 코드는 64비트가 아닌 8비트 형식의 정수를 사용하도록 강제한다.

In [34]:
arr_2D_8 = np.array(list_2D, dtype='int8')

또는 기존에 생성된 어레이를 `astype()` 메서드를 이용하여 `dtype`을 변경할 수도 있다.

In [35]:
arr_2D_8 = arr_2D.astype('int8')

항목에 포함된 정수가 최대 12이기에 1바이트만 사용해도 필요한 정수를 다루는 데에 충분하다.
실제로 어레이를 확인해도 겉모습은 동일하다.

In [36]:
arr_2D_8

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]], dtype=int8)

다만, `dtype`이 달라졌을 뿐이다.

In [37]:
arr_2D_8.dtype

dtype('int8')

각 항목이 차지하는 메모리 공간이 8분의 1로 줄었기에 어레이가 차지하는 메모리 공간 또한 8분의 1로 줄어든 12바이트다.

In [38]:
print("항목 크기 (바이트):", arr_2D_8.itemsize)
print("항목 수:", arr_2D_8.size)
print("전체 크기 (바이트):", arr_2D_8.itemsize * arr_2D_8.size)

항목 크기 (바이트): 1
항목 수: 12
전체 크기 (바이트): 12


### 문자열 자료형

문자열은 기본적으로 유니코드로 처리되며,크기는 최장 길이의 문자열 항목에 맞춰 결정된다.
예를 들어 아래 코드는 어레이에 포함된 가장 긴 문자열 `'python'` 의 길이가 6이기에
`<U6`가 자료형으로 지정됨을 보여준다.
즉, 어레이에 포함된 모든 문자열의 최대 길이가 6이라는 의미다.

In [41]:
arr_string = np.array(['python', 'data', 'numpy'])
arr_string.dtype

dtype('<U6')

어레이를 생성할 때 `dtype='str'`을 지정하면 모든 항목을 문자열로 변환한다.
예를 들어, 아래 코드는 정수와 부동소수점으로 구성된 리스트의 항목을 모두 문자열로 변환하여
어레이를 생성한다.

In [46]:
numeric_1D_strings = np.array(list_1D, dtype='str')
numeric_1D_strings

array(['1', '17', '-7.5', '3.14', '2.71828'], dtype='<U7')

아래 어레이의 자료형은 `<U7`인데, 문자열 `'2.71828'` 길이가 7로 가장 크기 때문이다.

반면에 아래 코드는 `list_2D`에 포함된 모든 정수를 문자열로 변환하여 2차원 어레이를 생성하며,
`dtype`은 최대 2개의 기호를 사용하는 문자열로 구성되었기에 `'<U2'`로 지정된다.

In [47]:
numeric_2D_strings = np.array(list_2D, dtype='str')
numeric_2D_strings

array([['1', '2', '3', '4'],
       ['5', '6', '7', '8'],
       ['9', '10', '11', '12']], dtype='<U2')

### 데이터셋 저장소

데이터셋 저장소는 데이터 분석과 머신러닝 학습을 위해 수집하고 정리한 데이터셋들을 보관하는 공간이다.
본 강의노트는 실전에서 구한 데이터셋을 아래 저장소에서 다운로드하여 데이터 과학의 기초 개념을 소개하는
예제 위주로 구성된다.

In [51]:
data_url = 'https://raw.githubusercontent.com/codingalzi/code-workout-datasci/refs/heads/master/data/'

:::{note} 데이터 vs. 데이터셋

데이터<font size='2'>data</font>는 개별 정보 또는 값 자체를 의미하고, 
데이터셋<font size='2'>dataset</font>은 특정 목적을 위해 수집되고 구조화된 데이터의 모음을 의미한다.

| 구분 | 데이터 | 데이터셋 |
|------|--------|----------|
| 정의 | 개별 사실, 값, 관찰 결과 | 특정 목적으로 수집된 데이터의 집합 |
| 예시 | 175cm, 70kg (한 사람의 키, 체중) | 1,000명의 키, 몸무게, 나이 정보 |
| 구조 | 단일 값 | 표, 엑셀 파일 등 체계적으로 정리된 구조 |

## 실전 예제 - 피어슨 아버지-아들 키 데이터셋

영국 통계학자 피어슨<font size='2'>Karl Pearson</font>이 1903년에 실험을 위해 수집한
1,078개의 아버지와 아들의 키(신장)로 구성된 데이터셋을 활용한다.
키가 원래 인치 단위로 작성되었지만 편의를 위해 센티미터 단위로 변환하였다.
`pearson_dataset.csv` 파일에 아버지와 아들의 신장 데이터 1,078개가 아래 형식으로 저장되어 있다.

첫행의 `Father,Son`은 각각의 열에 포함된 데이터가 아버지들의 키와 아들의 키임을 알려주는
**헤더**<font size='2'>header</font>다.
헤더는 열별 데이터셋을 대변하는 이름이며, 변수, 변인, 특성 등으로 불린다.
통계학 분야에서는 변수 또는 변인이, 데이터 분석과 머신러닝 분야에서는 특성이란 표현이 선호된다.

:::{image} https://raw.githubusercontent.com/codingalzi/code-workout-datasci/master/images/pearson_csv.png
:width: 20%
:align: center
:::

:::{note} csv 파일

CSV 파일은 Comma-Separated Values의 약자로, 데이터를 쉼표로 구분하여 저장하는 단순한 텍스트 형식의 파일이며 확장자는 .csv이다. 각 행은 줄바꿈으로 구분되고, 행 안의 데이터는 쉼표로 나뉘어 엑셀과 같은 표 형태로 표현된다. 따라서 모든 행은 동일한 개수의 쉼표를 가지며, 행별 데이터 수가 일정하고, 쉼표에 의해 구분된 열은 같은 특성을 공유한다.

CSV는 주로 간단한 표 데이터를 저장하고 공유하는 데 적합한 파일 형식이다. 구조가 단순하고 호환성이 뛰어나기 때문에 엑셀과 파이썬을 비롯한 다양한 편집기와 프로그래밍 언어에서 CSV 파일을 다루는 기능을 폭넓게 제공한다.
:::

### 1차원 어레이로 불러오기

아래 코드는 피어슨 아버지-아들 키 데이터셋에서 아버지와 아들의 키 데이터를 구분하여 각각 1차원 어레이로 불러온다.

`np.loadtxt()` 함수는 지정된 데이터 저장소나 폴더의 CSV 파일 등 텍스트 파일에 포함된 데이터를 불러와 넘파이 어레이 객체로 반환한다.  
이때 구분자(`delimiter`), 건너뛸 행(`skiprows`), 불러올 열(`usecols`) 등을 지정하여 원하는 데이터만 선택적으로 불러올 수 있다.  

주어진 코드에서는 `pearson_dataset.csv` 파일을 읽어올 때 첫행인 헤더를 건너뛰고, 
첫 번째 열(0번 인덱스 열)은 `fathers` 변수가 가리키는 1차원 어레이로, 
두 번째 열(1번 인덱스 열)은 `sons` 변수가 가리키는 1차원 어레이로 각각 불러온다.

In [52]:
fathers = np.loadtxt(data_url+"pearson_dataset.csv", delimiter=',', skiprows=1, usecols=0)
sons = np.loadtxt(data_url+"pearson_dataset.csv", delimiter=',', skiprows=1, usecols=1)

각 변수가 가리키는 값을 확인하면 `shape`이 `(1078,)`, 즉 1,078개의 항목을 갖는 1차원 어레이라고 알려준다.

In [53]:
fathers

array([165.1, 160.8, 165.1, ..., 182.4, 179.6, 178.6], shape=(1078,))

In [54]:
sons

array([151.9, 160.5, 160.8, ..., 176. , 176. , 170.2], shape=(1078,))

`fathers`와 `sons` 변수가 가리키는 각각의 1차원 어레이의 차원과 모양은 동일하다.

In [56]:
print('아버지 키 데이터의 차원:', fathers.ndim)
print('아버지 키 데이터의 항목 자료형:', fathers.dtype)

아버지 키 데이터의 차원: 1
아버지 키 데이터의 항목 자료형: float64


In [57]:
print('아들 키 데이터의 차원:', sons.ndim)
print('아들 키 데이터의 항목 자료형:', sons.dtype)

아들 키 데이터의 차원: 1
아들 키 데이터의 항목 자료형: float64


### 2차원 어레이로 불러오기

아래 코드는 피어슨 아버지-아들 키 데이터셋에서 아버지와 아들의 키 데이터를 함께 2차원 어레이로 불러온다.
`fathers`와 `sons`를 정의할 때와는 다르게 `useccols` 키워드 인자를 지정하지 않는다.

In [59]:
pearson = np.loadtxt(data_url+"pearson_dataset.csv", delimiter=',', skiprows=1)

`usecols` 키워드 인자를 지정하지 않으면 모든 열을 가져온다는 의미이다.
반면에 하나가 아닌 몇 개의 열을 지정하려면 열의 인덱스를 튜플로 지정한다.
피어슨 아버지-아들 키 데이터셋은 2개의 열만 포함하기에 `usecols=(0, 1)`로 지정해도 동일한 어레이가 반환된다.

In [62]:
pearson = np.loadtxt(data_url+"pearson_dataset.csv", delimiter=',', skiprows=1, usecols=(0, 1))

불러온 값을 확인하면 `shape`이 `(1078, 2)`, 즉 
1,078개의 행과 2개의 열로 구성된 2차원 어레이라고 알려준다.

In [63]:
pearson

array([[165.1, 151.9],
       [160.8, 160.5],
       [165.1, 160.8],
       ...,
       [182.4, 176. ],
       [179.6, 176. ],
       [178.6, 170.2]], shape=(1078, 2))

`ndim`과 `dtype` 속성을 확인하면 다음과 같다.

In [61]:
print('아버지-아들 키 데이터의 차원:', pearson.ndim)
print('아버지-아들 키 데이터의 항목 자료형:', pearson.dtype)

아버지-아들 키 데이터의 차원: 2
아버지-아들 키 데이터의 항목 자료형: float64


## 어레이 연산

넘파이 어레이 연산은 기본적으로 항목별로 이루어진다.
즉, 지정된 연산을 동일한 위치의 항목끼리 실행하여 새로운, 동일한 모양의 어레이를 생성한다.

### 사칙연산

모양이 동일한 아래 1차원 어레이 두 개를 이용하여
어레이 사칙연산의 작동법을 보여준다.

In [22]:
arr1 = np.array([1.0, 2, 3.2])
arr2 = np.array([1, 2, 3])

In [23]:
arr1 + arr2

array([2. , 4. , 6.2])

In [24]:
arr1 - arr2

array([0. , 0. , 0.2])

In [25]:
arr1 * arr2

array([1. , 4. , 9.6])

In [26]:
arr1 / arr2

array([1.        , 1.        , 1.06666667])

2차원 어레이 연산도 동일한 방식으로 진행된다.

In [27]:
arr3= np.array([[1., 2., 3.], [4., 5., 6.]])
arr3

array([[1., 2., 3.],
       [4., 5., 6.]])

In [28]:
arr4 = np.array([[3., 2., 1.], [4., 2., 12.]])
arr4

array([[ 3.,  2.,  1.],
       [ 4.,  2., 12.]])

In [29]:
arr3 + arr4

array([[ 4.,  4.,  4.],
       [ 8.,  7., 18.]])

In [30]:
arr3 - arr4

array([[-2.,  0.,  2.],
       [ 0.,  3., -6.]])

In [31]:
arr3 * arr4

array([[ 3.,  4.,  3.],
       [16., 10., 72.]])

In [32]:
arr3 / arr4

array([[0.33333333, 1.        , 3.        ],
       [1.        , 2.5       , 0.5       ]])

### 비교 연산

모양이 동일한 두 어레이의 값 비교도 항목별로 수행되며,
결과물로 생성되는 어레이는 모든 항목이 `bool` 자료형, 즉 `True` 또는 `False`이다.

In [33]:
arr4 > arr3

array([[ True, False, False],
       [False, False,  True]])

In [34]:
arr4 <= arr3

array([[False,  True,  True],
       [ True,  True, False]])

In [35]:
arr3 != arr4

array([[ True, False,  True],
       [False,  True,  True]])

In [36]:
arr3 == arr3

array([[ True,  True,  True],
       [ True,  True,  True]])

In [37]:
1.2 < arr3

array([[False,  True,  True],
       [ True,  True,  True]])

In [38]:
1.2 >= arr4

array([[False, False,  True],
       [False, False, False]])

### 논리 연산

어레이를 대상으로 사용 가능한 논리 연산은 아래 세 가지이며,
논리 연산 또한 항목별로 실행되어
동일한 모양의 어레이를 생성한다.

| 기호 | 기능              |
|------|-------------------|
| `~`  | 부정(not) 연산자  |
| `&`  | 논리곱(and) 연산자 |
| `\|`  | 논리합(or) 연산자 |

In [39]:
~(arr3 == arr3)

array([[False, False, False],
       [False, False, False]])

In [40]:
(arr3 == arr3) & (arr4 == arr4)

array([[ True,  True,  True],
       [ True,  True,  True]])

In [41]:
~(arr3 == arr3) | (arr4 == arr4)

array([[ True,  True,  True],
       [ True,  True,  True]])

## 인덱싱과 슬라이싱

**1차원 어레이 인덱싱과 슬라이싱**

1차원 어레이의 인덱싱과 슬라이이싱은 리스트와 거의 동일하다.

In [69]:
arr_1D = np.arange(10)
arr_1D

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [70]:
arr_1D[5]

5

In [71]:
arr_slice = arr_1D[5:8]
arr_slice

array([5, 6, 7])

**2차원 어레이 인덱싱과 슬라이싱**

2차원 이상의 다차원 어레이는 리스트보다 훨씬 다양한 인덱싱, 슬라이싱 기능을 제공한다.

In [73]:
arr_2D = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr_2D

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

우선 리스트의 인덱싱을 그대로 사용할 수 있다.

In [74]:
arr_2D[0]

array([1, 2, 3])

In [75]:
arr_2D[0][2]

3

하지만 어레이는 다음과 같이 축별 인덱스를 활용한 좌표 형식의 인덱싱도 허용한다.

In [78]:
arr_2D[0, 2]

3

슬라이싱 또한 리스트 슬라이싱 방식을 동일하게 적용할 수 있다.

* 1번 인덱스 이전까지

In [79]:
arr_2D[:1]

array([[1, 2, 3]])

* 2번 인덱스 이전까지

In [80]:
arr_2D[:2]

array([[1, 2, 3],
       [4, 5, 6]])

* 전체 항목 슬라이싱

In [81]:
arr_2D[:3]

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

행과 열을 함께 슬라이싱하려면 행과 열에 대한 슬라이싱을 동시에 지정한다.

* 행 기준: 2번 행 이전까지
* 열 기준: 1번 열부터 끝까지

In [82]:
arr_2D[:2, 1:]

array([[2, 3],
       [5, 6]])

<div align="center" border="1px"><img src="https://raw.githubusercontent.com/codingalzi/datapy/master/jupyter-book/images/numpy149-1.png" style="width:350px;"></div>

인덱싱과 슬라이싱이 행과 열 각각에 대해 독립적으로 사용될 수 있다.

* 행 기준: 1번 행 인덱싱
* 열 기준: 2번 열 이전까지

In [83]:
arr_2D[1, :2]

array([4, 5])

<div align="center" border="1px"><img src="https://raw.githubusercontent.com/codingalzi/datapy/master/jupyter-book/images/numpy149-4.png" style="width:350px;"></div>

**주의사항:**

슬라이싱 결과물의 차원은 기존 어레이의 차원보다 인덱싱을 사용하는 축의 개수만큼 줄어든다. 따라서 동일한 항목을 얻는 슬라이싱일지라도, 인덱싱을 사용할 때와 아닐 때의 결과물은 다른 모양이 된다.
예를 들어, 아래 코드는 0번 축에 대해 인덱싱을 사용하므로, 슬라이싱의 결과물은 1차원 어레이이다.

In [84]:
arr_2D[1, :2]

array([4, 5])

In [85]:
arr_2D[1, :2].shape

(2,)

반면에, 아래 코드는 모든 축에 대해 슬라이싱을 적용하였기에 차원이 그대로 유지된 (1,2) 어레이가 된다.

In [86]:
arr_2D[1:2, :2]

array([[4, 5]])

In [87]:
arr_2D[1:2, :2].shape

(1, 2)

## 뷰 기능과 `copy()` 메서드

주어진 어레이 자체를 수정하지 않으면서 새로운 어레이를 생성하는 것처럼 보이도록 하는 기능을 **뷰**<font size='2'>View</font>라 부른다.
넘파이와 다음 장에서 다룰 판다스의 많은 도구가 뷰 기능을 활용한다.
뷰 기능은 메모리를 효율적으로 활용하도록 하기 위해 고안되었지만 경우에 따라 혼란을 야기하기도 하기에
이를 방지하려면 `copy()` 메서드를 적절하게 활용할 필요가 있다.
여기서는 뷰 기능과 `copy()` 메서드의 간단한 사례를 살펴본다.

### 뷰 기능

**슬라이싱의 뷰 기능**

넘파이 어레이의 슬라이싱은 리스트와 다르게,
지정된 구간의 객체를 새로 생성하는 게 아니라 구간의 정보를 활용하기만 한다.
예를 들어, 아래 코드에서 `arr_slice`의 항목을 변경하면 `arr_1D`의 항목도 함께 달라진다.
즉, 슬라이싱이 새로운 어레이를 생성하는 것이 아님이 확인된다.

In [None]:
arr_slice[1] = 3450
arr_1D

array([   0,    1,    2,    3,    4,    5, 3450,    7,    8,    9])

**`reshape()` 메서드의 뷰 기능**

`reshape()` 메서드는 항목의 개수와 순서를 전혀 변경하지 않으면서 항목들의 위치 구조만 다르게 보여준다.

In [21]:
arr_2D_62[0, 0] = 9
arr_2D_62

array([[9. , 0.1],
       [0.2, 0.3],
       [0.4, 0.5],
       [0.6, 0.7],
       [0.8, 0.9],
       [1. , 1.1]])

In [22]:
arr_1D_p2

array([9. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. , 1.1])

### `copy()` 메서드

따라서 슬라이싱할 때, 원본을 그대로 유지하려면 `copy()` 메서드로 사본을 만들어 활용할 것을 권장한다.

In [None]:
arr_slice2 = arr[5:8].copy()
arr_slice2

array([   5, 3450,    7])

`arr_slice2`를 변경해도 `arr`은 영향받지 않는다.

In [None]:
arr_slice2[1] = 12
arr_slice2

array([ 5, 12,  7])

In [None]:
arr

array([   0,    1,    2,    3,    4,    5, 3450,    7,    8,    9])

## 예제

### 예제: 붓꽃 데이터셋

아래 링크에 아이리스(붓꽃) 데이터(iris.data)가 저장되어 있다.

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'

In [None]:
iris_full = np.genfromtxt(url, delimiter=',', dtype=str)

In [None]:
iris_full

array([['5.1', '3.5', '1.4', '0.2', 'Iris-setosa'],
       ['4.9', '3.0', '1.4', '0.2', 'Iris-setosa'],
       ['4.7', '3.2', '1.3', '0.2', 'Iris-setosa'],
       ['4.6', '3.1', '1.5', '0.2', 'Iris-setosa'],
       ['5.0', '3.6', '1.4', '0.2', 'Iris-setosa'],
       ['5.4', '3.9', '1.7', '0.4', 'Iris-setosa'],
       ['4.6', '3.4', '1.4', '0.3', 'Iris-setosa'],
       ['5.0', '3.4', '1.5', '0.2', 'Iris-setosa'],
       ['4.4', '2.9', '1.4', '0.2', 'Iris-setosa'],
       ['4.9', '3.1', '1.5', '0.1', 'Iris-setosa'],
       ['5.4', '3.7', '1.5', '0.2', 'Iris-setosa'],
       ['4.8', '3.4', '1.6', '0.2', 'Iris-setosa'],
       ['4.8', '3.0', '1.4', '0.1', 'Iris-setosa'],
       ['4.3', '3.0', '1.1', '0.1', 'Iris-setosa'],
       ['5.8', '4.0', '1.2', '0.2', 'Iris-setosa'],
       ['5.7', '4.4', '1.5', '0.4', 'Iris-setosa'],
       ['5.4', '3.9', '1.3', '0.4', 'Iris-setosa'],
       ['5.1', '3.5', '1.4', '0.3', 'Iris-setosa'],
       ['5.7', '3.8', '1.7', '0.3', 'Iris-setosa'],
       ['5.1

In [None]:
iris_data = np.genfromtxt(url, delimiter=',', dtype=float, usecols=(0,1,2,3))

In [None]:
iris_data = np.genfromtxt(url, delimiter=',', usecols=(0,1,2,3))

In [None]:
iris_data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

**예제 1**

아래 모양의 2차원 어레이를 지정된 단계를 따라 생성해보자.

```python
array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])
```

(1) 먼저 `np.arange()` 함수와 `reshape()` 어레이 메서드만 사용하여, 아래 모양의 어레이를 `arr_e1` 이름으로 생성한다.

```python
array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])
```

답:

2차원 어레이의 모양이 (6, 6)이지만 항목이 0에서 35까지의 정수로 구성된다.
따라서 `np.arange(36)`로 1차원 어레이를 만든 다음에 `reshape()` 메서드를 적용한다.

In [88]:
arr_e1 = np.arange(36)
arr_e1

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35])

이제 (6, 6) 모양의 2차원 어레이로 변환한다.

In [89]:
arr_e1 = arr_e1.reshape((6,6))
arr_e1

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

또는

In [90]:
arr_e1 = arr_e1.reshape((6,-1))
arr_e1

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

한줄 코드로 작성하면 다음과 같다.

In [91]:
arr_e1 = np.arange(36).reshape((6,-1))
arr_e1

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

(2) `np.arange()` 함수와 `reshape()` 어레이 메서드만 사용하여 아래 모양의 어레이를 `arr_e2` 라는 이름으로 생성한다.

```python
array([[ 0],
       [ 4],
       [ 8],
       [12],
       [16],
       [20]])
```

답:

2차원 어레이긴 하지만 0, 4, 8, 12, 16, 20으로 구성되었다.
따라서 먼저 해당 항목들로 구성된 1차원 어레이를 생성한다.

In [92]:
arr_e2 = np.arange(0, 21, 4)
arr_e2

array([ 0,  4,  8, 12, 16, 20])

이제 (6,1) 모양의 2차원 어레이로 변환한다.

In [93]:
arr_e2 = arr_e2.reshape((6,1))
arr_e2

array([[ 0],
       [ 4],
       [ 8],
       [12],
       [16],
       [20]])

한줄 코드로 작성하면 다음과 같다.

In [94]:
arr_e2 = np.arange(0, 21, 4).reshape((6,1))
arr_e2

array([[ 0],
       [ 4],
       [ 8],
       [12],
       [16],
       [20]])

(3) 이제 arr_e1과 arr_e2를 이용하여 아래 모양의 어레이를 생성한다.

```python
array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])
```

답:

두 어레이를 더하면 `arr_e2`에 대해 브로드캐스팅이 작동하여 원하는 모양의 어레이가 생성된다.

In [96]:
arr = arr_e1 + arr_e2
arr

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

**예제 2**

아래 그림은 `arr`이 가리키는 2차원 어레이를 보여준다.
그림에 색깔별로 표시된 어레이를 슬라이싱을 이용하여 구해보자.

<div align="center" border="1px"><img src="https://raw.githubusercontent.com/codingalzi/datapy/master/jupyter-book/images/numpy-2darray.png" style="width:250px;"></div>

<p><div style="text-align: center">&lt;그림 출처: <a href="https://scipy-lectures.org/intro/numpy/array_object.html#indexing-and-slicing">Scipy Lecture Notes</a>&gt;</div></p>

(1) 빨강색 상자로 표시된 1차원 어레이

답:

0번 행의 3번 열에서 4번 열까지로 구성된 1차원 어레이를 생성한다.

In [97]:
arr[0, 3:5]

array([3, 4])

(2) 파랑색 상자로 표시된 2차원 어레이

답:

2번 열에 위치한 항목들로 구성된 2차원 어레이를 생성하려면 모든 행에 대해 2번 열만 추출하되, 인덱싱이 아닌 슬라이싱을 이용해야 한다.

In [98]:
arr[:, 2:3]

array([[ 2],
       [12],
       [22],
       [32],
       [42],
       [52]])

2번 열에 대해 인덱싱을 적용하면 다음과 같은 1차원 어레이가 된다.

In [99]:
arr[:, 2]

array([ 2, 12, 22, 32, 42, 52])

(3) 보라색 상자로 감싸진 숫자들로 구성된 2차원 어레이

답:

행과 열에 대해 모두 스텝 2를 사용하는 슬라이싱을 적용한다.

In [100]:
arr[2:5:2, 0::2]

array([[20, 22, 24],
       [40, 42, 44]])

(4) 초록색 상자로 표시된 2차원 어레이

답:

4번부터 끝까지의 행과 열로 구성되었기에 콜론을 이용해 슬라이싱한다.

In [101]:
arr[4:, 4:]

array([[44, 45],
       [54, 55]])