# 넘파이 어레이 연산

넘파이 어레이 자료형이 제공하는 다차원 어레이 연산을 살펴본다.

**기초 라이브러리**

In [1]:
import numpy as np

**데이터셋 저장소**

In [2]:
data_url = 'https://raw.githubusercontent.com/codingalzi/code-workout-datasci/refs/heads/master/data/'

## 실전 예제: 피어슨 아버지-아들 키 데이터셋

피어슨 상관계수로 유명한 영국 통계학자 칼 피어슨<font size='2'>Karl Pearson</font>이 1903년에 실험을 위해 수집한
1,078개의 아버지와 아들의 키(신장)로 구성된 데이터셋을 활용한다.
키가 원래 인치 단위로 작성되었지만 편의를 위해 센티미터 단위로 변환하였으며,
`pearson_dataset.csv` 파일에 아래 형식으로 저장되어 있다.

:::{image} https://raw.githubusercontent.com/codingalzi/code-workout-datasci/master/images/pearson_csv.png
:width: 20%
:align: center
:::

첫행의 `Father,Son`은 각각의 열에 포함된 데이터가 아버지들의 키와 아들의 키임을 알려주는
**헤더**<font size='2'>header</font>다.

### 1차원 어레이로 불러오기

피어슨 아버지-아들 키 데이터셋에서 아버지와 아들의 키 데이터를 구분하여 각각 1차원 어레이로 불러오려 한다.
피어슨 데이터셋은 숫자만으로 구성되었기에 `np.loadtxt()` 함수로 편하게 어레이로 불러올 수 있다.

아래 코드에서는 `pearson_dataset.csv` 파일을 읽어올 때 첫행인 헤더를 건너뛰고, 
첫 번째 열(0번 인덱스 열)은 `fathers` 변수가 가리키는 1차원 어레이로, 
두 번째 열(1번 인덱스 열)은 `sons` 변수가 가리키는 1차원 어레이로 각각 불러온다.

In [None]:
fathers = np.loadtxt(data_url+"pearson_dataset.csv", delimiter=',', skiprows=1, usecols=0)
sons = np.loadtxt(data_url+"pearson_dataset.csv", delimiter=',', skiprows=1, usecols=1)

### 2차원 어레이로 불러오기

아래 코드는 피어슨 아버지-아들 키 데이터셋에서 아버지와 아들의 키 데이터를 함께 2차원 어레이로 불러온다.
`fathers`와 `sons`를 정의할 때와는 다르게 `useccols` 키워드 인자를 지정하지 않는다.

In [None]:
pearson = np.loadtxt(data_url+"pearson_dataset.csv", delimiter=',', skiprows=1)

피어슨 아버지-아들 키 데이터셋은 2개의 열만 포함하기에 `usecols=(0, 1)`로 지정해도 동일한 어레이가 반환된다.

In [None]:
pearson = np.loadtxt(data_url+"pearson_dataset.csv", delimiter=',', skiprows=1, usecols=(0, 1))

불러온 값을 확인하면 `shape`이 `(1078, 2)`, 즉 
1,078개의 행과 2개의 열로 구성된 2차원 어레이라고 알려준다.

In [None]:
pearson

array([[165.1, 151.9],
       [160.8, 160.5],
       [165.1, 160.8],
       ...,
       [182.4, 176. ],
       [179.6, 176. ],
       [178.6, 170.2]], shape=(1078, 2))

`ndim`과 `dtype` 속성을 확인하면 다음과 같다.

In [None]:
print('아버지-아들 키 데이터의 차원:', pearson.ndim)
print('아버지-아들 키 데이터의 항목 자료형:', pearson.dtype)

아버지-아들 키 데이터의 차원: 2
아버지-아들 키 데이터의 항목 자료형: float64


### 연습 문제

(1) 특정 열을 1차원 어레이로 불러오기 및 속성 확인

`np.loadtxt()` 함수를 사용하여 피어슨 데이터셋(`pearson_dataset.csv`)에서 아들의 키(`Son`) 데이터만 포함된 1차원 어레이를 생성하라.
단, 헤더는 건너뛰고, 데이터 타입은 `float32`로 지정한다.
생성된 어레이의 모양(`shape`)과 항목 자료형(`dtype`)을 출력하라.

답:

In [40]:
import numpy as np

# data_url은 본문에서 정의된 변수를 사용한다고 가정
# 아들의 키는 1번 열(인덱스 1)에 위치함
sons_f32 = np.loadtxt(data_url + "pearson_dataset.csv", delimiter=',', skiprows=1, dtype='float32', usecols=1)

print("어레이 모양:", sons_f32.shape)
print("항목 자료형:", sons_f32.dtype)

어레이 모양: (1078,)
항목 자료형: float32


설명:

아들의 키 데이터는 CSV 파일의 두 번째 열에 있으므로 `usecols=1`을 지정한다.
첫 행은 헤더이므로 `skiprows=1`로 건너뛰고, `dtype='float32'`를 통해 32비트 부동소수점 자료형으로 데이터를 불러온다.

(2) 2차원 어레이로 불러오기 및 차원 확인

피어슨 데이터셋에서 아버지와 아들의 키 데이터를 모두 포함하는 2차원 어레이를 생성하라.
생성된 어레이의 차원(`ndim`)과 전체 항목의 개수(`size`)를 출력하라.

답:

In [41]:
import numpy as np

# 모든 열(아버지와 아들의 키) 불러오기
pearson_data = np.loadtxt(data_url + "pearson_dataset.csv", delimiter=',', skiprows=1)

print("어레이 차원:", pearson_data.ndim)
print("전체 항목 개수:", pearson_data.size)

어레이 차원: 2
전체 항목 개수: 2156


설명:

`usecols`를 지정하지 않으면 파일의 모든 숫자 열을 불러와 2차원 어레이(`ndim=2`)를 생성한다.
`size` 속성은 어레이에 포함된 전체 항목의 개수를 반환하며, 이 데이터셋은 1,078개의 행과 2개의 열을 가지므로 총 2,156개의 항목이 존재한다.

(3) 어레이 메모리 크기 비교

피어슨 데이터셋의 아버지 키(`fathers`) 데이터를 기본 자료형(`float64`)으로 불러온 1차원 어레이와,
16비트 부동소수점(`float16`)으로 불러온 1차원 어레이를 각각 생성하라.
두 어레이가 차지하는 전체 메모리 크기(바이트)를 비교하여 출력하라.

답:

In [44]:
import numpy as np

# data_url은 본문에서 정의된 변수를 사용한다고 가정
# 기본 자료형(float64)으로 불러오기
fathers_f64 = np.loadtxt(data_url + "pearson_dataset.csv", delimiter=',', skiprows=1, usecols=0)

# float16 자료형으로 불러오기
fathers_f16 = np.loadtxt(data_url + "pearson_dataset.csv", delimiter=',', skiprows=1, dtype='float16', usecols=0)

print("기본 어레이(float64) 전체 크기(바이트):", fathers_f64.nbytes)
print("float16 어레이 전체 크기(바이트):", fathers_f16.nbytes)

기본 어레이(float64) 전체 크기(바이트): 8624
float16 어레이 전체 크기(바이트): 2156


설명:

기본적으로 부동소수점 어레이는 `float64`(항목당 8바이트)로 생성되므로, 1,078개의 항목을 가진 어레이는 총 8,624바이트를 차지한다.
반면 `dtype='float16'`(항목당 2바이트)을 지정하여 불러오면 전체 크기가 2,156바이트로 줄어들어 메모리 사용량을 크게 절약할 수 있다.

(4) 어레이 자료형 변경 및 항목 크기 확인

피어슨 데이터셋의 아들 키(`sons`) 데이터를 기본 자료형(`float64`)으로 불러온 후, 이 어레이를 정수형(`int32`)으로 변환(`astype`)한 새로운 어레이를 생성하라.
변환 전과 후의 항목 자료형(`dtype`)과 각 항목이 차지하는 메모리 크기(`itemsize`)를 출력하고, 자료형 변환으로 인해 데이터에 어떤 변화가 생길 수 있는지 설명하라.

답:

In [45]:
import numpy as np

# 아들 키 데이터 불러오기 (기본 float64)
sons_float = np.loadtxt(data_url + "pearson_dataset.csv", delimiter=',', skiprows=1, usecols=1)

# int32 자료형으로 변환
sons_int = sons_float.astype('int32')

print("변환 전(float64) 항목 자료형:", sons_float.dtype)
print("변환 전(float64) 항목 크기(바이트):", sons_float.itemsize)

print("변환 후(int32) 항목 자료형:", sons_int.dtype)
print("변환 후(int32) 항목 크기(바이트):", sons_int.itemsize)

변환 전(float64) 항목 자료형: float64
변환 전(float64) 항목 크기(바이트): 8
변환 후(int32) 항목 자료형: int32
변환 후(int32) 항목 크기(바이트): 4


설명:

부동소수점(`float64`) 어레이를 정수형(`int32`)으로 변환하면,
각 항목이 차지하는 메모리 크기가 8바이트에서 4바이트로 줄어든다.
하지만 소수점 이하의 값이 모두 버려지고 정수 부분만 남게 되므로(예: `165.1` -> `165`),
데이터의 정밀도 손실이 발생할 수 있음을 주의해야 한다.

## 어레이 연산

넘파이 어레이 연산은 기본적으로 동일한 모양을 갖는 두 어레이에 대해 항목별로 이루어진다.
즉, 지정된 연산을 동일한 위치의 항목끼리 실행하여 새로운, 동일한 모양의 어레이를 생성한다.

### 사칙연산

동일한 모양의 1차원 어레이 두 개를 이용한다.

In [3]:
arr1 = np.arange(1, 6)
arr1

array([1, 2, 3, 4, 5])

In [4]:
arr2 = np.arange(5, 6, 0.2)
arr2

array([5. , 5.2, 5.4, 5.6, 5.8])

동일한 모양의 두 1차원 어레이에 대한 사칙연산은 항목별로 이뤄지며
최종적으로 동일한 모양의 1차원 어레이가 계산된다.

In [5]:
arr1 + arr2

array([ 6. ,  7.2,  8.4,  9.6, 10.8])

In [6]:
arr1 - arr2

array([-4. , -3.2, -2.4, -1.6, -0.8])

In [7]:
arr1 * arr2

array([ 5. , 10.4, 16.2, 22.4, 29. ])

In [8]:
arr1 / arr2

array([0.2       , 0.38461538, 0.55555556, 0.71428571, 0.86206897])

2차원 어레이 연산도 동일한 방식으로 진행된다.
먼저 예제를 위해 (2, 3) 모양의 2차원 어레이를 두 개를 정의한다.

In [9]:
arr3= np.arange(1, 7).reshape((2, 3)).astype('float16')
arr3

array([[1., 2., 3.],
       [4., 5., 6.]], dtype=float16)

In [10]:
arr4= np.arange(13, 2, -2).reshape((2, 3)).astype('float16')
arr4

array([[13., 11.,  9.],
       [ 7.,  5.,  3.]], dtype=float16)

동일한 모양의 두 2차원 어레이에 대한 사칙연산은 항목별로 이뤄지며
최종적으로 동일한 모양의 2차원 어레이가 계산된다.

In [11]:
arr3 + arr4

array([[14., 13., 12.],
       [11., 10.,  9.]], dtype=float16)

In [12]:
arr3 - arr4

array([[-12.,  -9.,  -6.],
       [ -3.,   0.,   3.]], dtype=float16)

In [13]:
arr3 * arr4

array([[13., 22., 27.],
       [28., 25., 18.]], dtype=float16)

In [14]:
arr3 / arr4

array([[0.0769, 0.1818, 0.3333],
       [0.5713, 1.    , 2.    ]], dtype=float16)

### 어레이와 스칼라 사칙연산

**스칼라**<font size='2'>scala</font>는 하나의 숫자 값을 가리키는 용어이며,
리스트, 어레이 등의 모음 자료형의 값과 대비되는 용도로 사용된다.
임의의 어레이와 숫자의 사칙연산은 어레이의 모든 항목에 지정된 숫자와의 사칙연산을 실행한 결과로 구성된
동일한 모양의 어레이로 계산된다.

In [15]:
arr1

array([1, 2, 3, 4, 5])

In [16]:
arr1 - 2

array([-1,  0,  1,  2,  3])

In [17]:
arr1 / 2

array([0.5, 1. , 1.5, 2. , 2.5])

In [18]:
arr3

array([[1., 2., 3.],
       [4., 5., 6.]], dtype=float16)

In [19]:
arr3 + 10

array([[11., 12., 13.],
       [14., 15., 16.]], dtype=float16)

In [20]:
arr3 * 3

array([[ 3.,  6.,  9.],
       [12., 15., 18.]], dtype=float16)

### 비교 연산

모양이 동일한 두 어레이의 값 비교도 항목별로 수행되며,
결과물로 생성되는 어레이는 모든 항목이 `bool` 자료형, 즉 `True` 또는 `False`이다.

In [21]:
arr1 < arr2

array([ True,  True,  True,  True,  True])

In [22]:
arr1 == arr2

array([False, False, False, False, False])

In [23]:
arr3 >= arr4

array([[False, False, False],
       [False,  True,  True]])

In [24]:
arr3 != arr4

array([[ True,  True,  True],
       [ True, False,  True]])

어레이와 스칼라의 비교 연산 또한 어레이와 스칼라의 사칙연산의 경우처럼 항목별로 계산된다.

In [25]:
5.5 < arr2

array([False, False, False,  True,  True])

In [26]:
5.4 == arr2

array([False, False,  True, False, False])

In [27]:
8 >= arr4

array([[False, False, False],
       [ True,  True,  True]])

In [28]:
9 != arr4

array([[ True,  True, False],
       [ True,  True,  True]])

### 논리 연산

**부울 어레이**

어레이 비교 연산의 결과는 `dtype`이 `bool`, 즉 모든 항목이 부울값인 부울 어레이다.

**부울 어레이 논리 연산**

부울 어레이를 대상으로 사용 가능한 논리 연산은 세 가지이다. 
첫째, `~`는 부정(not) 연산자로, `True`를 `False`로, `False`는 `True`로 값을 반전시킨다.
둘째, `&`는 논리곱(and) 연산자로, 두 조건이 모두 참일 때만 참을 반환한다.
셋째, `|`는 논리합(or) 연산자로, 두 조건 중 하나 이상이 참이면 참을 반환한다.
언급된 세 논리 연산자는 어레이의 모든 요소에 대해 항목별로 실행되어 동일한 모양의 부울 어레이를 생성한다.

| 기호 | 기능              |
|------|-------------------|
| `~`  | 부정(not) 연산자  |
| `&`  | 논리곱(and) 연산자 |
| `\|`  | 논리합(or) 연산자 |

:::{warning} 주의사항

파이썬의 기본 논리 연산자인 `and`, `or`, `not` 는 넘파이 어레이 연산에 사용할 수 없으며, 
반드시 `&`, `|`, `~` 기호를 사용해야 한다.
:::

**예제: 부정 연산자**

In [29]:
arr1 * 3 >= arr2

array([False,  True,  True,  True,  True])

In [30]:
~(arr1 * 3 >= arr2)

array([ True, False, False, False, False])

부울 어레이 논리 연산 표현식을 작성할 때 괄호를 적절하게 사용해야 한다.
그렇지 않으면 오류가 발생하거나 다른 결과가 계산될 가능성이 높아진다.
예를 들어, 아래 코드는 부정 연산자를 비트 연산자로 처리하여 엉뚱한 어레이를 계산한다.

In [31]:
~arr1 * 3 >= arr2

array([False, False, False, False, False])

**예제: 논리곱 연산자**

In [32]:
(arr1 + 3 < arr2) & ~(arr1 * 2 >= arr2)

array([ True,  True, False, False, False])

In [33]:
(arr3 > arr4) & (arr3 <= arr4 * 2)

array([[False, False, False],
       [False, False,  True]])

괄호를 사용하지 않으면 오류가 발생한다.
이유는 비트 연산과 논리 연산이 혼용되어 사용되기 때문이다.

In [34]:
arr1 + 3 < arr2 & ~arr1 * 2 >= arr2

TypeError: ufunc 'bitwise_and' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

**예제: 논리합 연산자**

In [35]:
(arr1 < arr2-3) | (arr1 >= arr2)

array([ True,  True, False, False, False])

In [36]:
~(arr3 == 5) | (arr4 == 9)

array([[ True,  True,  True],
       [ True, False,  True]])

역시나 괄호를 적절하게 사용하지 않으면 오류가 발생한다.
괄호를 적절하게 사용하지 않는 경우 발생하는 오류에 대해서는 여기서는 자세하게 설명하지 않는다.

In [37]:
~arr3 == 5 | arr4 == 9

TypeError: ufunc 'invert' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

### 연습문제

(1) 2차원 어레이 사칙연산 및 스칼라 연산

다음 두 개의 2차원 어레이 `arr_A`와 `arr_B`를 중첩 리스트를 이용하여 생성하라.
- `arr_A`: 1부터 6까지의 정수로 구성된 (2, 3) 모양의 어레이
- `arr_B`: 10부터 60까지 10 단위로 증가하는 정수로 구성된 (2, 3) 모양의 어레이

두 어레이를 더한 후, 그 결과 어레이의 모든 항목을 2로 나눈 새로운 어레이를 생성하고 출력하라.

답:

In [37]:
import numpy as np

# 중첩 리스트를 이용한 2차원 어레이 생성
list_A = [[1, 2, 3], 
          [4, 5, 6]]
arr_A = np.array(list_A)

list_B = [[10, 20, 30], 
          [40, 50, 60]]
arr_B = np.array(list_B)

# 어레이 간 덧셈 후 스칼라 나눗셈
result_arr = (arr_A + arr_B) / 2

print("arr_A:\n", arr_A)
print("arr_B:\n", arr_B)
print("계산 결과:\n", result_arr)

arr_A:
 [[1 2 3]
 [4 5 6]]
arr_B:
 [[10 20 30]
 [40 50 60]]
계산 결과:
 [[ 5.5 11.  16.5]
 [22.  27.5 33. ]]


설명:

동일한 모양의 두 2차원 어레이 `arr_A`와 `arr_B`의 덧셈은 같은 위치의 항목끼리 더해져 새로운 (2, 3) 모양의 어레이를 생성한다. 이후 스칼라 값 2로 나누면, 생성된 어레이의 모든 항목이 각각 2로 나뉘어 최종 결과가 도출된다.

(2) 부울 어레이 논리 연산 (부정 및 논리합)

다음 1차원 어레이 `arr_C`를 생성하라.

- `arr_C`: 1부터 10까지의 정수로 구성된 어레이

이 어레이에서 값이 3 이하이거나 8 이상인 항목을 판별하는 부울 어레이를 생성하라.
단, 논리합(`|`) 연산자와 부정(`~`) 연산자를 각각 한 번 이상 사용하여 조건식을 작성하고, 생성된 부울 어레이를 출력하라.

답:

In [38]:
import numpy as np

# 어레이 생성
arr_C = np.arange(1, 11)

# 논리합(|)과 부정(~) 연산자를 활용한 조건식
# "3 이하이거나 8 이상"은 "~(3 초과 이고 8 미만)"과 동일하지만,
# 문제 조건에 맞춰 직관적으로 작성: (arr_C <= 3) | ~(arr_C < 8)
condition_C = (arr_C <= 3) | ~(arr_C < 8)

print("arr_C:", arr_C)
print("조건 만족 여부:", condition_C)

arr_C: [ 1  2  3  4  5  6  7  8  9 10]
조건 만족 여부: [ True  True  True False False False False  True  True  True]


설명:

넘파이 어레이에서 두 개 이상의 조건을 결합할 때는 파이썬의 기본 `or`, `not` 대신 비트 논리 연산자인 `|`, `~`를 사용해야 한다.
`~(arr_C < 8)`은 "8 미만이 아니다", 즉 "8 이상이다"를 의미한다.
연산자 우선순위 문제로 인해 오류가 발생하지 않도록 각각의 비교 연산식을 반드시 괄호 `()`로 묶어주어야 한다.

(3) 어레이와 스칼라의 사칙연산

피어슨 데이터셋의 '아들 키(Son)' 데이터를 1차원 어레이로 불러온 후, 모든 아들의 키를 센티미터(cm)에서 미터(m) 단위로 변환하는 코드를 작성하라.
단, 1m = 100cm이며, 변환된 어레이의 항목 자료형(`dtype`)과 전체 항목 개수(`size`)를 출력하라.

답:

In [46]:
import numpy as np

# data_url은 본문에서 정의된 변수를 사용한다고 가정
# 아들 키는 1번 열(인덱스 1)에 위치함
sons_cm = np.loadtxt(data_url + "pearson_dataset.csv", delimiter=',', skiprows=1, usecols=1)

# 스칼라 나눗셈을 이용한 단위 변환 (cm -> m)
sons_m = sons_cm / 100

print("변환된 어레이 자료형:", sons_m.dtype)
print("전체 항목 개수:", sons_m.size)

변환된 어레이 자료형: float64
전체 항목 개수: 1078


설명:

어레이와 스칼라(숫자 100)의 나눗셈 연산은 어레이의 모든 항목에 대해 개별적으로 적용된다. 따라서 `sons_cm / 100`을 실행하면 모든 아들의 키 데이터가 100으로 나뉘어 미터 단위로 변환된 새로운 어레이가 생성된다.

(4) 부울 어레이 논리 연산

피어슨 데이터셋에서 '아버지 키(Father)'와 '아들 키(Son)'를 각각 1차원 어레이로 불러오라. 아버지의 키가 170cm 미만이면서
아들의 키는 180cm 이상인 샘플을 판별하는 부울 어레이를 생성하라.
생성된 부울 어레이의 차원(`ndim`)과 모양(`shape`)을 출력하라.

답:

In [47]:
import numpy as np

# 아버지 키(0번 열)와 아들 키(1번 열) 불러오기
fathers = np.loadtxt(data_url + "pearson_dataset.csv", delimiter=',', skiprows=1, usecols=0)
sons = np.loadtxt(data_url + "pearson_dataset.csv", delimiter=',', skiprows=1, usecols=1)

# 논리곱(&) 연산자를 사용한 복합 조건 판별
# 주의: 각 비교 연산식은 반드시 괄호로 묶어야 함
condition = (fathers < 170.0) & (sons >= 180.0)

print("부울 어레이 차원:", condition.ndim)
print("부울 어레이 모양:", condition.shape)

부울 어레이 차원: 1
부울 어레이 모양: (1078,)


설명:

넘파이 어레이에서 두 개 이상의 조건을 결합할 때는 파이썬의 기본 `and` 대신 비트 논리곱 연산자인 `&`를 사용해야 한다.
또한, 연산자 우선순위 문제로 인해 오류가 발생하지 않도록 각각의 비교 연산식(`fathers < 170.0` 등)을 반드시 괄호 `()`로 묶어주어야 한다.

## 인덱싱과 슬라이싱

### 1차원 어레이 인덱싱과 슬라이싱

1차원 어레이의 인덱싱과 슬라이싱은 리스트의 경우와 동일하다.
설명을 위해 아래 1차원 어레이를 활용한다.

In [51]:
arr_1D = np.arange(10)
arr_1D

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

- 5번 인덱스 항목 인덱싱. 결과는 스칼라.

In [52]:
arr_1D[5]

np.int64(5)

- 5번부터 8번 인덱스 이전까지의 항목 슬라이싱. 결과는 1차원 어레이.

In [53]:
arr_slice = arr_1D[5:8]
arr_slice

array([5, 6, 7])

### 2차원 어레이 인덱싱

2차원 이상의 다차원 어레이는 리스트의 경우보다 
훨씬 효율적인 인덱싱, 슬라이싱 기능을 제공한다.
설명을 위해 아래 2차원 어레이를 활용한다.

In [54]:
arr_2D = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr_2D

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

**행과 열 인덱스**

2차원 어레이는 행과 열 각 축에 대해 각각의 인덱스를 갖는다.
아래 그림에서 보여지듯이 (3, 3) 모양의 2차원 어레이의 상단부터 아래로 내려오는 순서대로 0, 1, 2를 행 인덱스를,
행렬 왼쪽부터 오른쪽으로 이동하면서 순서대로 0, 1, 2를 열 인덱스로 갖는다.
반면에 각 항목 우측 아래에 표시된 튜플은 각 항목의 좌표에 해당하며, 각 항목이 위치한 행과 열의 인덱스의 조합으로 구성된다.

:::{image} https://raw.githubusercontent.com/codingalzi/code-workout-datasci/master/images/index-2D.png
:width: 40%
:align: center
:::

**행 인덱싱**

2차원 어레이의 특정 행을 대상으로 하는 인덱싱은 리스트의 인덱싱을 방식과 동일하며,
결과는 지정된 행의 항목들로 구성된 1차원 어레이다.

- 0번 행 인덱싱. 결과는 1차원 어레이.

In [55]:
arr_2D[0]

array([1, 2, 3])

- 2번 행 인덱싱. 결과는 1차원 어레이.

In [62]:
arr_2D[2]

array([7, 8, 9])

:::{image} https://raw.githubusercontent.com/codingalzi/code-workout-datasci/master/images/indexing-slicing-2D-2.png
:width: 50%
:align: center
:::

**열 인덱싱**

열을 대상으로 하는 인덱싱은 지정된 열에 위치한 항목들로 구성된 1차원 어레이가 생성된다.
행 인덱싱과는 달리, 행과 열의 인덱스를 동시에 지정해야 하며,
모든 행을 대상한다는 의미에서 전체 행을 슬라이싱하는 의미의 `:` 로 지정한다.

- 0번 열 인덱싱. 결과는 1차원 어레이.

In [66]:
arr_2D[:, 0]

array([1, 4, 7])

- 2번 열 인덱싱. 결과는 1차원 어레이.

In [65]:
arr_2D[:, 2]

array([3, 6, 9])

**행과 열 동시 인덱싱**

몇 번 행의 몇 번 열에 위치한 값을 확인하는 방법을 소개한다.
먼저 아래 코드는 중첩 리스트의 경우처럼 인덱싱을 두 번 연속 적용하는 방식이
동일하게 작동함을 보여준다.

- 0번 행의 2번 열에 위치한 값 인덱싱. 결과는 스칼라.

In [56]:
arr_2D[0][2]

np.int64(3)

하지만 2차원 어레이의 0번 행의 2번 열의 값을 인덱싱 하기 위헤
다음과 같이 축별 인덱스를 활용한 좌표 형식의 인덱스 `(0, 2)`를 활용한
인덱싱이 가능하며, 보다 직관적이면서 효율적이다.

- 0번 행, 2번 열 인덱싱. 결과는 스칼라.

In [58]:
arr_2D[0, 2]

np.int64(3)

참고로 아래 방식은 어레이 고유의 방식이며 리스트에 대해서는 동작하지 않는다.
예를 들어 아래 코드는 중첩 리스트에 대해 동일한 방식을 시도하면 
오류가 발생함을 보여준다.

In [70]:
list_2D = [[1, 2, 3],
           [4, 5, 6],
           [7, 8, 9]]

list_2D[0, 2]

TypeError: list indices must be integers or slices, not tuple

### 2차원 어레이 슬라이싱

**행 슬라이싱**

2차원 어레이에 대한 행 슬라이싱은 리스트 슬라이싱 방식과 동일하게 작동한다.

- 1번 행 이전까지, 즉 0번 행만 대상으로 슬라이싱. 결과는 2차원 어레이.

In [72]:
arr_2D[:1]

array([[1, 2, 3]])

- 1번 행부터 3번 행 이전까지, 즉 1번 행과 2번 행을 대상으로 슬라이싱. 결과는 2차원 어레이.

In [73]:
arr_2D[1:3]

array([[4, 5, 6],
       [7, 8, 9]])

* 전체 행 슬라이싱. 결과는 2차원 어레이.

In [74]:
arr_2D[:3]

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

- 다음 방식도 가능

In [75]:
arr_2D[:]

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

**열 슬라이싱**

열에 대해서만 슬라이싱을 적용하려면 전체 행을 대상으로 열 슬라이싱을 적용하면 된다.

- 2번 열 이전까지, 즉 0번 열과 1번 열 대상 슬라이싱. 결과는 2차원 어레이.

In [71]:
arr_2D[:, :2]

array([[1, 2],
       [4, 5],
       [7, 8]])

:::{image} https://raw.githubusercontent.com/codingalzi/code-workout-datasci/master/images/indexing-slicing-2D-3.png
:width: 50%
:align: center
:::

**행과 열 동시 슬라이싱**

행과 열을 함께 슬라이싱하려면 행과 열에 대한 슬라이싱을 동시에 지정한다.

* 행 기준 2번 행 이전까지, 열 기준 1번 열부터 끝까지 슬라이싱. 결과는 2차원 어레이.

In [76]:
arr_2D[:2, 1:]

array([[2, 3],
       [5, 6]])

:::{image} https://raw.githubusercontent.com/codingalzi/code-workout-datasci/master/images/indexing-slicing-2D-5.png
:width: 50%
:align: center
:::

**인덱싱과 슬라이싱 동시 적용**

인덱싱과 슬라이싱이 행과 열 각각에 대해 독립적으로 사용될 수 있다.

* 행 기준 1번 행 인덱싱, 열 기준 2번 열 이전까지 슬라이싱. 결과는 1차원 어레이.

In [77]:
arr_2D[1, :2]

array([4, 5])

:::{image} https://raw.githubusercontent.com/codingalzi/code-workout-datasci/master/images/indexing-slicing-2D-4.png
:width: 50%
:align: center
:::

* 행 기준 1번 행부터 2번행까지 슬라이싱, 열 기준 0번 열 인덱싱. 결과는 1차원 어레이.

In [78]:
arr_2D[1:3, 0]

array([4, 7])

**주의사항:**

인덱싱을 적용하는 축은 결과에서 사라지며, 따라서 인덱싱 결과는 기존 어레이보다 차원이 1 줄어든다.
따라서 1차원 어레이에 인덱싱을 적용한 결과는 스칼라이고,
2차원 어레이에 행 인덱싱 또는 열 인덱싱을 적용한 결과는 1차원 어레이다.
만약에 2차원 어레이에 행과 열 인덱싱을 동시에 적용하면 결과는 스칼라가 된다.

따라서 동일한 항목을 얻는 슬라이싱일지라도, 인덱싱을 사용할 때와 아닐 때의 결과물은 다른 모양이 된다.
예를 들어, 아래 두 코드는 동일한 항목을 포함한다.
하지만 인덱싱을 적용한 결과는 1차원 어레이인 반면에,
행과 열 모두 슬라이싱을 적용한 결과는 2차원 어레이다.

- 행 인덱스 적용

In [81]:
arr_2D[1, :2]

array([4, 5])

- 행과 열 슬라이싱 적용

In [82]:
arr_2D[1:2, :2]

array([[4, 5]])

- 행 인덱싱 적용 결과의 모양과 차원

In [85]:
print('모양:', arr_2D[1, :2].shape)
print('차원:', arr_2D[1, :2].ndim)

모양: (2,)
차원: 1


- 행과 열 슬라이싱 적용 결과의 모양과 차원

In [86]:
print('모양:', arr_2D[1:2, :2].shape)
print('차원:', arr_2D[1:2, :2].ndim)

모양: (1, 2)
차원: 2


### 연습문제

(1) 아래 그림은 `arr_5x5`이 가리키는 2차원 어레이를 보여준다.
그림에 색깔별로 표시된 어레이를 슬라이싱을 이용하여 구해보자.

In [56]:
arr_5x5 = np.array([[ 1,  2,  3,  4,  5],
                    [11, 12, 13, 14, 15],
                    [21, 22, 23, 24, 25],
                    [31, 32, 33, 34, 35],
                    [41, 42, 43, 44, 45]])

:::{image} https://raw.githubusercontent.com/codingalzi/code-workout-datasci/master/images/numpy-2darray.png
:width: 40%
:align: center
:::
<p><div style="text-align: center">&lt;그림 출처: <a href="https://scipy-lectures.org/intro/numpy/array_object.html#indexing-and-slicing">Scipy Lecture Notes</a>&gt;</div></p>

가. 빨강색 상자로 표시된 1차원 어레이

답:

0번 행의 3번 열에서 4번 열까지로 구성된 1차원 어레이를 생성한다.

In [63]:
arr_5x5[0, 2:5]

array([3, 4, 5])

나. 파랑색 상자로 표시된 2차원 어레이

답:

2번 열에 위치한 항목들로 구성된 2차원 어레이를 생성하려면 모든 행에 대해 2번 열만 추출하되, 인덱싱이 아닌 슬라이싱을 이용해야 한다.

In [64]:
arr_5x5[:, 1:2]

array([[ 2],
       [12],
       [22],
       [32],
       [42]])

2번 열에 대해 인덱싱을 적용하면 다음과 같은 1차원 어레이가 된다.

In [65]:
arr_5x5[:, 1]

array([ 2, 12, 22, 32, 42])

다. 보라색 상자로 감싸진 항목들로 구성된 2차원 어레이

답:

행과 열에 대해 모두 스텝 2를 사용하는 슬라이싱을 적용한다.

In [66]:
arr_5x5[0:3:2, 0::2]

array([[ 1,  3,  5],
       [21, 23, 25]])

라. 초록색 상자로 표시된 2차원 어레이

답:

3번부터 끝까지의 행과 열로 구성되었기에 콜론을 이용해 슬라이싱한다.

In [67]:
arr_5x5[2:, 3:]

array([[24, 25],
       [34, 35],
       [44, 45]])

(2) ...

## 뷰 기능과 `copy()` 메서드

주어진 어레이 자체를 수정하지 않으면서 새로운 어레이를 생성하는 것처럼 보이도록 하는 기능을 **뷰**<font size='2'>View</font>라 부른다.
넘파이와 다음 장에서 다룰 판다스의 많은 도구가 뷰 기능을 활용한다.
뷰 기능은 메모리를 효율적으로 활용하도록 하기 위해 고안되었지만 경우에 따라 혼란을 야기하기에
어레이의 `copy()` 메서드를 적절하게 활용할 필요가 있다.
여기서는 어레이 인덱싱과 슬라이싱이 새로운 어레이를 생성하는 게 아니라 기존 어레이에 대해 뷰 기능을 사용한다는 점과
`copy()` 메서드의 활용법을 간단한 사례를 통해 살펴본다.

**인덱싱의 뷰 기능**

넘파이 어레이의 인덱싱과 슬라이싱은 리스트의 경우와 다르게,
지정된 인덱스의 위치 또는 구간에 해당하는 어레이를 새로 생성하지 않으면서 구간의 정보를 활용한다.
예를 들어, 아래 코드에서 `arr_5x5_indexing`의 항목을 변경하면 변경된 항목에 대응하는 기존 `arr_5x5`의 항목도 함께 달라진다.
즉, 인덱싱과 슬라이싱이 새로운 어레이를 생성하는 것이 아니라 기존 어레이의 행과 열 인덱스 정보만 활용해서
마치 새로운 어레이를 생성하는 것처럼 보이게 할 뿐이다.

In [None]:
arr_5x5 = np.array([[ 0,  1,  2,  3,  4,  5],
                    [10, 11, 12, 13, 14, 15],
                    [20, 21, 22, 23, 24, 25],
                    [30, 31, 32, 33, 34, 35],
                    [40, 41, 42, 43, 44, 45],
                    [50, 51, 52, 53, 54, 55]])

- `arr_5x5` 2차원 어레이의 1번 행 인덱싱. 결과는 (6,) 모양의 1차원 어레이

In [None]:
arr_5x5_indexing = arr_5x5[1]
arr_5x5_indexing

array([10, 11, 12, 13, 14, 15])

- `arr_5x5_indexing` 1차원 어레이의 0번 인덱스의 항목을 10에서 999로 대체.

In [None]:
arr_5x5_indexing[0] = 999
arr_5x5_indexing

array([999,  11,  12,  13,  14,  15])

- 기존 `arr_5x5` 2차원 어레이의 1번 행, 0번 열의 값이 999로 대체되었음을 확인.

In [None]:
arr_5x5

array([[  0,   1,   2,   3,   4,   5],
       [999,  11,  12,  13,  14,  15],
       [ 20,  21,  22,  23,  24,  25],
       [ 30,  31,  32,  33,  34,  35],
       [ 40,  41,  42,  43,  44,  45],
       [ 50,  51,  52,  53,  54,  55]])

### 슬라이싱의 뷰 기능

아래 코드에서 `arr_5x5_slicing`의 항목을 변경하면 변경된 항목에 대응하는 기존 `arr_5x5`의 항목도 함께 달라진다.
즉, 슬라이싱 또한 새로운 어레이를 생성하는 것이 아니라 기존 어레이의 행과 열 인덱스 정보만 활용해서 
마치 새로운 어레이를 생성하는 것처럼 보이게 할 뿐이다.

- `arr_5x5` 2차원 어레이에 대한 행과 열 모두 1번부터 3번까지만 슬라이싱 적용. 결과는 (3, 3) 모양의 2차원 어레이

In [None]:
arr_5x5_slicing = arr_5x5[1:4, 1:4]
arr_5x5_slicing

array([[11, 12, 13],
       [21, 22, 23],
       [31, 32, 33]])

- 슬라이싱으로 생성된 2차원 어레이의 0번 행, 1번 열의 항목을 12에서 3450으로 대체.

In [None]:
arr_5x5_slicing[0, 1] = 3450
arr_5x5_slicing

array([[  11, 3450,   13],
       [  21,   22,   23],
       [  31,   32,   33]])

- 기존 `arr_5x5` 어레이의 1번 행, 2번 열의 항목이 12에서 3450으로 대체되었음 확인.

In [None]:
arr_5x5

array([[   0,    1,    2,    3,    4,    5],
       [ 999,   11, 3450,   13,   14,   15],
       [  20,   21,   22,   23,   24,   25],
       [  30,   31,   32,   33,   34,   35],
       [  40,   41,   42,   43,   44,   45],
       [  50,   51,   52,   53,   54,   55]])

### `copy()` 메서드

인덱싱과 슬라이싱 결과가 기존 어레이와 독립된 새롭게 생성된 어레이가 되도록 하려면 `copy()` 메서드로 사본을 만들어 활용해야 한다.
예를 들어, 아래 코드는 인덱싱 결과의 사본을 생성하면 기존 어레이와 독립된 별도의 어레이로 지정됨을 보여준다.

In [None]:
arr_5x5 = np.array([[ 0,  1,  2,  3,  4,  5],
                    [10, 11, 12, 13, 14, 15],
                    [20, 21, 22, 23, 24, 25],
                    [30, 31, 32, 33, 34, 35],
                    [40, 41, 42, 43, 44, 45],
                    [50, 51, 52, 53, 54, 55]])

In [None]:
arr_5x5_indexing_copy = arr_5x5[2].copy()
arr_5x5_indexing_copy

array([20, 21, 22, 23, 24, 25])

`arr_5x5_indexing_copy`를 변경해도 `arr_5x5`은 영향받지 않는다.

In [None]:
arr_5x5_indexing_copy[1] = 999
arr_5x5_indexing_copy

array([ 20, 999,  22,  23,  24,  25])

In [None]:
arr_5x5

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

아래 코드는 슬라이싱의 사본도 기존 어레이와 독립된 어레이 객체로 생성된다.

In [None]:
arr_5x5_slicing_copy = arr_5x5[1:4, 1:4].copy()
arr_5x5_slicing_copy[0, 1] = 3450
arr_5x5_slicing_copy
arr_5x5

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

### 연습 문제

(1)