# Chapter2 : The Basics of NumPy Arrays

파이썬에서의 데이터 조작은 NumPy 배열 조작과 거의 유사합니다. NumPy 배열 주위에 Pandas (3 장)와 같은 새로운 도구가 추가되었습니다. 이 섹션에서는 NumPy 배열 조작을 사용하여 데이터 및 하위 array에 액세스하고 array을 분할, 변형 및 결합하는 몇 가지 예를 제시합니다. 여기에 표시된 작업 유형은 약간 건조하고 현학적 인 것처럼 보일 수 있지만 책 전반에 걸쳐 사용되는 많은 다른 예제의 구성 요소를 구성합니다. 그들을 잘 알게하십시오!

>**기본 배열 조작에 대한 몇 가지 범주를 여기에서 다룸:**

>1. **배열의 속성** : 배열의 크기, 모양, 메모리 소비 및 데이터 유형 결정
>2. **배열 인덱싱** : 개별 배열 요소 값 가져 오기 및 설정
>3. **배열 분할** : 큰 배열 내에서 더 작은 하위 배열 가져 오기 및 설정
>4. **배열의 모양새 변경** : 주어진 배열의 모양 바꾸기
>5. **배열 결합 및 분할** : 여러 배열을 하나로 결합하고 하나의 배열을 여러 배열로 분할

### 1.  NumPy Array Attributes (배열의 속성)
 

먼저 유용한 배열 속성에 대해 알아 보겠습니다. 우리는 일차원, 이차원 및 삼차원 배열의 세 가지 무작위 배열을 정의하는 것으로 시작합니다. NumPy의 난수 생성기를 사용합니다.이 생성기는이 코드가 실행될 때마다 동일한 무작위 배열이 생성되도록하기 위해 설정 값을 지정합니다.

In [1]:
import numpy as np
np.random.seed(0)  # seed for reproducibility

x1 = np.random.randint(10, size=6)  # One-dimensional array
x2 = np.random.randint(10, size=(3, 4))  # Two-dimensional array
x3 = np.random.randint(10, size=(3, 4, 5))  # Three-dimensional array

array([[[8, 1, 5, 9, 8],
        [9, 4, 3, 0, 3],
        [5, 0, 2, 3, 8],
        [1, 3, 3, 3, 7]],

       [[0, 1, 9, 9, 0],
        [4, 7, 3, 2, 7],
        [2, 0, 0, 4, 5],
        [5, 6, 8, 4, 1]],

       [[4, 9, 8, 1, 1],
        [7, 9, 9, 3, 6],
        [7, 2, 0, 3, 5],
        [9, 4, 4, 6, 4]]])

각 배열에는 ***ndim***(차원 수), ***shape*** (각 차원의 크기) 및 ***size*** (배열의 전체 크기) 속성이 있습니다.

In [9]:
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60


또 다른 유용한 속성은 배열의 데이터 유형 인 dtype입니다 (이전에 파이썬에서 데이터 유형 이해에서 설명했습니다).

In [14]:
print("dtype:", x3.dtype)

dtype: int32


다른 속성에는 각 배열 요소의 크기 (바이트)와 배열의 전체 크기 (바이트)를 나열하는 nbytes를 나열하는 itemsize가 있습니다.

In [16]:
print("itemsize:", x3.itemsize, "bytes")
print("nbytes:", x3.nbytes, "bytes")

itemsize: 4 bytes
nbytes: 240 bytes


일반적으로 nbytes는 itemsize times와 같을 것으로 예상됩니다.

### 2. Array Indexing: Accessing Single Elements (배열 인덱싱)

 Python의 표준 목록 색인 생성에 익숙하다면 NumPy의 색인 생성은 매우 익숙 할 것입니다. 1 차원 배열에서 파이썬리스트와 마찬가지로 원하는 인덱스를 대괄호로 묶어서 (0부터 세는) i-th. 값에 접근 할 수있다.

In [5]:
x1

array([5, 0, 3, 3, 7, 9])

In [18]:
x1[0]

5

In [19]:
x1[4]

7

배열 끝에서부터 색인을 생성하려면 음수 색인을 사용할 수 있습니다.

In [21]:
x1[-1]

9

In [23]:
x1[-2]

7

다차원 배열에서 항목은 쉼표로 구분 된 인덱스의 **튜플**을 사용하여 액세스 할 수 있습니다.

In [24]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [25]:
x2[0,0]

3

In [27]:
x2[2, 0]

1

In [29]:
x2[2, -1]

7

값은 위의 인덱스 표기법 중 하나를 사용하여 수정할 수도 있습니다.

In [32]:
x2[0, 0] = 12
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

> 파이썬리스트와 달리, NumPy 배열은 고정 타입을 가지고 있다는 것을 명심하십시오. 예를 들어 정수 배열에 부동 소수점 값을 삽입하려고하면 값이 자동으로 잘립니다. 이 행동에 대해 모르고 잡히지 마라!

In [33]:
x1[0] = 3.14159  # this will be truncated!
x1

array([3, 0, 3, 3, 7, 9])

### 3. Array Slicing: Accessing Subarrays (배열 분할)


대괄호를 사용하여 개별 배열 요소에 액세스 할 수있는 것처럼 콜론 (:) 문자로 표시된 슬라이스 표기법을 사용하여 하위 배열에 액세스 할 수도 있습니다. NumPy 슬라이싱 구문은 표준 파이썬 목록의 구문을 따릅니다. 배열 x의 슬라이스에 액세스하려면 다음을 사용합니다.

In [None]:
x[start:stop:step]

+ 이들 중 하나가 지정되지 않은 경우 값의 **default** 는 ***start = 0***, ***stop = dimension***의 size, ***step = 1***입니다.
+ stop은 stop 숫자 전까지 출력!!

#### 3.1 One-dimensional subarrays
1 차원과 n 차원에서 하위 배열에 액세스하는 방법을 살펴 보겠습니다.

In [7]:
x = np.arange(10)
x


array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [10]:
x.size

10

In [40]:
x[:5]  # first five elements

array([0, 1, 2, 3, 4])

In [37]:
x[5:]  # elements after index 5

array([5, 6, 7, 8, 9])

In [57]:
x[4:7]  # middle sub-array

array([4, 5, 6])

In [39]:
x[::2]  # every other element

array([0, 2, 4, 6, 8])

In [45]:
x[1::2]  # every other element, starting at index 1

array([1, 3, 5, 7, 9])

잠재적으로 혼란스러운 경우는 단계 값이 ***음수*** 일 때입니다. 이 경우 **start** 및 **stop** 기본값이 바뀝니다. 이렇게하면 배열을 뒤집을 수있는 편리한 방법이됩니다.

In [47]:
x[::-1]  # all elements, reversed

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [88]:
x[5::-2]  # reversed every other from index 5

array([5, 3, 1])

In [11]:
x[start:stop:step]

NameError: name 'start' is not defined

In [102]:
x[1:2]

array([1])

#### 3.2 Multi-dimensional subarrays 

다차원 조각은 쉼표로 구분 된 여러 조각으로 동일한 방식으로 작동합니다. 예 :

In [67]:
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [51]:
x2[:2, :3]  # two rows, three columns

array([[12,  5,  2],
       [ 7,  6,  8]])

In [15]:
x2[:3, ::2]  # all rows, every other column

array([[3, 2],
       [7, 8],
       [1, 7]])

마지막으로,  -  배열 차원도 함께 뒤바뀔 수 있습니다.

In [104]:
x2[::-1, ::-1]

array([[ 7,  7,  6,  1],
       [ 8,  8,  6,  7],
       [ 4,  2,  5, 12]])

#### 3.3Accessing array rows and columns


일반적으로 필요한 루틴 중 하나는 배열의 단일 행 또는 열 액세스입니다. 이는 콜론 (:)으로 표시된 빈 슬라이스를 사용하여 인덱싱과 슬라이싱을 결합하여 수행 할 수 있습니다.

In [106]:
print(x2[:, 0])  # first column of x2

[12  7  1]


In [108]:
print(x2[0, :])  # first row of x2

[12  5  2  4]


행 액세스의 경우, 더 압축 된 구문을 위해 빈 슬라이스를 생략 할 수 있습니다.

In [109]:
print(x2[0])  # equivalent to x2[0, :]

[12  5  2  4]


#### 3.4 Subarrays as no-copy views

배열 슬라이스에 대해 알아야 할 중요하고 매우 유용한 점 중 하나는 배열 데이터의 복사본보다는 뷰를 반환한다는 것입니다. 이것은 NumPy 배열 슬라이스가 파이썬리스트 슬라이싱과 다른 영역입니다. 목록에서 슬라이스는 사본이됩니다. 이전부터 2 차원 배열을 생각해보십시오.

In [111]:
print(x2)

[[12  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


In [None]:
Let's extract a 2×2 subarray from this:

In [112]:
x2_sub = x2[:2, :2]
print(x2_sub)

[[12  5]
 [ 7  6]]



이제이 하위 배열을 수정하면 원래 배열이 변경된 것을 볼 수 있습니다! 관찰하십시오 :

In [113]:
x2_sub[0, 0] = 99
print(x2_sub)

[[99  5]
 [ 7  6]]


In [115]:
print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


이 기본 동작은 실제로 매우 유용합니다. 즉, 대규모 데이터 세트로 작업 할 때 기본 데이터 버퍼를 복사 할 필요없이 이러한 데이터 세트를 액세스하고 처리 할 수 ​​있습니다.


#### 3.5 Creating copies of arrays (배열 복사본 만들기)
배열보기의 멋진 기능에도 불구하고 배열이나 하위 배열 내에서 명시 적으로 데이터를 복사하는 것이 유용한 경우가 있습니다. copy () 메서드를 사용하면이 작업을 가장 쉽게 수행 할 수 있습니다.

In [118]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)

[[99  5]
 [ 7  6]]



이 하위 배열을 수정하면 원래 배열에 영향을주지 않습니다.

In [121]:
x2_sub_copy[0, 0] = 42
print(x2_sub_copy)

[[42  5]
 [ 7  6]]


In [123]:
print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


### 4. Reshaping of Arrays (배열의 변형)


Arrays 재구성 다른 유용한 유형의 조작은 배열의 모양을 변경하는 것입니다. 이렇게하는 가장 유연한 방법은 재 형성 방법입니다. 예를 들어, 1에서 9까지의 숫자를 3x3 격자에 넣으려면 다음을 수행 할 수 있습니다.

In [125]:
grid = np.arange(1, 10).reshape((3, 3))
print(grid)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


이 작업을하려면 초기 배열의 크기가 다시 배열 된 배열의 크기와 일치해야합니다. 가능한 경우, 재 형성 메소드는 초기 배열의 사본 없음 뷰를 사용하지만 비 인접 메모리 버퍼가있는 경우 항상 그렇지는 않습니다.

또 다른 일반적인 재 형성 패턴은 1 차원 배열을 2 차원 행 또는 열 행렬로 변환하는 것입니다. 이것은 reshape 메서드를 사용하거나 슬라이스 작업 내에서 newaxis 키워드를 사용하여보다 쉽게 ​​수행 할 수 있습니다.

In [126]:
x = np.array([1, 2, 3])

# row vector via reshape
x.reshape((1, 3))

array([[1, 2, 3]])

In [127]:
# row vector via newaxis
x[np.newaxis, :]

array([[1, 2, 3]])

In [129]:
# column vector via reshape
x.reshape((3, 1))

array([[1],
       [2],
       [3]])

In [130]:
# column vector via newaxis
x[:, np.newaxis]

array([[1],
       [2],
       [3]])

우리는이 책의 나머지 부분에서 종종 이런 유형의 변형을 볼 것입니다.

### 5. Array Concatenation and Splitting (배열 결합 및 분할)


이전의 모든 루틴은 단일 배열에서 작동했습니다. 또한 여러 어레이를 하나로 결합 할 수 있으며 반대로 단일 어레이를 여러 어레이로 분할 할 수도 있습니다. 여기에있는 작업을 살펴 보겠습니다.

#### 5.1 Concatenation of arrays (배열 결합)

NumPy에서 두 개의 배열을 연결하거나 결합하는 것은 기본적 메서드

1. ***np.concatenate***
2. ***np.vstack***
3. ***np.hstack*** 

> np.concatenate는 첫 번째 인수로 튜플 또는 배열 목록을 사용합니다. 여기에서 알 수 있습니다.

In [132]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])


한 번에 두 개 이상의 배열을 연결할 수도 있습니다.

In [134]:
z = [99, 99, 99]
print(np.concatenate([x, y, z]))

[ 1  2  3  3  2  1 99 99 99]



2 차원 배열에도 사용할 수 있습니다.

In [142]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])

# concatenate along the first axis
np.concatenate([grid, grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [143]:
# concatenate along the second axis (zero-indexed)
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])


>혼합 된 차원의 배열로 작업 할 때는 np.vstack (수직 스택) 및 np.hstack (수평 스택) 함수를 사용하는 것이 더 명확합니다.

In [146]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])

# vertically stack the arrays
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [148]:
# horizontally stack the arrays
y = np.array([[99],
              [99]])
np.hstack([grid, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])


Similary, ***np.dstack***은 세 번째 축을 따라 배열을 쌓을 것입니다.

#### 5.2 Splitting of arrays (배열 분할)


결합의 반대는 분할입니다.
1. **np.split**
2. **np.hsplit**
3. **np.vsplit** 

각각에 대해 분할 점을 제공하는 인덱스 목록을 전달할 수 있습니다.

In [149]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]



N 개의 분할 점은 N + 1 개의 하위 배열로 연결됩니다. 관련 함수 인 np.hsplit 및 np.vsplit도 비슷합니다.

In [21]:
grid = np.arange(16).reshape((4, 4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [26]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [23]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


In [22]:
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

마찬가지로 np.dsplit은 세 번째 축을 따라 배열을 분할합니다.