# The Basics of NumPy Arrays

다음과 같이 NumPy Array opeartion들을 살펴보자.

- *Attributes of arrays*: Determining the size, shape, memory consumption, and data types of arrays
- *Indexing of arrays*: Getting and setting the value of individual array elements
- *Slicing of arrays*: Getting and setting smaller subarrays within a larger array
- *Reshaping of arrays*: Changing the shape of a given array
- *Joining and splitting of arrays*: Combining multiple arrays into one, and splitting one array into many

## NumPy Array Attributes

편의상 1, 2, 3차원 random array를 생성하여 살펴보자. 

In [3]:
import numpy as np
np.random.seed(0)  # seed for reproducibility

x1 = np.random.randint(10, size=6)  # One-dimensional array
x2 = np.random.randint(10, size=(3, 4))  # Two-dimensional array
x3 = np.random.randint(10, size=(3, 4, 5))  # Three-dimensional array

``ndim`` (the number of dimensions), ``shape`` (the size of each dimension), and ``size`` (the total size of the array)와 같은 유용한 attribute가 있다.

In [2]:
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60


앞에서 배운 ``dtype``도 있다.

In [3]:
print("dtype:", x3.dtype)

dtype: int64


``itemsize`` : 한 개 element의 size (in bytes)

``nbytes``: array 전체 size (in bytes). ``nbytes= itemsize`` $\times$ ``size``

In [4]:
print("itemsize:", x3.itemsize, "bytes")
print("nbytes:", x3.nbytes, "bytes")

itemsize: 8 bytes
nbytes: 480 bytes


## Array Indexing: Accessing Single Elements

0부터 indext가 시작하며 [ ]을 사용한다. 

In [5]:
x1

array([5, 0, 3, 3, 7, 9])

In [6]:
x1[0]

5

In [7]:
x1[4]

7

음수도 가능하다.

In [8]:
x1[-1]

9

In [9]:
x1[-2]

7

Multi-dimensional array에서는 comma(,)를 사용하여 index 튜플로 표현한다.

In [10]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [11]:
x2[0, 0]

3

In [12]:
x2[2, 0]

1

In [13]:
x2[2, -1]

7

In [14]:
x2[0, 0] = 12
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

Fixed-type array이므로 다음과 같이 강제로 정보손실이 발생할 수 있다.

In [15]:
x1

array([5, 0, 3, 3, 7, 9])

In [16]:
x1[0] = 3.14159  # this will be truncated!
x1

array([3, 0, 3, 3, 7, 9])

## Array Slicing: Accessing Subarrays

NumPy slicing syntax 
``` python
x[start:stop:step]
```
값이 정해지지 않았다면 ``start=0``, ``stop=``*``size of dimension``*, ``step=1``와 같이 default값이 사용된다.

### One-dimensional subarrays

In [17]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [18]:
x[:5]  # first five elements

array([0, 1, 2, 3, 4])

In [19]:
x[5:]  # elements after index 5

array([5, 6, 7, 8, 9])

In [20]:
x[4:7]  # middle sub-array

array([4, 5, 6])

In [21]:
x[::2]  # every other element

array([0, 2, 4, 6, 8])

In [22]:
x[1::2]  # every other element, starting at index 1

array([1, 3, 5, 7, 9])

``step``이 음수인 경우  역순 array를 생성하며 이 때 ``start`` 과 ``stop``의 default값은 서로 바뀐다. 

In [23]:
x[::-1]  # all elements, reversed

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [24]:
x[5::-2]  # reversed every other from index 5

array([5, 3, 1])

### Multi-dimensional subarrays

Multi-dimensional slice도 같은 원리로 만들 수 있으며 comma를 통해 차원을 구분한다.

In [25]:
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [26]:
x2[:2, :3]  # two rows, three columns

array([[12,  5,  2],
       [ 7,  6,  8]])

In [27]:
x2[:3, ::2]  # all rows, every other column

array([[12,  2],
       [ 7,  8],
       [ 1,  7]])

In [28]:
x2[::-1, ::-1]

#x2'[i,j] = x2[N-i, M-j]
# x2의 가로(행)가 M, 세로(열)가 N

array([[ 7,  7,  6,  1],
       [ 8,  8,  6,  7],
       [ 4,  2,  5, 12]])

#### Accessing array rows and columns

특정 row와 column을 다음과 같이 잘라낼 수 있다. 

In [29]:
print(x2[:, 0])  # first column of x2

[12  7  1]


In [30]:
print(x2[0, :])  # first row of x2

[12  5  2  4]


특히 row를 잘라내는 경우,  empty slice (:) 를 생략할 수 있다. 

In [31]:
print(x2[0])  # equivalent to x2[0, :]

[12  5  2  4]


### Subarrays as no-copy views

***중요)***
NumPy에서의 slice subarray는 새로운 copy가 아니다. (Python list와 다른 점)
즉, Data science에서 대량의 데이터를 slice하여 변경하면 전체 array에도 변경이 된다.

In [32]:
print(x2)

[[12  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


Let's extract a $2 \times 2$ subarray from this:

In [33]:
x2_sub = x2[:2, :2]
print(x2_sub)

[[12  5]
 [ 7  6]]


Now if we modify this subarray, we'll see that the original array is changed! Observe:

In [34]:
x2_sub[0, 0] = 99
print(x2_sub)
# deep copy 가 아님(메모리 할당을 하지 않고 필요한 자료만 뽑아 오기 위해 numpy사용)

[[99  5]
 [ 7  6]]


In [35]:
print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


This default behavior is actually quite useful: it means that when we work with large datasets, we can access and process pieces of these datasets without the need to copy the underlying data buffer.

### Creating copies of arrays

만약, copy를 수행하고 싶다면  ``copy()`` method를 사용한다.

In [36]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)

[[99  5]
 [ 7  6]]


In [37]:
x2_sub_copy[0, 0] = 42
print(x2_sub_copy)

[[42  5]
 [ 7  6]]


In [38]:
print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


## Reshaping of Arrays

Array의 shape를 변경할 수 있다. Shape는 사이즈를 의미

In [4]:
np.arange(1,10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [39]:
grid = np.arange(1, 10).reshape((3, 3))
print(grid)
#reshape도 중요

[[1 2 3]
 [4 5 6]
 [7 8 9]]


또한 1-dim array를 2-dim row 혹은 column matrix로 바꿀 수 있다. 

In [40]:
x = np.array([1, 2, 3]) #1차원

# row vector via reshape
x.reshape((1, 3)) #2차원 / []는 차원을 표시하는 것

array([[1, 2, 3]])

In [41]:
# row vector via newaxis
x[np.newaxis, :]

array([[1, 2, 3]])

In [42]:
# column vector via reshape
x.reshape((3, 1))

array([[1],
       [2],
       [3]])

In [43]:
# column vector via newaxis
x[:, np.newaxis]

array([[1],
       [2],
       [3]])

## Array Concatenation and Splitting


### Concatenation of arrays

여러 array의 concatenation/joining : ``np.concatenate``, ``np.vstack``, ``np.hstack``을 사용한다. 

In [44]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

In [45]:
z = [99, 99, 99]
print(np.concatenate([x, y, z]))

[ 1  2  3  3  2  1 99 99 99]


In [46]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])

In [47]:
# concatenate along the first axis
np.concatenate([grid, grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [48]:
# concatenate along the second axis (zero-indexed)
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

 ``np.vstack`` (vertical stack) 과 ``np.hstack`` (horizontal stack) 함수를 사용할 수도 있다. 

In [49]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])

# vertically stack the arrays
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [50]:
# horizontally stack the arrays
y = np.array([[99],
              [99]])
np.hstack([grid, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

보다 높은 차원에서는 ``np.dstack`` 를 사용할 수 있다.

### Splitting of arrays

한 array를 여러 array로 splitting : ``np.split``, ``np.hsplit``,  ``np.vsplit``함수를 사용한다. 

In [51]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


*N* split-point가 주어지면  *N + 1* subarray가 만들어진다.

``np.hsplit`` 과  ``np.vsplit`` 함수의 기능도 이해할 수 있다.

In [52]:
grid = np.arange(16).reshape((4, 4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [53]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [54]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


마찬가지로 ``np.dsplit``을 통해 보다 높은 차원도 split할 수 있다. 