# NumPy Indexing and Selection

In this lecture we will discuss how to select elements or groups of elements from an array.\

지난 시간에서 NumPy의 array자료형에는 index가 있다는 것을 argmax,argmin을 통해 알 수 있었습니다.

이번단원에서는 index를 활용하는 방법을 알아봅시다

In [1]:
import numpy as np

In [2]:
#Creating sample array
arr = np.arange(0,11)

In [3]:
#Show
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

## Bracket Indexing and Selection
The simplest way to pick one or some elements of an array looks very similar to python lists:

In [4]:
#Get a value at an index
#대괄호안에 index를 넣으면 해당 값을 리턴해줍니다
arr[8]

8

In [5]:
#Get values in a range
#arr[start_index : stop_index] 는 start_index와 stop_index 사이에 있는 요소들을 리턴해줍니다.
#단 start_index는 포함하지만 stop_index는 포함하지 않습니다
#1번 index부터 5번 index사이에 있는 값들을 볼 수 있습니다.
arr[1:5]

array([1, 2, 3, 4])

In [6]:
#Get values in a range
arr[0:5]

array([0, 1, 2, 3, 4])

In [7]:
arr[0:6]

array([0, 1, 2, 3, 4, 5])

In [8]:
#start_index를 비워놓으면 자동으로 처음부터 시작합니다.
arr[:5]

array([0, 1, 2, 3, 4])

In [9]:
#end_index를 비워놓으면 자동으로 끝까지 갑니다.
arr[5:]

array([ 5,  6,  7,  8,  9, 10])

## Broadcasting

Numpy arrays differ from a normal Python list because of their ability to broadcast:

In [10]:
#Setting a value with index range (Broadcasting)
#영역을 정해놓고 해당영역의 모든 값을 변경할 수 있습니다.(브로드캐스팅)
arr[0:5]=100

#Show
arr

array([100, 100, 100, 100, 100,   5,   6,   7,   8,   9,  10])

In [11]:
# Reset array, we'll see why I had to reset in  a moment
arr = np.arange(0,11)

#Show
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [12]:
#Important notes on Slices
#array의 일부만 잘라내어 다른 변수로 접근할 수 있도록 만들 수 있습니다.
slice_of_arr = arr[0:6]

#Show slice
slice_of_arr

array([0, 1, 2, 3, 4, 5])

In [13]:
#Change Slice
#index값이 모두 비어있으면 전체를 선택한것과 같은 효과입니다.
slice_of_arr[:]=99

#Show Slice again
slice_of_arr

array([99, 99, 99, 99, 99, 99])

Now note the changes also occur in our original array!

slice된 array는 값을 복사하여 만들어지는 것이 아니라 보는 영역만 다르다는 것에 주목해주시길 바랍니다.

In [14]:
#원래의 array에도 영향을 미치는 것을 확인할 수 있습니다.
arr

array([99, 99, 99, 99, 99, 99,  6,  7,  8,  9, 10])

Data is not copied, it's a view of the original array! This avoids memory problems!

In [15]:
#To get a copy, need to be explicit
#이번에는 복사해봅시다
arr_copy = arr.copy()

arr_copy

array([99, 99, 99, 99, 99, 99,  6,  7,  8,  9, 10])

In [16]:
arr_copy[:] = 100

In [17]:
#값을 변경했습니다.
arr_copy

array([100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100])

In [18]:
#복사해서 만든것은 원래의 array에 영향을 미치지 않습니다.
arr

array([99, 99, 99, 99, 99, 99,  6,  7,  8,  9, 10])

## Indexing a 2D array (matrices)

The general format is **arr_2d[row][col]** or **arr_2d[row,col]**. I recommend usually using the comma notation for clarity.

In [19]:
#2차원 array를 만들고 index를 활용하는 방법을 알아봅시다.
#2차원 array는 보기에는 2차원 행렬(matrix)과 비슷해보입니다.
arr_2d = np.array(([5,10,15],[20,25,30],[35,40,45]))

#Show
arr_2d

array([[ 5, 10, 15],
       [20, 25, 30],
       [35, 40, 45]])

In [20]:
#Indexing row
#두번째 행을 가져옵니다 (index는 항상 0부터 시작)
arr_2d[1]


array([20, 25, 30])

In [21]:
# Format is arr_2d[row][col] or arr_2d[row,col]

# Getting individual element value
# 행과 열을 모두 지정할 수도 있습니다.
arr_2d[1][0]

20

In [22]:
# Getting individual element value
# 다른 표기방법입니다. 같은 작업을 수행합니다.
arr_2d[1,0]

20

In [23]:
# 2D array slicing

#Shape (2,2) from top right corner
#콤마를 기준으로 왼쪽은 행, 오른쪽은 열입니다.
#행은 처음부터 시작하고 end_index=2까지입니다. 즉, 3번째 행을 포함하지 않습니다.
#열은 start_index = 1부터 시작해서 끝까지입니다. 따라서, 1번째 열을 포함하지 않습니다.

arr_2d[:2,1:]

array([[10, 15],
       [25, 30]])

In [24]:
#Shape bottom row
arr_2d[2]

array([35, 40, 45])

In [25]:
#Shape bottom row
arr_2d[2,:]

array([35, 40, 45])

### Fancy Indexing

Fancy indexing allows you to select entire rows or columns out of order,to show this, let's quickly build out a numpy array:

이 부분은 심도있는 이해를 위한 부분입니다. 

수업에서는 이 부분을 함께 다루지 않습니다.

수업은 아래의 'Selection'으로 이어집니다.

In [44]:
#Set up matrix
#2차원 array는 2차원 행렬처럼 사용할 수 있습니다.
arr2d = np.zeros((10,10))
arr2d

array([[ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.]])

In [27]:
#Length of array
#arr2d_shape = (10,10) 입니다.
#여기서 첫번째값만 가져오면 arr_length는 arr의 행의 갯수를 나타내게 됩니다.
arr_length = arr2d.shape[1]
arr_length

10

In [28]:
#Set up array
#arr_2d의 각 행의 값들을 index값과 같게 세팅해줍니다.
for i in range(arr_length):
    arr2d[i] = i
    
arr2d

array([[ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
       [ 2.,  2.,  2.,  2.,  2.,  2.,  2.,  2.,  2.,  2.],
       [ 3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.],
       [ 4.,  4.,  4.,  4.,  4.,  4.,  4.,  4.,  4.,  4.],
       [ 5.,  5.,  5.,  5.,  5.,  5.,  5.,  5.,  5.,  5.],
       [ 6.,  6.,  6.,  6.,  6.,  6.,  6.,  6.,  6.,  6.],
       [ 7.,  7.,  7.,  7.,  7.,  7.,  7.,  7.,  7.,  7.],
       [ 8.,  8.,  8.,  8.,  8.,  8.,  8.,  8.,  8.,  8.],
       [ 9.,  9.,  9.,  9.,  9.,  9.,  9.,  9.,  9.,  9.]])

Fancy indexing allows the following

In [29]:
#괄호안에 list를 넣어서 원하는 행만 가져올 수 있습니다.
arr2d[[2,4,6,8]]

array([[ 2.,  2.,  2.,  2.,  2.,  2.,  2.,  2.,  2.,  2.],
       [ 4.,  4.,  4.,  4.,  4.,  4.,  4.,  4.,  4.,  4.],
       [ 6.,  6.,  6.,  6.,  6.,  6.,  6.,  6.,  6.,  6.],
       [ 8.,  8.,  8.,  8.,  8.,  8.,  8.,  8.,  8.,  8.]])

In [30]:
#Allows in any order
arr2d[[6,4,2,7]]

array([[ 6.,  6.,  6.,  6.,  6.,  6.,  6.,  6.,  6.,  6.],
       [ 4.,  4.,  4.,  4.,  4.,  4.,  4.,  4.,  4.,  4.],
       [ 2.,  2.,  2.,  2.,  2.,  2.,  2.,  2.,  2.,  2.],
       [ 7.,  7.,  7.,  7.,  7.,  7.,  7.,  7.,  7.,  7.]])

## More Indexing Help
Indexing a 2d matrix can be a bit confusing at first, especially when you start to add in step size. Try google image searching NumPy indexing to fins useful images, like this one:

<img src= 'http://memory.osu.edu/classes/python/_images/numpy_indexing.png' width=500/>

## Selection

Let's briefly go over how to use brackets for selection based off of comparison operators.

지금부터는 비교연산자를 이용하여 boolean타입의 array를 리턴받는 방법을 알아보겠습니다.

In [31]:
arr = np.arange(1,11)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [32]:
#arr에 있는 값들을 각각 5보다 큰지 검사합니다. 
arr > 5

array([False, False, False, False, False,  True,  True,  True,  True,  True], dtype=bool)

In [33]:
#이 결과값을 다른 변수에 저장할 수 있습니다.
bool_arr = arr>5

In [34]:
bool_arr

array([False, False, False, False, False,  True,  True,  True,  True,  True], dtype=bool)

In [35]:
#boolean타입의 array를 index에 대입하여 True에 해당하는 값들만 리턴받을 수 있습니다.
arr[bool_arr]

array([ 6,  7,  8,  9, 10])

In [36]:
#비교식을 바로 괄호안에 넣어서 같은 결과를 얻을 수도 있습니다.
arr[arr>5]

array([ 6,  7,  8,  9, 10])

In [37]:
arr[arr<3]

array([1, 2])

In [38]:
x = 2
arr[arr>x]

array([ 3,  4,  5,  6,  7,  8,  9, 10])

## Practice

In [39]:
arr_2d = np.arange(50).reshape(5,10)

In [40]:
arr_2d

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49]])

In [41]:
# 13,14,23,24 만 가져와보겠습니다.

In [42]:
#우선 행은 1번 index와 2번 index를 가져와야 합니다.
arr_2d[1:3]

array([[10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29]])

In [43]:
#콤마를 찍고 어느 열을 가져올지 정해줍니다.
#열은 3번과 4번을 가져옵니다.
arr_2d[1:3,3:5]

array([[13, 14],
       [23, 24]])

# Great Job!
