## indexing, slicing, broadcasting

In [4]:
## Numpy practice
## 2021.01.27
## JeongHyeon Kim

In [5]:
import numpy as np

## Single element indexing

In [11]:
# 하나의 인덱싱 번호를 가지고 데이터 하나 가져오기
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [10]:
x[2]

2

In [12]:
x[-2]

8

In [13]:
x.shape = (2, 5)

In [15]:
x

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [16]:
x[1, 3]

8

In [17]:
x[1, -1]

9

In [18]:
x[0]

array([0, 1, 2, 3, 4])

In [19]:
x[0][2]

2

## Other indexing options - slcing

In [21]:
x = np.arange(10)

In [22]:
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [24]:
# 2,3,4 가져오기
x[2:5]

array([2, 3, 4])

In [26]:
# 처음부터 긑나기 -7까지 데이터출력
x[:-7]

array([0, 1, 2])

In [27]:
# 마지막 -5부터 -1까지 데이터 출력
x[-5:-1]

array([5, 6, 7, 8])

In [28]:
x[1:7:2] # 뒤의 :2는 step이다.

array([1, 3, 5])

In [29]:
y = np.arange(35).reshape(5,7)

In [31]:
y.shape

(5, 7)

In [33]:
y[1:5:2, ::3] # :: 전체데이터를 의미

array([[ 7, 10, 13],
       [21, 24, 27]])

## deep copy

In [34]:
# Numpy에서는 데이터를 복사하여 수정하면 원본까지 같이 수정됨
# 이는 Nunpy가 대용량 데이터 처리를 염두에 두고 설계되었기 때문임

In [35]:
a = np.arange(12)

In [36]:
b = a

In [37]:
b is a

True

In [38]:
id(b)

2369687490688

In [40]:
id(a)
# a와 b 메모리 주소값이 같음

2369687490688

In [41]:
tmp = a[1:5]

In [42]:
tmp

array([1, 2, 3, 4])

In [43]:
tmp[1] = 1000

In [44]:
tmp

array([   1, 1000,    3,    4])

In [45]:
a

array([   0,    1, 1000,    3,    4,    5,    6,    7,    8,    9,   10,
         11])

In [47]:
tmp[:]= 200

In [48]:
tmp

array([200, 200, 200, 200])

In [51]:
a

# slice된 데이터는 원본 데이터의 views이다.
# 즉, 원본 데이터가 변경되면 views의 내용도 같이 바뀐다. 같은 데이터를 바라보고 있기 때문

array([  0, 200, 200, 200, 200,   5,   6,   7,   8,   9,  10,  11])

In [53]:
b
# view 메소드는 동일한 데이터를 바라보는 새로운 배열을 생성

array([  0, 200, 200, 200, 200,   5,   6,   7,   8,   9,  10,  11])

In [54]:
c = a.view()

In [55]:
c

array([  0, 200, 200, 200, 200,   5,   6,   7,   8,   9,  10,  11])

In [56]:
c is a

False

In [57]:
id(c)
# a랑 메모리 주소가 다름

2369687032336

In [58]:
c[2] = 999

In [59]:
c

array([  0, 200, 999, 200, 200,   5,   6,   7,   8,   9,  10,  11])

In [60]:
a

array([  0, 200, 999, 200, 200,   5,   6,   7,   8,   9,  10,  11])

In [61]:
c.shape = (2,6)

In [62]:
c

array([[  0, 200, 999, 200, 200,   5],
       [  6,   7,   8,   9,  10,  11]])

In [64]:
c[0, 4] = 1234

In [65]:
a

array([   0,  200,  999,  200, 1234,    5,    6,    7,    8,    9,   10,
         11])

In [66]:
b.shape = (6,2)

In [67]:
b

array([[   0,  200],
       [ 999,  200],
       [1234,    5],
       [   6,    7],
       [   8,    9],
       [  10,   11]])

In [68]:
a

array([[   0,  200],
       [ 999,  200],
       [1234,    5],
       [   6,    7],
       [   8,    9],
       [  10,   11]])

In [69]:
# view 메소드를 사용하면 구조를 변경하면 view로 생성된 객체는 동일한 데이터를 바라보지만
# 구조 변경은 가능. 원본 데이터 구조는 안바뀜. 하지만, 데이터를 변경하면 같이 바뀜
# b는 할당연산자로 복사된 것이기에 구조를 바꾸면 원본도 구조가 바뀜

In [70]:
# 원본을 살리고 싶으면 copy()메소드를 사용하면 된다.

In [71]:
d = a.copy()

In [72]:
d is a

False

In [73]:
id(d)

2369685639616

In [74]:
id(a)

2369687490688

In [75]:
a

array([[   0,  200],
       [ 999,  200],
       [1234,    5],
       [   6,    7],
       [   8,    9],
       [  10,   11]])

In [76]:
d

array([[   0,  200],
       [ 999,  200],
       [1234,    5],
       [   6,    7],
       [   8,    9],
       [  10,   11]])

In [78]:
a[1,1] = 1000

In [79]:
a

array([[   0,  200],
       [ 999, 1000],
       [1234,    5],
       [   6,    7],
       [   8,    9],
       [  10,   11]])

In [80]:
d

array([[   0,  200],
       [ 999,  200],
       [1234,    5],
       [   6,    7],
       [   8,    9],
       [  10,   11]])

## Index arrays

In [81]:
x = np.arange(10, 1, -1)

In [82]:
x

array([10,  9,  8,  7,  6,  5,  4,  3,  2])

In [87]:
x[np.array([3,3,1,8])]

array([7, 7, 9, 2])

In [89]:
x[[3, 3, 1, 8]]

array([7, 7, 9, 2])

In [91]:
x[np.array([[1,1,1], [2,3,3]])]

(2, 3)

In [93]:
x[np.array([[1,1,1], [2,3,3]])].shape

(2, 3)

In [94]:
x[[[1,1,1], [2,3,3]]]
# 다중의 경우, 기존의 list로 하면 에러가 남

  x[[[1,1,1], [2,3,3]]]


IndexError: too many indices for array: array is 1-dimensional, but 2 were indexed

## Indexing Multi-dimensional arrays

In [96]:
y = np.arange(35).reshape(5,7)

In [97]:
y

array([[ 0,  1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12, 13],
       [14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27],
       [28, 29, 30, 31, 32, 33, 34]])

In [99]:
y[np.array([0,2,4]), np.array([0,1,2])]

array([ 0, 15, 30])

In [100]:
y[np.array([0,2,4]), np.array([0,1])]
# 구조가 다르면 에러가 남

IndexError: shape mismatch: indexing arrays could not be broadcast together with shapes (3,) (2,) 

In [101]:
y[np.array([0,2,4]), 1]

array([ 1, 15, 29])

In [107]:
y[np.array([0,2,4]), ]

array([[ 0,  1,  2,  3,  4,  5,  6],
       [14, 15, 16, 17, 18, 19, 20],
       [28, 29, 30, 31, 32, 33, 34]])

## Boolean or "mask" index arrays

In [108]:
b = y>20

In [109]:
b

array([[False, False, False, False, False, False, False],
       [False, False, False, False, False, False, False],
       [False, False, False, False, False, False, False],
       [ True,  True,  True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True,  True,  True]])

In [110]:
y[b]

array([21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34])

In [113]:
b[:,5]

array([False, False, False,  True,  True])

In [117]:
y[b[:,5]]

array([[21, 22, 23, 24, 25, 26, 27],
       [28, 29, 30, 31, 32, 33, 34]])

In [118]:
x = np.arange(30).reshape(2,3,5)

In [119]:
x

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14]],

       [[15, 16, 17, 18, 19],
        [20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29]]])

In [120]:
x.shape

(2, 3, 5)

In [121]:
b = np.array([[True, True, False], [False, True, True]])

In [124]:
b

array([[ True,  True, False],
       [False,  True,  True]])

In [123]:
x[b]

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

In [138]:
np.random.seed(42)
data = np.random.rand(7, 4)

In [139]:
data

array([[0.37454012, 0.95071431, 0.73199394, 0.59865848],
       [0.15601864, 0.15599452, 0.05808361, 0.86617615],
       [0.60111501, 0.70807258, 0.02058449, 0.96990985],
       [0.83244264, 0.21233911, 0.18182497, 0.18340451],
       [0.30424224, 0.52475643, 0.43194502, 0.29122914],
       [0.61185289, 0.13949386, 0.29214465, 0.36636184],
       [0.45606998, 0.78517596, 0.19967378, 0.51423444]])

In [141]:
data > 0.5

array([[False,  True,  True,  True],
       [False, False, False,  True],
       [ True,  True, False,  True],
       [ True, False, False, False],
       [False,  True, False, False],
       [ True, False, False, False],
       [False,  True, False,  True]])

In [142]:
data[data>0.5]

array([0.95071431, 0.73199394, 0.59865848, 0.86617615, 0.60111501,
       0.70807258, 0.96990985, 0.83244264, 0.52475643, 0.61185289,
       0.78517596, 0.51423444])

In [143]:
name = np.array(['a','b','c','d','e','f','g'])

In [144]:
name == 'c'

array([False, False,  True, False, False, False, False])

In [147]:
data[name == 'c', :]

array([[0.60111501, 0.70807258, 0.02058449, 0.96990985]])

In [148]:
data[name == 'f', 1:3]

array([[0.13949386, 0.29214465]])

In [149]:
name != 'f'

array([ True,  True,  True,  True,  True, False,  True])

In [150]:
data[name != 'f']

array([[0.37454012, 0.95071431, 0.73199394, 0.59865848],
       [0.15601864, 0.15599452, 0.05808361, 0.86617615],
       [0.60111501, 0.70807258, 0.02058449, 0.96990985],
       [0.83244264, 0.21233911, 0.18182497, 0.18340451],
       [0.30424224, 0.52475643, 0.43194502, 0.29122914],
       [0.45606998, 0.78517596, 0.19967378, 0.51423444]])

In [152]:
# |: or
# &: and
data[(name == 'a') | (name == 'b')]
# 해당 예제에서 and, or은 불리언 배열에서 사용할 수 없음

array([[0.37454012, 0.95071431, 0.73199394, 0.59865848],
       [0.15601864, 0.15599452, 0.05808361, 0.86617615]])

## broadcasting

In [153]:
# 브로드 캐스팅은 다른 모양의 배열 간 산술연산을 처리하는 것을 의미
# 벡터 연산은 브로드캐스팅 연산을 의미
# 불필요한 데이터 복사본을 만들지 않고 이 작업을 수행하기 때문에 효율적

In [154]:
x = np.arange(4)

In [155]:
x

array([0, 1, 2, 3])

In [156]:
xx = x.reshape(4,1)

In [157]:
xx

array([[0],
       [1],
       [2],
       [3]])

In [158]:
y = np.ones(5)

In [159]:
y

array([1., 1., 1., 1., 1.])

In [160]:
z = np.ones((3,4))

In [161]:
z

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [162]:
x.shape

(4,)

In [163]:
y.shape

(5,)

In [164]:
x + y

ValueError: operands could not be broadcast together with shapes (4,) (5,) 

In [165]:
xx.shape

(4, 1)

In [166]:
y + xx

array([[1., 1., 1., 1., 1.],
       [2., 2., 2., 2., 2.],
       [3., 3., 3., 3., 3.],
       [4., 4., 4., 4., 4.]])

In [167]:
x

array([0, 1, 2, 3])

In [168]:
z

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [169]:
x + z

array([[1., 2., 3., 4.],
       [1., 2., 3., 4.],
       [1., 2., 3., 4.]])

In [173]:
y1 = np.arange(3).reshape(3,1)

In [175]:
y1

array([[0],
       [1],
       [2]])

In [176]:
y1 + z

array([[1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.]])

## broadcasting rules

In [178]:
# 각차원에 대해 축의 길이가 같거나, 둘 중 하나의 길이가 1일 때 수행

In [180]:
np.random.seed(42)
arr = np.random.rand(4, 3)

In [181]:
arr

array([[0.37454012, 0.95071431, 0.73199394],
       [0.59865848, 0.15601864, 0.15599452],
       [0.05808361, 0.86617615, 0.60111501],
       [0.70807258, 0.02058449, 0.96990985]])

In [182]:
arr.mean(0) # 0이면 세로

array([0.4348387 , 0.4983734 , 0.61475333])

In [183]:
arr.mean(1) # 1이면 가로

array([0.68574946, 0.30355721, 0.50845826, 0.56618897])

In [186]:
np.mean(arr[:, 0])

0.434838698252161

In [187]:
arr[0, :]

array([0.37454012, 0.95071431, 0.73199394])

In [188]:
np.mean(arr[0, :])

0.6857494556895612

In [189]:
arr - arr.mean(0)

array([[-0.06029858,  0.45234091,  0.11724061],
       [ 0.16381979, -0.34235476, -0.45875881],
       [-0.37675509,  0.36780275, -0.01363832],
       [ 0.27323388, -0.4777889 ,  0.35515652]])

In [191]:
arr - arr.mean(1).reshape(4,1)

array([[-0.31120934,  0.26496485,  0.04624449],
       [ 0.29510127, -0.14753857, -0.14756269],
       [-0.45037464,  0.35771789,  0.09265676],
       [ 0.1418836 , -0.54560448,  0.40372088]])