In [1]:
import numpy as np
import pandas as pd

# nadarray 객체 구조

In [2]:
np.ones((10,5)).shape

(10, 5)

In [3]:
np.ones((10,5)).strides

(40, 8)

In [4]:
np.ones((3,4,5),dtype=np.float64).strides

(160, 40, 8)

NumPy dtype 구조 (p590 그림 A-2를 참고하시오)

In [9]:
# dtype은 np.issubdtype 함수와 결합하여 사용할 수 있는 np.integer나 np.floating 같은 부모 클래스를 가진다.

ints = np.ones(10,dtype=np.uint16)
floats = np.ones(10,dtype=np.float32)

np.issubdtype(ints.dtype, np.integer)

True

In [11]:
np.issubdtype(floats.dtype, np.floating)

True

In [12]:
# 특정 dtype의 모든 부모 클래스는 mro 메서드를 이용해서 확인할 수 있다.

np.float64.mro()

[numpy.float64,
 numpy.floating,
 numpy.inexact,
 numpy.number,
 numpy.generic,
 float,
 object]

In [13]:
np.float32.mro()

[numpy.float32,
 numpy.floating,
 numpy.inexact,
 numpy.number,
 numpy.generic,
 object]

In [14]:
np.issubdtype(ints.dtype, np.number)

True

In [15]:
np.int64.mro()

[numpy.int64,
 numpy.signedinteger,
 numpy.integer,
 numpy.number,
 numpy.generic,
 object]

# 고급 배열 조작 기법

배열 재형성하기

In [16]:
# reshape 메서드

arr = np.arange(8)
arr.reshape((4,2))    
# arr.reshape((4,3),order=?) 
# order = 'C' --> 로우 우선     order = 'F' --> 컬럼 우선

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [18]:
# 다차원 배열 역시 재형성이 가능

arr.reshape((4,2)).reshape((2,4))

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [21]:
# -1을 넘길 수도 있는데 이 때는 원본 데이터를 참조해서 적절한 값을 추론하게 된다.

arr = np.arange(15).reshape((5,-1))
arr

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [22]:
# shape 속성은 튜플이기 때문에 reshape 메서드에 이를 직접 넘기는 것도 가능하다.

other_arr = np.ones((3,5))
arr.reshape(other_arr.shape)   # other_arr.shape --> (3,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [185]:
# 다차원 배열을 낮은 차원으로 변환하는 것을 평탄화(flattening, raveling)라고 한다.

arr = np.arange(15).reshape((3,5))

arr.ravel()   # ravel 메서드 주목

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [24]:
arr.flatten()  
# ravel 메서드는 필요하지 않다면 원본 데이터의 복사본을 생성하지 않는다.
# flatten 메서드는 ravel과 유사하나 항상 데이터 복사본을 반환한다.

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

C 순서와 포트란 순서

In [25]:
arr = np.arange(12).reshape((3,4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [26]:
arr.ravel()   # 기본 값은 'C'

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [27]:
arr.ravel('F')     #포트란 순서 (컬럼 우선 순서)

array([ 0,  4,  8,  1,  5,  9,  2,  6, 10,  3,  7, 11])

배열 이어붙이고 나누기 (concatenate,split)

In [30]:
arr1 = np.array([[1,2,3],[4,5,6]])
arr2 = np.array([[7,8,9],[10,11,12]])

np.concatenate([arr1,arr2],axis=0)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [31]:
np.concatenate([arr1,arr2],axis=1)

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [32]:
# vstack과 hstack 함수 이용

np.vstack((arr1,arr2))     # axis = 0으로 쌓음, row_stack

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [33]:
np.hstack((arr1,arr2))    # axis = 1로 쌓음

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [41]:
# column_stack은 hstack과 같지만 1차원 배열을 2차원 컬럼 벡터로 먼저 변환시킨다.
np.column_stack(np.arange(8))

array([[0, 1, 2, 3, 4, 5, 6, 7]])

In [None]:
# dstack은 깊이(axis = 2)에 따라 배열을 쌓는다.

In [42]:
# split메서드로 하나의 배열을 축을 따라 여러 개의 배열로 나눌 수 있다.

arr = np.random.randn(5,2)
arr

array([[-1.93964656, -1.33624215],
       [-0.66682996,  0.75782752],
       [-0.04018216,  0.4148268 ],
       [-0.08957505,  0.97517203],
       [ 0.16550085, -0.93247957]])

In [52]:
first,second,third = np.split(arr,[1,3])      # [1,3]은 배열을 나눌 때 기준이 되는 위치(1번 행, 3번 행 기준으로)
                                              # 이 역시 hsplit와 vsplit가 있음(axis에 따라)
first

array([[-1.93964656, -1.33624215]])

In [53]:
second

array([[-0.66682996,  0.75782752],
       [-0.04018216,  0.4148268 ]])

In [54]:
third

array([[-0.08957505,  0.97517203],
       [ 0.16550085, -0.93247957]])

배열 쌓기 도우미: r_과 c_

In [56]:
arr = np.arange(6)
arr1 = arr.reshape((3,2))
arr2 = np.random.randn(3,2)

np.r_[arr1,arr2]

array([[ 0.        ,  1.        ],
       [ 2.        ,  3.        ],
       [ 4.        ,  5.        ],
       [-0.17511981, -0.28302445],
       [ 2.02741151, -0.53997885],
       [ 0.22972651, -0.70888319]])

In [57]:
np.c_[np.r_[arr1,arr2],arr]

array([[ 0.        ,  1.        ,  0.        ],
       [ 2.        ,  3.        ,  1.        ],
       [ 4.        ,  5.        ,  2.        ],
       [-0.17511981, -0.28302445,  3.        ],
       [ 2.02741151, -0.53997885,  4.        ],
       [ 0.22972651, -0.70888319,  5.        ]])

In [60]:
# 슬라이스를 배열로 변환해준다.

np.c_[1:6,-10:-5]

array([[  1, -10],
       [  2,  -9],
       [  3,  -8],
       [  4,  -7],
       [  5,  -6]])

원소 반복하기: repeat, tile

In [61]:
arr = np.arange(3)
arr.repeat(3)

array([0, 0, 0, 1, 1, 1, 2, 2, 2])

In [62]:
# 정수를 넘기면 각 배열은 그 수만큼 반복, 정수의 배열을 넘기면 각 원소는 배열에 담긴 정수만큼 다르게 반복

arr.repeat([2,3,4])

array([0, 0, 1, 1, 1, 2, 2, 2, 2])

In [63]:
arr = np.random.randn(2,2)
arr.repeat(2,axis=0)

array([[-0.05086941,  1.19195532],
       [-0.05086941,  1.19195532],
       [-0.75536766, -0.86113956],
       [-0.75536766, -0.86113956]])

In [64]:
arr.repeat(2,axis=1)

array([[-0.05086941, -0.05086941,  1.19195532,  1.19195532],
       [-0.75536766, -0.75536766, -0.86113956, -0.86113956]])

In [66]:
# 다차원 배열에서는  axis 인자를 넘기지 않는다면 평탄화 되어버리므로 주의

arr.repeat(2)

array([-0.05086941, -0.05086941,  1.19195532,  1.19195532, -0.75536766,
       -0.75536766, -0.86113956, -0.86113956])

In [67]:
# 다차원 배열 역시 정수의 배열을 넘겨 반복시킬 수 있음

arr.repeat([2,3],axis=0)

array([[-0.05086941,  1.19195532],
       [-0.05086941,  1.19195532],
       [-0.75536766, -0.86113956],
       [-0.75536766, -0.86113956],
       [-0.75536766, -0.86113956]])

In [68]:
# tile 메서드는 축을 따라 배열을 복사해서 쌓는 함수 (반복되는 배열의 원소들의 모양을 보면 차이가 있음)

np.tile(arr,2)    # repeat은 원소를 바로 옆에서 반복, tile은 배열을 반복

 # tile 메서드의 두 번째 인자는 타일의 개수, 스칼라값 
 # 컬럼 대 컬럼이 아닌 로우 대 로우로 이어붙임

array([[-0.05086941,  1.19195532, -0.05086941,  1.19195532],
       [-0.75536766, -0.86113956, -0.75536766, -0.86113956]])

In [70]:
np.tile(arr,(2,1))

array([[-0.05086941,  1.19195532],
       [-0.75536766, -0.86113956],
       [-0.05086941,  1.19195532],
       [-0.75536766, -0.86113956]])

In [71]:
np.tile(arr,(3,2))  # 두 번째 인자는 타일을 이어붙일 모양을 나타내는 튜플이 될 수도 있다.

array([[-0.05086941,  1.19195532, -0.05086941,  1.19195532],
       [-0.75536766, -0.86113956, -0.75536766, -0.86113956],
       [-0.05086941,  1.19195532, -0.05086941,  1.19195532],
       [-0.75536766, -0.86113956, -0.75536766, -0.86113956],
       [-0.05086941,  1.19195532, -0.05086941,  1.19195532],
       [-0.75536766, -0.86113956, -0.75536766, -0.86113956]])

팬시 색인: take와 put

In [72]:
arr = np.arange(10) * 100
inds = [7,1,2,6]

arr[inds]

array([700, 100, 200, 600])

In [73]:
# take와 put은 ndarray의 단일 축에 대한 값을 선택할 때 사용하는 메서드

arr.take(inds)     # take는 취함, put은 넣음

array([700, 100, 200, 600])

In [75]:
arr.put(inds,42)   # inds에 해당하는 index마다 42로 치환
arr

array([  0,  42,  42, 300, 400, 500,  42,  42, 800, 900])

In [77]:
arr.put(inds,[40,41,42,43])        #inds 값들의 순서가 아니라 그냥 색인의 오름차순으로
arr

array([  0,  41,  42, 300, 400, 500,  43,  40, 800, 900])

In [78]:
# 다른 축에 take메서드를 사용하고자 한다면 axis 인자를 넘김

inds = [2,0,2,1]
arr = np.random.randn(2,4)
arr

array([[-0.56661296,  0.57206887, -0.67647857,  0.40776956],
       [-0.42037512,  1.83791721,  1.6318403 ,  0.45507297]])

In [79]:
arr.take(inds,axis=1)       # 순서대로 컬럼 2번, 0번, 2번, 1번

array([[-0.67647857, -0.56661296, -0.67647857,  0.57206887],
       [ 1.6318403 , -0.42037512,  1.6318403 ,  1.83791721]])

# 브로드캐스팅

In [80]:
arr = np.arange(5)

arr * 4      # 스칼라값 4는 곱셈 연산 과정에서 배열의 모든 원소로 브로드캐스트 되었음

array([ 0,  4,  8, 12, 16])

In [81]:
arr = np.random.randn(4,3)
arr.mean(0)     # 0번 축을 따라 평균 반환

demanded = arr-arr.mean(0)      # arr.mean(0)은 1x3 배열인데 4개의 로우에 모두 빼기 연산을 한다.
demanded

array([[-1.42822193,  0.14952826, -0.96307312],
       [ 1.24336176, -0.52418991,  1.14295822],
       [ 0.29390606,  1.55345697,  0.07712475],
       [-0.10904589, -1.17879532, -0.25700985]])

In [82]:
demanded.mean(0)

array([0.00000000e+00, 5.55111512e-17, 8.32667268e-17])

In [87]:
demanded2 = arr - arr.mean(1).reshape((4,1))  
# 위 셀에서는 (3,)로 브로드캐스팅이 되었지만 arr.mean(1).shape=(4,)로는 브로드캐스팅이 되지 않음
# --> reshape로 연산하는 모양((4,1))으로 바꿔줘야 브로드캐스팅됨

demanded2

array([[-1.07820816,  0.38763045,  0.69057772],
       [ 0.22540991, -1.65405334,  1.42864343],
       [-0.7448317 ,  0.40280764,  0.34202406],
       [ 0.00866263, -1.17299837,  1.16433574]])

In [88]:
demanded2.mean(1)

array([ 0.00000000e+00,  0.00000000e+00,  7.40148683e-17, -7.40148683e-17])

다른 축에 대해 브로드캐스팅하기

In [89]:
arr - arr.mean(1)        # 일부러 오류 띄운 것임

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [90]:
# reshape를 이용하는 것도 방법이지만 축을 하나 새롭게 추가하는 것은 새로운 모양을 나타낼 튜플을 하나 생성해야한다.
# np.newaxis을 이용하면 배열 전체 슬라이스와 함께 사용해서 새 축을 추가할 수 있다.

arr = np.zeros((4,4))
arr_3d = arr[:,np.newaxis,:]
arr_3d.shape

(4, 1, 4)

In [91]:
arr_1d = np.random.normal(size=3)
arr_1d

array([0.70598364, 0.74399057, 0.90476488])

In [92]:
arr_1d[:,np.newaxis]

array([[0.70598364],
       [0.74399057],
       [0.90476488]])

In [93]:
arr_1d[np.newaxis,:]

array([[0.70598364, 0.74399057, 0.90476488]])

In [94]:
# 3차원 배열에서 2번 축에 대해 평균값을 빼고 싶다면 다음과 같이 작성

arr = np.random.randn(3,4,5)
depth_means = arr.mean(2)
depth_means.shape

(3, 4)

In [95]:
demanded = arr - depth_means[:,:,np.newaxis]    #마지막 축을 갖고 있되(arr과 같은 차원) (3,4,1)로 맞춤
demanded.mean(2)

array([[ 0.00000000e+00,  1.11022302e-17, -8.88178420e-17,
         0.00000000e+00],
       [ 6.66133815e-17,  8.88178420e-17,  0.00000000e+00,
         4.44089210e-17],
       [ 4.44089210e-17, -4.44089210e-17, -4.44089210e-17,
        -1.77635684e-16]])

In [96]:
demanded_clone = arr - depth_means.reshape(3,4,1)
demanded_clone.mean(2)          # reshape를 이용하는 방법  --> 이와 같이 맞추지 않으면 (1,3,4)로 해석돼서 연산에 오류가 생김

array([[ 0.00000000e+00,  1.11022302e-17, -8.88178420e-17,
         0.00000000e+00],
       [ 6.66133815e-17,  8.88178420e-17,  0.00000000e+00,
         4.44089210e-17],
       [ 4.44089210e-17, -4.44089210e-17, -4.44089210e-17,
        -1.77635684e-16]])

브로드캐스팅을 이용해서 배열에 값 대입하기

In [97]:
arr = np.zeros((4,3))
arr[:] = 5
arr

array([[5., 5., 5.],
       [5., 5., 5.],
       [5., 5., 5.],
       [5., 5., 5.]])

In [99]:
col = np.array([4, 6, 8, 10])
arr[:] = col[:,np.newaxis]      # col[:,np.newaxis].shape 는 (4,1)
arr

array([[ 4.,  4.,  4.],
       [ 6.,  6.,  6.],
       [ 8.,  8.,  8.],
       [10., 10., 10.]])

In [101]:
arr[:2] = [[4.5],[6.5]]      # (2,1)
arr

array([[ 4.5,  4.5,  4.5],
       [ 6.5,  6.5,  6.5],
       [ 8. ,  8. ,  8. ],
       [10. , 10. , 10. ]])

# 고급 ufunc 사용법

In [106]:
arr = np.arange(10)
np.add.reduce(arr)       # 다차원 배열에서는  axis를 줄 수 있음

45

In [188]:
np.random.seed(12346)

arr = np.random.randn(5,5)
arr[::2].sort(1)    # 일부 로우를 정렬, ::2는 2칸씩 건너뛰며 전체를 포괄하는 것
arr[:,:-1] < arr[:,1:]

array([[ True,  True,  True,  True],
       [False,  True, False, False],
       [ True,  True,  True,  True],
       [ True, False,  True,  True],
       [ True,  True,  True,  True]])

In [122]:
np.logical_and.reduce(arr[:,:-1] < arr[:,1:],axis=1)     # 논리 연산에서  all 메서드와 동일

array([ True, False,  True, False,  True])

In [124]:
# cumsum 메서드가 sum과 관련있듯 accumulate는 reduce와 관련있음

arr = np.arange(15).reshape((3,5))
np.add.accumulate(arr,axis=1)

array([[ 0,  1,  3,  6, 10],
       [ 5, 11, 18, 26, 35],
       [10, 21, 33, 46, 60]], dtype=int32)

In [125]:
# outer는 두 배열간 외적(벡터곱)

arr = np.arange(3).repeat([1,2,2])
arr

array([0, 1, 1, 2, 2])

In [127]:
np.multiply.outer(arr, np.arange(5))

array([[0, 0, 0, 0, 0],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 2, 4, 6, 8],
       [0, 2, 4, 6, 8]])

In [130]:
x,y = np.random.randn(3,4), np.random.randn(5)
result = np.subtract.outer(x,y)   # outer 메서드 결과의 차원은 입력한 차원의 합이 된다.
result.shape

(3, 4, 5)

In [131]:
# reduceat 메서드는 로컬 reduce를 수행. 본질적으로 로컬 reduce는 배열의 groupby 연산으로 배열의 슬라이스를 모두 집계하는 것

arr = np.arange(10)
np.add.reduceat(arr,[0,5,8])     # 해당 색인까지의 부분합들의 배열

array([10, 18, 17], dtype=int32)

In [137]:
arr = np.multiply.outer(np.arange(4), np.arange(5))
arr      # 외적

array([[ 0,  0,  0,  0,  0],
       [ 0,  1,  2,  3,  4],
       [ 0,  2,  4,  6,  8],
       [ 0,  3,  6,  9, 12]])

In [138]:
np.add.reduceat(arr,[0,2,4],axis=1)  # 컬럼 방향으로 0번,2번,4번 색인들만으로 집계

array([[ 0,  0,  0],
       [ 1,  5,  4],
       [ 2, 10,  8],
       [ 3, 15, 12]], dtype=int32)

사용자 정의 ufunc 작성하기

In [35]:
# numpy.frompyfunc는 입력과 출력에 대한 표준과 함께 파이썬 함수를 인자로 취한다.
# 예를 들어 원소별 합을 구하는 함수는 다음과 같이

def add_elements(x,y,):
    return x+y

add_them = np.frompyfunc(add_elements,2,1)  # 두 개 입력, 한 개 출력

add_them(np.arange(8),np.arange(8))

array([0, 2, 4, 6, 8, 10, 12, 14], dtype=object)

In [30]:
# frompyfunc를 이용해서 생성한 함수는 항상 파이썬 객체가 담긴 배열을 반환하는데 그다지 유용하지 못함.
# numpy.vectorize를 사용하면 반환 자료형을 지정할 수 있음

add_them = np.vectorize(add_elements ,otypes=[np.float64])

add_them(np.arange(8),np.arange(8))

array([ 0.,  2.,  4.,  6.,  8., 10., 12., 14.])

# 구조화된 배열과 레코드 배열

In [143]:
dtype = [('x',np.float64),('y',np.int32)]
sarr = np.array([(1.5,6),(np.pi,-2)],dtype=dtype)

sarr

array([(1.5       ,  6), (3.14159265, -2)],
      dtype=[('x', '<f8'), ('y', '<i4')])

In [144]:
# 구조화된 dtype을 지정하는 방법은 여러 가지(NumPy 문서참고). 한 가지 방법은 튜플(field_name, field_data_type)을 이용하는 것

sarr[0]

(1.5, 6)

In [149]:
sarr[0]['y']

6

In [151]:
sarr['x']

array([1.5       , 3.14159265])

중첩된 dtype과 다차원 필드

In [153]:
dtype = [('x',np.int64,3),('y',np.int32)]
arr = np.zeros(4,dtype=dtype)
arr

array([([0, 0, 0], 0), ([0, 0, 0], 0), ([0, 0, 0], 0), ([0, 0, 0], 0)],
      dtype=[('x', '<i8', (3,)), ('y', '<i4')])

In [156]:
arr2 = np.array([1,2,3,4],dtype=dtype)
arr2

array([([1, 1, 1], 1), ([2, 2, 2], 2), ([3, 3, 3], 3), ([4, 4, 4], 4)],
      dtype=[('x', '<i8', (3,)), ('y', '<i4')])

In [158]:
arr['x']

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]], dtype=int64)

In [159]:
arr['y']

array([0, 0, 0, 0])

In [160]:
# 좀 더 복잡한 중첩 구조를 하나의 배열 안엫서 단일 메모리로 표현할 수 있다. 
# dtype을 무한히 복잡하게 만들 수 있는데 중첩된 dtype도 가능

dtype = [('x',[('a','f8'),('b','f4')]),('y', np.int32)]
data = np.array([((1,2),5),((3,4),6)],dtype=dtype)
data['x']

array([(1., 2.), (3., 4.)], dtype=[('a', '<f8'), ('b', '<f4')])

In [161]:
data['y']

array([5, 6])

In [162]:
data['x']['a']

array([1., 3.])

In [166]:
data[0]['x']

(1., 2.)

# 정렬에 관하여

In [165]:
arr = np.random.randn(6)
arr.sort()
arr

array([-0.80834049,  0.20953165,  0.56054234,  0.5737325 ,  0.88934866,
        1.19235405])

In [167]:
arr = np.random.randn(3,5)
arr

array([[-0.28809532, -1.64057362, -1.60527455, -1.2455788 , -1.02308479],
       [ 0.52965007,  0.77449569, -1.71227443,  0.75621521, -1.4076804 ],
       [-0.88118398, -0.19028772, -1.12589743,  0.21492496,  1.0566424 ]])

In [169]:
arr[:,0].sort()   # 첫 번째 컬럼의 값만 정렬
arr

array([[-0.88118398, -1.64057362, -1.60527455, -1.2455788 , -1.02308479],
       [-0.28809532,  0.77449569, -1.71227443,  0.75621521, -1.4076804 ],
       [ 0.52965007, -0.19028772, -1.12589743,  0.21492496,  1.0566424 ]])

In [170]:
# np.sort를 사용해 정렬된 배열의 복사본을 생성할 수 있다.

arr = np.random.randn(5)
np.sort(arr)        # arr.sort()는 arr에 정렬된 값을 저장

array([-0.66369841, -0.0238772 ,  0.39261312,  0.55176632,  1.23913165])

In [171]:
arr      # arr 배열 자체는 변하지 않았음

array([ 0.55176632, -0.66369841,  0.39261312,  1.23913165, -0.0238772 ])

In [173]:
# 다차원 배열의 경우  axis인자를 통해 정렬할 수 있음

# list[::-1]처럼 순서가 뒤집어진 배열을 얻어오는 트릭

arr = np.random.randn(3,5)
arr.sort(axis=1)
arr

array([[-1.60929328, -1.28619135, -0.30134626, -0.29506434, -0.27480783],
       [-0.77343659,  0.66494768,  0.71681953,  0.73718796,  0.91983717],
       [-0.72102572, -0.27299172,  0.68646244,  0.93517521,  1.62861984]])

In [174]:
arr[:,::-1]   # 가로방향에 대해 뒤집어진 순서(윗 셀 참조)

array([[-0.27480783, -0.29506434, -0.30134626, -1.28619135, -1.60929328],
       [ 0.91983717,  0.73718796,  0.71681953,  0.66494768, -0.77343659],
       [ 1.62861984,  0.93517521,  0.68646244, -0.27299172, -0.72102572]])

간접 정렬 : argsort 와 lexsort

In [176]:
values = np.array([5,0,1,3,2])
indexer = values.argsort()
# 주어진 단일 키 혹은 여러 개의 키로 데이터를 정렬하려면 어떤 순서로 나열해야하는지 알려주는 정수색인

indexer    # 출력만으로 이해가 안된다면 다음 셀을 보시라

array([1, 2, 4, 3, 0], dtype=int64)

In [177]:
values[indexer]      # values 자체는 변하지 않는다.

array([0, 1, 2, 3, 5])

In [179]:
arr = np.random.randn(3,5)
arr[0] = values
arr

array([[ 5.        ,  0.        ,  1.        ,  3.        ,  2.        ],
       [ 0.52336223,  1.00924846, -0.79543194,  0.02518327,  0.55245887],
       [-0.85389963, -0.643449  ,  0.6690576 , -0.56294119,  0.48047137]])

In [180]:
arr[:,arr[0].argsort()]   #arr[0].argsort()는 뭔가 배열이 나올 것이고 그 배열에 맞게  arr이 컬럼방향으로 정렬하면 깔끔해짐

array([[ 0.        ,  1.        ,  2.        ,  3.        ,  5.        ],
       [ 1.00924846, -0.79543194,  0.55245887,  0.02518327,  0.52336223],
       [-0.643449  ,  0.6690576 ,  0.48047137, -0.56294119, -0.85389963]])

In [181]:
# lexsort는 argsort와 유사하지만 다중 키 배열에 대해 간접 사전순 정렬을 수행한다.

first_name = np.array(['Bob','Jane','Steve','Bill','Barbara'])
last_name = np.array(['Jones','Arnold','Arnold','Jones','Walters'])

sorter = np.lexsort((first_name,last_name))  # 나중에 넘겨준 배열이 데이터를 정렬하는데 먼저 사용된다.
sorter

array([1, 2, 3, 0, 4], dtype=int64)

In [184]:
full_names = zip(last_name[sorter],first_name[sorter])
full_names_sorted=[]
for i in full_names:
    full_names_sorted.append(i)
full_names_sorted

[('Arnold', 'Jane'),
 ('Arnold', 'Steve'),
 ('Jones', 'Bill'),
 ('Jones', 'Bob'),
 ('Walters', 'Barbara')]

대안 정렬 알고리즘

In [2]:
values = np.array(['2:first','2:second','1:first','1:second','1:third'])
key = np.array([2,2,1,1,1])
indexer = key.argsort(kind='mergesort')

indexer

array([2, 3, 4, 0, 1], dtype=int64)

In [3]:
values.take(indexer)        # values[indexer] 해도 동일한 결과

array(['1:first', '1:second', '1:third', '2:first', '2:second'],
      dtype='<U8')

배열 일부만 정렬하기

In [5]:
np.random.seed(12345)
arr = np.random.randn(20)
arr

array([-0.20470766,  0.47894334, -0.51943872, -0.5557303 ,  1.96578057,
        1.39340583,  0.09290788,  0.28174615,  0.76902257,  1.24643474,
        1.00718936, -1.29622111,  0.27499163,  0.22891288,  1.35291684,
        0.88642934, -2.00163731, -0.37184254,  1.66902531, -0.43856974])

In [7]:
np.partition(arr,3)        # 반환된 결과 배열의 첫 세 원소는 해당 배열에서 가장 작은 값이 차지한다.

array([-2.00163731, -1.29622111, -0.5557303 , -0.51943872, -0.37184254,
       -0.43856974, -0.20470766,  0.28174615,  0.76902257,  0.47894334,
        1.00718936,  0.09290788,  0.27499163,  0.22891288,  1.35291684,
        0.88642934,  1.39340583,  1.96578057,  1.66902531,  1.24643474])

In [8]:
# numpy.argpartition은 numpy.argsort와 유사하게 해당 원소의 위치를 반환한다.

indices = np.argpartition(arr,3)       # 첫 세 원소가 해당 배열에서 가장 작은 값이 차지할 수 있도록 인덱스 빈환
indices

array([16, 11,  3,  2, 17, 19,  0,  7,  8,  1, 10,  6, 12, 13, 14, 15,  5,
        4, 18,  9], dtype=int64)

In [9]:
arr.take(indices)

array([-2.00163731, -1.29622111, -0.5557303 , -0.51943872, -0.37184254,
       -0.43856974, -0.20470766,  0.28174615,  0.76902257,  0.47894334,
        1.00718936,  0.09290788,  0.27499163,  0.22891288,  1.35291684,
        0.88642934,  1.39340583,  1.96578057,  1.66902531,  1.24643474])

numpy.searchsorted: 정렬된 배열에서 원소 찾기

In [10]:
arr = np.array([0,1,7,12,15])
arr.searchsorted(9)         # 정렬된 배열에서 탐색을 수행해 새 값을 삽입할 때 정렬된 상태를 계속 유지하기 위한 위치를 반환

3

In [11]:
arr.searchsorted([0,8,11,16])      # 배열을 넘길 수도 있다.(0의 경우 0을 반환하듯 동일한 값의 그룹의 왼쪽에서부터 색인을 반환)

array([0, 3, 3, 5], dtype=int64)

In [12]:
arr = np.array([0,0,0,1,1,1,1])
arr.searchsorted([0,1])        # 중복된 배열에서는 제일 왼쪽 값을 기준으로

array([0, 3], dtype=int64)

In [13]:
arr.searchsorted([0,1], side='right')   # 오른쪽에서부터 찾을 수도 있어

array([3, 7], dtype=int64)

In [19]:
# searchsorted의 활용법

data = np.floor(np.random.uniform(0,10000,size=50))
bins = np.array([0,100,1000,5000,10000])
labels = bins.searchsorted(data)     # 당연한 말이지만 data와 같은 크기의 배열이 반환된다.
labels

array([4, 3, 4, 3, 3, 3, 3, 4, 3, 4, 4, 4, 4, 3, 4, 3, 4, 4, 2, 3, 3, 4,
       2, 3, 4, 4, 4, 4, 4, 4, 3, 4, 3, 2, 4, 4, 4, 4, 3, 4, 4, 2, 4, 4,
       4, 3, 3, 2, 3, 3], dtype=int64)

In [20]:
pd.Series(data).groupby(labels).mean()

2     637.600000
3    3278.833333
4    7331.518519
dtype: float64

# Numba를 이용하여 빠른 NumPy 함수 작성하기

In [8]:
# 일단 for 문을 사용하여 (x-y).mean()을 계산하는 순수 파이썬 코드를 작성

def mean_distance(x,y):
    nx = len(x)
    result = 0.0
    count = 0
    for i in range(nx):
        result += x[i] - y[i]
        count += 1
    return result/count

In [9]:
x = np.random.randn(1000000)
y = np.random.randn(1000000)
%timeit mean_distance(x,y)

315 ms ± 8.96 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [23]:
%timeit (x-y).mean()         # 정의된 함수가 더 느린 것을 확인할 수 있다.

3.71 ms ± 98.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [10]:
# NumPy로 작성된 코드는 100배 넘게 빠르다. numba.jit 함수를 이용

import numba as nb
numba_mean_distance = nb.jit(mean_distance)

In [5]:
@nb.jit
def mean_distance(x,y):
    nx = len(x)
    result = 0.0
    count = 0
    for i in range(nx):
        result += x[i] - y[i]
        count += 1
    return result/count
    
이처럼 장식자를 사용할 수도 있음

In [11]:
%timeit numba_mean_distance(x,y)       # 윗 셀과 더불어 세 가지 결과를 확인하라.

1.34 ms ± 127 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


# 고급 배열 입출력, 성능 팁 관련 부분은 생략