Numpy

STEM 연구에 사용되는 넘파이는 배열을 지원하여 벡터 및 선형대수 연산을 더 효율적으로 하게 해 준다. 넘파이 배열은 같은 자료형만을 담을 수 있고 요소의 개수를 바꿀 수 없기 때문에 리스트보다 구조적으로 속도가 빠르고 메모리를 더 적게 사용한다. C로 구현된 내부 반복문을 사용하기 때문에 속도가 빠르며 벡터화 연산을 지원한다. 또한 배열 인덱싱을 사용한 Query기능을 이용하여 간단한 코드로도 복잡한 수식을 계산할 수있다.

In [1]:
import numpy as np

1차원 배열은 다음과 같이 생성할 수 있다.

In [25]:
ar = np.array([_ for _ in range(10)])
ar

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
ar2 = np.array([0.1, 'dd', 50, 2, 3.14])
ar2

array(['0.1', 'dd', '50', '2', '3.14'], dtype='<U32')

위와 같이 여러가지 데이터 타입이 혼합된 리스트를 넣으면 가장 넓은 범위의 표현형으로 자동으로 맞춰진다. 어레이를 생성할 떄 자료형을 명시하려면 dtype을 사용하면 된다. 

In [9]:
x = np.array([1, 2, 3], dtype = 'U')

In [10]:
x[0]+x[1]

'12'

인덱싱과 연산도 똑같이 가능하다. 넘파이 배열은 각 요소에 대한 반복 연산을 하나의 명령어로 처리하는 백터화 연산을 지원한다. 반복문을 쓰지 않아도 되어 문법적으로 간단할 뿐만 아니라 연산 속도도 더 빠르다.

In [26]:
ar = ar * 2
ar

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

벡터화 연산은 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용된다.

2차원 배열은 수학의 행렬과 같다. 

In [28]:
c = np.array([[0, 1, 2],
             [3, 4, 5]])
c

array([[0, 1, 2],
       [3, 4, 5]])

2차원 배열의 행과 열의 개수는 len()으로 볼 수 있다.

In [29]:
len(c)

2

In [30]:
len(c[0])

3

연습문제 - 넘파이를 사용해서 배열 만들기

In [31]:
np.array([[10, 20, 30, 40], [50, 60, 70, 80]])

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

응용하여 3차원 배열도 만들 수 있다. 크기를 나타낼 땐 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서로 표시한다.

In [32]:
d = np.array([[[1, 2, 3, 4], [5, 6, 7, 8], [9, 9, 9, 9]], [[1, 2, 3, 4], [1, 2, 3, 4], [1, 2, 3, 4]]])

In [33]:
d

array([[[1, 2, 3, 4],
        [5, 6, 7, 8],
        [9, 9, 9, 9]],

       [[1, 2, 3, 4],
        [1, 2, 3, 4],
        [1, 2, 3, 4]]])

ndim 속성과 shape속성으로 배열의 차원과 크기를 간편하게 알아낼 수 있다.

In [34]:
k = np.array([[10, 20, 30, 40], [50, 60, 70, 80]]) #에서 1, 2, 3 가져오기
k[0][:3]

array([10, 20, 30])

다차열 슬라이싱은 콤마로 구분한다.

In [36]:
d[:2, :2, :2]

array([[[1, 2],
        [5, 6]],

       [[1, 2],
        [1, 2]]])

연습문제

In [46]:
m = np.array([[0, 1, 2, 3, 4], [5, 6, 7, 8, 9], [10, 11, 12, 13, 14]])

m[1,2]

7

In [47]:
m[-1,-1]

14

In [48]:
m[1, 1:3]

array([6, 7])

In [43]:
m[1:, 2:3]

array([[ 7],
       [12]])

In [44]:
m[:2, -2:]

array([[3, 4],
       [8, 9]])

넘파이는 몇 가지 단순한 배열을 생성하는 명령을 제공한다. zeros, ones, empty, arange, linspace, logspace 등이 있다.

In [50]:
np.zeros((5, 5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

shape을 튜플 값으로 명시하지 않고 다른 배열과 같은 크기의 배열을 만들고 싶을 땐 zeros_like 또는 ones_like을 사용한다.

In [54]:
test = np.zeros_like(m, dtype='f')
test

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]], dtype=float32)

배열의 크기가 커지면 배열을 초기화하는데도 시간이 걸린다. empty를 사용하면 초기화 없이 배열을 만들 수 있다.

In [56]:
np.empty((5, 5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

arange 명령어는 넘파이 버전의 range이다. linspace와 logspace는 선형 또는 로그 구간을 만들어준다.

In [59]:
np.linspace(0, 100, 101)

array([  0.,   1.,   2.,   3.,   4.,   5.,   6.,   7.,   8.,   9.,  10.,
        11.,  12.,  13.,  14.,  15.,  16.,  17.,  18.,  19.,  20.,  21.,
        22.,  23.,  24.,  25.,  26.,  27.,  28.,  29.,  30.,  31.,  32.,
        33.,  34.,  35.,  36.,  37.,  38.,  39.,  40.,  41.,  42.,  43.,
        44.,  45.,  46.,  47.,  48.,  49.,  50.,  51.,  52.,  53.,  54.,
        55.,  56.,  57.,  58.,  59.,  60.,  61.,  62.,  63.,  64.,  65.,
        66.,  67.,  68.,  69.,  70.,  71.,  72.,  73.,  74.,  75.,  76.,
        77.,  78.,  79.,  80.,  81.,  82.,  83.,  84.,  85.,  86.,  87.,
        88.,  89.,  90.,  91.,  92.,  93.,  94.,  95.,  96.,  97.,  98.,
        99., 100.])

In [60]:
np.logspace(0, 100, 101)

array([1.e+000, 1.e+001, 1.e+002, 1.e+003, 1.e+004, 1.e+005, 1.e+006,
       1.e+007, 1.e+008, 1.e+009, 1.e+010, 1.e+011, 1.e+012, 1.e+013,
       1.e+014, 1.e+015, 1.e+016, 1.e+017, 1.e+018, 1.e+019, 1.e+020,
       1.e+021, 1.e+022, 1.e+023, 1.e+024, 1.e+025, 1.e+026, 1.e+027,
       1.e+028, 1.e+029, 1.e+030, 1.e+031, 1.e+032, 1.e+033, 1.e+034,
       1.e+035, 1.e+036, 1.e+037, 1.e+038, 1.e+039, 1.e+040, 1.e+041,
       1.e+042, 1.e+043, 1.e+044, 1.e+045, 1.e+046, 1.e+047, 1.e+048,
       1.e+049, 1.e+050, 1.e+051, 1.e+052, 1.e+053, 1.e+054, 1.e+055,
       1.e+056, 1.e+057, 1.e+058, 1.e+059, 1.e+060, 1.e+061, 1.e+062,
       1.e+063, 1.e+064, 1.e+065, 1.e+066, 1.e+067, 1.e+068, 1.e+069,
       1.e+070, 1.e+071, 1.e+072, 1.e+073, 1.e+074, 1.e+075, 1.e+076,
       1.e+077, 1.e+078, 1.e+079, 1.e+080, 1.e+081, 1.e+082, 1.e+083,
       1.e+084, 1.e+085, 1.e+086, 1.e+087, 1.e+088, 1.e+089, 1.e+090,
       1.e+091, 1.e+092, 1.e+093, 1.e+094, 1.e+095, 1.e+096, 1.e+097,
       1.e+098, 1.e+

Transpose 연산은 메서드가 아닌 T 속성으로 바로 구할 수 있다.

In [61]:
m.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

배열의 내부 데이터를 보존한 채로 형태만 바꾸려면 reshape()을 사용한다.

In [62]:
a = np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [64]:
b = a.reshape(3, 4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

반대로는 flatten() 또는 ravel()을 사용한다. 같은 배열의 차원만 증가시키는 경우에는 newaxis를 사용한다.

In [None]:
b[:, np.newaxis]

array([[[ 0,  1,  2,  3]],

       [[ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11]]])

행의 수나 열의 수가 같은 두 개 이상의 배열을 연결하여 더 큰 배열을 만들 때는 hstack, vstack, dstack 등을 활용한다. hstack은 옆으로, vstack은 위로, dstack은 깊이 방향으로 합친다. stack은 dstack을 확장한 것으로 사용자 지정한 차원(축)으로 합친다. r_[]는 hstack과 비슷하게 배열을 좌우로 연결하는데, 메서드임에도 불구하고 대괄호 표현을 쓴다. 이런 특수 메서드를 인덱서라고 한다. c_[]는 배열의 차원을 증가시킨 후 column 단위로 연결한다. tile() 명령은 동일한 배열을 반복하여 연결한다.

연습문제

In [78]:
a = np.zeros((3,3))
b = np.ones((3,2))
c = np.arange(10, 151, 10)
c = c.reshape(3,5)
d = np.hstack((a, b))
e = np.vstack((d, c))
f = np.tile(e, (2,1))
f

array([[  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.]])

만약 배열의 각 원소들을 일일히 비교하는 것이 아니라 배열의 모든 원소가 다 같은지 알고 싶다면 all을 사용하면 된다.

In [79]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

In [81]:
np.all(a==b)

False

In [83]:
np.all(a == c)

True

벡터와 행렬에 스칼라곱 연산도 할 수 있다. 배열끼리 산술 연산을 하려면 두 배열의 shapes가 정확히 같아야 한다. 넘파이 배열은 모양이 다른 배열 간 연산이 가능하도록 배열의 크기를 변환시켜주는 브로드캐스팅을 지원한다. 더 작은 배열이 더 큰 배열에 호환되는 모양으로 확장된다. 일치하지 않는 차원의 길이가 한 쪽이 1일 때만 가능하다.

행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 그 집합의 평균을 구하면 각 행에 대해 하나의 숫자가 나오게 된다. 이를 차원 축소 연산이라고 하며, min, max, argmin, argmax, 등이 있다.

In [84]:
p = np.array([[1.1, 7.1, 8.0, 2.1, 6.5, 7.2],
                                [2.7, 5.2, 3.3, 9.0, 7.7, 2.8],
                                [0.7, 8.8, 4.2, 8.9, 4.3, 7.4],
                                [8.2, 1.1, 5.4, 2.9, 6.9, 0.2],
                                [7.4, 4.8, 2.7, 3.1, 2.8, 8.9]])

In [85]:
np.max(p)

9.0

In [86]:
np.sum(p, axis=0)

array([20.1, 27. , 23.6, 26. , 28.2, 26.5])

In [87]:
np.max(p, axis=0)

array([8.2, 8.8, 8. , 9. , 7.7, 8.9])

In [88]:
np.mean(p, axis=1)

array([5.33333333, 5.11666667, 5.71666667, 4.11666667, 4.95      ])

In [89]:
np.min(p, axis=1)

array([1.1, 2.7, 0.7, 0.2, 2.7])

고급 인덱싱으로 인덱스 배열을 통해 인덱싱이 가능하다. 아래의 예제 코드를 살펴보면 a[0, 0], a[1, 1], a[2, 0]을 인덱스로 하는 값을 각각 인덱싱하는 것을 볼 수 있다.

In [90]:
a = np.array([[1,2], [3,4], [5,6]])
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [92]:
print(a[[0, 1, 2], [0, 1, 0]]) #a[0, 0], a[1, 1], a[2, 0]을 인덱스로 하는 1차원 배열을 출력한다.

[1 4 5]


슬라이싱 범위도 결국 인덱스 배열이다. :를 사용할 경우 순서대로 인덱싱한 것과 같은 효과를 본다.

In [94]:
a[:, [0, 1, 0]]

array([[1, 2, 1],
       [3, 4, 3],
       [5, 6, 5]])

연습문제

In [107]:
s = np.array([[1, 2, 3, 4], [46, 99, 100, 71], [81, 59, 90, 100]])
s = s[:, s[1, :].argsort()]
s

array([[  1,   4,   2,   3],
       [ 46,  71,  99, 100],
       [ 81, 100,  59,  90]])

이제 numpy random을 활용해보자. seed()로 시드를 설정할 수 있다.

In [108]:
np.random.seed(0)

In [109]:
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [110]:
np.random.rand(5)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152])

In [111]:
np.random.seed(0)

In [112]:
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

시드에 따라 정확히 같은 값이 나오는 것을 알 수 있다. choice()를 사용하면 임의의 array element를 추출할 수 있다. 

rand, randn, randint가 가장 많이 쓰이는데 각각 0부터 1까지, 표준 정규분포, 임의의 구간의 정수를 반환한다.

In [122]:
np.random.seed(0)
k = np.random.randint(0, 2, 100)
np.mean(k)

0.56

unique()함수는 데이터에서 중복된 값을 제거하고 중복되지 않는 값의 리스트를 출력한다. return_counts 인수를 True로 설정하면 각 값의 데이터 개수도 출력한다. 그러나 이는 데이터에 존재하는 값에대해서만 개수를 세므로 데이터 값이 나올 수 있음에도 불구하고 데이터가 하나도 없는 경우에는 정보를 주지 않는다. 따라서 특정 범위 안의 수인 겨웅에는 bincount 함수에 minlength 인수를 설정하여 쓰는 것이 더 편리하다. bincount 함수는 0부터 minlength-1까지의 숫자에 대해 각각 카운트를 한다.