# NumPy 자료구조

In [1]:
import numpy as np

## 정규 NumPy 배열

In [4]:
a = np.array([0, 0.5, 1.0, 1.5, 2.0])

In [5]:
type(a)

numpy.ndarray

In [6]:
a[:2] # 1차원 리스트 객체와 인덱싱 방법이 같다

array([0. , 0.5])

In [7]:
# 원소의 합계
a.sum()

5.0

In [8]:
# 표준편차
a.std()

0.7071067811865476

In [9]:
# 누적합계
a.cumsum()

array([0. , 0.5, 1.5, 3. , 5. ])

In [12]:
# 벡터화된 형식의 수학 연산이 가능
print(a*2)
print(a**2)
print(np.sqrt(a))

[0. 1. 2. 3. 4.]
[0.   0.25 1.   2.25 4.  ]
[0.         0.70710678 1.         1.22474487 1.41421356]


In [14]:
# 1ckdnjsdptj ekckdnjsdmfh ghkrwkd
b= np.array([a, a*2])
b

array([[0. , 0.5, 1. , 1.5, 2. ],
       [0. , 1. , 2. , 3. , 4. ]])

In [15]:
print(b[0])
print(b[0,2])
print(b.sum())

[0.  0.5 1.  1.5 2. ]
1.0
15.0


In [16]:
# 축을 명시적으로 참조 할 수 있음
# axis=0 : 열 합계
print(b.sum(axis=0))
# axis=1 : 행 합계
print(b.sum(axis=1))

[0.  1.5 3.  4.5 6. ]
[ 5. 10.]


In [18]:
# array 내의 원소를 0 또는 1로 결정
c= np.zeros((2,3,4), dtype='i', order='C')
# 유사 명령: np.ones()
c

array([[[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]],

       [[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]]], dtype=int32)

In [29]:
d = np.ones_like(c, dtype='f', order= 'C')
# 유사 명령: np.zeros_like()
d

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]], dtype=float32)

### 5000x5000 의 행렬 배열을 난수로 만들기

In [30]:
I = 5000

In [32]:
import random
%time mat = [[random.gauss(0,1) for j in range(I)] for i in range(I)] 

Wall time: 15.8 s


In [52]:
# 중첩된 리스트 조건제시법
from functools import reduce
%time reduce(lambda x, y: x + y, [reduce(lambda x, y: x + y, row) for row in mat])

Wall time: 1.81 s


-3447.5578736852203

In [53]:
%time mat = np.random.standard_normal((I,I))
# 더 연산 빨라지는 것 확인하기

Wall time: 913 ms


In [54]:
%time mat.sum()

Wall time: 35.9 ms


2704.9393431127605

## 구조화 배열
numpy에는 각 열마다 다른 자료형을 사용할 수 있는 구조화 배열을 지원한다.

In [56]:
dt = np.dtype([('Name', 'S10'), ('Age', 'i4'),
               ('Height', 'f'), ('Children/Pets', 'i4', 2)])
s = np.array([('Smith', 45, 1.83, (0,1)),
              ('Jones', 53, 1.72, (2,2))], dtype=dt)
s

array([(b'Smith', 45, 1.83, [0, 1]), (b'Jones', 53, 1.72, [2, 2])],
      dtype=[('Name', 'S10'), ('Age', '<i4'), ('Height', '<f4'), ('Children/Pets', '<i4', (2,))])

In [57]:
s['Name']

array([b'Smith', b'Jones'], dtype='|S10')

In [58]:
s['Height'].mean()

1.7750001

In [59]:
s[1]['Age']

53


## 코드 벡터화
코드를 더 간결하게 하고 실행 속도를 높이기 위한 전략  
map, filter, reduce 등의 도구를 통해 가능

In [60]:
# 기본적인 벡터화
r = np.random.standard_normal((4,3))
s = np.random.standard_normal((4,3))
r + s

array([[-0.32063052, -2.71859538, -0.3473786 ],
       [ 1.9535101 , -1.13089403,  0.59110811],
       [-2.12904636, -2.22360546, -1.64879892],
       [-0.41295036,  0.46051821, -2.83913809]])

In [61]:
2*r + 3

array([[ 5.76864005,  1.05363087,  1.53912157],
       [ 5.48132647,  2.41617505,  4.73503485],
       [ 2.1375013 , -1.50811019, -0.59168043],
       [ 2.43393425,  4.06340903, -0.05257664]])

In [63]:
s = np.random.standard_normal(3)
r+s
# 길이가 3인 1차원 배열이 4,3 형태의 다차원 배열에 브로드캐스팅되었다.

array([[ 2.05226546,  0.65629939, -0.33611326],
       [ 1.90860867,  1.33757147,  1.26184338],
       [ 0.23669609, -0.62457114, -1.40151426],
       [ 0.38491256,  2.16118847, -1.13196237]])

In [65]:
s = np.random.standard_normal(4)
r+s
# 1차원 배열의 길이가 4인 경우에는 브로드캐스팅이 불가능하다.

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [66]:
r.transpose() + s

array([[ 3.09954522,  1.72762288, -0.94709119, -1.74861322],
       [ 0.74204063,  0.19504717, -2.76989693, -0.93387583],
       [ 0.98478598,  1.35447707, -2.31168206, -2.99186867]])

In [67]:
np.shape(r.T)

(3, 4)

In [68]:
#함수의 인수로 np.ndarray 객체를 사용 가능
def f(x):
    return 3 * x + 5

In [69]:
f(0.5)

6.5

In [70]:
f(r)

array([[ 9.15296007,  2.08044631,  2.80868236],
       [ 8.72198971,  4.12426257,  7.60255228],
       [ 3.70625195, -1.76216528, -0.38752065],
       [ 4.15090138,  6.59511355,  0.42113504]])

In [71]:
# 유니버설 함수(ufunc)의 사용
np.sin(r)

array([[ 0.98266362, -0.82668176, -0.66719686],
       [ 0.94599921, -0.28778432,  0.76272575],
       [-0.41800609, -0.7755195 , -0.97478431],
       [-0.27926913,  0.50700328, -0.99900968]])

In [74]:
np.sin(np.pi)

1.2246467991473532e-16


### 메모리 배치
메모리 배치에 대한 인수를 추가적으로 설정할 수 있다.

In [76]:
# 다차원 객체 생성
x = np.random.standard_normal((5, 10000000))
y = 2*x + 3
C = np.array((x, y), order='C')
F = np.array((x, y), order='F')
x = 0.0; y = 0.0 # memory cleanup
C[:2].round(2)

array([[[-0.68, -1.01, -0.58, ..., -0.37, -1.54,  0.52],
        [ 1.36, -0.56, -0.65, ...,  0.35,  0.04, -0.19],
        [ 0.04,  0.99, -0.26, ...,  0.61, -0.69,  2.  ],
        [-0.35,  1.71, -0.06, ..., -0.61, -0.56, -1.85],
        [-0.14,  0.79, -1.04, ..., -0.89, -0.89, -0.55]],

       [[ 1.63,  0.98,  1.84, ...,  2.25, -0.09,  4.04],
        [ 5.71,  1.88,  1.69, ...,  3.69,  3.08,  2.61],
        [ 3.07,  4.98,  2.48, ...,  4.23,  1.62,  7.01],
        [ 2.3 ,  6.42,  2.88, ...,  1.79,  1.88, -0.7 ],
        [ 2.71,  4.58,  0.91, ...,  1.22,  1.22,  1.9 ]]])

In [77]:
%timeit C.sum()

148 ms ± 1.65 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [78]:
%timeit F.sum()

142 ms ± 8.63 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


배열 전체 합계를 구할 때는 두 가지 메모리 배치 방식의 성능 차이가 없다.

In [79]:
%timeit C[0].sum(axis=0)

87.5 ms ± 1.69 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [80]:
%timeit C[0].sum(axis=1)

73.4 ms ± 1.56 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


원소의 개수가 많은 소수의 벡터를 더하는 것이 원소의 개수가 적은 10,000,000개의 벡터를 더하는 것보다 결과는 같지만 느리다.  
하지만 포트란 방식의 메모리 배치에서는 성능이 반대가 된다.

In [81]:
%timeit F.sum(axis=0)

635 ms ± 23 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [82]:
%timeit F.sum(axis=1)

1.56 s ± 14.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


이 경우에는 원소의 개수가 많은 소수의 벡터를 더하는 것이 원소의 개수가적은 다수의 벡터를 더하는 것보다 더 빠르다.  
but 중요한 것은 포트란 방식의 전반적인 연산 속도는 C 방식보다 훨씬느리다.