# NumPy Basics III

## 4. File input and output with arrays
### Storing arrays on disk in binary format
> 배열을 바이너리 형식으로 디스크에 저장

- 배열은 기본적으로 압축되지 않은 raw 바이너리 형식의 .npy 파일로 저장된다.
- 저장하는 파일 경로가 .npy로 끝나지 않으면 자동적으로 확장자를 추가한다.
- np.savez 함수를 이용하면 여러개의 배열을 압축된 형식으로 저장할 수 있다.

In [1]:
from numpy.random import randn
import numpy as np

from os.path import exists
from os import remove

In [8]:
def delete_file(filename):
    if exists(filename): 
        remove(filename) 
        ret_msg = filename + ' is deleted !'
    else: 
        ret_msg = filename + ' is not exist.'
    
    return ret_msg

In [9]:
delete_file('some_array.npy')

'some_array.npy is not exist.'

In [11]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
np.save('some_array',arr)

In [13]:
np.load('some_array.npy')                      # 파일 load할 경우에는 확장자명까지 쓰기

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
np.savez('array_archive.npz', a=arr, b=arr)

In [18]:
arch = np.load('array_archive.npz')            # 파일 load할 경우에는 확장자명까지 쓰기
arch['b']

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [19]:
arch['a']

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### Saving and loading text files
>텍스트 파일 불러오기와 저장하기

In [39]:
!mkdir data

하위 디렉터리 또는 파일 data이(가) 이미 있습니다.


In [40]:
filename = 'data'

In [41]:
delete_file(filename)

'data is deleted !'

In [42]:
data = '''\
 0.580052,  0.186730,  1.040717,  1.134411
 0.194163, -0.636917, -0.938659,  0.124094
-0.126410,  0.268607, -0.695724,  0.047428
-1.484413,  0.004176, -0.744203,  0.005487
 2.302869,  0.200131,  1.670238, -1.881090
-0.193230,  1.047233,  0.482803,  0.960334\
'''
with open(filename, 'w') as fp:
    fp.write(data)

In [43]:
with open(filename, 'r') as fp:
    data = fp.read()
    
print(data)

 0.580052,  0.186730,  1.040717,  1.134411
 0.194163, -0.636917, -0.938659,  0.124094
-0.126410,  0.268607, -0.695724,  0.047428
-1.484413,  0.004176, -0.744203,  0.005487
 2.302869,  0.200131,  1.670238, -1.881090
-0.193230,  1.047233,  0.482803,  0.960334


In [46]:
arr = np.loadtxt(filename, delimiter = ',')
arr

array([[ 0.580052,  0.18673 ,  1.040717,  1.134411],
       [ 0.194163, -0.636917, -0.938659,  0.124094],
       [-0.12641 ,  0.268607, -0.695724,  0.047428],
       [-1.484413,  0.004176, -0.744203,  0.005487],
       [ 2.302869,  0.200131,  1.670238, -1.88109 ],
       [-0.19323 ,  1.047233,  0.482803,  0.960334]])

### 5. Linear algebra
> 선형대수

- 행렬의 곱셈, 분할, 행렬식, 정사각 행렬 수학 같은 선형대수는 배열을 다루는 라이브러리에서 중요한 부분
- MATLAB 같은 다른 언어와 달리 2개의 2차원 배열을 * 연산자로 곱하는 건행렬 곱셈이 아니라 대응하는 각각의 원소의 곱을 계산
- 행렬곱셈은 배열메소드이자 numpy 네임스페이스 안에 있는 함수인 dot 함수를 사용해서 계산

In [48]:
x = np.array([[1.,2.,3.],[4.,5.,6.]])
x

array([[1., 2., 3.],
       [4., 5., 6.]])

In [49]:
y = np.array([[6., 23.], [-1, 7], [8, 9]])
y

array([[ 6., 23.],
       [-1.,  7.],
       [ 8.,  9.]])

In [51]:
x.dot(y)   # 행렬 곱

array([[ 28.,  64.],
       [ 67., 181.]])

In [53]:
x @ y     # 행렬 곱 2

array([[ 28.,  64.],
       [ 67., 181.]])

In [54]:
np.dot(x,np.ones(3))

array([ 6., 15.])

In [55]:
np.random.seed(12345)

In [56]:
from numpy.linalg import inv, qr

In [59]:
X = randn(5,5)
X

array([[ 0.06987669,  0.24667411, -0.0118616 ,  1.00481159,  1.32719461],
       [-0.91926156, -1.54910644,  0.0221846 ,  0.75836315, -0.66052433],
       [ 0.86258008, -0.0100319 ,  0.05000936,  0.67021559,  0.85296503],
       [-0.95586885, -0.02349332, -2.30423388, -0.65246884, -1.21830198],
       [-1.33260971,  1.07462269,  0.72364151,  0.69000185,  1.00154344]])

In [60]:
mat = X.T.dot(X)
mat

array([[ 4.28350286,  0.02302135,  1.26012847, -0.34463508,  1.26555563],
       [ 0.02302135,  3.61604537,  0.79398174, -0.17682746,  2.44695344],
       [ 1.26012847,  0.79398174,  5.83628459,  2.04117715,  3.54427121],
       [-0.34463508, -0.17682746,  2.04117715,  2.93576808,  2.8903046 ],
       [ 1.26555563,  2.44695344,  3.54427121,  2.8903046 ,  5.41263625]])

In [61]:
inv(mat)    # 역행렬

array([[  4.1935251 ,   7.96645078,   0.83228796,  11.47227678,
        -11.25309355],
       [  7.96645078,  16.37070534,   1.81083232,  23.08715384,
        -22.77768588],
       [  0.83228796,   1.81083232,   0.49360315,   2.4866238 ,
         -2.66430111],
       [ 11.47227678,  23.08715384,   2.4866238 ,  33.4585332 ,
        -32.61453542],
       [-11.25309355, -22.77768588,  -2.66430111, -32.61453542,
         32.27379271]])

In [63]:
mat.dot(inv(mat))

array([[ 1.00000000e+00,  9.33655871e-17,  5.37170999e-16,
         7.37256505e-15, -2.74073508e-15],
       [-1.65829303e-15,  1.00000000e+00, -7.15976104e-16,
        -8.85844609e-15,  7.40089782e-15],
       [-1.04721391e-15,  7.90047698e-15,  1.00000000e+00,
         1.70355243e-15,  4.53901266e-15],
       [-4.87782146e-15, -1.21965255e-14, -9.80212526e-16,
         1.00000000e+00,  1.12537104e-14],
       [-1.02304799e-15, -3.92532494e-15, -1.43481668e-16,
        -8.11431057e-15,  1.00000000e+00]])

In [66]:
q, r = qr(mat)    # 단위 행렬

In [67]:
r

array([[-4.65373558, -0.93260003, -3.55682477, -0.80320461, -3.39457884],
       [ 0.        , -4.34232972, -2.88523066, -1.56081079, -4.89578564],
       [ 0.        ,  0.        , -5.65979264, -3.57159682, -4.08266831],
       [ 0.        ,  0.        ,  0.        , -2.33483802, -2.37510775],
       [ 0.        ,  0.        ,  0.        ,  0.        ,  0.01904206]])

>Note

- 과학계산 파이썬 커뮤니티는 언젠가 np.dot을 사용하는 대신 문법적으로 훨씬 보기 좋은 행렬 곱셈 이항 연산자가 구현되기를 기대하고 있다.
- 하지만 현재까지는 np.dot을 사용할 수 밖에 없다.

### 6. Random number generation
>난수 생성

- numpy.random 모듈은 파있너 내장 random 함수를 보강하여 다양한 종류의 확률분포로부터 효과적으로 표본값을 생성하는 주로 사용
- Eg. normal을 사용하여 표준정규분포로부터 4x4 크기의 표본을 생성할 수 있다.

In [68]:
samples = np.random.normal(size=(4,4))
samples

array([[-0.50308739, -0.62227423, -0.92116861, -0.72621349],
       [ 0.22289555,  0.0513161 , -1.15771947,  0.81670694],
       [ 0.43360961,  1.01073695,  1.82487521, -0.99751825],
       [ 0.8505911 , -0.1315776 ,  0.91241415,  0.18821068]])

> 성능 비교

- numpy.random은 매우 큰 표본을 생성하는데 파이썬 내장 모듈보다 수십배 이상 빠름
- 파이썬 내장 random 모듈은 한번에 하나의 값만 생성할 수 있다.

In [69]:
from random import normalvariate
N = 1000000

In [70]:
%timeit samples = [normalvariate(0,1) for _ in range(N)]

668 ms ± 680 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [71]:
%timeit np.random.normal(size = N)

22.4 ms ± 53 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


### Example : Random Walks
> 계단 오르내리기 예제

- 배열연산의 활용을 보여줄 수 있는 간단한 애플리케이션
- 계단의 중간에서 같은 확률로 한계단 올라가거나 내려간다고 가정하자.

In [72]:
np.random.seed(12345)

In [73]:
nsteps = 1000
draws = np.random.randint(0,2,size = nsteps)
steps = np.where(draws > 0 ,1 ,-1)
walk = steps.cumsum()

In [81]:
# draws

In [80]:
# steps

In [79]:
# walk

In [77]:
walk.min()

-3

In [78]:
walk.max()

31

- 처음 위치에서 10칸 이상 떨어진 시점을 알려주는 불리언 배열
- 최초의 10 혹은 -10인 시점을 구해야 하므로 불리언 배열에서 최대값의 처음 색인을 반환하는 argmax 사용
- argmax는 배열 전체를 모두 확인하기 때문에 효과적인 방법은 아니다.

In [82]:
(np.abs(walk) >= 10).argmax()

37

### Simulating many random walks at once
>한번에 계단 오르내리기 시뮬레이션

In [90]:
nwalks = 5000
nsteps = 1000
draws = np.random.randint(0,2,size = (nwalks,nsteps))
steps = np.where(draws > 0, 1, -1)
walks = steps.cumsum(1)
walks

array([[  1,   0,  -1, ...,  10,  11,  10],
       [ -1,   0,   1, ...,  -2,  -3,  -2],
       [ -1,   0,   1, ..., -40, -39, -38],
       ...,
       [  1,   2,   3, ..., -30, -31, -30],
       [ -1,  -2,  -3, ...,  16,  15,  16],
       [ -1,  -2,  -1, ...,  16,  15,  14]], dtype=int32)

In [87]:
walks.max()

123

In [88]:
walks.min()

-116

In [91]:
hits30 = (np.abs(walks) >= 30).any(1)
hits30

array([False, False,  True, ...,  True,  True, False])

In [92]:
hits30.sum()

3381

In [94]:
crossing_times = (np.abs(walks[hits30]) >= 30).argmax(1)
crossing_times.mean()

506.8645371191955