In [1]:
import warnings
warnings.filterwarnings('ignore')
import numpy as np

def pprint(arr):
    print('type: {}'.format(type(arr)))
    print('shape: {}, dimension: {}, dtype: {}'.format(arr.shape, arr.ndim, arr.dtype))
    print('numpy 배열의 데이터\n', arr, sep='')

numpy 파일 입출력

In [2]:
# numpy는 배열 객체를 바이너리(2진) 파일 또는 텍스트 파일에 저장하고 로딩하는 기능을 제공한다.
# 메소드 이름     기능                                                 파일 포맷
# np.save()       numpy 배열 객체 1개를 파일로 저장한다.               바이너리
# np.savez()      numpy 배열 객체 여러 개를 파일로 저장한다.           바이너리
# np.load()       numpy 배열 저장 파일로 부터 배열 객체를 읽어온다.    바이너리
# ============================================================================================
# np.savetxt()    numpy 배열 객체 텍스트 파일로 저장한다.              텍스트
# np.loadtxt()    텍스트 파일에 저장된 numpy 배열 객체를 읽어온다.     텍스트

In [3]:
a = np.random.randint(0, 10, (2, 3))
pprint(a)
b = np.random.randint(0, 10, (2, 3))
pprint(b)

type: <class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[7 4 8]
 [8 1 9]]
type: <class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[5 7 4]
 [4 9 0]]


In [4]:
# numpy 배열 객체를 바이너리 파일로 저장
# np.save(), np.savez() 메소드를 이용해서 배열 객체를 바이너리(2진) 형태의 파일로 저장할 수 있다.
# np.save(): 배열 1개를 저장한다. 확장자 => npy
# np.savez(): 배열 여러 개를 저장한다. 확장자 => npz

# a 배열을 바이너리 파일로 저장한다.
# np.save('경로명', 배열명)
np.save('./output/my_array1', a)
# a, b 배열을 바이너리 파일로 저장한다.
# np.savez('경로명', 배열명1, 배열명2, ...)
np.savez('./output/my_array2', a, b)

In [5]:
# np.load() 메소드로 npy, npz 파일로 부터 배열 데이터를 읽어올 수 있다.
# npy 파일 읽기
print(np.load('./output/my_array1.npy'))

[[7 4 8]
 [8 1 9]]


In [6]:
# npz 파일 읽기
print(np.load('./output/my_array2.npz'))
npzFiles = np.load('./output/my_array2.npz')
print(npzFiles['arr_0'])
print(npzFiles['arr_1'])

<numpy.lib.npyio.NpzFile object at 0x000002B792A0F940>
[[7 4 8]
 [8 1 9]]
[[5 7 4]
 [4 9 0]]


In [7]:
c = np.random.random((3, 4))
pprint(c)

type: <class 'numpy.ndarray'>
shape: (3, 4), dimension: 2, dtype: float64
numpy 배열의 데이터
[[0.48974988 0.61097895 0.38997803 0.20650389]
 [0.79648782 0.55688819 0.15032288 0.5922048 ]
 [0.56762391 0.53172194 0.68131338 0.16976018]]


In [8]:
# numpy 배열 객체를 텍스트 파일로 저장
# 텍스트 파일은 txt 파일의 의미하는 것이 아니고 csv 또는 tsv 파일을 의미한다.
# np.savetxt() 메소드로 배열 객체를 텍스트 파일 형태로 저장시킬 수 있다.
# np.savetxt('경로명', 배열명, delimiter='구분자')
np.savetxt('./output/saved.csv', c, delimiter=',') # csv 파일은 데이터를 ','로 구분한다.
np.savetxt('./output/saved2.tsv', c, delimiter='\t') # tsv 파일은 데이터를 tab으로 구분한다.

In [9]:
# np.loadtxt() 메소드로 배열 객체를 텍스트 파일 형태로 저장시킬 수 있다.
# np.loadtxt('경로명', dtype, delimiter='구분자')
saved = np.loadtxt('./output/saved.csv', dtype=np.float, delimiter=',')
pprint(saved)
print(np.loadtxt('./output/saved2.tsv', dtype=float, delimiter='\t'))

type: <class 'numpy.ndarray'>
shape: (3, 4), dimension: 2, dtype: float64
numpy 배열의 데이터
[[0.48974988 0.61097895 0.38997803 0.20650389]
 [0.79648782 0.55688819 0.15032288 0.5922048 ]
 [0.56762391 0.53172194 0.68131338 0.16976018]]
[[0.48974988 0.61097895 0.38997803 0.20650389]
 [0.79648782 0.55688819 0.15032288 0.5922048 ]
 [0.56762391 0.53172194 0.68131338 0.16976018]]


배열(행렬) 연산 - 산술 연산

In [10]:
a = np.arange(1, 10).reshape(3, 3)
pprint(a)
b = np.arange(9, 0, -1).reshape(3, 3)
pprint(b)

type: <class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[1 2 3]
 [4 5 6]
 [7 8 9]]
type: <class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[9 8 7]
 [6 5 4]
 [3 2 1]]


In [11]:
# 덧셈: +, np.add()
print(a + b)
print(np.add(a, b))

[[10 10 10]
 [10 10 10]
 [10 10 10]]
[[10 10 10]
 [10 10 10]
 [10 10 10]]


In [12]:
# 뺄셈: -, np.subtract()
print(a - b)
print(np.subtract(a, b))

[[-8 -6 -4]
 [-2  0  2]
 [ 4  6  8]]
[[-8 -6 -4]
 [-2  0  2]
 [ 4  6  8]]


In [13]:
# 곱셈: *, np.multiply()
print(a * b)
print(np.multiply(a, b))

[[ 9 16 21]
 [24 25 24]
 [21 16  9]]
[[ 9 16 21]
 [24 25 24]
 [21 16  9]]


In [14]:
# 나눗셈: /, np.divide()
print(a / b)
print(np.divide(a, b))

[[0.11111111 0.25       0.42857143]
 [0.66666667 1.         1.5       ]
 [2.33333333 4.         9.        ]]
[[0.11111111 0.25       0.42857143]
 [0.66666667 1.         1.5       ]
 [2.33333333 4.         9.        ]]


In [15]:
print(np.exp(a)) # 지수

[[2.71828183e+00 7.38905610e+00 2.00855369e+01]
 [5.45981500e+01 1.48413159e+02 4.03428793e+02]
 [1.09663316e+03 2.98095799e+03 8.10308393e+03]]


In [16]:
print(np.sqrt(a))

[[1.         1.41421356 1.73205081]
 [2.         2.23606798 2.44948974]
 [2.64575131 2.82842712 3.        ]]


In [17]:
# 삼각함수
print(np.sin(a))
print(np.cos(a))
print(np.tan(a))

[[ 0.84147098  0.90929743  0.14112001]
 [-0.7568025  -0.95892427 -0.2794155 ]
 [ 0.6569866   0.98935825  0.41211849]]
[[ 0.54030231 -0.41614684 -0.9899925 ]
 [-0.65364362  0.28366219  0.96017029]
 [ 0.75390225 -0.14550003 -0.91113026]]
[[ 1.55740772 -2.18503986 -0.14254654]
 [ 1.15782128 -3.38051501 -0.29100619]
 [ 0.87144798 -6.79971146 -0.45231566]]


In [18]:
print(np.log(a)) # 로그

[[0.         0.69314718 1.09861229]
 [1.38629436 1.60943791 1.79175947]
 [1.94591015 2.07944154 2.19722458]]


In [19]:
print(np.dot(a, b)) # 행렬의 내적

[[ 30  24  18]
 [ 84  69  54]
 [138 114  90]]


<img src="./dot.png" width="1000" align="left"/>

배열(행렬) 연산 - 비교 연산

In [20]:
# 배열 요소별 비교: >, >=, <, <=, ==, !=
print(a == b)

[[False False False]
 [False  True False]
 [False False False]]


In [21]:
# np.array_equal() 메소드를 사용하면 배열 전체를 비교할 수 있다.
print(np.array_equal(a, b))

False


집계 함수  
numpy의 모든 집계 함수는 axis를 기준으로 계산하며 집계 함수에 axis를 지정하지 않으면 axis=None이 기본값으로 사용된다.

In [22]:
a = np.arange(1, 10).reshape(3, 3)
pprint(a)

type: <class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[1 2 3]
 [4 5 6]
 [7 8 9]]


합계: 배열.sum(), np.sum(배열)

In [23]:
# axis=None
# axis=None은 전체 배열을 행과 열을 구분하지 않고 전체 합계를 계산한다. 생략시 기본값으로 사용된다.
print(a.sum())
print(a.sum(axis=None))
print(np.sum(a))
print(np.sum(a, axis=None))

45
45
45
45


<img src="./numpyImage/numpyImage02.jpg" width="250" align="left"/>

In [24]:
# axis=0
# axis=0은 행을 기준으로 각 행의 동일한 인덱스 요소를 그룹으로 연산한다. => 각 열의 합계
print(a.sum(axis=0))
print(np.sum(a, axis=0))

[12 15 18]
[12 15 18]


<img src="./numpyImage/numpyImage03.jpg" width="250" align="left"/>

In [25]:
# axis=1
# axis=1은 열을 기준으로 각 열의 동일한 인덱스 요소를 그룹으로 연산한다. => 각 행의 합계
print(a.sum(axis=1))
print(np.sum(a, axis=1))

[ 6 15 24]
[ 6 15 24]


<img src="./numpyImage/numpyImage04.jpg" width="250" align="left"/>

최대값: 배열.max(), np.max(배열), 최소값: 배열.min(), np.min(배열)

In [26]:
print(a.max()) # print(a.max(axis=None))
print(np.max(a)) # print(np.max(a, axis=None))
print(a.min()) # print(a.min(axis=None))
print(np.min(a)) # print(np.min(a, axis=None))

9
9
1
1


In [27]:
print(a.max(axis=0))
print(np.max(a, axis=0))
print(a.min(axis=0))
print(np.min(a, axis=0))

[7 8 9]
[7 8 9]
[1 2 3]
[1 2 3]


In [28]:
print(a.max(axis=1))
print(np.max(a, axis=1))
print(a.min(axis=1))
print(np.min(a, axis=1))

[3 6 9]
[3 6 9]
[1 4 7]
[1 4 7]


누적 합계: 배열.cumsum(), np.cumsum(배열)

In [29]:
print(a.cumsum())
print(np.cumsum(a))

[ 1  3  6 10 15 21 28 36 45]
[ 1  3  6 10 15 21 28 36 45]


In [30]:
print(a.cumsum(axis=0))
print(np.cumsum(a, axis=0))

[[ 1  2  3]
 [ 5  7  9]
 [12 15 18]]
[[ 1  2  3]
 [ 5  7  9]
 [12 15 18]]


In [31]:
print(a.cumsum(axis=1))
print(np.cumsum(a, axis=1))

[[ 1  3  6]
 [ 4  9 15]
 [ 7 15 24]]
[[ 1  3  6]
 [ 4  9 15]
 [ 7 15 24]]


평균: 배열.mean(), np.mean(배열)

In [32]:
print(a.mean())
print(np.mean(a))

5.0
5.0


In [33]:
print(a.mean(axis=0))
print(np.mean(a, axis=0))

[4. 5. 6.]
[4. 5. 6.]


In [34]:
print(a.mean(axis=1))
print(np.mean(a, axis=1))

[2. 5. 8.]
[2. 5. 8.]


중위수: np.median(배열)

In [35]:
print(np.median(a))
print(np.median(a, axis=0))
print(np.median(a, axis=1))

5.0
[4. 5. 6.]
[2. 5. 8.]


상관계수: np.corrcoef(배열)

In [36]:
print(np.corrcoef(a)) # axis를 사용하지 않는다.

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


표준편차: 배열.std(), np.std(배열)

In [37]:
print(a.std())
print(np.std(a))

2.581988897471611
2.581988897471611


In [38]:
print(a.std(axis=0))
print(np.std(a, axis=0))

[2.44948974 2.44948974 2.44948974]
[2.44948974 2.44948974 2.44948974]


In [39]:
print(a.std(axis=1))
print(np.std(a, axis=1))

[0.81649658 0.81649658 0.81649658]
[0.81649658 0.81649658 0.81649658]


브로드캐스팅  
shape이 같은 두 배열에 대한 이항 연산은 배열 요소별로 실행된다.  
두 배열의 shape이 다를 경우 두 배열 간의 형상을 맞추는 그림과 같은 브로드캐스팅 과정을 거쳐서 실행된다.  
<img src="./numpyImage/numpyImage05.jpg" width="900" align="left"/>

shape이 같은 두 배열의 연산

In [40]:
a = np.arange(1, 25).reshape(4, 6)
print(a)
b = np.arange(25, 49).reshape(4, 6)
print(b)

[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]
 [13 14 15 16 17 18]
 [19 20 21 22 23 24]]
[[25 26 27 28 29 30]
 [31 32 33 34 35 36]
 [37 38 39 40 41 42]
 [43 44 45 46 47 48]]


In [41]:
# shape이 같은 배열을 이항 연산할 경우 위치가 같은 요소 단위로 실행된다.
print(a + b)

[[26 28 30 32 34 36]
 [38 40 42 44 46 48]
 [50 52 54 56 58 60]
 [62 64 66 68 70 72]]


shape이 다른 두 배열의 연산  
shape이 다른 두 배열 사이의 이항 연산에서 브로드캐스팅 발생 시 두 배열을 같은 shape으로 만든 후 연산을 실행한다.

In [42]:
# 배열과 스칼라(단일 값)의 연산
# 배열과 스칼라 사이의 이항 연산 시 스칼라를 배열로 변환한다.
a = np.arange(1, 25).reshape(4, 6)
print(a)
print(a + 100)

[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]
 [13 14 15 16 17 18]
 [19 20 21 22 23 24]]
[[101 102 103 104 105 106]
 [107 108 109 110 111 112]
 [113 114 115 116 117 118]
 [119 120 121 122 123 124]]


In [43]:
# a + 100은 다음과 같은 과정을 거쳐서 처리된다.
new_arr = np.full_like(a, 100)
print(new_arr)
print(a + new_arr)

[[100 100 100 100 100 100]
 [100 100 100 100 100 100]
 [100 100 100 100 100 100]
 [100 100 100 100 100 100]]
[[101 102 103 104 105 106]
 [107 108 109 110 111 112]
 [113 114 115 116 117 118]
 [119 120 121 122 123 124]]


In [44]:
# shape 다른 배열의 연산
a = np.arange(5).reshape(1, 5)
print(a)
b = np.arange(5).reshape(5, 1)
print(b)
print(a + b)

[[0 1 2 3 4]]
[[0]
 [1]
 [2]
 [3]
 [4]]
[[0 1 2 3 4]
 [1 2 3 4 5]
 [2 3 4 5 6]
 [3 4 5 6 7]
 [4 5 6 7 8]]


벡터 연산  
numpy는 벡터 연산을 지원한다.  
numpy의 집합 연산에는 벡터화 기능이 적용되어 있어서 배열 처리에 대해 벡터 연산을 적용할 경우 처리 속도가 100배 이상 빠르다.

In [45]:
a = np.arange(10000000, dtype=np.int64)

In [46]:
%%time
result = 0
for i in a:
    result += i
print(result)

49999995000000
Wall time: 2.28 s


In [47]:
%%time
result = np.sum(a)
print(result)

49999995000000
Wall time: 7 ms


배열 복사  
ndarray 배열 객체에 대한 인덱싱, 슬라이싱이 반환하는 배열은 새로운 객체가 아닌 기존 배열의 view이다.  
반환된 배열의 값을 변경하면 원본 배열에 변경한 값이 반영된다.

In [48]:
a = np.random.randint(0, 9, (3, 3))
print(a)
a[:, 0] = 999 # a배열의 모든 행의 0 번째 열을 999로 변경한다.
print(a)

[[7 0 3]
 [1 5 8]
 [3 8 2]]
[[999   0   3]
 [999   5   8]
 [999   8   2]]


기존 배열로부터 새로운 배열을 생성하기 위해서 copy() 함수를 사용한다.  
copy() 함수로 복사된 배열은 원본 배열과 완전히 다른 별도의 객체가 된다.

In [49]:
copied_a = np.copy(a) # a 배열의 복사본을 만든다. - 깊은 복사
print(copied_a)
copied_a[:, 1] = 777
print(copied_a)
print(a)

[[999   0   3]
 [999   5   8]
 [999   8   2]]
[[999 777   3]
 [999 777   8]
 [999 777   2]]
[[999   0   3]
 [999   5   8]
 [999   8   2]]


배열 정렬  
ndarray 객체는 axis를 기준으로 요소를 정렬하는 sort() 함수를 제공한다.

In [50]:
unsorted_arr = np.random.random((3, 3))
print(unsorted_arr)

[[0.73764685 0.1498422  0.84572091]
 [0.07293381 0.51918196 0.42978033]
 [0.85446797 0.04193898 0.30531196]]


In [51]:
# sort 작업을 위해 원본을 복사한다.
unsorted_arr1 = unsorted_arr.copy()
print(unsorted_arr1)
unsorted_arr2 = unsorted_arr.copy()
print(unsorted_arr2)
unsorted_arr3 = np.copy(unsorted_arr)
print(unsorted_arr3)

[[0.73764685 0.1498422  0.84572091]
 [0.07293381 0.51918196 0.42978033]
 [0.85446797 0.04193898 0.30531196]]
[[0.73764685 0.1498422  0.84572091]
 [0.07293381 0.51918196 0.42978033]
 [0.85446797 0.04193898 0.30531196]]
[[0.73764685 0.1498422  0.84572091]
 [0.07293381 0.51918196 0.42978033]
 [0.85446797 0.04193898 0.30531196]]


배열.sort()  
sort() 함수의 axis 기본값은 None이 아니고 -1이다.  
-1은 현재 배열의 마지막 axis를 의미하고 unsorted_arr는 2차원이므로 axis가 0, 1이 존재하고 마지막 axis는 1이다.  
배열.sort()와 배열.sort(axis=1)의 실행 결과는 같다.

In [52]:
unsorted_arr1.sort()
print(unsorted_arr1)
print('=' * 80)
unsorted_arr2.sort(axis=1)
print(unsorted_arr2)

[[0.1498422  0.73764685 0.84572091]
 [0.07293381 0.42978033 0.51918196]
 [0.04193898 0.30531196 0.85446797]]
[[0.1498422  0.73764685 0.84572091]
 [0.07293381 0.42978033 0.51918196]
 [0.04193898 0.30531196 0.85446797]]


In [53]:
unsorted_arr3.sort(axis=0)
print(unsorted_arr3)

[[0.07293381 0.04193898 0.30531196]
 [0.73764685 0.1498422  0.42978033]
 [0.85446797 0.51918196 0.84572091]]
