Numpy


대규모 다차원 배열을 쉽게 처리할 수 있도록 지원하는 파이썬의 라이브러리이다. 

데이터 구조 외에도 수치 계산을 위해 효율적으로 구현된 기능을 제공한다

In [27]:
import warnings
warnings.filterwarnings('ignore')
%config Computer.use_jedi = False
import numpy as np

def pprint(arr):
    print('type: {}'.format(type(arr)))
    print('shape: {}, dimension: {}, dtype: {}'.format(arr.shape, arr.ndim, arr.dtype))
    print('numpy 배열의 데이터\n', arr, sep='') 

In [28]:
a = np.arange(1,25).reshape(4,6)
pprint(a)
b = np.arange(25,49).reshape(4,6)
pprint(b)                  

type: <class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]
 [13 14 15 16 17 18]
 [19 20 21 22 23 24]]
type: <class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[25 26 27 28 29 30]
 [31 32 33 34 35 36]
 [37 38 39 40 41 42]
 [43 44 45 46 47 48]]


In [29]:
# !jt -t onedork -fs 125 -nfs 125 -tfs 125 -dfs 115 -ofs 115 -cursc r -cellw 80% -lineh 115 -altmd  -kl -T -N
# color: #f55683; 주피터설정

브로드캐스팅 서로 다른 shape의 배열을 일정 조건을 만족하면 연산하는 기능  

In [30]:
# shape이 같은 두 배열의 연산 : 요소별로 실행된다.
print(a+b)

[[26 28 30 32 34 36]
 [38 40 42 44 46 48]
 [50 52 54 56 58 60]
 [62 64 66 68 70 72]]


In [59]:
# shape이 다른 두 배열의 연산 - 브로드캐스팅
# 두 배열을 같은 shape으로 만든 후 연산을 실행한다.

# 배열과 스칼라(단일 값)의 연산 : 스칼라를 배열과 같은 shape로 변환한다.
# 가장 많이 사용됨
a = np.arange(1, 25).reshape(4, 6)
print(a)
print(a + 100)

# a + 100은 다음과 같은 과정을 거쳐서 처리된다.
new_arr = np.full_like(a, 100) # 100이 a와 같은 shape의 100으로 가득찬 배열로 변환됨
print(new_arr)
print(a + new_arr) # 이후 연산

a = np.arange(5).reshape(1, 5) 
print(a)
b = np.arange(5).reshape(5, 1)
print(b)
print(a + b) # a와 b를 5행5열로 만들어 계산 



[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]
 [13 14 15 16 17 18]
 [19 20 21 22 23 24]]
[[101 102 103 104 105 106]
 [107 108 109 110 111 112]
 [113 114 115 116 117 118]
 [119 120 121 122 123 124]]
[[100 100 100 100 100 100]
 [100 100 100 100 100 100]
 [100 100 100 100 100 100]
 [100 100 100 100 100 100]]
[[101 102 103 104 105 106]
 [107 108 109 110 111 112]
 [113 114 115 116 117 118]
 [119 120 121 122 123 124]]
[[0 1 2 3 4]]
[[0]
 [1]
 [2]
 [3]
 [4]]
[[0 1 2 3 4]
 [1 2 3 4 5]
 [2 3 4 5 6]
 [3 4 5 6 7]
 [4 5 6 7 8]]


벡터 연산  
numpy에는 벡터화 기능이 적용되어 있어 배열 연산 속도가 100배 이상 빠르다.

In [34]:
a = np.arange(10000000, dtype=np.int64)

In [35]:
%%time

result = 0
for i in a:
    result += i
print(result)


49999995000000
Wall time: 3.9 s


In [36]:
%%time
result=np.sum(a)
print(result)

49999995000000
Wall time: 16 ms


배열 복사  
배열 객체에 대한 인덱싱, 슬라이싱으로 반환하는 배열은, 새로운 객체가 아니다.    
(view : 기본 테이블에서 유도된 가상 테이블, read only-수정 불가)

이를 수정하면 원본 배열에 반영된다. - 얕은 복사  

copy() : 원본 배열로부터 별도의 배열을 생성 - 깊은 복사

In [48]:
a = np.random.randint(0, 9, (3, 3))
print(a)
print(a[2]) # 2행의 전체값
print(a[2][0]) # 2행0열값 

print(a[:, 0])# a배열의[처음부터 끝까지, 0번째 열] 0번째 열만 슬라이싱.

a[:, 0]=999 # 수정시 원본에 반영됨
print(a[:, 0])
print(a)

[[2 8 1]
 [4 7 8]
 [4 8 1]]
[4 8 1]
4
[2 4 4]
[999 999 999]
[[999   8   1]
 [999   7   8]
 [999   8   1]]


In [47]:
a=np.random.randint(0,9,(3,3))
print(a)
copied_a = np.copy(a) # copy() 
print(copied_a)
copied_a[:, 1] = 777
print(copied_a)
print(a)



[[3 1 7]
 [7 0 8]
 [7 8 4]]
[[3 1 7]
 [7 0 8]
 [7 8 4]]
[[  3 777   7]
 [  7 777   8]
 [  7 777   4]]
[[3 1 7]
 [7 0 8]
 [7 8 4]]


배열 정렬  
 sort() : axis를 기준으로 비교해 요소를 정렬.  



배열.sort()  
sort() 함수의 axis 기본값 : -1. (배열의 마지막 값 1) -> y축 기준 행별로 비교 후 정렬

In [56]:
unsorted_arr = np.random.random((3, 3))
print(unsorted_arr)

# sort 작업을 위해 copy.
unsorted_arr1 = unsorted_arr.copy()
print(unsorted_arr1)
unsorted_arr2 = unsorted_arr.copy()
print(unsorted_arr2)
unsorted_arr3 = np.copy(unsorted_arr)
print(unsorted_arr3)

[[0.63107268 0.70748071 0.31936569]
 [0.8817734  0.67662621 0.35320234]
 [0.54669972 0.02149566 0.510918  ]]
[[0.63107268 0.70748071 0.31936569]
 [0.8817734  0.67662621 0.35320234]
 [0.54669972 0.02149566 0.510918  ]]
[[0.63107268 0.70748071 0.31936569]
 [0.8817734  0.67662621 0.35320234]
 [0.54669972 0.02149566 0.510918  ]]
[[0.63107268 0.70748071 0.31936569]
 [0.8817734  0.67662621 0.35320234]
 [0.54669972 0.02149566 0.510918  ]]


In [58]:
unsorted_arr1.sort() # axis=-1=1, y축으로 비교, 열방향 정렬(왼->오)
print(unsorted_arr1)
unsorted_arr2.sort(axis=0) # x축 비교, 행방향 정렬(위에서 아래)
print(unsorted_arr2)

a = np.sort(unsorted_arr3, axis=0)[::-1] # 내림차순, 행방향 정렬(위에서 아래)
print(a)

[[0.31936569 0.63107268 0.70748071]
 [0.35320234 0.67662621 0.8817734 ]
 [0.02149566 0.510918   0.54669972]]
[[0.54669972 0.02149566 0.31936569]
 [0.63107268 0.67662621 0.35320234]
 [0.8817734  0.70748071 0.510918  ]]
[[0.8817734  0.70748071 0.510918  ]
 [0.63107268 0.67662621 0.35320234]
 [0.54669972 0.02149566 0.31936569]]
