### Numpy(Numerical Python)
- 파이썬에서 산술 계산을 위한 가장 중요한 필수 패키지

### 리스트와 차이점
- 리스트와는 달리 모든 원소가 같은 자료형이어야 하고
- 원소의 갯수를 바꿀 수 없다.

### 기능
- 다차원 배열은 ndarray를 통해 빠른 배열 계산과 유연한 브로드캐스팅(크기가 다른 배열 간 연산) 기능 제공
- 반복문 작성 필요없이 전체 데이터 배열에 수학함수 적용 가능
- C / C++ API 포트란으로 작성한 코드를 연결할 수 있는 C API
- 선형대수, 난수 생성기, 푸리에 변환 등 가능
- Numpy 자체는 모델링이나 과학 계산을 위한 기능을 제공하지 않으므로 먼저 Numpy 배열과 배열 기반 연산에 대한 이해를 한 다음 pandas 가틍ㄴ 배열 기반 도구를 사용하면 훨씬 더 효율적일 것임
- 대용량 데이터 배열을 효율적으로 다룰 수 있도록 설계됨
- Numpy는 내부적으로 데이터를 다른 내장 파이썬 객체와 구분된 연속돈 메모리 블록에 저장하며 Numpy의 각종 알고리즘은 모두 C로 작성되어 타입 검사나 다른 오버헤드 없이 메모리를 직접 조작할 수 있다. Numpy 배열은 내장 파이썬의 연속된 자료형들보다 훨씬 더 적은 메모리를 사용한다.
- 대부분 수치 계산은 ndarray연산이 파이썬 반복문보다 훨씬 빨라서 대부분 수치 계산은 파이썬 반복문 대신 Numpy 벡터 연산을 수행함.
- 더 빠른 이유는 numpy 벡터 계산은 C로 구현되어있고, for반복은 CPython 인터프리터의 저수준 연산과 연관.
- 파이썬 리스트에서 원소는 메모리에 산발적으로 저장. 배열은 메모리의 접경블록에 저장. 데이터가 연속해서 있어서 더 효과적으로 로딩 가능.


In [1]:
# 1. Numpy 속도 비교
# Numpy로 작성한 코드가 순수 파이썬으로 작성한 코드보다 훨씬 빠르다.
import numpy as np

arr1 = np.arange(1000000)
%time for _ in range(10): arr1 = arr1*2    

Wall time: 32 ms


In [2]:
arr2 = list(range(1000000))
%time for _ in range(10): arr2 = arr2*2

Wall time: 1min 30s


In [3]:
# 2. ndarray 배열 생성 함수

# (1) array
data1 = np.random.randn(2,3)
n_arr1 = np.array(data1)

# (2) arange
n_arr2 = np.arange(15)

# (3) zeros, empty, ones
n_arr3 = np.zeros((3,4))
n_arr4 = np.empty((2,3,2))

# (4) eye
n_arr5 = np.eye(3)

print('np.array\n',n_arr1,'\n')
print('np.arange\n', n_arr2,'\n')
print('np.zeros\n', n_arr3,'\n')
print('np.empty\n', n_arr4,'\n')
print('np.eyes\n', n_arr5,'\n')

np.array
 [[-0.06071368  0.5829372  -0.14421516]
 [ 1.0591361  -0.43917934  1.43686199]] 

np.arange
 [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14] 

np.zeros
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]] 

np.empty
 [[[6.69685062e-312 3.16202013e-322]
  [0.00000000e+000 0.00000000e+000]
  [0.00000000e+000 6.87432364e-038]]

 [[4.50333499e+174 1.25666731e-075]
  [1.15393322e-071 1.10659500e+165]
  [2.95005369e+179 5.94199602e-038]]] 

np.eyes
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]] 



In [4]:
# 2. ndarray 배열 생성 함수 2
# 기존있던 배열을 zeros or ones, empyt 배열로 리턴
# np.zeros_like(), np.ones_like(), np.empty_like()

# return an arrary of zeros with the same shape and type
a = np.array([[0,1,2,3],[4,5,6,7]])
print(a, '\n')

b = np.zeros_like(a)
print(b, '\n')

c = np.ones_like(a)
print(c, '\n')

d = np.empty_like(a)
print(d, '\n')

[[0 1 2 3]
 [4 5 6 7]] 

[[0 0 0 0]
 [0 0 0 0]] 

[[1 1 1 1]
 [1 1 1 1]] 

[[1 0 1 0]
 [0 0 0 0]] 



In [5]:
# 3. 형변환
n_arr6 = np.array([1,2,3,4,5])
n_arr6 = n_arr6.astype(np.float64)
print(n_arr6)

[1. 2. 3. 4. 5.]


In [6]:
# 4. Numpy의 산술연산
# for문 작성 없이 데이터를 일괄 처리 가능. 이를 벡터화라고 하며 같은 크기의 배열간의 산술연산은 각 원소 단위로 적용됨.
n_arr7 = np.array([[1,2,3], [4,5,6]])
n_arr8 = np.array([[2,4,2], [3,7,5]])
n_arr9 = n_arr7 * n_arr8
n_arr10 = n_arr7 / n_arr8
n_arr11 = n_arr7 > n_arr8

print('np - 곱\n', n_arr9,'\n')
print('np - 나누기\n',n_arr10,'\n')
print('np - 비교\n',n_arr11,'\n')


np - 곱
 [[ 2  8  6]
 [12 35 30]] 

np - 나누기
 [[0.5        0.5        1.5       ]
 [1.33333333 0.71428571 1.2       ]] 

np - 비교
 [[False False  True]
 [ True False  True]] 



In [7]:
# 5. 색인과 슬라이싱 기초
# Numpy는 대용량 데이터 처리를 염두에 두고 설계되었기 때문에 복사를 함부로 남발하지 않음.
# 색인과 슬라이싱은 데이터는 공통인 뷰 위주의 개념
# 복사를 하고 싶다면 copy() 를 이용해야 함.
# 슬라이싱 대상에 값을 대입하면 모두가 반영된다.

# (1) 슬라이싱 참조
n_arr12 = np.arange(10)
n_arr13 = n_arr12[5:8]
n_arr13[:] = 13

print('뷰용 슬라이싱 본\n', n_arr13,'\n')
print('원본\n', n_arr12,'\n')

# (2) copy 배열 복사
n_arr14 = n_arr12[2:5].copy()
n_arr14[:] = 14

print('뷰용 슬라이싱 본\n', n_arr14,'\n')
print('원본\n', n_arr12,'\n')

# (3) 2중 배열
n_arr15 = np.array([[1,2,3],[4,5,6],[7,8,9]])
print('2차원배열 인덱싱 1 -> n_arr15[0][2] \n', n_arr15[0][2])
print('2차원배열 인덱싱 2 -> n_arr15[0,2] \n', n_arr15[0,2])
print('2차원배열 인덱싱 3 -> n_arr15[:2] \n', n_arr15[:2])
print('2차원배열 인덱싱 4 -> n_arr15[:2, :1] \n', n_arr15[:2, :1])
print('2차원배열 인덱싱 5 -> n_arr15[1, :2] \n', n_arr15[1, :2])
print('2차원배열 인덱싱 6 -> n_arr15[:, :1] \n', n_arr15[:, :1])

뷰용 슬라이싱 본
 [13 13 13] 

원본
 [ 0  1  2  3  4 13 13 13  8  9] 

뷰용 슬라이싱 본
 [14 14 14] 

원본
 [ 0  1  2  3  4 13 13 13  8  9] 

2차원배열 인덱싱 1 -> n_arr15[0][2] 
 3
2차원배열 인덱싱 2 -> n_arr15[0,2] 
 3
2차원배열 인덱싱 3 -> n_arr15[:2] 
 [[1 2 3]
 [4 5 6]]
2차원배열 인덱싱 4 -> n_arr15[:2, :1] 
 [[1]
 [4]]
2차원배열 인덱싱 5 -> n_arr15[1, :2] 
 [4 5]
2차원배열 인덱싱 6 -> n_arr15[:, :1] 
 [[1]
 [4]
 [7]]


In [8]:
# 6. 불리언 값으로 선택하기
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe','Joe'])
n_array16 = np.random.randn(7, 4)

print('names==Bob -> ', names=='Bob')
print('names==Bob -> ', names!='Bob')
print("names[~(names=='Bob')]", names[~(names=='Bob')])
print("(names=='Bob' or names=='Will')", ((names=='Bob') | (names=='Will')), '\n')

n_array17 = n_array16[names =='Bob', 2:] # 0행, 3행 중 2열 전까지
n_array18 = n_array16[~(names=='Bob')]

print("n_array16[names=='Bob',:2] \n", n_array17,'\n')
print("n_array16[~(names=='Bob')] \n", n_array18,'\n')


names==Bob ->  [ True False False  True False False False]
names==Bob ->  [False  True  True False  True  True  True]
names[~(names=='Bob')] ['Joe' 'Will' 'Will' 'Joe' 'Joe']
(names=='Bob' or names=='Will') [ True False  True  True  True False False] 

n_array16[names=='Bob',:2] 
 [[ 0.1236769  -0.41454171]
 [ 1.35987366  2.48318792]] 

n_array16[~(names=='Bob')] 
 [[-0.63521073 -1.11053644 -0.79936044  1.23315772]
 [-0.2079415   0.32299056  0.25928775 -0.16520474]
 [ 0.29979429 -0.35782609 -0.50541548 -0.40379299]
 [-0.47162715 -0.59737864 -1.4297279  -0.053174  ]
 [ 0.49551501  1.24921734  0.26086481  0.30761995]] 



In [9]:
# 7. 팬시 색인

# reshape
n_array19 = np.arange(32).reshape((8,4))
print(n_array19, '\n')

# reshape2
print(n_array19[[1,5,7,2]][:, [0,3,1,2]])
print(n_array19, '\n')

# T (전치행렬)
print(n_array19.T, '\n')

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]] 

[[ 4  7  5  6]
 [20 23 21 22]
 [28 31 29 30]
 [ 8 11  9 10]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]] 

[[ 0  4  8 12 16 20 24 28]
 [ 1  5  9 13 17 21 25 29]
 [ 2  6 10 14 18 22 26 30]
 [ 3  7 11 15 19 23 27 31]] 



In [10]:
# 8. 유니버셜 함수
# 각 배열의 원소를 빠르게 처리하는 함수 
# 단항 유니버설, 이항 유니버셜(두개로 1개 반환)
n_array20 = np.random.randn(8)
n_array21 = np.random.randn(8)
print('n_array20', n_array20,'\n')
print('n_array21', n_array21,'\n')

print('sqrt(n_array20)', np.sqrt(n_array20),'\n')
print('exp(n_array20)', np.exp(n_array20),'\n')
print('ceil(n_array20)', np.ceil(n_array20),'\n')
print('floor(n_array21)', np.floor(n_array21),'\n')
print('abs(n_array21)', np.abs(n_array21),'\n')

print('maximum(n_array20, n_array21)', np.maximum(n_array20, n_array21),'\n')
print('subtract(n_array20, n_array21)', np.subtract(n_array20, n_array21),'\n')
print('divide(n_array20, n_array21)', np.divide(n_array20, n_array21),'\n') # 나누기
print('power(n_array20, n_array21)', np.power(n_array20, n_array21),'\n') # 제곱
print('mod(n_array20, n_array21)', np.mod(n_array20, n_array21),'\n') # 나눈 나머지

# 정수부분과 소수자리 구분
print('modf(n_array21) -> remainder, interger part', np.modf(n_array21))

n_array20 [-1.04957009 -0.8187111   2.14355602  0.44073524 -1.03521395  1.11167796
  0.04178058 -0.33679336] 

n_array21 [-1.0495776  -0.10278616  0.31120892  0.56465492 -0.22729079 -0.56267812
 -0.79805307  0.41793305] 

sqrt(n_array20) [       nan        nan 1.4640888  0.66387893        nan 1.0543614
 0.20440299        nan] 

exp(n_array20) [0.35008822 0.44099969 8.52971559 1.55384925 0.35515039 3.0394542
 1.04266568 0.71405638] 

ceil(n_array20) [-1. -0.  3.  1. -1.  2.  1. -0.] 

floor(n_array21) [-2. -1.  0.  0. -1. -1. -1.  0.] 

abs(n_array21) [1.0495776  0.10278616 0.31120892 0.56465492 0.22729079 0.56267812
 0.79805307 0.41793305] 

maximum(n_array20, n_array21) [-1.04957009 -0.10278616  2.14355602  0.56465492 -0.22729079  1.11167796
  0.04178058  0.41793305] 

subtract(n_array20, n_array21) [ 7.50727644e-06 -7.15924938e-01  1.83234710e+00 -1.23919686e-01
 -8.07923160e-01  1.67435608e+00  8.39833656e-01 -7.54726410e-01] 

divide(n_array20, n_array21) [ 0.99999285  7.96518809  

  if __name__ == '__main__':


In [11]:
# 9. 배열로 조건절 표현
# np.where
data = np.random.randn(4,4)

n_array22 = np.where(data>0, 1, -1)
n_array23 = np.where(data>0, -1, data)
print(data,'\n')
print(n_array22,'\n')
print(n_array23)

[[-1.45949107  0.04190371  0.59360323 -0.4956279 ]
 [ 0.30088896  0.49638894 -1.32284333  0.19935317]
 [-0.27684777  0.20527407  0.08807781 -1.35845344]
 [-0.17334686 -0.00352611 -0.23921944  0.51301738]] 

[[-1  1  1 -1]
 [ 1  1 -1  1]
 [-1  1  1 -1]
 [-1 -1 -1  1]] 

[[-1.45949107 -1.         -1.         -0.4956279 ]
 [-1.         -1.         -1.32284333 -1.        ]
 [-0.27684777 -1.         -1.         -1.35845344]
 [-0.17334686 -0.00352611 -0.23921944 -1.        ]]


In [12]:
# 10. 통계적 표현
n_array24 = np.random.randn(3,3)
print('n_array24\n', n_array24)
print('n_array24.mean() -> ', n_array24.mean())
print('n_array24.mean(axis=0) -> ', n_array24.mean(axis=0)) # 열 별로의 평균
print('n_array24.mean(axis=1) -> ', n_array24.mean(axis=1),'\n') # 행 별로의 평균

print('n_array24.sum() -> ', n_array24.sum())
print('n_array24.sum(axis=0) -> ', n_array24.sum(axis=0)) # 열 별로의 합
print('n_array24.sum(axis=1) -> ', n_array24.sum(axis=1),'\n') # 행 별로의 합

n_array25 = np.array([[17,5,9],[8,2,4],[6,15,3]])
print('n_array25\n', n_array25)
# 최솟값 인덱스 (최댓값인덱스 - argmax)
print('n_array25.argmin() -> ', n_array25.argmin()) # 전체중에 최솟값 인덱스
print('n_array25.argmin(axis=0) -> ', n_array25.argmin(axis=0)) # 열 별로의 최솟값 인덱스
print('n_array25.argmin(axis=1) -> ', n_array25.argmin(axis=1),'\n') # 행 별로의 최솟값 인덱스

# 누적합 (누적곱 - cumprod)
print('n_array25.cumsum() \n-> ', n_array25.cumsum()) # 누적합
print('n_array25.cumsum(axis=0) \n', n_array25.cumsum(axis=0)) # 열 누적합
print('n_array25.cumsum(axis=1) \n', n_array25.cumsum(axis=1),'\n') # 행 누적합


n_array24
 [[ 0.08837586  0.30427189 -0.83521569]
 [-1.10230965 -1.75566067 -0.69849754]
 [ 1.33948255 -0.31987353 -1.29133309]]
n_array24.mean() ->  -0.47452887496244794
n_array24.mean(axis=0) ->  [ 0.10851625 -0.59042077 -0.94168211]
n_array24.mean(axis=1) ->  [-0.14752265 -1.18548929 -0.09057469] 

n_array24.sum() ->  -4.270759874662032
n_array24.sum(axis=0) ->  [ 0.32554876 -1.77126231 -2.82504632]
n_array24.sum(axis=1) ->  [-0.44256794 -3.55646786 -0.27172407] 

n_array25
 [[17  5  9]
 [ 8  2  4]
 [ 6 15  3]]
n_array25.argmin() ->  4
n_array25.argmin(axis=0) ->  [2 1 2]
n_array25.argmin(axis=1) ->  [1 1 2] 

n_array25.cumsum() 
->  [17 22 31 39 41 45 51 66 69]
n_array25.cumsum(axis=0) 
 [[17  5  9]
 [25  7 13]
 [31 22 16]]
n_array25.cumsum(axis=1) 
 [[17 22 31]
 [ 8 10 14]
 [ 6 21 24]] 



In [13]:
# 11. 조건 배열을 위한 메서드
# any 메서드는 하나 이상의 값이 True인지 검사하고, 
# all 메서드는 모든 원소가 True인지 검사


n_array26 = np.array([[10,5,3],[7,6,15],[9,3,18]])
print(n_array26)
print('n_array26>0.sum() -> ', (n_array26>7).sum())
print('any -> ', (n_array26>7).any())
print('all -> ', (n_array26>7).all())

n_array27 = ['a','b','c','d','e']
n_array28 = ['c','d','f','g','h']

print('np.intersect1d(x,y) -> ', np.intersect1d(n_array27, n_array28)) # 교집합
print('np.union1d(x,y) -> ', np.union1d(n_array27, n_array28)) # 합집합
print('np.in1d(x,y) -> ', np.in1d(n_array27, n_array28)) # x의 원소가 y의 원소에 포함되는지 나타내는 불리얼 배열 반환
print('np.setdiff1d(x,y) -> ', np.setdiff1d(n_array27, n_array28)) # x와 y의 차집합
print('np.setxor1d(x,y) -> ', np.setxor1d(n_array27, n_array28)) # 대칭차집합


[[10  5  3]
 [ 7  6 15]
 [ 9  3 18]]
n_array26>0.sum() ->  4
any ->  True
all ->  False
np.intersect1d(x,y) ->  ['c' 'd']
np.union1d(x,y) ->  ['a' 'b' 'c' 'd' 'e' 'f' 'g' 'h']
np.in1d(x,y) ->  [False False  True  True False]
np.setdiff1d(x,y) ->  ['a' 'b' 'e']
np.setxor1d(x,y) ->  ['a' 'b' 'e' 'f' 'g' 'h']


In [14]:
# 12. 선형대수
np_array29 = [[1., 2., 3.], [4., 5., 6.]]
np_array30 = [[7,4],[-1,5],[-3,6]]

from numpy.linalg import inv,qr

dot_array = np.dot(np_array29, np_array30)
print(dot_array,'\n', inv(dot_array))

[[-4. 32.]
 [ 5. 77.]] 
 [[-0.16452991  0.06837607]
 [ 0.01068376  0.00854701]]


In [15]:
# 13. Numpy의 Random 모듈
# 파이썬 내장 random 모듈은 한 번에 하나의 값만 생성할 수 있는 반면 numpy.random은 매우 큰 표본을 생성하는데 수십배 빠름
# (1) np.random.randint : 균일 분포의 정수 난수 1개 생성
# (2) np.random.rand 0부터 1사이의 균일 분포에서 난수 matrix array 생성
# (3) np.random.rand 가우시안 표준 정규분포에서 난수 matrix array 생성
# (4) normal(정규분포  표본추출), beta(베타분포 표본추출), binoraml(이항분포 표본추출)
# (5) chisquare(카이제곱 표본추출), gamma(감마분포 표본추출)

import random # 랜덤 샘플링 할땍
np.random.seed(2020) # seed 설정
sample1 = np.random.randint(6) # 0 ~ 5 사이 주어진 범위 안에서 난수 추출
sample2 = np.random.randint(0, 20) # 0에서 20사이의 랜덤숫자 1개
sample3 = np.random.rand(3,2)
sample4 = np.random.randn(3,2)
sample5 = random.sample(range(1,20),10)
print('sample1', sample1, '\n')
print('sample2', sample2, '\n')
print('sample3\n', sample3, '\n')
print('sample4\n', sample4, '\n')
print('sample5\n', sample5, '\n')
random.shuffle(sample5)
print('shuffle sample5\n', sample5, '\n')


sample1 0 

sample2 8 

sample3
 [[0.87339195 0.50974552]
 [0.27183571 0.33691873]
 [0.21695427 0.27647714]] 

sample4
 [[ 0.89310822 -0.38639426]
 [-0.11571516 -0.11062   ]
 [ 0.8109501   0.88217223]] 

sample5
 [3, 13, 4, 19, 11, 16, 1, 18, 17, 5] 

shuffle sample5
 [4, 11, 18, 3, 1, 16, 19, 13, 5, 17] 



In [24]:
# numpy - bincount

sam = [1,2,0,0,0,0,0,1,2,1,0,0,0]
print(sam)
print(np.bincount(sam))

[1, 2, 0, 0, 0, 0, 0, 1, 2, 1, 0, 0, 0]
[8 3 2]
