# Numpy
고성능의 수치 계산용 패키지 <br>
빠르고 효율적인 데이터 배열 처리를 지원함 <br>
다양한 매서드 존재 <br>
pandas, scipy, matplotlib 등 여러 패키지들의 기반이 되는 라이브러리

In [1]:
import numpy as np

### A. array


#### A-1 numpy array 생성 (1,2,3차원)

In [3]:
# 1차원 numpy array 만들기 (2 methods)
# 1) list -> numpy array
list1st = [1, 2, 3]
dim1_arr = np.array(list1st)

# 2) 바로 numpy array 생성 
dim1_arr2 = np.array([1, 2, 3])
dim1_arr3 = np.array(range(1,4))

print(list1st)
print(dim1_arr)
print(dim1_arr2)
print(dim1_arr3)

[1, 2, 3]
[1 2 3]
[1 2 3]
[1 2 3]


In [4]:
# 2차원 numpy array 만들기 
dim2_arr = np.array(
    [[1, 2, 3],
    [4, 5, 6]],)

print(dim2_arr)

[[1 2 3]
 [4 5 6]]


In [5]:
# 3차원 numpy array 만들기
dim3_arr = np.array(
    [[[1, 2, 3],
    [4, 5, 6]],
    [[7, 8, 9],
    [10, 11, 12]]],)
print(dim3_arr)

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


##### + ndarray attributes

In [6]:
# ndarray.ndim (차원을 반환)
dim1_arr.ndim

1

In [7]:
# ndarray.shape ((행,렬) 반환)
dim2_arr.shape

(2, 3)

In [8]:
# ndarray.size (array에 있는 모든 elements 반환)
dim3_arr.size

12

In [9]:
# ndarray.dtype (date type을 반환 _ 지정하지 않을 경우 유추해서 생성)
print(dim1_arr.dtype)
dim1_arr_float = np.array([1, 2, 3], dtype=float)
dim1_arr_float.dtype

int32


dtype('float64')

In [10]:
# numpy의 n차원의 배열 객체
type(dim2_arr)

numpy.ndarray

#### A-2 reshape & resize
reshape : array의 차원을 반환, 실제 배열을 바꾸지 않고 only return <br>
resize : reshape과 same 기능, but 배열 자체를 바꿈 <br>
둘다 size가 같아야 변환이 가능함

In [11]:
arr1 = np.array(range(10))
print(arr1)
arr1.shape, arr1.ndim

[0 1 2 3 4 5 6 7 8 9]


((10,), 1)

In [12]:
# reshape (2 methods)
print(arr1.reshape(2, 5))
print(np.reshape(arr1, (2, 5)))
arr1

[[0 1 2 3 4]
 [5 6 7 8 9]]
[[0 1 2 3 4]
 [5 6 7 8 9]]


array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [13]:
# resize
arr1.resize(2, 5)
arr1

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [14]:
# reshape에서 -1사용 (resize에서는 사용불가)
# -1을 하나 써주고 나머지 수를 넣으면, -1 자리를 원래 배열의 길이와 남은 차원으로부터 추정
# 숫자의 개수 = 차원
arr_trans1 = arr1.reshape(-1, 2, 5)
print(arr_trans1, arr_trans1.shape)

arr_trans2 = arr1.reshape(2, -1)
print(arr_trans2, arr_trans2.shape)

[[[0 1 2 3 4]
  [5 6 7 8 9]]] (1, 2, 5)
[[0 1 2 3 4]
 [5 6 7 8 9]] (2, 5)


##### + newaxis 이용하기

In [15]:
nx = np.array([1,2,3])
nx1 = nx[np.newaxis, :]
nx2 = nx[:, np.newaxis]
print(nx, nx.shape, nx.ndim)
print(nx1, nx1.shape, nx1.ndim)
print(nx2, nx2.shape, nx2.ndim)

[1 2 3] (3,) 1
[[1 2 3]] (1, 3) 2
[[1]
 [2]
 [3]] (3, 1) 2


#### A-3 index & slice
행렬 데이터를 수정하거나 자를 때, 가져올 때 사용 (0부터 시작)

In [16]:
arr_ex = np.array(
    [[[1, 2, 3],
    [4, 5, 6]],
    [[7, 8, 9],
    [10, 11, 12]]])
arr_ex, arr_ex.shape, arr_ex.ndim

(array([[[ 1,  2,  3],
         [ 4,  5,  6]],
 
        [[ 7,  8,  9],
         [10, 11, 12]]]), (2, 2, 3), 3)

In [17]:
# indexing
print(arr_ex[1])
print(arr_ex[0][1][2])

[[ 7  8  9]
 [10 11 12]]
6


In [18]:
# slicing
arr_ex_sl = arr_ex[1:, :, 1:]
arr_ex_sl, arr_ex_sl.ndim #차원은 그대로

(array([[[ 8,  9],
         [11, 12]]]), 3)

In [19]:
# modifying (slicing해서 나온 부분 모두를 0으로 바꿔 넣기)
arr_ex[1:, :, 1:] = 0
arr_ex

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  0,  0],
        [10,  0,  0]]])

### B creation function
1. zeros(shape) : 0으로 이루어진 행렬을 만듬
2. ones(shape) : 1로 이루어진 행렬을 만듬
3. eye(n,m,start-point) : n*m의 단위행렬을 만듬
4. identity(n) : n*n의 단위 행렬을 만듬
5. empty(shape) : 더미 데이터로 이루어진 행렬을 만듬
6. full(shape, fill_value) : 해당 shape에 fill_value를 넣음
7. arange(start, end, step) : range와 같은 역할을 수행
8. linspace(start, end, num) : star ~ end 수 사이를 num개로 동일하게 자른 것
9. stack : 행렬을 쌓음
10. concatenate : 행렬을 결합
11. split : 행렬을 자름 

In [20]:
# 1. zeros (주로 행렬 데이터 생성시 사용) (2 methods)
z1 = np.zeros((2, 3, 2), dtype=int)
z2 = np.zeros_like(arr_ex, dtype=int)
print(z1)
z2

[[[0 0]
  [0 0]
  [0 0]]

 [[0 0]
  [0 0]
  [0 0]]]


array([[[0, 0, 0],
        [0, 0, 0]],

       [[0, 0, 0],
        [0, 0, 0]]])

In [21]:
# 2. ones (주로 행렬 데이터 생성시 사용) (2 methods)
o1 = np.ones((4, 3), dtype=int)
o2 = np.ones_like(arr_ex, dtype=int)
print(o1)
o2

[[1 1 1]
 [1 1 1]
 [1 1 1]
 [1 1 1]]


array([[[1, 1, 1],
        [1, 1, 1]],

       [[1, 1, 1],
        [1, 1, 1]]])

In [22]:
# 3. eye (n*m 단위행렬을 만들되, 마지막 숫자는 1을 쓰는 첫번째 지점을 의미)
print(np.eye(3,4,2))

[[0. 0. 1. 0.]
 [0. 0. 0. 1.]
 [0. 0. 0. 0.]]


In [23]:
# 4. identity
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [24]:
# 5. empty
np.empty((7,3)) # e : 2.68e+154 -> 2.68 * 10 ** 154 이런식으로 계산

array([[1.43494560e-311, 6.27463370e-322, 0.00000000e+000],
       [0.00000000e+000, 1.89146896e-307, 5.30276956e+180],
       [1.57076922e-076, 4.57664832e-071, 4.26362805e-086],
       [3.35859253e-143, 6.01433264e+175, 6.93885958e+218],
       [5.56218858e+180, 3.94356143e+180, 3.69793533e-033],
       [9.95692471e-043, 1.43471486e-051, 3.38056514e-061],
       [5.43386232e-143, 1.50008929e+248, 2.59305228e-306]])

In [25]:
# 6. full
np.full((2,3),5)

array([[5, 5, 5],
       [5, 5, 5]])

In [26]:
# 7. arange (맨 마지막에 dtype넣어도 OK)
np.arange(5,10,2)

array([5, 7, 9])

In [27]:
# 8. linspace
np.linspace(0, 2, 9)

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

In [28]:
# 9. stack (vstack, hstack, axis)
na1 = np.arange(5)
na2 = np.arange(5, 10)
print(na1, na2, sep='\n')

[0 1 2 3 4]
[5 6 7 8 9]


In [31]:
na_a0 = np.stack((na1, na2)) # axis = 0
na_s = np.vstack((na1, na2)) # 위 2개는 같다
na_a1 = np.stack((na1, na2), axis = 1)
na_h = np.hstack((na1, na2)) # 안으로 넣은 것 (위 2개는 같지 않음)
print(na_a0, na_s, sep='\n')
print("\n")
print(na_a1)
print("\n")
print(na_h)

[[0 1 2 3 4]
 [5 6 7 8 9]]
[[0 1 2 3 4]
 [5 6 7 8 9]]


[[0 5]
 [1 6]
 [2 7]
 [3 8]
 [4 9]]


[0 1 2 3 4 5 6 7 8 9]


In [32]:
# 9-1. 2차원 이상일 때의 stack
na21 = np.arange(1, 13).reshape(2, 2, 3)
na22 = np.arange(1, 13).reshape(2, 2, 3)
print(na21, na22, sep='\n')

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]
[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


In [33]:
na23 = np.stack((na21, na22), axis = 0)
na24 = np.stack((na21, na22), axis = 1)
na25 = np.stack((na21, na22), axis = 2)
na26 = np.stack((na21, na22), axis = 3)
print(na23, na23.shape)
print(na24, na24.shape)
print(na25, na25.shape)
print(na26, na26.shape)

[[[[ 1  2  3]
   [ 4  5  6]]

  [[ 7  8  9]
   [10 11 12]]]


 [[[ 1  2  3]
   [ 4  5  6]]

  [[ 7  8  9]
   [10 11 12]]]] (2, 2, 2, 3)
[[[[ 1  2  3]
   [ 4  5  6]]

  [[ 1  2  3]
   [ 4  5  6]]]


 [[[ 7  8  9]
   [10 11 12]]

  [[ 7  8  9]
   [10 11 12]]]] (2, 2, 2, 3)
[[[[ 1  2  3]
   [ 1  2  3]]

  [[ 4  5  6]
   [ 4  5  6]]]


 [[[ 7  8  9]
   [ 7  8  9]]

  [[10 11 12]
   [10 11 12]]]] (2, 2, 2, 3)
[[[[ 1  1]
   [ 2  2]
   [ 3  3]]

  [[ 4  4]
   [ 5  5]
   [ 6  6]]]


 [[[ 7  7]
   [ 8  8]
   [ 9  9]]

  [[10 10]
   [11 11]
   [12 12]]]] (2, 2, 3, 2)


In [34]:
# 10. concatenate
# 각 axis를 따라 join (row, column의 개수가 맞아야함)
co1 = np.random.randint(10, size=(2,3))
co2 = np.random.randint(10, size=(3,2))
co3 = np.random.randint(10, size=(3,3))
print(co1, co2, co3, sep='\n')

[[5 0 8]
 [6 0 7]]
[[7 7]
 [1 3]
 [7 6]]
[[0 8 8]
 [7 9 2]
 [5 1 1]]


In [35]:
co13 = np.concatenate((co1, co3)) # axis = 0
co23 = np.concatenate((co2, co3), axis = 1)
print(co13, co23, sep='\n')

[[5 0 8]
 [6 0 7]
 [0 8 8]
 [7 9 2]
 [5 1 1]]
[[7 7 0 8 8]
 [1 3 7 9 2]
 [7 6 5 1 1]]


In [36]:
# 11. split (vsplit, hsplit, axis)
s1 = np.arange(16).reshape((4,4))
s1v1, s1v2 = np.vsplit(s1,[2]) # (= np.split(s1,[2]))
s1h1, s1h2 = np.hsplit(s1,[2]) # (= np.split(s1,[2], axis = 1))
print(s1, s1v1, s1v2, s1h1, s1h2, sep = '\n')

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]
[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


In [37]:
# 11-1. 다른 표현법들
s2 = np.split(s1, [2])[0] # 2개 중 첫항만 나옴
s3 = np.split(s1, [1,1])[0] # [1,1]처럼 다각도로 split 가능
print(s2, s3, sep='\n')

[[0 1 2 3]
 [4 5 6 7]]
[[0 1 2 3]]


### C random function
+ random.seed(seed) : 랜덤 숫자를 만들기 전 처음 시작할 숫자 (알고리즘 시작값)
+ random.rand(shape) : 0~1 사이의 균일 분포에서 추출
+ random.randn(shape) : 가우시안 표준 정규분포에서 추출
+ random.randint(low, high, size) : 최솟값 ~ 최댓값 사이에서 추출

### D probability distribution function
+ random.binomial(n, p, size) : 이항분포 (p<=1)
+ random.chisquare(df, size) : 카이제곱분포
+ random.exponential(scale, size): 지수분포
+ random.f(dfnum, dfden, size) : F분포
+ random.normal(loc, scale, size) : 정규분포 (가우시안)
+ random.poisson(lam, size) : 포아송분포
+ random.standard_t(df, size) : t분포 (자유도 df)
+ random.standard_normal(size) : 표준정규분포 (mean=0, stdev=1)
+ random.uniform(low, high, size) : 균일분포

In [39]:
# 예시 (사이즈를 이렇게 할 수도 있다)
np.random.poisson(5, (3,2))

array([[4, 4],
       [5, 2],
       [6, 6]])

### E operation function
일반적으로 shape이 같아야 가능

#### E-1 general operation
if a = np.array([1,2,3]) and b = np.array([1,3,2])
+ np.add(a,b) : a+b = array([2, 5, 5])
+ np.subtract(a,b) : a-b = array([ 0, -1, 1])
+ np.negative(a) : -a = array([-1, -2, -3])
+ np.multiply(a,b) : a*b = array([1, 6, 6])
+ np.divide(a,b) : a/b = array([1. , 0.66666667, 1.5 ])
+ np.floor_divide(a,b) : a//b = array([1, 0, 1], dtype=int32)
+ np.power(a,b) : a**b = array([1, 8, 9], dtype=int32)
+ np.mod(a,b) : a%b = array([0, 2, 1], dtype=int32)
+ np.equal(a,b) : a==b = array([ True, False, False])
+ np.not_equal(a,b) : a!=b = array([False, True, True])
+ np.less(a,b) : a < b = array([False, True, False])
+ np.less_equal(a,b): a <= b = array([True, True, False])
+ np.greater(a,b) : a > b = array([False, False, True])
+ np.greater_equal(a,b) : a >= b = array([True, False, True])
+ np.bitwise_and(a>=2, b<3) : (a>=2) & (b<3) = array([False, False, True])
+ np.bitwise_or(a>=2, b<3) : (a>=2) | (b<3) = array([True, True, True])

In [40]:
# 내적곱 (Shape이 달라도 가능함)
a = np.arange(1, 11)
b = np.arange(11, 21)
a.dot(b) # (=a@b)

935

##### + Broadcasting
스칼라의 경우 broadcasting으로 연산된다

In [41]:
sa = np.arange(10)
sa + 1 # (= sa + np.ones(10))

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [42]:
sa * 10
# (= sa + np.full(10,10))

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

#### E-2 universal function
original array에서 아래연산을 적용한 값이 나옴
+ np.exp : exp값 반환
+ np.log : 자연log값 반환 (ln(x))
+ np.log10 : log10값 (log10(x))
+ np.sqrt : 루트값 반환
+ np.sin, np.cos, np.tan : sin, cos, tan값 반환
+ np.rint : 반올림값 반환
+ np.ceil : 올림값 반환
+ np.floor : 내림값 반환
+ np.abs : 절댓값 반환
+ np.isnan : boolean (숫자면 False)
+ np.isfinite, np.isinf : boolean (각각 유한, 무한)

In [43]:
# Example
e2a = np.array([1,2,3])
np.sqrt(e2a)

array([1.        , 1.41421356, 1.73205081])

#### E-3 aggregation function
axis = 0이면 세로방향, axis = 1이면 가로방향 (세로르 건들고 가로를 건드는 것) <br>
axis가 없으면 전체
+ np.sum(a[,axis]) : 합
+ np.prod(a[,axis]) :곱
+ np.mean(a[,axis]) : 평균
+ np.std(a[,axis]) : 표준편차
+ np.var(a[,axis]) : 분산
+ np.min(a[,axis]) : 최솟값
+ np.max(a[,axis]) : 최댓값
+ np.median(a[,axis]) : 중간값
+ np.percentile(a,q[,axis]) : 해당되는 %의 값
+ np.any(a[,axis]) : 조건에 하나라도 맞으면 true
+ np.all(a[,axis]) : 조건에 모든게 맞아야 true

In [44]:
# Example
e3a = np.arange(1,5).reshape(2,2)
print(e3a)
print(e3a.sum(axis = 0)) # 세로합 (=np.sum(e3a, axis = 0))
print(e3a.sum(axis = 1)) # 가로합 (=np.sum(esa, axis = 1))
np.sum(e3a)

[[1 2]
 [3 4]]
[4 6]
[3 7]


10

In [45]:
# percentile 활용법
np.percentile(e3a, q=[30,70], axis = 0)

array([[1.6, 2.6],
       [2.4, 3.4]])

In [46]:
# any & all
print(np.any(e3a < 2))
print(np.all(e3a < 2))

True
False


#### E-4 sorting and searching function
+ np.sort(a[,axis]) : 오름차순 정렬
+ np.argsort(a[,axis]) : 오름차순 정렬한 것의 index를 반환 (original index) 
+ np.argmax(a[,axis]) : 최댓값의 original index
+ np.argmin(a[,axis]) : 최솟값의 original index
+ np.nonzero(a) : a에 해당하는 것만 반환
+ np.where(condition, x, y) : 조건에 맞게 반환 (아래참고)

In [47]:
# Examples
ssf = np.random.randn(5)
print(ssf)
print(np.sort(ssf))
print(np.argsort(ssf))
print(np.argmax(ssf))
print(np.argmin(ssf))
print(np.nonzero(ssf)) # 그냥 ssf만 쓰면 0이 아닌 것을 반환
print(np.nonzero(ssf < 0)) # 조건을 넣으면 조건 충족시 반환

[-0.31611335 -0.63806863 -0.05842954  0.60465176 -0.54603012]
[-0.63806863 -0.54603012 -0.31611335 -0.05842954  0.60465176]
[1 4 0 2 3]
3
1
(array([0, 1, 2, 3, 4], dtype=int64),)
(array([0, 1, 2, 4], dtype=int64),)


In [48]:
# np.where(조건 충족 index를 반환)
ssf2 = np.random.randint(1,20,5)
print(ssf2)
np.where(ssf2 > 10)

[14 11 19  9  9]


(array([0, 1, 2], dtype=int64),)

In [49]:
# np.where(condition, True값, False값)
np.where(ssf2 > 10, 'O', 'X')

array(['O', 'O', 'O', 'X', 'X'], dtype='<U1')

#### E-5 set logic function
1차원 array에서만 사용가능
+ np.unique(a) : unique한 값을 오름차순으로 정렬
+ np.intersect1d(a, b) : 2개의 array에서 교집합을 오른차순으로 정렬
+ np.union1d(a, b) : 합집합을 오름차순으로 정렬
+ np.in1d(a, b) : b에 해당하는 원소가 a에도 있으면 True, 아니면 False