### Numpy 활용 이유

In [1]:
x = [10, 20, 30]
type(x)

list

In [2]:
x*x # 리스트 안의 값을 곱하고 싶으나 리스트끼리 곱하기는 지원하지 않는다.

TypeError: can't multiply sequence by non-int of type 'list'

In [3]:
import math
math.sin(x) # 각각의 값에 따른 sin 값을 구하고 싶지만 해당 함수는 하나의 값만 받을 수 있다.

TypeError: must be real number, not list

### Numpy 의 강력함

In [4]:
import numpy as np
x = np.array([10, 20, 30])
y = x ** 2
y

array([100, 400, 900])

In [5]:
# 앞에서 정의한 변수들 리셋하기
%reset -f

### Numpy

▶ Array 생성 및 속성 확인

In [6]:
import numpy
a = numpy.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
a = numpy.array([10, 20, 30])
a

array([10, 20, 30])

In [8]:
# size related variables
a.shape

(3,)

In [9]:
a.ndim

1

In [10]:
a.dtype

dtype('int32')

In [11]:
a.itemsize 
# array 에 들어가있는 메모리가 사용하는 바이트의 수, 
# a.dtype 에서 int32 가 32비트이며, 1바이트 = 8비트 이므로 a.itemsize 는 4이다.

4

In [12]:
a.size # array 에 있는 값의 개수

3

In [13]:
type(a) # N-dimensional array

numpy.ndarray

▶ 자료형 확인 int vs float

In [14]:
# number types
import numpy as np
a = np.array([10, 20, 30])
a[2] = 30.1
a.dtype

dtype('int32')

In [15]:
a # a[2] = 30.1 을 해도 a 의 data_type (dtype) 이 int32 이기 때문에 표현되지 않는다.

array([10, 20, 30])

In [16]:
a.dtype.name

'int32'

In [17]:
a = a.astype('float64') # a 의 data_type (dtype) 을 float64 로 변경
a[2] = 30.1
a # 제대로 표현됨을 확인 가능하다.

array([10. , 20. , 30.1])

In [18]:
b = np.array([10., 20., 30.])
b.dtype.name # 처음부터 array 안의 값을 float 형태로 입력하면 dtype 이 float이다.

'float64'

In [19]:
c = np.array([10.1, 20.1, 30.1], 'int32')
c # data_type 을 int 로 설정해서 소수점이 다 날라간 모습

array([10, 20, 30])

▶ int32 vs int64

In [20]:
# int32 가 나타낼 수 있는 최대의 숫자 
# ▶ 2진법 1 31개, 10진법 2147483647
x = np.array([2147483647])
x[0] = x[0] + 1

  x[0] = x[0] + 1


In [21]:
# int64 가 나타낼 수 있는 최대의 숫자
# ▶ 2진법 1 63개 이므로 위에서 발생한 오류가 발생하지 않는다.
x = np.array([2147483647], 'int64')
x[0] = x[0] + 1 

In [22]:
# 번외 - float64 의 최대값 : 1.7976931348623158*E+308

▶ N차원 array 만들기

In [23]:
# make 1D array
a = np.array([10, 20, 30])

In [24]:
a = np.array([10, 'abc', 30])
a * 2 # 문자열이 들어갈 수는 있지만 해당 연산은 불가능하다.

UFuncTypeError: ufunc 'multiply' did not contain a loop with signature matching types (dtype('<U11'), dtype('int32')) -> None

In [25]:
# make 2D array
a = np.array([[10, 20, 30], [40, 50, 60]])
a.shape

(2, 3)

In [26]:
a.size

6

In [27]:
a = np.array([[10, 20, 30],
             [40, 50, 60],
             [70, 80, 90]])
a.shape

(3, 3)

In [28]:
a.size

9

In [29]:
# make N-dimensional array
a = np. array([10, 20])
a = np.array([[10, 20],
              [30, 40]])
a = np.array(
    [
        [[10], [20]],
        [[30], [40]]
    ])

In [30]:
a.ndim, a.shape

(3, (2, 2, 1))

In [31]:
# complex numbers
a = np.array([10+10j, 20+20j])
a.dtype

dtype('complex128')

In [32]:
a = np.array([10, 20], 'complex128')
a.dtype

dtype('complex128')

▶ Matrix vs Array

In [33]:
a = np.array([10, 20])
b = np.matrix([10, 20])

In [34]:
a

array([10, 20])

In [35]:
b

matrix([[10, 20]])

In [36]:
a.ndim, a.shape

(1, (2,))

In [37]:
b.ndim, b.shape # matrix 는 2차원이다.

(2, (1, 2))

In [38]:
b = np.matrix([[[10]]]) # matrix 는 반드시 2차원이어야 한다며 에러가 발생한다.

ValueError: matrix must be 2-dimensional

▶ Array 에 값 추가/삭제

In [39]:
# insert
a = np.array([10, 20, 30])
a = np.insert(a, 0, 5)
a # a[0] 에 5 를 추가

array([ 5, 10, 20, 30])

In [40]:
# delete
a = np.delete(a, 0)
a # a[0] 을 삭제

array([10, 20, 30])

▶ Array 생성 함수들

In [41]:
# array()
a = np.array([1, 2, 3])
a

array([1, 2, 3])

In [42]:
# arange()
a = np.arange(3)
a

array([0, 1, 2])

In [43]:
# zeros()
a = np.zeros((2, 3))
a

array([[0., 0., 0.],
       [0., 0., 0.]])

In [44]:
# ones()
a = np.ones((2, 3))
a

array([[1., 1., 1.],
       [1., 1., 1.]])

In [45]:
# linspace()
a = np.linspace(0, 5, 6) # 0 부터 5 까지를 6개로 나누어준다.
a

array([0., 1., 2., 3., 4., 5.])

In [46]:
# logspace()
a = np.logspace(0, 5, 11) # 0 부터 11 까지를 11개로 나누어주되 log scale 로 나누어준다.
a

array([1.00000000e+00, 3.16227766e+00, 1.00000000e+01, 3.16227766e+01,
       1.00000000e+02, 3.16227766e+02, 1.00000000e+03, 3.16227766e+03,
       1.00000000e+04, 3.16227766e+04, 1.00000000e+05])

▶ 수학 & 논리 연산

In [47]:
# Basic Operations
a = np.array([10, 20, 30])
b = np.array([1, 2, 3])

In [48]:
c = a +b
c

array([11, 22, 33])

In [49]:
c = a - b
c

array([ 9, 18, 27])

In [50]:
c = b ** 2
c

array([1, 4, 9])

In [51]:
c = 2 * a
c

array([20, 40, 60])

In [52]:
idx = b < 20
idx

array([ True,  True,  True])

In [53]:
idx = a < 20
idx

array([ True, False, False])

In [54]:
a = a + 1
a

array([11, 21, 31])

In [55]:
a += 1
a

array([12, 22, 32])

In [56]:
a *= 2
a

array([24, 44, 64])

In [57]:
a = np.array([10, 20, 30])
b = np.array([1., 2., 3.])

In [58]:
a + b

array([11., 22., 33.])

In [59]:
a += b
# 위 연산은 dtype 을 동일하게 해줘야 가능하다.

UFuncTypeError: Cannot cast ufunc 'add' output from dtype('float64') to dtype('int32') with casting rule 'same_kind'

▶ Numpy 함수들 사용 수학 연산

In [60]:
a = np.array([10, 20, 30])
b = np.array([1, 2, 3])

In [61]:
# add()
np.add(a, b)

array([11, 22, 33])

In [62]:
# subtract()
np.subtract(a, b)

array([ 9, 18, 27])

In [63]:
# multiply()
np.multiply(a, b)

array([10, 40, 90])

In [64]:
# divide()
np.divide(a, b)

array([10., 10., 10.])

In [65]:
# divmod() : 몫과 나머지
np.divmod(a, b)

(array([10, 10, 10]), array([0, 0, 0]))

In [66]:
# exp() : 자연상수 e 의 n제곱값
np.exp(b)

array([ 2.71828183,  7.3890561 , 20.08553692])

In [67]:
# sqrt() : 제곱근값
np.sqrt(b)

array([1.        , 1.41421356, 1.73205081])

▶ 수학 통계 함수들

In [68]:
a = np.array([10, 20, 30])

In [69]:
# mean()
np.mean(a)

20.0

In [70]:
a.mean()

20.0

In [71]:
# average()
np.average(a)

20.0

In [72]:
np.average(a, weights=[1, 0, 2]) # 가중치 적용 가능

23.333333333333332

In [73]:
# median()
np.median(a)

20.0

In [74]:
# cumsum() : cumulative sum
np.cumsum(a)

array([10, 30, 60])

In [75]:
# cov() : 공분산행렬 (covariance matrix)
np.cov(a)

array(100.)

In [76]:
# str()
np.std(a)

8.16496580927726

In [77]:
# var()
np.var(a)

66.66666666666667

▶ 유용한 수학 함수들

In [78]:
x = np.array([10, 20, 30])

In [79]:
# sum()
x.sum()

60

In [80]:
x = np.array([10., 20., 30., 25., 15.])

In [81]:
# min()
x.min()

10.0

In [82]:
# argmin() : 최소값이 있는 위치 index
x.argmin()

0

In [83]:
x_min, x_min_idx = x.min(), x.argmin()

In [84]:
# max(), argmax()
x_max, x_max_idx = x.max(), x.argmax()

In [85]:
# ptp() : peak-to-peak, 최대값과 최소값의 차이
x.ptp()

20.0

In [86]:
# sort(), argsort()
x.sort()
x

array([10., 15., 20., 25., 30.])

In [87]:
x = np.array([10., 20., 30., 25., 15.])
y = np.sort(x)
idx = np.argsort(x) # sort 한 값이 본래 어느 index 에 있었는지
idx

array([0, 4, 1, 3, 2], dtype=int64)

In [88]:
x, y

(array([10., 20., 30., 25., 15.]), array([10., 15., 20., 25., 30.]))

In [89]:
x[idx] # sort 된 값과 같다.

array([10., 15., 20., 25., 30.])

In [90]:
# searchsorted() : 어느 index 위치에 들어가야 sorted 된 상태를 유지하는가
a = np.array([10, 20, 30])
b = np.array([-5, 25])
np.searchsorted(a, b)

array([0, 2], dtype=int64)

▶ Array 변환

In [91]:
d = np.arange(1, 7, 1)
d

array([1, 2, 3, 4, 5, 6])

In [92]:
d.shape

(6,)

In [93]:
# reshape()
e = d.reshape(2, 3)
d, e

(array([1, 2, 3, 4, 5, 6]),
 array([[1, 2, 3],
        [4, 5, 6]]))

In [94]:
e.shape

(2, 3)

In [95]:
f = np.linspace(1, 10, 10)
f

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [96]:
g = np.linspace(1, 10, 10).reshape(2, 5)
g

array([[ 1.,  2.,  3.,  4.,  5.],
       [ 6.,  7.,  8.,  9., 10.]])

In [97]:
# repeat()
a = np.array([[1, 2], [3, 4]])
np.repeat(a, 2)

array([1, 1, 2, 2, 3, 3, 4, 4])

In [98]:
np.repeat(a, 2, axis=0)

array([[1, 2],
       [1, 2],
       [3, 4],
       [3, 4]])

In [99]:
np.repeat(a, 2, axis=1)

array([[1, 1, 2, 2],
       [3, 3, 4, 4]])

In [100]:
np.repeat(a, [1, 2], axis=0) # [1, 2] 1번, [3, 4] 2번 반복

array([[1, 2],
       [3, 4],
       [3, 4]])

In [101]:
np.repeat(a, [3, 1], axis=0) # [1, 2] 3번, [3, 4] 1번 반복

array([[1, 2],
       [1, 2],
       [1, 2],
       [3, 4]])

In [102]:
np.repeat(a, [1, 2], axis=1) # 1, 3 이 1번, 2, 4 가 2번 반복

array([[1, 2, 2],
       [3, 4, 4]])

In [103]:
np.repeat(a, [3, 1], axis=1) # 1, 3 이 3번, 2, 4 가 1번 반복

array([[1, 1, 1, 2],
       [3, 3, 3, 4]])

In [104]:
# concatenate()
a = np.array([[1], [2], [3]])
b = np.array([[4], [5], [6]])
a.shape, b.shape

((3, 1), (3, 1))

In [105]:
np.concatenate((a, b), axis=0)

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6]])

In [106]:
np.concatenate((a, b), axis=1)

array([[1, 4],
       [2, 5],
       [3, 6]])

In [107]:
# vstack() : vertical (세로, 수직) / hstack() : horizontal (가로, 수평)
a = np.array([10, 20, 30])
b = np.array([40, 50, 60])

In [108]:
np.vstack((a, b))

array([[10, 20, 30],
       [40, 50, 60]])

In [109]:
np.hstack((a, b))

array([10, 20, 30, 40, 50, 60])

In [110]:
# vsplit(), hsplit()
A = np.array([[10., 20., 30.],
              [40., 50., 60.]])

In [111]:
np.hsplit(A, 3)

[array([[10.],
        [40.]]),
 array([[20.],
        [50.]]),
 array([[30.],
        [60.]])]

In [112]:
np.vsplit(A, 2)

[array([[10., 20., 30.]]), array([[40., 50., 60.]])]

In [113]:
# transpose() : 가로 세로 바꿔주기
A = np.array([[10, 20, 30],
              [40, 50, 60]])
A.transpose()

array([[10, 40],
       [20, 50],
       [30, 60]])

In [114]:
# ravel() : 2차원을 1차원으로 바꿔주기
A.ravel()

array([10, 20, 30, 40, 50, 60])

In [115]:
A.reshape(-1)

array([10, 20, 30, 40, 50, 60])

In [116]:
A.ravel(order='C') # C-style: row-major

array([10, 20, 30, 40, 50, 60])

In [117]:
A.ravel(order='F') # Fortran-style : column-major

array([10, 40, 20, 50, 30, 60])

In [118]:
# flatten() # 한줄로 바꿔주기
A.flatten()

array([10, 20, 30, 40, 50, 60])

In [119]:
# squeeze() : 차원 압축하기
A = np.array([[1, 2, 3]])
A.shape

(1, 3)

In [120]:
B = A.squeeze()
B

array([1, 2, 3])

In [121]:
B.shape

(3,)

In [122]:
A = np.array([ [[1, 2]],
               [[3, 4]],
               [[4, 5]]  ])

In [123]:
A.shape

(3, 1, 2)

In [124]:
B = A.squeeze()
B

array([[1, 2],
       [3, 4],
       [4, 5]])

In [125]:
B.shape

(3, 2)

In [126]:
# newaxis : 새 차원 추가
# [1, 2, 3], [4, 5, 6] 을 [1, 4], [2, 5], [3, 6] 형태로 만드는 3가지 방법
A1 = np.array([1, 2, 3])
B1 = np.array([4, 5, 6])

In [127]:
# 1번째 방법
A2 = A1[:, np.newaxis]
B2 = B1[:, np.newaxis]

In [128]:
A2, A1.shape, A2.shape

(array([[1],
        [2],
        [3]]),
 (3,),
 (3, 1))

In [129]:
B2, B1.shape, B2.shape

(array([[4],
        [5],
        [6]]),
 (3,),
 (3, 1))

In [130]:
np.concatenate((A2, B2), axis=1)

array([[1, 4],
       [2, 5],
       [3, 6]])

In [131]:
# 2번째 방법
np.vstack((A1, B1)).transpose()

array([[1, 4],
       [2, 5],
       [3, 6]])

In [132]:
# 3번째 방법
np.hstack((A1, B1)).reshape(2, 3).transpose()

array([[1, 4],
       [2, 5],
       [3, 6]])