# Chapter 05 Numpy

In [1]:
import numpy as np # 가장 대중적인 numpy 치환 호출

## Array creation

n dimension array object : 다차원 배열 객체

### array

In [2]:
data = [1, 4, 5, 8]
ar = np.array(data)
print(ar)

[1 4 5 8]


In [3]:
data = [[1, 4, 5, 8], [2, 7, 6, 3]]
ar = np.array(data)
print(ar)

[[1 4 5 8]
 [2 7 6 3]]


### arange

range와 같은 개념의 ndarrary 객체 생성

In [4]:
print(np.arange(10))

[0 1 2 3 4 5 6 7 8 9]


In [5]:
print(np.arange(1, 10, 0.5))

[1.  1.5 2.  2.5 3.  3.5 4.  4.5 5.  5.5 6.  6.5 7.  7.5 8.  8.5 9.  9.5]


### ones

모든 값이 1인 ndarrary 객체 생성

In [6]:
print(np.ones(shape=(2, 2, 3)))

[[[1. 1. 1.]
  [1. 1. 1.]]

 [[1. 1. 1.]
  [1. 1. 1.]]]


In [7]:
print(np.ones((3, 2)))

[[1. 1.]
 [1. 1.]
 [1. 1.]]


### zeros

모든 값이 0인 ndarrary 객체 생성

In [8]:
print(np.zeros(shape=(4, 2), dtype=int))

[[0 0]
 [0 0]
 [0 0]
 [0 0]]


In [9]:
print(np.zeros((10)))

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


### identity & eye

단위 행렬 ndarrary 객체 생성

In [10]:
print(np.identity(n=4, dtype=np.float32))

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [11]:
print(np.eye(3))

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


### random

다양한 랜덤 추출법을 통한 ndarrary 객체 생성

In [12]:
print(np.random.uniform(low=0.0, high=1.0, size=10).reshape(2, 5))

[[0.14215984 0.31271515 0.00664356 0.54131957 0.05878566]
 [0.51844207 0.15243602 0.34763242 0.43520575 0.9708526 ]]


In [13]:
print(np.random.normal(loc=0.0, scale=1.0, size=10).reshape(2, 5))

[[ 0.78698429  0.69787164  1.55607565  0.94205567 -0.52648655]
 [ 0.63478244  0.43598536 -0.48261052 -0.04752414 -0.26729315]]


## Array structure

### information

In [14]:
ar = np.array([[1, 3, 6], [2, 5, 4]])
print(ar.shape)
print(ar.ndim)
print(ar.size)
print(ar.dtype)
print(type(ar))

(2, 3)
2
6
int32
<class 'numpy.ndarray'>


### data type

In [15]:
ar = np.array([[1, 2, 3], [4, 5.1, 6]], int)
print(ar) # 5.1이 5로 변환되며 정보 손실
print(ar.dtype)

[[1 2 3]
 [4 5 6]]
int32


In [16]:
ar = np.array([['1', 2, 3.1], [4, 5.1, 6]], np.float32)
print(ar) # '1'(문자열)이 1.0(실수)로 변환
print(ar.dtype)

[[1.  2.  3.1]
 [4.  5.1 6. ]]
float32


In [17]:
ar = np.array([['1', 2, 3], [4, 5, 6]])
print(ar) # '1'(문자열)이 존재하므로 str로 변환
print(ar.dtype)

[['1' '2' '3']
 ['4' '5' '6']]
<U11


In [18]:
print(np.array([[1, 2, 3], [4, 5, 6000]], np.int8)) # 자료의 크기에 따라 dtype 설정이 중요
print(np.array([[1, 2, 3], [4, 5, 6000]], np.int32))

[[  1   2   3]
 [  4   5 112]]
[[   1    2    3]
 [   4    5 6000]]


### data size

데이터의 크기가 같아도 dtype에 따라 다름

In [19]:
data = [[1, 2, 3], [4, 5, 6]]
ar_1 = np.array(data, float) # float64 = 8bytes(64bits)
ar_2 = np.array(data, int) # int32 = 4bytes(32bits)
print(ar_1.nbytes)
print(ar_2.nbytes)

48
24


In [20]:
data = [[1, 2, 3], [4, 5, input()]]
ar_1 = np.array(data, np.int8) # 총 2의 8승(256개), -128부터 127까지 출력 가능
ar_2 = np.array(data, np.int16) # 총 2의 16승(65,536개), -32,768부터 32,767까지 출력 가능
print(ar_1)
print(ar_2)

14
[[ 1  2  3]
 [ 4  5 14]]
[[ 1  2  3]
 [ 4  5 14]]


In [21]:
ar = np.array([1, 2, 3, 4, 5, 6], int)
print(ar)
print(ar.astype(np.float64))

[1 2 3 4 5 6]
[1. 2. 3. 4. 5. 6.]


## Array transform

### reshape

shape와 ndim 변경 가능 (size 동일해야 가능)

In [22]:
ar_1 = np.arange(12).reshape((2, 2, 3))
print(ar_1.shape)

(2, 2, 3)


In [23]:
ar_2 = ar_1.reshape(6, -1) # = ar.reshape(6, 2)
print(ar_2.shape)

(6, 2)


In [24]:
ar_3 = ar_1.reshape(-1, 2, 2) # = ar.reshape(3, 2, 2)
print(ar_3.shape)

(3, 2, 2)


### resize

shape, ndim과 size도 변경 가능

In [25]:
ar = np.random.randint(1, 20, (2, 6))
print(ar)

[[ 4  8 16 10 19 12]
 [19 18  1 19 11  4]]


In [26]:
ar.resize((3, 4))
print(ar)

[[ 4  8 16 10]
 [19 12 19 18]
 [ 1 19 11  4]]


In [27]:
ar.resize((4, 6))
print(ar) # 나머지 값들은 0으로 할당

[[ 4  8 16 10 19 12]
 [19 18  1 19 11  4]
 [ 0  0  0  0  0  0]
 [ 0  0  0  0  0  0]]


### flatten

다차원 array를 1차원 array로 반환

In [28]:
ar = np.arange(10).reshape(2, 5)
print(ar.flatten())

[0 1 2 3 4 5 6 7 8 9]


## Array indexing & slicing

### indexing

In [29]:
ar = np.arange(30).reshape((2, 3, 5))
print(ar)

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]
  [10 11 12 13 14]]

 [[15 16 17 18 19]
  [20 21 22 23 24]
  [25 26 27 28 29]]]


In [30]:
print(ar[1])

[[15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]


In [31]:
print(ar[1][2]) # = ar10[1, 2]

[25 26 27 28 29]


In [32]:
print(ar[:, 0, 1])

[ 1 16]


In [33]:
ar[1, 1, 2] = 100
print(ar)

[[[  0   1   2   3   4]
  [  5   6   7   8   9]
  [ 10  11  12  13  14]]

 [[ 15  16  17  18  19]
  [ 20  21 100  23  24]
  [ 25  26  27  28  29]]]


In [34]:
ar[1, 1] = 100
print(ar)

[[[  0   1   2   3   4]
  [  5   6   7   8   9]
  [ 10  11  12  13  14]]

 [[ 15  16  17  18  19]
  [100 100 100 100 100]
  [ 25  26  27  28  29]]]


### boolean indexing

조건문에 의한 True, False를 활용한 indexing 기법

In [35]:
ar = np.arange(25).reshape(5, 5)
data = np.array(['a', 'a', 'b', 'c', 'c'])
where_a = data == 'a'

In [36]:
print(where_a)
print(where_a.any()) # 하나라도 True면 True
print(where_a.all()) # 모든값이 True면 True

[ True  True False False False]
True
False


In [37]:
print(ar)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


In [38]:
print(ar[data == 'a'])

[[0 1 2 3 4]
 [5 6 7 8 9]]


In [39]:
print(ar[:3, data == 'a'])

[[ 0  1]
 [ 5  6]
 [10 11]]


In [40]:
print(ar[:, data != 'c'])

[[ 0  1  2]
 [ 5  6  7]
 [10 11 12]
 [15 16 17]
 [20 21 22]]


In [41]:
print(ar[~(data == 'c'), :4:2])

[[ 0  2]
 [ 5  7]
 [10 12]]


In [42]:
print(ar[(data == 'b') | (data == 'c'), ::2])

[[10 12 14]
 [15 17 19]
 [20 22 24]]


In [43]:
print(ar[:, (data != 'b') & (data != 'c')])

[[ 0  1]
 [ 5  6]
 [10 11]
 [15 16]
 [20 21]]


In [44]:
ar[data == 'a'] = 100
print(ar)

[[100 100 100 100 100]
 [100 100 100 100 100]
 [ 10  11  12  13  14]
 [ 15  16  17  18  19]
 [ 20  21  22  23  24]]


In [45]:
ar[ar >= 100] = 0
print(ar)

[[ 0  0  0  0  0]
 [ 0  0  0  0  0]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


In [46]:
ar[(ar >= 8) & (ar <= 15)] = 10
print(ar)

[[ 0  0  0  0  0]
 [ 0  0  0  0  0]
 [10 10 10 10 10]
 [10 16 17 18 19]
 [20 21 22 23 24]]


In [47]:
print(np.where(ar == 0, -1, ar))

[[-1 -1 -1 -1 -1]
 [-1 -1 -1 -1 -1]
 [10 10 10 10 10]
 [10 16 17 18 19]
 [20 21 22 23 24]]


### fancy indexing

특정 순서로 행과 열을 선택하는 indexing 기법

In [48]:
ar = np.arange(32).reshape(8, 4)
print(ar)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


In [49]:
print(ar[[4, 3, 2, 6]])

[[16 17 18 19]
 [12 13 14 15]
 [ 8  9 10 11]
 [24 25 26 27]]


In [50]:
print(ar[[-3, -5, -7]])

[[20 21 22 23]
 [12 13 14 15]
 [ 4  5  6  7]]


In [51]:
print(ar[[1, 5, 7, 2], [0, 3, 1, 2]])

[ 4 23 29 10]


In [52]:
print(ar[[1, 5, 7, 2]][:, [0, 3, 1, 2]])

[[ 4  7  5  6]
 [20 23 21 22]
 [28 31 29 30]
 [ 8 11  9 10]]


In [53]:
print(ar[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])])

[[ 4  7  5  6]
 [20 23 21 22]
 [28 31 29 30]
 [ 8 11  9 10]]


### slicing

In [54]:
ar = np.arange(10)
print(ar[:])

[0 1 2 3 4 5 6 7 8 9]


In [55]:
print(ar[:4])

[0 1 2 3]


In [56]:
print(ar[::2]) # index 처음부터 끝까지 2칸씩

[0 2 4 6 8]


In [57]:
print(ar[2:9:3]) # index 2부터 9전까지 3칸씩

[2 5 8]


In [58]:
ar = np.arange(24).reshape(4, 6)
print(ar)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]


In [59]:
print(ar[:, 2:]) # row는 전체, column은 index 2부터

[[ 2  3  4  5]
 [ 8  9 10 11]
 [14 15 16 17]
 [20 21 22 23]]


In [60]:
print(ar[1:3]) # row는 index 1부터 3전까지, column은 전체

[[ 6  7  8  9 10 11]
 [12 13 14 15 16 17]]


In [61]:
print(ar[1, 1:3]) # row는 index 1, column은 index 1부터 3전까지

[7 8]


In [62]:
print(ar[::2, 1:6:2]) # row는 index 2칸씩, column은 index 1부터 6전까지 2칸씩

[[ 1  3  5]
 [13 15 17]]


In [63]:
ar[1:3, 1:4] = np.ones(6).reshape(2, 3) * 10
print(ar)

[[ 0  1  2  3  4  5]
 [ 6 10 10 10 10 11]
 [12 10 10 10 16 17]
 [18 19 20 21 22 23]]


In [64]:
ar[2:, 1:4] = np.arange(1, 7).reshape(2, 3) * -1
print(ar)

[[ 0  1  2  3  4  5]
 [ 6 10 10 10 10 11]
 [12 -1 -2 -3 16 17]
 [18 -4 -5 -6 22 23]]


## Operation Function

array 내부에 있는 각 원소들 간의 연산을 수행하는 함수

### unary universal function (단항 유니버셜 함수)

In [65]:
x = np.random.uniform(-10, 10, 10)
print(x)

[-8.93452208 -0.40127474  7.72435034 -7.58766299  0.54222551  0.77623141
  5.01878679  3.38579587  1.77466074 -0.09710117]


In [66]:
print(np.mean(x)) # 평균값

0.22014896872392278


In [67]:
print(np.sum(x)) # 합

2.2014896872392278


In [68]:
print(np.std(x)) # 표준편차

4.872858463138949


In [69]:
print(np.var(x)) # 분산값

23.744749601784882


In [70]:
print(np.min(x)) # 최솟값

-8.934522084334446


In [71]:
print(np.max(x)) # 최댓값

7.724350335585324


In [72]:
print(np.cumsum(x)) # 누적합

[-8.93452208 -9.33579682 -1.61144649 -9.19910948 -8.65688397 -7.88065256
 -2.86186576  0.52393011  2.29859085  2.20148969]


In [73]:
print(np.cumprod(x)) # 누적곱

[   -8.93452208     3.58519802    27.69332555  -210.12762132
  -113.93655597   -88.44113387  -443.86719472 -1502.84371571
 -2667.03774693   258.97247576]


In [74]:
print(np.abs(x)) # 절댓값

[8.93452208 0.40127474 7.72435034 7.58766299 0.54222551 0.77623141
 5.01878679 3.38579587 1.77466074 0.09710117]


In [75]:
print(np.sqrt(x)) # 제곱근값

[       nan        nan 2.77927155        nan 0.73635963 0.88103996
 2.24026489 1.84005323 1.33216393        nan]


  print(np.sqrt(x)) # 제곱근값


In [76]:
print(np.square(x)) # 제곱값

[7.98256849e+01 1.61021417e-01 5.96655881e+01 5.75726296e+01
 2.94008500e-01 6.02535207e-01 2.51882209e+01 1.14636137e+01
 3.14942076e+00 9.42863649e-03]


In [77]:
print(np.exp(x)) # 지수값

[1.31760842e-04 6.69466107e-01 2.26278206e+03 5.06663750e-04
 1.71983010e+00 2.17326667e+00 1.51227722e+02 2.95414946e+01
 5.89827977e+00 9.07464197e-01]


In [78]:
print(np.log(x)) # 로그값

[        nan         nan  2.04437772         nan -0.6120733  -0.25330459
  1.61318823  1.219589    0.57360927         nan]


  print(np.log(x)) # 로그값


In [79]:
print(np.sign(x)) # 부호 (1: 양수, -1: 음수)

[-1. -1.  1. -1.  1.  1.  1.  1.  1. -1.]


### binomial universal function (이항 유니버셜 함수)

In [80]:
y = np.random.uniform(-10, 10, 10)
print(y)

[ 8.29070607  3.17969093  9.43220641 -7.74544618  5.80451231 -1.10422785
  0.02236428  0.89838054 -8.70644069 -9.55193349]


In [81]:
print(np.add(x, y)) # x + y

[ -0.64381602   2.77841619  17.15655675 -15.33310917   6.34673782
  -0.32799643   5.04115108   4.28417641  -6.93177995  -9.64903465]


In [82]:
print(np.subtract(x, y)) # x - y

[-17.22522815  -3.58096567  -1.70785608   0.15778319  -5.26228681
   1.88045926   4.99642251   2.48741533  10.48110144   9.45483232]


In [83]:
print(np.multiply(x, y)) # x * y

[-74.07349644  -1.27592965  72.85766677  58.76983529   3.14735463
  -0.85713634   0.11224157   3.04173312 -15.45097852   0.92750388]


In [84]:
print(np.divide(x, y)) # x / y

[-1.07765515e+00 -1.26199291e-01  8.18933556e-01  9.79628909e-01
  9.34144813e-02 -7.02963084e-01  2.24410809e+02  3.76877696e+00
 -2.03833094e-01  1.01656033e-02]


In [85]:
print(np.maximum(x, y)) # 두 배열의 원소 중 큰 원소값

[ 8.29070607  3.17969093  9.43220641 -7.58766299  5.80451231  0.77623141
  5.01878679  3.38579587  1.77466074 -0.09710117]


In [86]:
print(np.minimum(x, y)) # 두 배열의 원소 중 작은 원소값

[-8.93452208 -0.40127474  7.72435034 -7.74544618  0.54222551 -1.10422785
  0.02236428  0.89838054 -8.70644069 -9.55193349]


## Axis

array에서 기준이 되는 dimension의 축

### operation

In [87]:
ar = np.arange(20).reshape(4, 5)
print(ar)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


In [88]:
print(ar.sum())

190


In [89]:
print(ar.sum(axis=0))

[30 34 38 42 46]


In [90]:
print(ar.sum(axis=1))

[10 35 60 85]


In [91]:
ar = np.arange(30).reshape(2, 3, 5)
print(ar)

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]
  [10 11 12 13 14]]

 [[15 16 17 18 19]
  [20 21 22 23 24]
  [25 26 27 28 29]]]


In [92]:
print(ar.sum(axis=0))

[[15 17 19 21 23]
 [25 27 29 31 33]
 [35 37 39 41 43]]


In [93]:
print(ar.sum(axis=1))

[[15 18 21 24 27]
 [60 63 66 69 72]]


In [94]:
print(ar.sum(axis=2))

[[ 10  35  60]
 [ 85 110 135]]


### transpose

In [95]:
ar = np.arange(20).reshape(4, 5)
print(ar)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


In [96]:
print(ar.T)

[[ 0  5 10 15]
 [ 1  6 11 16]
 [ 2  7 12 17]
 [ 3  8 13 18]
 [ 4  9 14 19]]


In [97]:
ar = np.arange(30).reshape(2, 3, 5)
print(ar)
print(ar.shape)

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]
  [10 11 12 13 14]]

 [[15 16 17 18 19]
  [20 21 22 23 24]
  [25 26 27 28 29]]]
(2, 3, 5)


In [98]:
trans1 = ar.T # 축의 순서를 반대로 바꾸어 변환
print(trans1)
print(trans1.shape)

[[[ 0 15]
  [ 5 20]
  [10 25]]

 [[ 1 16]
  [ 6 21]
  [11 26]]

 [[ 2 17]
  [ 7 22]
  [12 27]]

 [[ 3 18]
  [ 8 23]
  [13 28]]

 [[ 4 19]
  [ 9 24]
  [14 29]]]
(5, 3, 2)


In [99]:
trans2 = ar.transpose(1, 0, 2) # n차원의 배열 객체의 n개의 축 번호를 받아 순서를 지정해서 배열을 변환
print(trans2)
print(trans2.shape)

[[[ 0  1  2  3  4]
  [15 16 17 18 19]]

 [[ 5  6  7  8  9]
  [20 21 22 23 24]]

 [[10 11 12 13 14]
  [25 26 27 28 29]]]
(3, 2, 5)


In [100]:
trans3 = ar.swapaxes(1, 2) # 2개의 축 번호를 받아 배열을 변환
print(trans3)
print(trans3.shape)

[[[ 0  5 10]
  [ 1  6 11]
  [ 2  7 12]
  [ 3  8 13]
  [ 4  9 14]]

 [[15 20 25]
  [16 21 26]
  [17 22 27]
  [18 23 28]
  [19 24 29]]]
(2, 5, 3)


In [101]:
ar_1 = np.array([[1, 2, 3]])
ar_2 = np.array([[2, 3, 4]])

In [102]:
print(np.concatenate((ar_1, ar_2), axis = 0))

[[1 2 3]
 [2 3 4]]


In [103]:
print(np.concatenate((ar_1, ar_2), axis = 1))

[[1 2 3 2 3 4]]


In [104]:
print(np.vstack((ar_1, ar_2))) # vertical stack

[[1 2 3]
 [2 3 4]]


In [105]:
print(np.hstack((ar_1.T, ar_2.T))) # horizontal stack

[[1 2]
 [2 3]
 [3 4]]


In [106]:
ar_1 = np.array([[1, 2], [3, 4]])
ar_2 = np.array([[5, 6]])

In [107]:
print(np.concatenate((ar_1, ar_2), axis = 0))

[[1 2]
 [3 4]
 [5 6]]


In [108]:
print(np.concatenate((ar_1, ar_2.T), axis = 1))

[[1 2 5]
 [3 4 6]]
