# Numpy

### Numpy의 특징
- 수치 데이터를 다루기 위한 라이브러리
- 다차원 배열(ndarray)을 지원하며, 배열의 모든 요소는 동일한 데이터 타입이어야 한다.
- 파이썬의 List에 비해 속도가 빠르고 훨씬 더 효율적이다.
- broadcasting을 지원해서 반복문 없이 데이터를 빠르고 편하게 처리할 수 있다.
    *(https://numpy.org/doc/stable/user/basics.broadcasting.html)
    
[참고링크] ->  Numpy github 사이트 (https://github.com/numpy/numpy)

## Numpy 라이브러리 임포트

In [1]:
# numpy 라이브러리를 임포트할 때, np로 별명을 지정하여 사용
import numpy as np

In [2]:
np.__version__

'1.19.2'

In [3]:
# 함수를 어떻게 사용했는지 기억 안날 때, 인터넷에 검색하여 알아낼 수 있지만,
# help()를 이용해서 함수의 사용방법 알 수 있다.

help(np.ndarray.dtype)

Help on getset descriptor numpy.ndarray.dtype:

dtype
    Data-type of the array's elements.
    
    Parameters
    ----------
    None
    
    Returns
    -------
    d : numpy dtype object
    
    See Also
    --------
    numpy.dtype
    
    Examples
    --------
    >>> x
    array([[0, 1],
           [2, 3]])
    >>> x.dtype
    dtype('int32')
    >>> type(x.dtype)
    <type 'numpy.dtype'>



## Numpy의 배열, ndarray object

### 1D array 또는 (column)vector

In [7]:
np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], dtype = np.float32)

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.],
      dtype=float32)

### 2D array 또는 matrix

In [8]:
np.array([[1, 2, 3, 4],
          [5, 6, 7, 8],
          [9, 10, 11, 12]], dtype = np.float32)

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.]], dtype=float32)

### 3D array 또는 tensor

In [9]:
np.array([[[1,2],
          [3,4],
          [5,6]],
          [[7,8],
          [9,10],
          [11,12]]], dtype = np.float32)

array([[[ 1.,  2.],
        [ 3.,  4.],
        [ 5.,  6.]],

       [[ 7.,  8.],
        [ 9., 10.],
        [11., 12.]]], dtype=float32)

## Numpy의 데이터 타입

### Numpy의 데이터 타입은 C에서 사용되는 데이터 타입과 유사.
### 거기에 추가적으로 복소수 타입도 지원.

In [10]:
# Signed 64-bit integer types
np.int64

numpy.int64

In [11]:
# Standard double-precision floating point
np.float32

numpy.float32

In [14]:
# Complex numbers represented by 128 floats
np.complex

complex

In [15]:
# Boolean type storing TRUE and FALSE values
np.bool

bool

In [16]:
# Pythin object type
np.object

object

In [19]:
# Fixed-length string type
np.string_

numpy.bytes_

In [21]:
# Fixed-length unicode type
np.unicode_

numpy.str_

## placeholder를 이용해서 ndarray object 생성

### placeholder를 사용해서, 특수한 벡터와 행렬을 쉽게 생성 가능
### 그 외에도 균일한 간격의 배열, 무작위 값을 가지는 배열 등 생성 가능

In [22]:
# Zeros-vector (영벡터) 생성
np.zeros((3, 4), dtype = np.float32)

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]], dtype=float32)

In [30]:
# ones-vector (일벡터) 생성
np.ones((3,4), dtype = np.float32)

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]], dtype=float32)

In [32]:
# np.arrange(시작값, 끝값, 간격)
d = np.arange(10, 25, 5)
d

array([10, 15, 20])

In [46]:
# 다른 배열과 같은 크기의 배열 생성
## np.zeros_like()
## np.ones_like()

tmp = np.arange(24).reshape(2,3,4)
tmp

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [47]:
np.zeros_like(tmp)

array([[[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]],

       [[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]]])

In [49]:
np.ones_like(tmp)

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [50]:
# diagonal matrix (대각행렬) 생성
np.diag([1, 2, 3, 4, 5])

array([[1, 0, 0, 0, 0],
       [0, 2, 0, 0, 0],
       [0, 0, 3, 0, 0],
       [0, 0, 0, 4, 0],
       [0, 0, 0, 0, 5]])

In [51]:
# identify matrix (항등행렬) 생성
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [53]:
# 균일한 간격으로 배열 생성
# - 파이썬의 range와 비슷

np.arange(0, 15, 2, dtype = np.float32)

array([ 0.,  2.,  4.,  6.,  8., 10., 12., 14.], dtype=float32)

In [55]:
# 균등한 간격으로 배열 생성
# linspace(start, stop, num)
# num 생략할 경우 50개의 수열 생성

np.linspace(0, 15, 9, dtype = np.float32)
# (15 - 0) * (1 / (9 - 1)), (15 - 0) * (2 / (9 - 1)) ...

array([ 0.   ,  1.875,  3.75 ,  5.625,  7.5  ,  9.375, 11.25 , 13.125,
       15.   ], dtype=float32)

In [57]:
# 지정된 상수값만을 가진 배열 생성

np.full((3, 4), 2, dtype = np.float32)

array([[2., 2., 2., 2.],
       [2., 2., 2., 2.],
       [2., 2., 2., 2.]], dtype=float32)

In [59]:
np.ones((3, 4), dtype = np.float32) * 3

array([[3., 3., 3., 3.],
       [3., 3., 3., 3.],
       [3., 3., 3., 3.]], dtype=float32)

In [63]:
# 무작위 값을 가지는 배열 생성
# [0, 1] 범위에서

np.random.random((3,4))

array([[0.95418916, 0.93311711, 0.88658637, 0.80512375],
       [0.41515704, 0.81548635, 0.82042528, 0.25189719],
       [0.59423889, 0.90592887, 0.16261514, 0.30201028]])

In [65]:
# 초기화 되지 않은 배열 생성

# 값을 초기화할 때 사용
# 다른 것들에 비해서 생성 속도가 빠름

np.empty((3, 4)) # 쓰레기값이 들어가 있다.

array([[0.95418916, 0.93311711, 0.88658637, 0.80512375],
       [0.41515704, 0.81548635, 0.82042528, 0.25189719],
       [0.59423889, 0.90592887, 0.16261514, 0.30201028]])

## ndarray에 대한 기본적인 정보 조사하기

In [69]:
# 다음과 같은 배열이 있다고 가정
a = np.arange(24).reshape(2, 3, 4)
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [70]:
# 배열의 shape 확인
a.shape
# 2 x 3 x 4 (depth, row, column)

(2, 3, 4)

In [71]:
# 배열의 길이 (크기) 확인
len(a)

2

In [72]:
# 배열의 차원 확인
a.ndim

3

In [73]:
# 배열의 요소 개수 확인
a.size

24

In [74]:
# 배열의 요소 데이터 타입 확인
a.dtype
# Data Type of array elements

dtype('int32')

In [75]:
# 배열 요소의 데이터 타입 이름 확인
a.dtype.name

'int32'

In [77]:
# 배열 요소의 데이터 타입을 변경

# 원본 배열에 영향을 끼치지 않음
a.astype(np.bool) # 0 이하는 False, 0 초과는 True

array([[[False,  True,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]],

       [[ True,  True,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]]])

## Numpy 배열 연산

In [85]:
# 다음과 같은 Numpy 배열을 사용
a = np.random.random((3,4))
b = np.arange(12, dtype=np.float32).reshape((3,4))

a, b

(array([[0.60926142, 0.0804043 , 0.10522769, 0.65054398],
        [0.50831537, 0.35528208, 0.57307317, 0.47412027],
        [0.90321912, 0.3921328 , 0.26157005, 0.03559547]]),
 array([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]], dtype=float32))

In [93]:
# 사칙연산

# 더하기(+) 연산, elementwise 방식으로 동작
a+b

array([[ 0.60926142,  1.0804043 ,  2.10522769,  3.65054398],
       [ 4.50831537,  5.35528208,  6.57307317,  7.47412027],
       [ 8.90321912,  9.3921328 , 10.26157005, 11.03559547]])

In [94]:
np.add(a, b)

array([[ 0.60926142,  1.0804043 ,  2.10522769,  3.65054398],
       [ 4.50831537,  5.35528208,  6.57307317,  7.47412027],
       [ 8.90321912,  9.3921328 , 10.26157005, 11.03559547]])

In [95]:
# 빼기(-) 연산, elementwise 방식으로 동작
a-b

array([[  0.60926142,  -0.9195957 ,  -1.89477231,  -2.34945602],
       [ -3.49168463,  -4.64471792,  -5.42692683,  -6.52587973],
       [ -7.09678088,  -8.6078672 ,  -9.73842995, -10.96440453]])

In [96]:
np.subtract(a,b)

array([[  0.60926142,  -0.9195957 ,  -1.89477231,  -2.34945602],
       [ -3.49168463,  -4.64471792,  -5.42692683,  -6.52587973],
       [ -7.09678088,  -8.6078672 ,  -9.73842995, -10.96440453]])

In [97]:
# 곱하기(*) 연산, elementwise 방식으로 동작
a * b

array([[0.        , 0.0804043 , 0.21045539, 1.95163195],
       [2.03326147, 1.77641042, 3.43843904, 3.3188419 ],
       [7.22575295, 3.52919522, 2.61570045, 0.39155022]])

In [99]:
np.multiply(a,b)

array([[0.        , 0.0804043 , 0.21045539, 1.95163195],
       [2.03326147, 1.77641042, 3.43843904, 3.3188419 ],
       [7.22575295, 3.52919522, 2.61570045, 0.39155022]])

In [100]:
# 나누기(/) 연산, elementwise 방식으로 동작
a / b

  a / b


array([[       inf, 0.0804043 , 0.05261385, 0.21684799],
       [0.12707884, 0.07105642, 0.0955122 , 0.06773147],
       [0.11290239, 0.04357031, 0.026157  , 0.00323595]])

In [101]:
np.divide(a, b)

  np.divide(a, b)


array([[       inf, 0.0804043 , 0.05261385, 0.21684799],
       [0.12707884, 0.07105642, 0.0955122 , 0.06773147],
       [0.11290239, 0.04357031, 0.026157  , 0.00323595]])

In [102]:
# 나머지 (%)연산, elementwise방식으로 동작
a % b

  a % b


array([[       nan, 0.0804043 , 0.10522769, 0.65054398],
       [0.50831537, 0.35528208, 0.57307317, 0.47412027],
       [0.90321912, 0.3921328 , 0.26157005, 0.03559547]])

In [104]:
np.remainder(a,b)

  np.remainder(a,b)


array([[       nan, 0.0804043 , 0.10522769, 0.65054398],
       [0.50831537, 0.35528208, 0.57307317, 0.47412027],
       [0.90321912, 0.3921328 , 0.26157005, 0.03559547]])

## 기본적인 수학 관련 연산

In [105]:
# 지수함수

# 자연함수 e, 배열의 값이 지수함수(e^x)의 지수로 들어가서 연산이 이루어짐
np.exp(b)

array([[1.0000000e+00, 2.7182817e+00, 7.3890562e+00, 2.0085537e+01],
       [5.4598148e+01, 1.4841316e+02, 4.0342880e+02, 1.0966332e+03],
       [2.9809580e+03, 8.1030840e+03, 2.2026465e+04, 5.9874141e+04]],
      dtype=float32)

In [107]:
# 제곱근 함수
np.sqrt(b)

array([[0.       , 1.       , 1.4142135, 1.7320508],
       [2.       , 2.236068 , 2.4494898, 2.6457512],
       [2.828427 , 3.       , 3.1622777, 3.3166249]], dtype=float32)

In [108]:
# 사인함수
np.sin(a)

array([[0.57226193, 0.08031769, 0.1050336 , 0.60561937],
       [0.4867063 , 0.34785485, 0.5422168 , 0.45655593],
       [0.78532388, 0.3821602 , 0.25859751, 0.03558796]])

In [109]:
# 코사인함수
np.cos(a)

array([[0.8200709 , 0.99676932, 0.99446867, 0.79575447],
       [0.87356567, 0.9375484 , 0.84023862, 0.88969471],
       [0.61908513, 0.92409609, 0.96598516, 0.99936655]])

In [110]:
# 탄젠트함수
np.tan(a)

array([[0.69782006, 0.08057801, 0.10561781, 0.76106311],
       [0.55714907, 0.37102602, 0.64531288, 0.51316022],
       [1.26852326, 0.41355028, 0.2677034 , 0.03561052]])

In [111]:
# 로그함수
np.log(a)

array([[-0.49550784, -2.52068766, -2.25162878, -0.42994637],
       [-0.67665322, -1.0348432 , -0.55674187, -0.74629425],
       [-0.1017901 , -0.93615471, -1.34105317, -3.33553678]])

In [112]:
# 내적계산
np.dot(a, b.T)

array([[ 2.24249163,  8.02424119, 13.80599076],
       [ 2.92378925, 10.56695284, 18.21011643],
       [ 1.02205932,  7.39212908, 13.76219885]])

In [113]:
# 비교연산

# 필터링 할 때 자주 사용. elementwise 방식으로 동작
a == b

array([[False, False, False, False],
       [False, False, False, False],
       [False, False, False, False]])

In [114]:
a != b

array([[ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

In [115]:
b > 5

array([[False, False, False, False],
       [False, False,  True,  True],
       [ True,  True,  True,  True]])

In [116]:
b >= 5

array([[False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

In [117]:
b < 5

array([[ True,  True,  True,  True],
       [ True, False, False, False],
       [False, False, False, False]])

In [118]:
b <= 5

array([[ True,  True,  True,  True],
       [ True,  True, False, False],
       [False, False, False, False]])

In [120]:
# Aggregate Function(집계함수)

b = np.array([[0, 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11]])
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [122]:
b = np.arange(12, dtype = np.float32).reshape((3,4))
b

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]], dtype=float32)

In [123]:
# 디폴트로, 배열의 모든 요소를 더한다.
# 'axis' 매개변수를 조절해서, row별로 또는 column별로 요소를 더할 수 있다.
np.sum(b)

66.0

In [125]:
b.sum()

66.0

In [126]:
# axis = 0, row별로 요소를 더한다.
np.sum(b, axis = 0)

array([12., 15., 18., 21.], dtype=float32)

In [127]:
# axis = 1, column별로 요소를 더한다.
np.sum(b, axis = 1)

array([ 6., 22., 38.], dtype=float32)

In [128]:
# 디폴트로 배열의 요소 중 최소값을 가져온다.
# 'axis' 매개변수를 조절해서 row별로 또는 col별로 최소값을 가져올 수 있다.

np.min(b)

0.0

In [129]:
b.min()

0.0

In [130]:
# axis = 0, row별로 최소값을 가져온다,
np.min(b, axis = 0)

array([0., 1., 2., 3.], dtype=float32)

In [131]:
# axis = 1, col별로 최소값을 가져온다.
np.min(b, axis = 1)

array([0., 4., 8.], dtype=float32)

In [132]:
# 디폴트로 배열의 요소 중 최대값을 가져온다.
# 'axis'매개변수를 조절해서 row, col별로 최대값 가져올 수 있다.
np.max(b)

11.0

In [133]:
# 디폴트로 배열의 모든 요소의 누적합계를 구한다,
# 'axis'매개변수를 조절해서 row, col별로 누적합계를 구할 수 있다.
np.cumsum(b)

array([ 0.,  1.,  3.,  6., 10., 15., 21., 28., 36., 45., 55., 66.],
      dtype=float32)

In [134]:
# 디폴트로 배열의 요소에 대한 평균값을 구한다,
# 'axis'매개변수를 조절해서 row, col별로 평균값을 구할 수 있다.
np.mean(b)

5.5

In [135]:
np.mean(a)

0.4123954774788252

In [136]:
# 디폴트로 배열의 요소에 대한 중간값을 구한다,
# 'axis'매개변수를 조절해서 row, col별로 중간값을 구할 수 있다.
np.median(b)

5.5

In [137]:
# 디폴트로 배열의 요소에 대한 표준편차를 구한다,
# 'axis'매개변수를 조절해서 row, col별로 표준편차를 구할 수 있다.
np.std(b)

3.4520526

In [138]:
# 백분위수(percentile)를 이용해서, 1사분위수, ..., 4사분위수를 구할 수 있다.
# 4사분위수란> 전체 데이터 중 1/4위치의 데이터를 뜻함

np.percentile(b, 0) # 최소값

0.0

In [139]:
np.percentile(b, 50) # 2사분위수

5.5

In [142]:
np.percentile(b, 100) # 최대값

11.0

## Numpy의 copy 3가지

In [144]:
c = np.arange(25, dtype = np.float32).reshape((5,5))

# ndarray를 어떤 변수에 할당한다고 하자
tmp = c
tmp

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.],
       [15., 16., 17., 18., 19.],
       [20., 21., 22., 23., 24.]], dtype=float32)

In [148]:
# No copy at all
tmp = c.view()
tmp

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.],
       [15., 16., 17., 18., 19.],
       [20., 21., 22., 23., 24.]], dtype=float32)

In [149]:
print(tmp)
print(c)
print(id(tmp))
print(id(c))

[[ 0.  1.  2.  3.  4.]
 [ 5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14.]
 [15. 16. 17. 18. 19.]
 [20. 21. 22. 23. 24.]]
[[ 0.  1.  2.  3.  4.]
 [ 5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14.]
 [15. 16. 17. 18. 19.]
 [20. 21. 22. 23. 24.]]
2674112629376
2674112696608


In [150]:
id(tmp) == id(c)

False

In [151]:
# Shadow Copy

tmp = c
tmp

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.],
       [15., 16., 17., 18., 19.],
       [20., 21., 22., 23., 24.]], dtype=float32)

In [152]:
print(id(tmp))
print(id(c))

2674112696608
2674112696608


In [153]:
id(tmp) == id(c)

True

In [154]:
# 주소를 공유하고 있기 때문에
# tmp값을 변경하면 c의 값도 바뀐다.

tmp[0][0] = -1

print('tmp :\n', tmp)
print('c :\n', c)

tmp :
 [[-1.  1.  2.  3.  4.]
 [ 5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14.]
 [15. 16. 17. 18. 19.]
 [20. 21. 22. 23. 24.]]
c :
 [[-1.  1.  2.  3.  4.]
 [ 5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14.]
 [15. 16. 17. 18. 19.]
 [20. 21. 22. 23. 24.]]


In [155]:
# deep copy
# 원본 배열에 영향 끼치지 않고 동일한 배열을 만들고 싶다면 deep copy

tmp = c.copy()
id(tmp) == id(c)

False

In [156]:
# 주소를 공유하고 있지 않기 때문에
# tmp의 값을 변경하더라도, b의 값은 변경되지 않는다.

tmp[0][0] = -9

print('tmp :\n', tmp)
print('c:\n', c)

tmp :
 [[-9.  1.  2.  3.  4.]
 [ 5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14.]
 [15. 16. 17. 18. 19.]
 [20. 21. 22. 23. 24.]]
c:
 [[-1.  1.  2.  3.  4.]
 [ 5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14.]
 [15. 16. 17. 18. 19.]
 [20. 21. 22. 23. 24.]]


## Numpy의 슬라이싱, 인덱싱, 정렬

In [160]:
# 슬라이싱
# 파이썬의 List와 같은 슬라이싱 제공

d = np.arange(3)
d

array([0, 1, 2])

In [161]:
d[0:2]

array([0, 1])

In [162]:
# 파이썬의 List와 다르게, 축(axis)별로 슬라이싱이 가능하다.
# `,`를 기준으로 슬라이싱을 하면 된다.

e = np.arange(9).reshape((3, 3))
e[0:2, :]

array([[0, 1, 2],
       [3, 4, 5]])

In [163]:
e[0:2]

array([[0, 1, 2],
       [3, 4, 5]])

In [164]:
e[:, 0:2]

array([[0, 1],
       [3, 4],
       [6, 7]])

In [165]:
e[:, 2]

array([2, 5, 8])

In [166]:
# 행기준으로 뒤집고, 열기준으로 뒤집는 것도 가능하다.
e[::-1, ::-1]

array([[8, 7, 6],
       [5, 4, 3],
       [2, 1, 0]])

In [167]:
# boolean 인덱싱

# Numpy의 비교 연산을 이용해서 필터링 가능
f = np.arange(9).reshape((3, 3))

In [168]:
f

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [169]:
f[f<4]

array([0, 1, 2, 3])

In [170]:
f[f>5]

array([6, 7, 8])

In [172]:
# Fancy 인덱싱

# 슬라이싱을 사용해서 인덱싱을 하는 것 뿐만 아니라
# List와 `,`를 이용해서 원하는 요소를 인덱싱할 수 있다.
# 그리고 앞에서 배운 boolean 인덱싱도 이용할 수 있다.

g = np.arange(12)
g

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [174]:
g = np.arange(12).reshape((3,4))
g

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [176]:
# g의 두 번째 행, 첫 번째 행 전체 출력
g[[1, 0], :]

array([[4, 5, 6, 7],
       [0, 1, 2, 3]])

In [177]:
g[[2,0], :2]

array([[8, 9],
       [0, 1]])

In [178]:
# g의 2, 4열의 요소만 추출
g[:, [False, True, False, True]]

array([[ 1,  3],
       [ 5,  7],
       [ 9, 11]])

In [179]:
g[:, [1, 3]]

array([[ 1,  3],
       [ 5,  7],
       [ 9, 11]])

In [180]:
# g에서 (1, 0), (0, 1), (1, 2), (0, 0) 번째 요소를 추출
g[[1, 0, 1, 0], [0, 1, 2, 0]]

array([4, 1, 6, 0])

In [181]:
# g에서 첫 번째 행, 두 번째 행, 첫 번째 행, 두 번째 행을 선택하고
# 그렇게 만들어진 배열에 대해서
# 전체 행에 대해서 0, 1, 2, 0열의 요소로 인덱싱

g[[1, 0, 1, 0]][:, [0, 1, 2, 0]]

array([[4, 5, 6, 4],
       [0, 1, 2, 0],
       [4, 5, 6, 4],
       [0, 1, 2, 0]])

In [183]:
# 디폴트로, 마지막 축(여기서는 column을 기준으로)에 대해서 오름차순정렬한다.
# `axis` 매개변수를 조절해서, row 별로 또는 column 별로 정렬할 수 있다.

h = np.random.random((3, 4))
h

array([[0.4759805 , 0.54481325, 0.83201993, 0.86777974],
       [0.66387003, 0.5727669 , 0.79017514, 0.02076168],
       [0.79483193, 0.08444783, 0.22053157, 0.0670544 ]])

In [184]:
# column 별로 오름차순정렬
np.sort(h)

array([[0.4759805 , 0.54481325, 0.83201993, 0.86777974],
       [0.02076168, 0.5727669 , 0.66387003, 0.79017514],
       [0.0670544 , 0.08444783, 0.22053157, 0.79483193]])

In [185]:
# row 별로 오름차순 정렬
np.sort(h, axis = 0)

array([[0.4759805 , 0.08444783, 0.22053157, 0.02076168],
       [0.66387003, 0.54481325, 0.79017514, 0.0670544 ],
       [0.79483193, 0.5727669 , 0.83201993, 0.86777974]])

In [186]:
np.sort(h, axis=1)

array([[0.4759805 , 0.54481325, 0.83201993, 0.86777974],
       [0.02076168, 0.5727669 , 0.66387003, 0.79017514],
       [0.0670544 , 0.08444783, 0.22053157, 0.79483193]])

In [188]:
# np.sort()는 정렬된 배열을 반환하지만.
# ndarray.sort()는 inplace 정렬이 일어난다.

h.sort()
h

array([[0.4759805 , 0.54481325, 0.83201993, 0.86777974],
       [0.02076168, 0.5727669 , 0.66387003, 0.79017514],
       [0.0670544 , 0.08444783, 0.22053157, 0.79483193]])

## Numpy 배열 조작

In [200]:
# Shape 조작하기

# reshape()를 통해서, 배열의 shape 모양을 바꾼다. (원본 배열을 바꾸지 않는다.)
tmp = np.arange(16)
tmp

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [201]:
tmp.reshape((4, 4))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [202]:
tmp.reshape((2, 8))

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15]])

In [203]:
# -1을 사용하면, 현재 주어진 정보를 토대로 나머지 부분을 채워준다.
tmp.reshape((8, -1))

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11],
       [12, 13],
       [14, 15]])

In [204]:
tmp.reshape(2,4,2)

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15]]])

In [205]:
tmp.reshape((8, -1))

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11],
       [12, 13],
       [14, 15]])

In [211]:
tmp.reshape(4,4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [215]:
# ndarray.resize()를 통해서, 배열의 shape 모양을 바꾼다. (inplace 연산)
tmp.resize((2, 8))
tmp

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15]])

In [218]:
# 전치연산을 통해서, 행과 열의 위치를 변경할 수 있다.

tmp = np.arange(15).reshape((3, 5))
tmp

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [219]:
np.transpose(tmp) # tmp.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [220]:
np.transpose(tmp.T)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [221]:
tmp.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [222]:
# ravel(), flatten()을 통해서, 다차원 배열을 1차원 배열로 변환
# ravel()은 shallow copy
# flatten()은 deep copy를 수행

In [223]:
tmp1 = np.arange(9).reshape((3, 3))
tmp2 = tmp1.ravel()

tmp1, tmp2

(array([[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]),
 array([0, 1, 2, 3, 4, 5, 6, 7, 8]))

In [224]:
tmp2[0] = -1
tmp1, tmp2

(array([[-1,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8]]),
 array([-1,  1,  2,  3,  4,  5,  6,  7,  8]))

In [226]:
# flatten()의 경우
tmp1 = np.arange(9).reshape((3, 3))
tmp2 = tmp1.flatten()

tmp1, tmp2

(array([[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]),
 array([0, 1, 2, 3, 4, 5, 6, 7, 8]))

In [228]:
tmp2[0] = -1
tmp1, tmp2

(array([[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]),
 array([-1,  1,  2,  3,  4,  5,  6,  7,  8]))

## 배열에 값 넣기, 값 삭제하기

### np.append()를 이용해서 배열의 끝에 값(배열, 스칼라)을 추가할 수 있다.
### axis=None일 경우, 주어진 배열, 값을 1차원으로 바꾸고, 주어진 배열 끝에 값을 추가한다.

In [231]:
tmp1 = np.arange(9).reshape((3,3))
tmp2 = np.arange(9).reshape((3,3)) * 10
print(tmp1)
print('\n')
print(tmp2)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


[[ 0 10 20]
 [30 40 50]
 [60 70 80]]


In [232]:
np.append(tmp1, tmp2)


array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  0, 10, 20, 30, 40, 50, 60, 70,
       80])

In [233]:
# axis = 0일 경우, horizontal하게 값을 추가한다.

np.append(tmp1, tmp2, axis=0)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 0, 10, 20],
       [30, 40, 50],
       [60, 70, 80]])

In [234]:
# axis = 1일 경우, vertical하게 값을 추가한다.

np.append(tmp1, tmp2, axis=1)

array([[ 0,  1,  2,  0, 10, 20],
       [ 3,  4,  5, 30, 40, 50],
       [ 6,  7,  8, 60, 70, 80]])

In [236]:
# np.insert()를 이용해서 원하는 위치에 값(배열, 스칼라)을 추가할 수 있다.
# axis=None 일 경우, 원하는 위치에 값을 집어 넣고, 배열을 1차원으로 바꾼다. (원본 배열에 영향을 주지 않는다.)

tmp = np.arange(6).reshape((2,3))
tmp

array([[0, 1, 2],
       [3, 4, 5]])

In [238]:
np.insert(tmp, 1, -1)

array([ 0, -1,  1,  2,  3,  4,  5])

In [239]:
# axis = 0일경우, row를 기준으로 값을 넣는다.

np.insert(tmp, 1, -1, axis=0)

array([[ 0,  1,  2],
       [-1, -1, -1],
       [ 3,  4,  5]])

In [240]:
np.insert(tmp, 1, -1)

array([ 0, -1,  1,  2,  3,  4,  5])

In [241]:
np.insert(tmp, 1, -1, axis=1)

array([[ 0, -1,  1,  2],
       [ 3, -1,  4,  5]])

In [242]:
# np.delete()를 이용해서 원하는 위치에 값을 삭제할 수 있다.
# axis = None일 경우, 원하는 위치의 값을 삭제하고, 배열을 1차원으로 바꾼다. (원본 배열에 영향을 주지 않는다.)

np.delete(tmp, 1)

array([0, 2, 3, 4, 5])

In [243]:
tmp

array([[0, 1, 2],
       [3, 4, 5]])

In [244]:
np.delete(tmp, 1, axis=1)

array([[0, 2],
       [3, 5]])

## 배열 결합하기

### 행의 수나 열의 수가 같은 두 개 이상의 배열을 연결하여 새로운 배열을 만들 때 아래의 명령어를 사용할 수 있다.
- np.concatenate()
- np.vstack()
- np.hstack()
- np.r_
- np.c_
- np.row_stack
- np.column_stack

In [246]:
tmp1 = np.ones((5, 2))
tmp2 = np.zeros((3, 2))

# np.concatenate()는 'axis' 매개변수를 통해서 원하는 축에 두 배열을 연결할 수 있다.

np. concatenate([tmp1, tmp2]) # 두 배열을 위 아래로 연결한다. ('axis = 0'이 디폴트로 설정되어있다.)

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [254]:
tmp1 = np.ones((2, 5))
tmp2 = np.zeros((2, 3))

np.concatenate([tmp1, tmp2], axis=1) # 두 배열을 좌우로 연결한다.

array([[1., 1., 1., 1., 1., 0., 0., 0.],
       [1., 1., 1., 1., 1., 0., 0., 0.]])

In [256]:
tmp1 = np.ones((5, 2))
tmp2 = np.zeros((3, 2))

# np.vstack()은 두 배열을 위아래로 연결할 때 사용한다.
np.vstack([tmp1, tmp2])

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [257]:
tmp1 = np.ones((2, 5))
tmp2 = np.zeros((2, 3))

# np.hstack()은 두 배열을 좌우로 연결할때 사용한다.
np.hstack([tmp1, tmp2])

array([[1., 1., 1., 1., 1., 0., 0., 0.],
       [1., 1., 1., 1., 1., 0., 0., 0.]])

In [258]:
tmp1 = np.ones((5, 2))
tmp2 = np.zeros((3, 2))

# np.r_ 는 두 배열을 위아래로 연결할때 사용한다.
# 인덱싱할 때 처럼, 대괄호를 사용해서 메서드를 호출한다.
np.r_[tmp1, tmp2]

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [259]:
tmp1 = np.ones((2, 5))
tmp2 = np.zeros((2, 3))

# np.c_ 는 두 배열을 좌우로 연결할때 사용한다.
# 인덱싱할 때 처럼, 대괄호를 사용해서 메서드를 호출한다.
np.c_[tmp1, tmp2]

array([[1., 1., 1., 1., 1., 0., 0., 0.],
       [1., 1., 1., 1., 1., 0., 0., 0.]])

In [260]:
tmp1 = np.ones((5, 2))
tmp2 = np.zeros((3, 2))

# np.row_stack()은 두 배열을 위아래로 연결할때 사용한다.
np.row_stack([tmp1, tmp2])

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [262]:
tmp1 = np.ones((2, 5))
tmp2 = np.zeros((2, 3))

# np.column_stack()은 두 배열을 좌우로 연결할때 사용한다.
np.column_stack([tmp1, tmp2])

array([[1., 1., 1., 1., 1., 0., 0., 0.],
       [1., 1., 1., 1., 1., 0., 0., 0.]])

## 배열 스플릿하기

In [263]:
tmp = np.arange(3)
tmp

array([0, 1, 2])

In [264]:
# np.hsplit()은 좌우로 (column-wise) 배열을 스플릿할 때 사용
np.hsplit(tmp, 3)

[array([0]), array([1]), array([2])]

In [265]:
tmp = np.arange(12).reshape(2,2,3)
tmp

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [266]:
# np.vsplit()은 위아래로(row-wise) 배열을 스플릿할 때 사용한다.
np.vsplit(tmp, 2)

[array([[[0, 1, 2],
         [3, 4, 5]]]),
 array([[[ 6,  7,  8],
         [ 9, 10, 11]]])]