# Numpy

## Numpy의 특징

- 수치 데이터를 다루기 위한 라이브러리

- 다차원 배열(ndarray)을 지원하며, 배열의 모든 요소는 동일한 데이터 타입이어야 한다.

- 파이썬의 List에 비해 속도가 빠르고, 훨씬 더 효율적이다.

- [broadcasting](https://numpy.org/doc/stable/user/basics.broadcasting.html)을 지원해서 반복문 없이 데이터를 빠르고 편리하게 처리할 수 있다.

[참고링크] -> [Numpy github 사이트](https://github.com/numpy/numpy)

## Numpy 라이브러리 임포트

In [2]:
import numpy as np # numpy 라이브러리를 임포트할 때, np로 별명을 지정해서 사용한다.

In [4]:
np.__version__

'1.18.1'

In [1]:
# 함수를 어떻게 사용했는지 기억이 안날 때,
# 인터넷에 검색해서 사용방법을 알아낼 수 있지만,
# help()를 이용해서 함수의 사용방법을 알 수 있다.

help(np.ndarray.dtype)

Help on getset descriptor numpy.ndarray.dtype:

dtype
    Data-type of the array's elements.
    
    Parameters
    ----------
    None
    
    Returns
    -------
    d : numpy dtype object
    
    See Also
    --------
    numpy.dtype
    
    Examples
    --------
    >>> x
    array([[0, 1],
           [2, 3]])
    >>> x.dtype
    dtype('int32')
    >>> type(x.dtype)
    <type 'numpy.dtype'>



## Numpy의 배열, ndarray object

### 1D array 또는 (column)vector 

In [3]:
np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], dtype = np.float32)

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.],
      dtype=float32)

### 2D array 또는 matrix

In [4]:
np.array([[1, 2, 3, 4], 
          [5, 6, 7, 8],
          [9, 10, 11, 12]], dtype = np.float32)

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.]], dtype=float32)

### 3D array 또는 tensor

In [5]:
np.array([[[1, 2],
           [3, 4],
           [5, 6]],
          [[7, 8],
           [9, 10],
           [11, 12]]], dtype = np.float32)

array([[[ 1.,  2.],
        [ 3.,  4.],
        [ 5.,  6.]],

       [[ 7.,  8.],
        [ 9., 10.],
        [11., 12.]]], dtype=float32)

## Numpy의 데이터 타입

Numpy의 데이터 타입은 C에서 사용되는 데이터 타입과 유사하다. 거기에 추가적으로 복소수 타입도 지원을 한다.

In [6]:
np.int64 # Signed 64-bit integer types

numpy.int64

In [7]:
np.float32 # Standard double-precision floating point

numpy.float32

In [8]:
np.complex # Complex numbers represented by 128 floats

complex

In [9]:
np.bool # Boolean type storing TRUE and FALSE values

bool

In [10]:
np.object # Python object type

object

In [11]:
np.string_ # Fixed-length string type

numpy.bytes_

In [12]:
np.unicode_ # Fixed-length unicode type

numpy.str_

## placeholder를 이용해서 ndarray object 생성

placeholder를 사용해서, 특수한 벡터와 행렬를 쉽게 생성할 수 있다.

그 외에도 균일한 간격의 배열, 무작위 값을 가지는 배열등을 생성할 수 있다.

### zeros-vector(영벡터) 생성

In [11]:
np.zeros((3, 4), dtype = np.float32)

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]], dtype=float32)

### ones-vector(일벡터) 생성

In [14]:
np.ones((3, 4), dtype = np.float32)

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]], dtype=float32)

### np.arange(시작값, 끝값, 간격)

In [13]:
d = np.arange(10, 25, 5)
d

array([10, 15, 20])

### 다른 배열과 같은 크기의 배열을 생성
- np.zeros_like() or np.ones_like()

In [23]:
tmp = np.arange(24).reshape((2, 3, 4))
np.zeros_like(tmp)                      # tmp 배열과 동일한 shape으로 0으로 채워진 배열 생성


array([[[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]],

       [[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]]])

### diagonal matrix(대각행렬) 생성

In [16]:
np.diag([1, 2, 3, 4, 5])

array([[1, 0, 0, 0, 0],
       [0, 2, 0, 0, 0],
       [0, 0, 3, 0, 0],
       [0, 0, 0, 4, 0],
       [0, 0, 0, 0, 5]])

### identity matrix(항등행렬) 생성

In [29]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

### 균일한 간격으로 배열 생성
- 파이썬의 range와 비슷

In [30]:
np.arange(0, 15, 2, dtype = np.float32)

array([ 0.,  2.,  4.,  6.,  8., 10., 12., 14.], dtype=float32)

### 균등한 간격으로 배열 생성
- linspace(start, stop, num)
- num 생략할 경우 50개의 수열 생성

In [32]:
np.linspace(0, 15, 9, dtype = np.float32) # (15 - 0) * (1 / (9 - 1)), (15 - 0) * (2 / (9 - 1)) ...

array([ 0.   ,  1.875,  3.75 ,  5.625,  7.5  ,  9.375, 11.25 , 13.125,
       15.   ], dtype=float32)

### 지정된 상수값만을 가진 배열 생성

In [39]:
np.full((3, 4), 2, dtype = np.float32) # or np.ones((3, 4), dtype = np.float32) * 3

array([[2., 2., 2., 2.],
       [2., 2., 2., 2.],
       [2., 2., 2., 2.]], dtype=float32)

### 무작위 값을 가지는 배열 생성
- [0, 1] 범위에서

In [21]:
np.random.random((3, 4))

array([[0.81920796, 0.02180711, 0.96269948, 0.68198585],
       [0.43346512, 0.45324723, 0.9636029 , 0.00490605],
       [0.1126417 , 0.56109776, 0.60379757, 0.75817443]])

### 초기화 되지 않은 배열 생성
- 값을 초기화할 때 사용
- 다른 것들에 비해서 속도가 생성 속도가 빠름

In [22]:
np.empty((3, 4)) # 쓰레기 값이 들어가 있다.

array([[0.81920796, 0.02180711, 0.96269948, 0.68198585],
       [0.43346512, 0.45324723, 0.9636029 , 0.00490605],
       [0.1126417 , 0.56109776, 0.60379757, 0.75817443]])

## ndarray에 대한 기본적인 정보 조사하기

In [41]:
# 다음과 같은 배열이 있다고 가정한다.
a = np.arange(24).reshape(2, 3, 4)
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

### 배열의 shape를 확인

In [42]:
a.shape                  # 2 X 3 X 4 (depth, row, column)

(2, 3, 4)

### 배열의 길이(크기) 확인

In [43]:
len(a)

2

### 배열의 차원(dimension) 확인

In [44]:
a.ndim

3

### 배열의 요소(element) 개수를 확인

In [45]:
a.size

24

### 배열 요소의 데이터 타입 확인

In [46]:
a.dtype          # Data Type of array elements

dtype('int32')

### 배열 요소의 데이터 타입의 이름 확인

In [47]:
a.dtype.name

'int32'

### 배열 요소의 데이터 타입을 변경

In [48]:
#원본 배열에 영향을 끼치지 않음.
a.astype(np.bool) # 0 이하는 False, 0 초과는 True

array([[[False,  True,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]],

       [[ True,  True,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]]])

## Numpy 배열 연산

In [72]:
# 다음과 같은 Numpy 배열을 사용
a = np.random.random((3, 4))
b = np.arange(12, dtype=np.float32).reshape((3, 4))

a, b

(array([[0.75444917, 0.91015037, 0.9619816 , 0.71961407],
        [0.72561276, 0.07266444, 0.45992843, 0.57873331],
        [0.1249774 , 0.59099547, 0.08786286, 0.53104185]]),
 array([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]], dtype=float32))

### 사칙연산

In [73]:
# 더하기(+) 연산, elementwise 방식으로 동작
a + b # np.add(a, b)

array([[ 0.75444917,  1.91015037,  2.9619816 ,  3.71961407],
       [ 4.72561276,  5.07266444,  6.45992843,  7.57873331],
       [ 8.1249774 ,  9.59099547, 10.08786286, 11.53104185]])

In [74]:
# 빼기(-) 연산, elementwise 방식으로 동작
a - b # np.subtract(a, b)

array([[  0.75444917,  -0.08984963,  -1.0380184 ,  -2.28038593],
       [ -3.27438724,  -4.92733556,  -5.54007157,  -6.42126669],
       [ -7.8750226 ,  -8.40900453,  -9.91213714, -10.46895815]])

In [75]:
# 곱하기(*) 연산, elementwise 방식으로 동작
a * b # np.multiply(a, b)

array([[0.        , 0.91015037, 1.9239632 , 2.1588422 ],
       [2.90245105, 0.36332218, 2.75957058, 4.05113314],
       [0.99981921, 5.31895924, 0.87862858, 5.84146033]])

In [77]:
# 나누기(/) 연산, elementwise 방식으로 동작
a / b # np.divide(a, b)

  


array([[       inf, 0.91015037, 0.4809908 , 0.23987136],
       [0.18140319, 0.01453289, 0.07665474, 0.08267619],
       [0.01562218, 0.06566616, 0.00878629, 0.04827653]])

In [55]:
# 나머지(%) 연산, elementwise 방식으로 동작
a % b # np.remainder(a, b)

  


array([[       nan, 0.4459302 , 0.22952302, 0.29617736],
       [0.82637304, 0.33304049, 0.23435041, 0.85031144],
       [0.74321888, 0.49418589, 0.92697234, 0.088483  ]])

### 기본적인 수학 관련 연산

#### 지수함수

In [78]:
# 자연함수 e, 배열의 값이 지수함수(e^x)의 지수로 들어가서 연산이 이뤄진다.
np.exp(b)

array([[1.0000000e+00, 2.7182817e+00, 7.3890562e+00, 2.0085537e+01],
       [5.4598148e+01, 1.4841316e+02, 4.0342880e+02, 1.0966332e+03],
       [2.9809580e+03, 8.1030840e+03, 2.2026465e+04, 5.9874141e+04]],
      dtype=float32)

#### 제곱근함수

In [57]:

np.sqrt(b)

array([[0.       , 1.       , 1.4142135, 1.7320508],
       [2.       , 2.236068 , 2.4494898, 2.6457512],
       [2.828427 , 3.       , 3.1622777, 3.3166249]], dtype=float32)

#### 사인함수

In [58]:
np.sin(a)

array([[0.38086132, 0.43129731, 0.22751308, 0.29186615],
       [0.73547877, 0.32691796, 0.2322112 , 0.75148591],
       [0.67666146, 0.4743151 , 0.79980623, 0.08836758]])

#### 코사인함수

In [59]:
np.sin(a)

array([[0.38086132, 0.43129731, 0.22751308, 0.29186615],
       [0.73547877, 0.32691796, 0.2322112 , 0.75148591],
       [0.67666146, 0.4743151 , 0.79980623, 0.08836758]])

#### 로그함수

In [60]:
np.log(a)

array([[-0.93974452, -0.80759283, -1.47175194, -1.21679683],
       [-0.19070899, -1.0994912 , -1.45093781, -0.1621526 ],
       [-0.29676469, -0.70484354, -0.07583155, -2.42494485]])

#### 내적계산

In [90]:
np.dot(a, b.T)

array([[ 4.99295578, 18.3777366 , 31.76251742],
       [ 2.72872121, 10.07647695, 17.42423269],
       [ 2.35984673,  7.69935704, 13.03886735]])

### 비교 연산

In [43]:
# 필터링 할 때 자주 사용. elementwise 방식으로 동작

a == b

array([[False, False, False, False],
       [False, False, False, False],
       [False, False, False, False]])

In [44]:
a != b

array([[ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

In [45]:
b > 5

array([[False, False, False, False],
       [False, False,  True,  True],
       [ True,  True,  True,  True]])

In [46]:
b >= 5

array([[False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

In [47]:
b < 5

array([[ True,  True,  True,  True],
       [ True, False, False, False],
       [False, False, False, False]])

In [48]:
b <= 5

array([[ True,  True,  True,  True],
       [ True,  True, False, False],
       [False, False, False, False]])

### Aggregate Function(집계함수)

![numpy about axis](https://user-images.githubusercontent.com/45147152/110644693-b399b680-81f8-11eb-8bf4-c411b38bb850.png)


In [109]:
#b = np.array([[0, 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11]])
b = np.arange(12, dtype = np.float32).reshape((3, 4))
b

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]], dtype=float32)

In [110]:
# 디폴트로, 배열의 모든 요소를 더한다.
# `axis` 매개변수를 조절해서, row 별로 또는 column 별로 요소를 더할 수 있다.
np.sum(b) # or b.sum()

66.0

In [111]:
# axis = 0, row 별로 요소를 더한다.
np.sum(b, axis = 0)

array([12., 15., 18., 21.], dtype=float32)

In [112]:
# axis = 1, column 별로 요소를 더한다.
np.sum(b, axis = 1)

array([ 6., 22., 38.], dtype=float32)

In [113]:
# 디폴트로, 배열의 요소중 최소값을 가져온다.
# `axis` 매개변수를 조절해서, row 별로 또는 column 별로 최소값을 가져올 수 있다.
np.min(b) # b.min()

0.0

In [114]:
# axis = 0, row 별로 최소값을 가져온다.
np.min(b, axis = 0) 

array([0., 1., 2., 3.], dtype=float32)

In [115]:
# axis = 1, column 별로 최소값을 가져온다.
np.min(b, axis = 1)

array([0., 4., 8.], dtype=float32)

In [116]:
# 디폴트로, 배열의 요수중 최댓값을 가져온다.
# `axis` 매개변수를 조절해서, row 별로 또는 column 별로 최댓값을 가져올 수 있다.
np.max(b)

11.0

In [117]:
# 디폴트로, 배열의 모든 요소의 누적합계를 구한다.
# `axis` 매개변수를 조절해서, row 별로 또는 column 별로 누적합계를 구할 수 있다.
np.cumsum(b)

array([ 0.,  1.,  3.,  6., 10., 15., 21., 28., 36., 45., 55., 66.],
      dtype=float32)

In [118]:
# 디폴트로, 배열의 요소에 대한 평균값을 구한다.
# `axis` 매개변수를 조절해서, row 별로 또는 column 별로 평균값을 구할 수 있다.
np.mean(b)

5.5

In [119]:
# 디폴트로, 배열의 요소에 대한 중간값을 구한다.
# `axis` 매개변수를 조절해서, row 별로 또는 column 별로 중간값을 구할 수 있다.
np.median(b)

5.5

In [120]:
# 디폴트로, 배열의 요소에 대한 표준편차를 구한다.
# `axis` 매개변수를 조절해서, row 별로 또는 column 별로 표준편차를 구할 수 있다.
np.std(b)

3.4520526

In [121]:
# 백분위수(percentile)를 이용해서, 1사분위수, ..., 4사분위수를 구할 수 있다.
# 4사분위수란? 전체 데이터중 1/4위치의 데이터를 뜻함.

np.percentile(b, 0) # 최소값

0.0

In [122]:
np.percentile(b, 50) # 2사분위수

5.5

In [123]:
np.percentile(b, 100) # 최댓값

11.0

## Numpy의 Copy 3가지

In [145]:
c = np.arange(25, dtype = np.float32).reshape((5, 5))

# ndarray를 어떤 변수에 할당한다고 해보자.
tmp = c
tmp

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.],
       [15., 16., 17., 18., 19.],
       [20., 21., 22., 23., 24.]], dtype=float32)

### No Copy at All

In [146]:
tmp = c.view()
tmp

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.],
       [15., 16., 17., 18., 19.],
       [20., 21., 22., 23., 24.]], dtype=float32)

In [147]:
print(tmp)
print(c)
print(id(tmp))
print(id(c))

[[ 0.  1.  2.  3.  4.]
 [ 5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14.]
 [15. 16. 17. 18. 19.]
 [20. 21. 22. 23. 24.]]
[[ 0.  1.  2.  3.  4.]
 [ 5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14.]
 [15. 16. 17. 18. 19.]
 [20. 21. 22. 23. 24.]]
1990264461312
1990264461152


In [148]:
id(tmp) == id(c)

False

### Shadow Copy

In [149]:
tmp = c
tmp

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.],
       [15., 16., 17., 18., 19.],
       [20., 21., 22., 23., 24.]], dtype=float32)

In [150]:
print(id(tmp))
print(id(c))

1990264461152
1990264461152


In [151]:
id(tmp) == id(c)

True

In [152]:
# 주소를 공유하고 있기 때문에
# tmp의 값을 변경하면, c의 값도 변경된다.
tmp[0][0] = -1

print('tmp :\n', tmp)
print('c :\n', c)

tmp :
 [[-1.  1.  2.  3.  4.]
 [ 5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14.]
 [15. 16. 17. 18. 19.]
 [20. 21. 22. 23. 24.]]
c :
 [[-1.  1.  2.  3.  4.]
 [ 5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14.]
 [15. 16. 17. 18. 19.]
 [20. 21. 22. 23. 24.]]


### Deep Copy
- 원본 배열에 영향을 끼치지 않고 동일한 배열을 만들고 싶다면 deep copy를 해야 한다.

In [153]:


tmp = c.copy()
id(tmp) == id(c)

False

In [154]:
# 주소를 공유하고 있지 않기 때문에
# tmp의 값을 변경하더라도, b의 값은 변경되지 않는다.

tmp[0][0] = -9

print('tmp :\n', tmp)
print('c :\n', c)

tmp :
 [[-9.  1.  2.  3.  4.]
 [ 5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14.]
 [15. 16. 17. 18. 19.]
 [20. 21. 22. 23. 24.]]
c :
 [[-1.  1.  2.  3.  4.]
 [ 5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14.]
 [15. 16. 17. 18. 19.]
 [20. 21. 22. 23. 24.]]


## Numpy의 슬라이싱, 인덱싱, 정렬

### 슬라이싱

In [155]:
# 파이썬의 List와 같은 슬라이싱을 제공한다.

d = np.arange(3)
d[0:2]

array([0, 1])

![slicing1](https://user-images.githubusercontent.com/45147152/110660254-b7343a00-8206-11eb-8224-668afa80377a.png)


In [156]:
# 파이썬의 List와 다르게, 축(axis)별로 슬라이싱이 가능하다.
# `,`를 기준으로 슬라이싱을 하면 된다.

e = np.arange(9).reshape((3, 3))
e[0:2, :] # or e[0:2]

array([[0, 1, 2],
       [3, 4, 5]])

![slicing3](https://user-images.githubusercontent.com/45147152/110660681-24e06600-8207-11eb-8006-79a75b17351a.png)


In [157]:
e[:, 0:2]

array([[0, 1],
       [3, 4],
       [6, 7]])

![slicing2](https://user-images.githubusercontent.com/45147152/110660481-f498c780-8206-11eb-8f92-3aef78da9cc9.png)


In [158]:
e[:, 2]

array([2, 5, 8])

![slicing4](https://user-images.githubusercontent.com/45147152/110660786-404b7100-8207-11eb-8033-5d654a72e660.png)

In [72]:
# 행기준으로 뒤집고, 열기준으로 뒤집는 것도 가능하다.
e[::-1, ::-1]

array([[8, 7, 6],
       [5, 4, 3],
       [2, 1, 0]])

### boolean 인덱싱

In [161]:
# Numpy의 비교 연산을 이용해서 필터링을 할 수 있다.
f = np.arange(9).reshape((3, 3))
f

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [162]:
f[f < 4]

array([0, 1, 2, 3])

![slicing5](https://user-images.githubusercontent.com/45147152/110660897-5eb16c80-8207-11eb-83c0-537eb6af5255.png)

In [165]:
f[f > 5]

array([6, 7, 8])

### Fancy 인덱싱

In [166]:
# 슬라이싱을 사용해서 인덱싱을 하는 것 뿐만 아니라
# List와 `,`를 이용해서 원하는 요소를 인덱싱할 수 있다.
# 그리고 앞에서 배운 boolean 인덱싱도 이용할 수 있다.

g = np.arange(12).reshape((3, 4))
g

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [167]:
# g의 두 번째 행, 첫 번째 행 전체 출력
g[[1, 0], :]

array([[4, 5, 6, 7],
       [0, 1, 2, 3]])

![slicing6](https://user-images.githubusercontent.com/45147152/110661098-902a3800-8207-11eb-999f-e8c514d72b74.png)

In [168]:
g[[2, 0], :2]

array([[8, 9],
       [0, 1]])

In [78]:
# g의 2, 4열의 요소만 추출
g[:, [False, True, False, True]]

array([[ 1,  3],
       [ 5,  7],
       [ 9, 11]])

In [170]:
g[:, [1, 3]]

array([[ 1,  3],
       [ 5,  7],
       [ 9, 11]])

![slicing7](https://user-images.githubusercontent.com/45147152/110661576-0fb80700-8208-11eb-9d80-6ad257a23897.png)


In [79]:
# g에서 (1, 0), (0, 1), (1, 2), (0, 0) 번째 요소를 추출
g[[1, 0, 1, 0], [0, 1, 2, 0]]

array([4, 1, 6, 0])

![slicing8](https://user-images.githubusercontent.com/45147152/110661753-36763d80-8208-11eb-94cb-d6d7a35f2281.png)

In [80]:
# g에서 첫 번째 행, 두 번째 행, 첫 번째 행, 두 번째 행을 선택하고...
# 그렇게 만들어진 배열에 대해서...
# 전체 행에 대해서 0, 1, 2, 0열의 요소로 인덱싱
g[[1, 0, 1, 0]][:, [0, 1, 2, 0]]

array([[4, 5, 6, 4],
       [0, 1, 2, 0],
       [4, 5, 6, 4],
       [0, 1, 2, 0]])

### 정렬

In [174]:
# 디폴트로, 마지막 축(여기서는 column을 기준으로)에 대해서 오름차순정렬한다.
# `axis` 매개변수를 조절해서, row 별로 또는 column 별로 정렬할 수 있다.

h = np.random.random((3, 4))
h

array([[0.70882697, 0.45510488, 0.45100592, 0.96763093],
       [0.86722216, 0.01545323, 0.17150516, 0.61261096],
       [0.7606363 , 0.29843215, 0.81782251, 0.97578721]])

In [175]:
# column 별로 오름차순정렬
np.sort(h)

array([[0.45100592, 0.45510488, 0.70882697, 0.96763093],
       [0.01545323, 0.17150516, 0.61261096, 0.86722216],
       [0.29843215, 0.7606363 , 0.81782251, 0.97578721]])

In [179]:
# row 별로 오름차순 정렬
np.sort(h, axis = 0)

array([[0.70882697, 0.01545323, 0.17150516, 0.61261096],
       [0.7606363 , 0.29843215, 0.45100592, 0.96763093],
       [0.86722216, 0.45510488, 0.81782251, 0.97578721]])

In [180]:
np.sort(h, axis=1)

array([[0.45100592, 0.45510488, 0.70882697, 0.96763093],
       [0.01545323, 0.17150516, 0.61261096, 0.86722216],
       [0.29843215, 0.7606363 , 0.81782251, 0.97578721]])

In [181]:
# np.sort()는 정렬된 배열을 반환하지만.
# ndarray.sort()는 inplace 정렬이 일어난다.
h.sort()
h

array([[0.45100592, 0.45510488, 0.70882697, 0.96763093],
       [0.01545323, 0.17150516, 0.61261096, 0.86722216],
       [0.29843215, 0.7606363 , 0.81782251, 0.97578721]])

## Numpy 배열 조작

### shape 조작하기

In [190]:
# reshape()를 통해서, 배열의 shape 모양을 바꾼다. (원본 배열을 바꾸지 않는다.)
tmp = np.arange(16)
tmp

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [193]:
tmp.reshape((4, 4))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [194]:
tmp.reshape((2, 8))

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15]])

In [195]:
# -1을 사용하면, 현재 주어진 정보를 토대로 나머지 부분을 채워준다.
tmp.reshape((8, -1))

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11],
       [12, 13],
       [14, 15]])

In [198]:
tmp.reshape(2,4,2)

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15]]])

In [87]:
# ndarray.resize()를 통해서, 배열의 shape 모양을 바꾼다. (inplace 연산)
tmp.resize((3, 5)); tmp

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [199]:
# 전치연산을 통해서, 행과 열의 위치를 변경할 수 있다.
tmp = np.arange(15).reshape((3, 5))
tmp

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [200]:
np.transpose(tmp) # tmp.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [201]:
tmp.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

- ravel(), flatten()을 통해서, 다차원 배열을 1차원 배열로 변환
- ravel()은 shallow copy
- flatten()은 deep copy를 수행

In [202]:
tmp1 = np.arange(9).reshape((3, 3))
tmp2 = tmp1.ravel()

tmp1, tmp2

(array([[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]), array([0, 1, 2, 3, 4, 5, 6, 7, 8]))

In [90]:
tmp2[0] = -1
tmp1, tmp2

(array([[-1,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8]]), array([-1,  1,  2,  3,  4,  5,  6,  7,  8]))

In [203]:
# flatten()의 경우
tmp1 = np.arange(9).reshape((3, 3))
tmp2 = tmp1.flatten()

tmp1, tmp2

(array([[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]), array([0, 1, 2, 3, 4, 5, 6, 7, 8]))

In [204]:
tmp2[0] = -1
tmp1, tmp2

(array([[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]), array([-1,  1,  2,  3,  4,  5,  6,  7,  8]))

### 배열에 값 넣기, 값 삭제하기

- np.append()를 이용해서 배열의 끝에 값(배열, 스칼라)을 추가할 수 있다.
- `axis=None`일 경우, 주어진 배열, 값을 1차원으로 바꾸고, 주어진 배열 끝에 값을 추가한다.

In [206]:

tmp1 = np.arange(9).reshape((3, 3))
tmp2 = np.arange(9).reshape((3, 3)) * 10
print(tmp1)
print("\n")
print(tmp2)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


[[ 0 10 20]
 [30 40 50]
 [60 70 80]]


In [207]:
np.append(tmp1, tmp2)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  0, 10, 20, 30, 40, 50, 60, 70,
       80])

- `axis = 0`일 경우, horizontal 하게 값을 추가한다.

In [209]:
np.append(tmp1, tmp2, axis=0)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 0, 10, 20],
       [30, 40, 50],
       [60, 70, 80]])

- `axis = 1`일 경우, vertical 하게 값을 추가한다.

In [213]:
np.append(tmp1, tmp2, axis=1)

array([[ 0,  1,  2,  0, 10, 20],
       [ 3,  4,  5, 30, 40, 50],
       [ 6,  7,  8, 60, 70, 80]])

- np.insert()를 이용해서 원하는 위치에 값(배열, 스칼라)을 추가할 수 있다.
- `axis=None`일 경우, 원하는 위치에 값을 집어 넣고, 배열을 1차원으로 바꾼다. (원본 배열에 영향을 주지 않는다.)

In [215]:
tmp = np.arange(6).reshape((2, 3))
tmp

array([[0, 1, 2],
       [3, 4, 5]])

In [216]:
np.insert(tmp, 1, -1)

array([ 0, -1,  1,  2,  3,  4,  5])

- `axis = 0`일 경우, row를 기준으로 값을 집어 넣는다.

In [217]:
np.insert(tmp, 1, -1, axis=0)

array([[ 0,  1,  2],
       [-1, -1, -1],
       [ 3,  4,  5]])

- np.delete()를 이용해서 원하는 위치에 값을 삭제할 수 있다.
- ` axis = None`일 경우, 원하는 위치의 값을 삭제하고, 배열을 1차원으로 바꾼다. (원본 배열에 영향을 주지 않는다.)

In [221]:
np.delete(tmp, 1)

array([0, 2, 3, 4, 5])

In [223]:
tmp

array([[0, 1, 2],
       [3, 4, 5]])

In [222]:
np.delete(tmp, 1, axis=1)

array([[0, 2],
       [3, 5]])

### 배열 결합하기

행의 수나 열의 수가 같은 두 개 이상의 배열을 연결하여 새로운 배열을 만들 때 아래의 명령어를 사용할 수 있다.

- np.concatenate()
- np.vstack()
- np.hstack()
- np.r_
- np.c_
- np.row_stack
- np.column_stack

In [226]:
tmp1 = np.ones((5, 2))
tmp2 = np.zeros((3, 2))

# np.concatenate()는 `axis` 매개변수를 통해서 원하는 축에 두 배열을 연결할 수 있다.

np.concatenate([tmp1, tmp2] ) # 두 배열을 위아래로 연결한다 (`axis = 0`이 디폴트로 설정되어있다.)

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [101]:
tmp1 = np.ones((2, 5))
tmp2 = np.zeros((2, 3))

np.concatenate([tmp1, tmp2], axis = 1) # 두 배열을 좌우로 연결한다.

array([[1., 1., 1., 1., 1., 0., 0., 0.],
       [1., 1., 1., 1., 1., 0., 0., 0.]])

In [102]:
tmp1 = np.ones((5, 2))
tmp2 = np.zeros((3, 2))

# np.vstack()은 두 배열을 위아래로 연결할때 사용한다.
np.vstack([tmp1, tmp2])

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [103]:
tmp1 = np.ones((2, 5))
tmp2 = np.zeros((2, 3))

# np.hstack()은 두 배열을 좌우로 연결할때 사용한다.
np.hstack([tmp1, tmp2])

array([[1., 1., 1., 1., 1., 0., 0., 0.],
       [1., 1., 1., 1., 1., 0., 0., 0.]])

In [104]:
tmp1 = np.ones((5, 2))
tmp2 = np.zeros((3, 2))

# np.r_ 는 두 배열을 위아래로 연결할때 사용한다.
# 인덱싱할 때 처럼, 대괄호를 사용해서 메서드를 호출한다.
np.r_[tmp1, tmp2]

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [105]:
tmp1 = np.ones((2, 5))
tmp2 = np.zeros((2, 3))

# np.c_ 는 두 배열을 좌우로 연결할때 사용한다.
# 인덱싱할 때 처럼, 대괄호를 사용해서 메서드를 호출한다.
np.c_[tmp1, tmp2]

array([[1., 1., 1., 1., 1., 0., 0., 0.],
       [1., 1., 1., 1., 1., 0., 0., 0.]])

In [106]:
tmp1 = np.ones((5, 2))
tmp2 = np.zeros((3, 2))

# np.row_stack()은 두 배열을 위아래로 연결할때 사용한다.
np.row_stack([tmp1, tmp2])

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [107]:
tmp1 = np.ones((2, 5))
tmp2 = np.zeros((2, 3))

# np.column_stack()은 두 배열을 좌우로 연결할때 사용한다.
np.column_stack([tmp1, tmp2])

array([[1., 1., 1., 1., 1., 0., 0., 0.],
       [1., 1., 1., 1., 1., 0., 0., 0.]])

### 배열 스플릿하기

In [232]:
tmp = np.arange(3)
tmp

array([0, 1, 2])

In [233]:
# np.hsplit()은 좌우로(column-wise) 배열을 스플릿할 때 사용한다.
np.hsplit(tmp, 3)

[array([0]), array([1]), array([2])]

In [236]:
tmp = np.arange(12).reshape(2,2,3)
tmp

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [237]:
# np.vsplit()은 위아래로(row-wise) 배열을 스플릿할 때 사용한다.
np.vsplit(tmp, 2)

[array([[[0, 1, 2],
         [3, 4, 5]]]), array([[[ 6,  7,  8],
         [ 9, 10, 11]]])]