## Numpy 특징

* 고성능 과학 계산용 패키지로 강력한 N차원 배열 객체

* 정교한 브로드캐스팅 기능 존재

* Python 자료형 list와 유사하지만, 더 빠르고 메모리를 효율적으로 관리

* 반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편리

In [2]:
import numpy as np
np.__version__

'1.22.2'

1차원 : 직선

2차원 : 행렬 모양

3차원 : 큐브 모양

## 1차원 예시

In [3]:
a1 = np.array([1, 2, 3, 4, 5])
# list 값을 array를 통해 배열 형태로 변경시켜주는 것이라서, 원소가 []
print(a1)
print(type(a1)) # nd = N dimension(N차원)
print(a1.shape) # shape : array에 대한 속성. 어떤 모양을 가진 array인가
#(x,y) : x는 행, y는 열, 빈값이 존재할 때는 1차원임을 짐작 가능
print(a1[0], a1[1], a1[2], a1[3], a1[4])
a1[0] = 4
a1[1] = 5
a1[2] = 6
print(a1) # 값이 변경됨을 알 수 있음

[1 2 3 4 5]
<class 'numpy.ndarray'>
(5,)
1 2 3 4 5
[4 5 6 4 5]


## 2차원 예시

In [4]:
a2 = np.array([[1,2,3],[4,5,6],[7,8,9]])
# list로 2차원을 표시할 때 []안에 []를 넣음으로써 구성
print(a2)
print(a2.shape)
# 3,3 -> 3 by 3 짜리 2차원 array를 넣었으므로(즉, 행 열이 3개 3개)
print(a2[0,0], a2[1,1], a2[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(3, 3)
1 5 9


## 3차원 예시

In [50]:
a3 = np.array([ [ [1,2,3], [4,5,6], [7,8,9] ] , # 첫번째 단면
              [ [10, 11, 12], [13, 14, 15], [16, 17, 18] ], # 두번째 단면
              [ [20, 21, 22], [22, 23, 24], [25, 26, 27] ] ] ) # 세번째 단면
# n 번째 단면은 n-1번째 단면 뒤에 가려져서 안보이는 단면인데 꺼내온 것.
# 즉, 위의 예시를 3*3*3 큐브로 볼 수 있고,
# 1 뒤는 10, 10뒤는 20 ... 이런 식임.
print(a3)
print(a3.shape)
print(a3.min(axis=2))

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[10 11 12]
  [13 14 15]
  [16 17 18]]

 [[20 21 22]
  [22 23 24]
  [25 26 27]]]
(3, 3, 3)
[[ 1  4  7]
 [10 13 16]
 [20 22 25]]


In [7]:
import numpy as np
arr = np.arange(0,32)
v = arr.reshape([4,2,4])
print(v)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]

 [[16 17 18 19]
  [20 21 22 23]]

 [[24 25 26 27]
  [28 29 30 31]]]


## 배열 생성 및 초기화

* 위에서 생성한 배열은 list를 가지고 배열로 변경한 방법

* 아래의 내용은, numpy에서 기본적으로 배열 생성 및 초기화를 제공하는 메소드들임

### zeros() : 모든 요소를 0으로 초기화

In [6]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

### ones() : 모든 요소를 1로 초기화

In [7]:
np.ones((3,3)) # shape을 넣어줌으로써 N차원 배열 생성도 가능

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

### full() : 모든 요소를 지정한 값으로 초기화

In [8]:
np.full((3,3), 1.23)

array([[1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23]])

### eye() : 단위행렬 생성
    * 주대각선의 원소가 모두 1이고 나머지 원소는 모두 0인 정사각 행렬

In [9]:
np.eye(3)
# 단위 행렬은 "정사각" 행렬이기 때문에, shape지정을 못하며, 길이만을 지정해주면 됨.

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

* tri() : 삼각행렬 생성

In [10]:
np.tri(3)

array([[1., 0., 0.],
       [1., 1., 0.],
       [1., 1., 1.]])

### empty() : 초기화되지 않은 배열 생성
    * 초기화가 없어서 배열 생성비용 저렴하고 빠름
    * 초기화되지 않아서 기존 메모리 위치에 존재하는 값이 있음

In [11]:
np.empty(10)
# 결과값은 내가 할당한 것이 아니라,
# 배열을 할당하다보니 그 할당된 위치에 있는 메모리에 저장된 값들이
# empty 배열에 들어가 있는 것.
# 즉 어떤 값으로 초기화될지 모름

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

* _like() : 지정된 배열과 shape가 같은 배열 생성

In [12]:
print(a1)
np.zeros_like(a1)
print(a2)
np.ones_like(a2)
print(a3)
np.full_like(a3, 10)

[4 5 6 4 5]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[10 11 12]
  [13 14 15]
  [16 17 18]]

 [[20 21 22]
  [22 23 24]
  [25 26 27]]]


array([[[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]]])

## 생성한 값으로 배열 생성 method

### arange() : 정수 범위로 배열 생성

In [13]:
np.arange(0, 30, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

### linspace() : 범위 내에서 균등 간격의 배열 생성

In [14]:
np.linspace(0 , 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

* logspace() : 범위 내에서 균등간격으로 로그 스케일로 배열 생성

In [15]:
np.logspace(0.1, 1, 20)

array([ 1.25892541,  1.40400425,  1.565802  ,  1.74624535,  1.94748304,
        2.1719114 ,  2.42220294,  2.70133812,  3.0126409 ,  3.35981829,
        3.74700446,  4.17881006,  4.66037703,  5.19743987,  5.79639395,
        6.46437163,  7.2093272 ,  8.04013161,  8.9666781 , 10.        ])

## 랜던값으로 배열 생성 

* seed : 난수 발생을 위한 seed 지정
* permutation : 순서를 임의로 바꾸거나 임의의 순열 바나환
* shuffle : 리스트나 배열의 순서를 뒤섞음
* random : 랜덤한 수의 배열 생성
* rand : 균등분포에서 표본 추출
* randint : 주어진 최소/최대 범위의 난수 추출
* randn : 표준편차가 1, 평균값이 0인 정규분포의 표본 추출
* binomial : 이항분포에서 표본 추출
* normal : 정규분포에서 표본 추출
* beta : 베타분포에서 표본 추출
* chisquare : 카이제곱분포에서 표본 추출
* gamma : 감마분포에서 표본 추출
* uniform : 균등(0,1)분포에서 표본 추출

### random.random() : 랜덤한 수의 배열 생성

In [16]:
np.random.random((3,3)) # shape 지정

array([[0.59814289, 0.62418283, 0.40398306],
       [0.75167904, 0.30506403, 0.51172242],
       [0.01972265, 0.88184826, 0.46237208]])

### random.randint() : 일정 구간의 랜덤 정수의 배열 생성

In [17]:
np.random.randint(0, 10, (3,3))

array([[3, 2, 2],
       [1, 4, 7],
       [3, 7, 8]])

### random.normal() : 정규분포를 고려한 랜덤한 수의 배열 생성

    * 정규분포 = Normal Distribution

In [18]:
np.random.normal(0, 1, (3,3))
# 평균 = 0 , 표준편차 = 1, size는 3x3

array([[-0.54982211,  0.35423619, -0.34974616],
       [-1.68699139, -0.88534065,  2.29042516],
       [-0.50606404,  0.1600846 , -0.12995148]])

* random.rand() : 균등분포를 고려한 랜덤한 수의 배열 생성
    * 균등분포 = Uniform Distribution

In [19]:
np.random.rand(3,3)

array([[0.12484459, 0.14696177, 0.38752818],
       [0.49431003, 0.45960403, 0.11160214],
       [0.79139892, 0.00353673, 0.9702993 ]])

* random.randn() : 표준 정규 분포를 고려한 랜덤한 수의 배열 생성
    * 표준 정규 분포 = Standard Normal Distribution

In [20]:
np.random.randn(3,3)

array([[-1.45040019,  0.07373774,  0.10523235],
       [ 0.14538166, -1.08565321,  1.01037828],
       [ 1.61623388, -1.82420759,  0.66777366]])

## Data Type

| Data type	    | Description |
|---------------|-------------|
| ``bool_``     | Boolean (True or False) stored as a byte |
| ``int_``      | Default integer type (same as C ``long``; normally either ``int64`` or ``int32``)| 
| ``intc``      | Identical to C ``int`` (normally ``int32`` or ``int64``)| 
| ``intp``      | Integer used for indexing (same as C ``ssize_t``; normally either ``int32`` or ``int64``)| 
| ``int8``      | Byte (-128 to 127)| 
| ``int16``     | Integer (-32768 to 32767)|
| ``int32``     | Integer (-2147483648 to 2147483647)|
| ``int64``     | Integer (-9223372036854775808 to 9223372036854775807)| 
| ``uint8``     | Unsigned integer (0 to 255)| 
| ``uint16``    | Unsigned integer (0 to 65535)| 
| ``uint32``    | Unsigned integer (0 to 4294967295)| 
| ``uint64``    | Unsigned integer (0 to 18446744073709551615)| 
| ``float_``    | Shorthand for ``float64``.| 
| ``float16``   | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa| 
| ``float32``   | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa| 
| ``float64``   | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa| 
| ``complex_``  | Shorthand for ``complex128``.| 
| ``complex64`` | Complex number, represented by two 32-bit floats| 
| ``complex128``| Complex number, represented by two 64-bit floats| 

In [21]:
np.zeros(20, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [22]:
np.ones((3,3), dtype=bool)
# ones = 1 이고, bool 에서 1 = True

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [23]:
np.zeros((3,3), dtype=bool)

array([[False, False, False],
       [False, False, False],
       [False, False, False]])

In [24]:
np.full((3,3), 1.0, dtype=float)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

## 날짜/시간 배열 생성

In [25]:
date = np.array('2020-01-01', dtype=np.datetime64)
date # datetime64[D] 에서 D는 date 의미

array('2020-01-01', dtype='datetime64[D]')

In [26]:
date + np.arange(12) # [d] 였으므로 D에 대한 연산이 됨

array(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
       '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
       '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12'],
      dtype='datetime64[D]')

In [27]:
datetime = np.datetime64('2020-06-01 12:00')
datetime

numpy.datetime64('2020-06-01T12:00')

In [28]:
datetime = np.datetime64('2020-06-01 12:00:12.34', 'ns') # ns = nano sec
datetime

numpy.datetime64('2020-06-01T12:00:12.340000000')

# 배열 조회

## 배열 속성 정보

In [29]:
def array_info(array) :
    print(array)
    print("ndim : ", array.ndim) # dimension 개수
    print("shape : ", array.shape) 
    print("dtype : ", array.dtype)
    print("size : ", array.size) # elements 개수
    print("itemsize : ", array.itemsize) # 각 원소가 가지는 size가 4(bytes)
    print("nbytes : ", array.nbytes) # 전체 bytes. itemsize * size
    print("strides : ", array.strides) # 한 elements를 넘어가는데 필요한 크기

In [30]:
array_info(a1)

[4 5 6 4 5]
ndim :  1
shape :  (5,)
dtype :  int32
size :  5
itemsize :  4
nbytes :  20
strides :  (4,)


In [31]:
array_info(a2) 
# 여기서 strides는 다음 차원으로 넘어가기 위한 크기

[[1 2 3]
 [4 5 6]
 [7 8 9]]
ndim :  2
shape :  (3, 3)
dtype :  int32
size :  9
itemsize :  4
nbytes :  36
strides :  (12, 4)


In [32]:
array_info(a3)
# strides 값 설명
# 36은 3차원 기준. 3차원 하나가 넘어가려면 36의 크기가 필요(4*9)
# 12는 2차원 기준. 2차원 하나가 넘어가려면 12의 크기가 필요(4*3)
# 4는 1차원 기준. 1차원 하나가 넘어가려면 4의 크기가 필요(4*1)

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[10 11 12]
  [13 14 15]
  [16 17 18]]

 [[20 21 22]
  [22 23 24]
  [25 26 27]]]
ndim :  3
shape :  (3, 3, 3)
dtype :  int32
size :  27
itemsize :  4
nbytes :  108
strides :  (36, 12, 4)


## 인덱싱(Indexing)

In [33]:
print(a1)
print(a1[0])
print(a1[2])
print(a1[-1])
print(a1[-2])

[4 5 6 4 5]
4
6
5
4


In [34]:
print(a2) # 2차원은 (row, colums) = (행, 열) = (가로, 세로)
print(a2[0, 0])
print(a2[0, 2])
print(a2[1, 1])
print(a2[2, -1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
1
3
5
9


In [35]:
print(a3)
print(a3[0, 0, 0])
print(a3[1, 1, 1])
print(a3[2, 2, 2])
print(a3[2, -1, -1])

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[10 11 12]
  [13 14 15]
  [16 17 18]]

 [[20 21 22]
  [22 23 24]
  [25 26 27]]]
1
14
27
27


## 슬라이싱(Slicing)

### 슬라이싱 구문

* a[start:stop:step]
* 기본값: start=0, stop=ndim, step=1

In [36]:
print(a1)
print(a1[0:2])
print(a1[0:])
print(a1[:1])
print(a1[::2])
print(a1[::-1])

[4 5 6 4 5]
[4 5]
[4 5 6 4 5]
[4]
[4 6 5]
[5 4 6 5 4]


In [37]:
print(a2)
print(a2[1])
print(a2[1, :])
print(a2[:2, :2])
print(a2[1:, ::-1])
print(a2[::-1, ::-1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[4 5 6]
[4 5 6]
[[1 2]
 [4 5]]
[[6 5 4]
 [9 8 7]]
[[9 8 7]
 [6 5 4]
 [3 2 1]]


### 불리언 인덱싱(Boolean Indexing)

* 배열 각 요소의 선택 여부를 불리언(True of False)로 지정

* True 값인 인덱스의 값만 조회

In [38]:
print(a1)
bi = [False, True, True, False, True]
print(a1[bi])
bi = [True, False, True, True, False]
print(a1[bi])

[4 5 6 4 5]
[5 6 5]
[4 6 4]


In [39]:
print(a2)
bi = np.random.randint(0, 2, (3, 3), dtype=bool)
print(bi)
print(a2[bi])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[False False  True]
 [False  True False]
 [ True  True False]]
[3 5 7 8]


### 팬시 인덱싱(Fancy Indexing)

In [40]:
print(a1)
print([a1[0], a1[2]])
ind = [0,2]
print(a1[ind])
ind = np.array([[0,1],
                [2,0]])
print(a1[ind])

[4 5 6 4 5]
[4, 6]
[4 6]
[[4 5]
 [6 4]]


In [41]:
print(a2)
row = np.array([0,2])
col = np.array([1,2])
print(a2[row, col])
print(a2[row, :])
print(a2[:, col])
print(a2[row, 1])
print(a2[2, col])
print(a2[row, 1:])
print(a2[1:, col])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[2 9]
[[1 2 3]
 [7 8 9]]
[[2 3]
 [5 6]
 [8 9]]
[2 8]
[8 9]
[[2 3]
 [8 9]]
[[5 6]
 [8 9]]


## 배열 값 삽입/수정/삭제/복사

### 배열 값 삽입

* insert() : 배열의 특정 위치에 값 삽입

* axis를 지정하지 않으면 1차원 배열로 전환

* 추가할 방향을 axis로 지정
    
    * axis = 기준 축을 row(0), col(1)을 지정(2차원 배열 기준)
    * 3차원 기준 axis의 값은 0 ~ 2까지 존재

* 원본 배열 변경없이 새로운 배열 반환


In [42]:
print(a1)
b1 = np.insert(a1, 0, 10)
print(b1)
print(a1) # a1 값 변경 x 임을 확인 가능
c1 = np.insert(a1, 2, 10)
print(c1)

[4 5 6 4 5]
[10  4  5  6  4  5]
[4 5 6 4 5]
[ 4  5 10  6  4  5]


In [43]:
print(a2)
b2 = np.insert(a2, 1, 10, axis=0)
print(b2)
c2 = np.insert(a2, 1, 10, axis=1)
print(c2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ 1  2  3]
 [10 10 10]
 [ 4  5  6]
 [ 7  8  9]]
[[ 1 10  2  3]
 [ 4 10  5  6]
 [ 7 10  8  9]]


### 배열 값 수정

* 배열의 인덱싱으로 접근하여 값 수정

In [44]:
print(a1)
a1[0] = 1
a1[1] = 2
a1[2] = 3
print(a1)
a1[:1] = 9
print(a1)
i = np.array([1,3,4])
a1[i] = 0
print(a1)
a1[i] += 4
print(a1)

[4 5 6 4 5]
[1 2 3 4 5]
[9 2 3 4 5]
[9 0 3 0 0]
[9 4 3 4 4]


In [45]:
print(a2)
a2[0,0] = 1
a2[1,1] = 2
a2[2,2] = 3
a2[0] = 1
print(a2)
a2[1:, 2] = 9
print(a2)
row = np.array([0,1])
col = np.array([1,2])
a2[row, col] = 0
print(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 1 1]
 [4 2 6]
 [7 8 3]]
[[1 1 1]
 [4 2 9]
 [7 8 9]]
[[1 0 1]
 [4 2 0]
 [7 8 9]]


### 배열 값 삭제

* delete() : 배열의 특정 위치에 값 삭제

* axis를 지정하지 않으면 1차원 배열로 변환

* 삭제할 방향을 axis로 지정

* 원본 배열 변경없이 새로운 배열 반환

In [46]:
print(a1)
b1 = np.delete(a1, 1)
print(b1)
print(a1) # 값 변경 없음

[9 4 3 4 4]
[9 3 4 4]
[9 4 3 4 4]


In [47]:
print(a2)
b2 = np.delete(a2, 1, axis=0)
print(b2)
c2 = np.delete(a2, 1, axis=1)
print(c2)

[[1 0 1]
 [4 2 0]
 [7 8 9]]
[[1 0 1]
 [7 8 9]]
[[1 1]
 [4 0]
 [7 9]]


### 배열 복사

* 리스트 자료형과 달리 배열의 슬라이스는 복사본이 아님

=> 즉 원본에 영향을 줌

In [48]:
print(a2)
print(a2[:2, :2])
a2_sub = a2[:2, :2]
print(a2_sub)
a2_sub[:, 1] = 0
print(a2_sub)
print(a2)

[[1 0 1]
 [4 2 0]
 [7 8 9]]
[[1 0]
 [4 2]]
[[1 0]
 [4 2]]
[[1 0]
 [4 0]]
[[1 0 1]
 [4 0 0]
 [7 8 9]]


* copy() : 배열이나 하위 배열 내의 값을 명시적으로 복사

In [49]:
print(a2)
a2_sub_copy = a2[:2, :2].copy()
print(a2_sub_copy)
a2_sub_copy[:, 1] = 1
print(a2_sub_copy)
print(a2)

[[1 0 1]
 [4 0 0]
 [7 8 9]]
[[1 0]
 [4 0]]
[[1 1]
 [4 1]]
[[1 0 1]
 [4 0 0]
 [7 8 9]]
