# Numpy

- Numerical Python
- N차원 배열 객체
- 정교한 브로드캐스팅(broadcasting) 기능
- 파이썬의 자료형 list와 비슷하나, 더 빠르고 메모리를 효율적으로 관리
- 반복문 없이 데이터 배열에 대한 처리 지원
- 참고: [Numpy fundamentals](https://numpy.org/doc/stable/user/basics.html)

In [1]:
# import
import numpy as np

In [2]:
np.__version__

'1.19.5'

## Array creation

#### Converting Python sequences to Numpy Arrays

In [3]:
# 1D array
a1 = np.array([1, 2, 3, 4, 5])
a1

array([1, 2, 3, 4, 5])

In [4]:
print(a1)
print(type(a1))
print(a1.shape)
print(a1[0], a1[1], a1[2], a1[3], a1[4]) # Indexing

[1 2 3 4 5]
<class 'numpy.ndarray'>
(5,)
1 2 3 4 5


In [5]:
# insert
a1[0] = 4
a1[2] = 5
a1[2] = 6
a1

array([4, 2, 6, 4, 5])

In [6]:
# 2D array
a2 = np.array([ [1,2,3], [4,5,6], [7,8,9] ])
a2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [7]:
print(a2)
print(type(a2))
print(a2.shape)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
<class 'numpy.ndarray'>
(3, 3)


In [8]:
print(a2[0, 0], a2[1, 1], a2[2, 2]) # Indexing diagonal entities

1 5 9


In [9]:
a3 = np.array([  [ [1,2,3], [4,5,6], [7,8,9] ],
                 [ [1,2,3], [4,5,6], [7,8,9] ],
                 [ [1,2,3], [4,5,6], [7,8,9] ]  ])
a3

array([[[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]],

       [[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]],

       [[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]]])

In [10]:
print(a3.shape)

(3, 3, 3)


#### Intrinsic Numpy array creation functions
```np.vals(np.array.shape)```

##### general ndarray creation functions

- ```zeros()```: 모든 요소를 0으로 초기화

In [11]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

- ```ones()```: 모든 요소를 1로 초기화

In [12]:
np.ones((3, 3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

- ```full()```: 모든 요소를 지정한 초기값으로 채움

In [13]:
np.full((2, 3), 1.23)

array([[1.23, 1.23, 1.23],
       [1.23, 1.23, 1.23]])

- ```eye()```: 단위행렬(I) 생성
  - 단위행렬은 정사각행렬이기 때문에 np.array.shape이 아닌 변의 길이만 필요

In [14]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

- ```tri()```: 삼각행렬 생성
  - lower triangl. Matrix

In [15]:
np.tri(3)

array([[1., 0., 0.],
       [1., 1., 0.],
       [1., 1., 1.]])

- ```empty()```: 초기화하지 않은 배열 생성
  - 초기화가 없어 배열 생성비용이 저렴하고 빠름
  - 하지만 기존 메모리 위치에 존재하는 값을 임의로 쓰기 때문에, 어떤 값인지 모른름

In [16]:
np.empty(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

> ```np.val_like()```: 지정한 배열과 같은 shape를 갖는 행렬 생성
  - ```np.zeros_lie()```  
  - ```np.ones_lie()```
  - ```np.full_lie()```
  - ```np.empty_lie()```  

In [17]:
print(a1)
np.zeros_like(a1)

[4 2 6 4 5]


array([0, 0, 0, 0, 0])

In [18]:
print(a2)
np.ones_like(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [19]:
print(a3)
np.full_like(a3, 10)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]


array([[[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]]])

##### 1D array creation functions
- 생성한 값으로 배열 생성

- ```arange()```: 정수 범위로 배열 생성 # array range
  - python의 ```range()```로 배열을 생성한다고 상상

In [20]:
np.arange(0, 30, 2) # start, end, step

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

- ```linspace()```: 범위 내에ㅓ 균등 간격의 배열 생성

In [21]:
np.linspace(0, 1, 5) # start, end, counts

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

- ```logspace()```: 범위 내에서 균등간격, 로그스케일

In [22]:
np.logspace(0.1, 1, 20)

array([ 1.25892541,  1.40400425,  1.565802  ,  1.74624535,  1.94748304,
        2.1719114 ,  2.42220294,  2.70133812,  3.0126409 ,  3.35981829,
        3.74700446,  4.17881006,  4.66037703,  5.19743987,  5.79639395,
        6.46437163,  7.2093272 ,  8.04013161,  8.9666781 , 10.        ])

## Random sampling (numpy.random)

- ```np.random.random()```: 랜덤한 수의 배열 생성
  - $R$ (실수) 내에서 랜덤 값 추출

In [23]:
np.random.random((3, 3))

array([[0.82596766, 0.06787887, 0.58508267],
       [0.75280242, 0.94049509, 0.45921507],
       [0.50725094, 0.89179999, 0.78838486]])

- ```np.random.randint()```: 일정 구간의 랜덤 정수 배열 생성

In [24]:
np.random.randint(0, 10, (3, 3)) # start, end, shape

array([[3, 8, 0],
       [9, 7, 6],
       [3, 7, 0]])

- ```np.random.normal()```: 정규분포를 고려한 랜덤한 수의 배열 생성
  - $\mu=0, \sigma=1, shape=(3,3)$

In [25]:
np.random.normal(0, 1, (3,3)) # 평균, 표준편차, 사이즈 (예시는 표준정규분포를 생성)

array([[-0.62492118,  0.77704256,  0.84008198],
       [-0.08585034,  0.13683293,  0.40154423],
       [ 0.02911249,  0.44448224, -0.67661395]])

- ```np.random.rand()```: 균등분포(random distribution)을 고려한 랜덤한 수의 배열 생성

In [26]:
np.random.rand(3,3)

array([[0.32770062, 0.86552243, 0.8357895 ],
       [0.68089842, 0.42131786, 0.02706159],
       [0.88888558, 0.76842138, 0.99576514]])

- ```np.random.randn()```: 표준정규분포(standard normal distribution) 수의 배열 생성

In [27]:
np.random.randn(3,3)

array([[ 1.71016834, -2.21602854, -0.26050229],
       [ 0.12114892,  0.24260438,  0.69846237],
       [ 1.57241657, -0.90223705, -0.61288211]])

## Data types

In [28]:
np.zeros(20, dtype='int64')

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [29]:
np.zeros(20, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [30]:
np.ones((3,3), dtype=bool)

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [31]:
np.full((3,3), 1.0, dtype='float64')

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

## Datetime Units

In [32]:
date = np.array('2020-01-01', dtype=np.datetime64) # str(date_format), dtype=np.datetime64: 날짜로 인식
date

array('2020-01-01', dtype='datetime64[D]')

In [33]:
date + np.arange(12) # np.arange => datetime64[D], datetimes with a unit of 'D'

array(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
       '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
       '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12'],
      dtype='datetime64[D]')

In [34]:
datetime = np.datetime64('2020-06-01 12:00')
datetime

numpy.datetime64('2020-06-01T12:00')

In [35]:
datetime = np.datetime64('2020-06-01 12:00:12.34', 'ns') # 'ns': date units code
datetime

numpy.datetime64('2020-06-01T12:00:12.340000000')

## Indexing

In [36]:
def array_info(array):
    print(array) # 실제값
    print(f"ndim: {array.ndim}") # 차원
    print(f"shape: {array.shape}") # 차원별 원소의 개수
    print(f"dtype: {array.dtype}") # 데이터형
    print(f"size: {array.size}") # 총 원소의 개수, 실제값의 개수
    print(f"itemsize: {array.itemsize}") # 각 원소가 차지하는 크기 (예시: 8byte)
    print(f"nbytes: {array.nbytes}") # size * itemsize [byte]
    print(f"strides: {array.strides}") # array 내 다음 차원으로 넘어가기 위해 필요한 크기 [byte]

In [37]:
array_info(a1)

[4 2 6 4 5]
ndim: 1
shape: (5,)
dtype: int64
size: 5
itemsize: 8
nbytes: 40
strides: (8,)


In [38]:
array_info(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
ndim: 2
shape: (3, 3)
dtype: int64
size: 9
itemsize: 8
nbytes: 72
strides: (24, 8)


In [39]:
array_info(a3)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
ndim: 3
shape: (3, 3, 3)
dtype: int64
size: 27
itemsize: 8
nbytes: 216
strides: (72, 24, 8)


### Indexing

In [40]:
a1 # 1D-array

array([4, 2, 6, 4, 5])

In [41]:
print(a1[0])
print(a1[-1])

4
5


In [42]:
a2 # 2D-array

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [43]:
print(a2[0, 0])
print(a2[1, -1])

1
6


In [44]:
a3 # 3D-array

array([[[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]],

       [[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]],

       [[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]]])

In [45]:
print(a3[0,0,0])
print(a3[2,-1,-1])

1
9


## Slicing

In [46]:
# 1D-array
print(a1[0:2])
print(a1[:])
print(a1[::2])
print(a1[::-1])

[4 2]
[4 2 6 4 5]
[4 6 5]
[5 4 6 2 4]


In [47]:
# 2D-array
print(a2[1])
print(a2[1, :]) # == a2[1]
print(a2[:2, :2])
print(a2[1:, ::-1])

[4 5 6]
[4 5 6]
[[1 2]
 [4 5]]
[[6 5 4]
 [9 8 7]]


In [48]:
# 데이터형 list는 a2[1][:]로 접근하는 방식과 다르게 np.array는 a2[1, :]로 접근한다.

##### Boolean or "mask" Indexing

In [49]:
print(a1)
bi = [False, True, True, False, True] # boolean indexing
print(a1[bi])
bi = [True, True, False, False, False] # boolean indexing
print(a1[bi])

[4 2 6 4 5]
[2 6 5]
[4 2]


In [50]:
print(a2)
bi = np.random.randint(0, 2, (3,3), dtype=bool)
print(bi)
print(a2[bi])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[False False False]
 [False  True False]
 [ True  True False]]
[5 7 8]


##### Fancy Indexing

In [51]:
print(a1)
print([a1[0], a1[2]])

[4 2 6 4 5]
[4, 6]


In [52]:
idx = [0, 2]

a1[idx]

array([4, 6])

In [53]:
idx = np.array([[0,1],
                [2,0]])
a1[idx]

array([[4, 2],
       [6, 4]])

In [54]:
# 원본이 1차원이더라도, 인덱스에 따라 결과가 2차원이 될 수 있다.

In [55]:
print(a2)
row = np.array([0, 2])
col = np.array([1, 2])

a2[row, col] # a[i,j] for (i,j) in [(0,1), (2,2)]

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([2, 9])

In [56]:
# Fancy Indexing + Slicing
print(a2[row, :]) # 2D
print(a2[:, col]) # 2D

# Fancy Indexing
print(a2[row, 1]) # 1D
print(a2[2, col]) # 1D

[[1 2 3]
 [7 8 9]]
[[2 3]
 [5 6]
 [8 9]]
[2 8]
[8 9]


## Array manipulation

#### Insert
- Returns: a copy of arr w/ values inserted
- Parameters:
  - axis
  - obj, values

In [57]:
print(a1)
b1 = np.insert(a1, 0, 10) # obj: postion, values: inserted val
print(a1)
print(b1) # not referring, but assigning

[4 2 6 4 5]
[4 2 6 4 5]
[10  4  2  6  4  5]


In [58]:
c1 = np.insert(a1, 2, 10)
print(a1)
print(c1)

[4 2 6 4 5]
[ 4  2 10  6  4  5]


In [59]:
print(a2)
b2 = np.insert(a2, 1, 10, axis=0) # add row
print(b2)
c2 = np.insert(a2, 1, 10, axis=1) # add col
print(c2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ 1  2  3]
 [10 10 10]
 [ 4  5  6]
 [ 7  8  9]]
[[ 1 10  2  3]
 [ 4 10  5  6]
 [ 7 10  8  9]]


In [60]:
c2[:, 1] # col2 vector

array([10, 10, 10])

#### assign
- Array Indexing

In [61]:
print(a1)
#
a1[0] = 1
a1[1] = 2
a1[2] = 3
print(a1)
#
a1[:1] = 9 # == (a1[0] = 9)
print(a1)
#
i = np.array([1, 3, 4])
a1[i] = 0
print(a1)
#
a1[i] += 4
print(a1)

[4 2 6 4 5]
[1 2 3 4 5]
[9 2 3 4 5]
[9 0 3 0 0]
[9 4 3 4 4]


In [62]:
print(a2)
#
a2[0, 0] = 1
a2[1, 1] = 2
a2[2, 2] = 3
a2[0] = 1
print(a2)
#
a2[1:, 2] = 9
print(a2)
#
row = np.array([0,1])
col = np.array([1,2])
a2[row, col] = 0 # Fancy Indexing
print(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 1 1]
 [4 2 6]
 [7 8 3]]
[[1 1 1]
 [4 2 9]
 [7 8 9]]
[[1 0 1]
 [4 2 0]
 [7 8 9]]


### delete
- Returns: new arr
- axis

In [63]:
print(a1)
#
b1 = np.delete(a1, 1)
print(b1)
#
print(a1)

[9 4 3 4 4]
[9 3 4 4]
[9 4 3 4 4]


In [64]:
print(a2)
#
b2 = np.delete(a2, 1, axis=0) # axis
print(b2)
#
print(a2)
#
c2 = np.delete(a2, 1, axis=1) # col delete
print(c2)

[[1 0 1]
 [4 2 0]
 [7 8 9]]
[[1 0 1]
 [7 8 9]]
[[1 0 1]
 [4 2 0]
 [7 8 9]]
[[1 1]
 [4 0]
 [7 9]]


### Arr copy
- 리스트 자료형과 다르게 배열의 슬라이싱은 복사본이 아님

In [65]:
print(a2)
print(a2[:2, :2])
#
a2_sub = a2[:2, :2]
print(a2_sub)
#
a2_sub[:, 1] = 0
print(a2_sub)
#
print(a2) # (Note) referring original, not new arr

[[1 0 1]
 [4 2 0]
 [7 8 9]]
[[1 0]
 [4 2]]
[[1 0]
 [4 2]]
[[1 0]
 [4 0]]
[[1 0 1]
 [4 0 0]
 [7 8 9]]


- ```copy()```: 명시적 복사

In [66]:
print(a2)
#
a2_sub_copy = a2[:2, :2].copy()
print(a2_sub_copy)
#
a2_sub_copy[:, :] = 1
print(a2_sub_copy)
#
print(a2)

[[1 0 1]
 [4 0 0]
 [7 8 9]]
[[1 0]
 [4 0]]
[[1 1]
 [1 1]]
[[1 0 1]
 [4 0 0]
 [7 8 9]]
