<a href="https://colab.research.google.com/github/JinsicLee/jinsic-lee/blob/main/221205_ch01_numpy02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 배열의 생성과 변형

## Numpy의 자료형
* Numpy의 배열 즉, `ndarray` 클래스는 원소(element)가 모두 같은 자료형이어야 함
* `np.array`로 배열을 만들 때 자료형을 안 주면 자동으로 지정. 명시적으로 적용하고 싶을 때 `dtype` 인수
* 만들어진 배열의 자료형을 알고 싶으면 `dtype` 속성

In [None]:
import numpy as np

In [None]:
x = np.array([1, 2, 3]) # int 정수만으로 -> 추론 -> int array
x

array([1, 2, 3])

In [None]:
x.dtype # 64? 32? 크기. 

dtype('int64')

In [None]:
x = np.array([1.0, 2.0, 3.0])
x.dtype

dtype('float64')

In [None]:
x = np.array([1, 2, 3.0])
x.dtype # 정수 (int) < 실수 (float) < ... < Object...

dtype('float64')

In [None]:
x = np.array([1, 2, 3], dtype='f')
x.dtype

dtype('float32')

* `dtype` 인수
    * dtype 접두사로 시작하는 문자열
    * 접두사 뒤 오는 숫자 = 바이트 수 혹은 글자 수
    * 숫자 생략 시 운영체제에 따라 알맞은 크기 지정

|dtype 접두사|설명|사용 예|
|-|-|-|
|`b`|불리언|`b` (참 혹은 거짓)|
|`i`|정수|`i8` (64비트)|
|`u`|부호 없는 정수|`u8` (64비트)|
|`f`|부동소수점|`f8` (64비트)|
|`c`|복소 부동소수점|`c16` (128비트)|
|`O`|객체|`0` (객체에 대한 포인터)|
|`S`|바이트 문자열|`S24` (24 글자)|
|`U`|유니코드 문자열|`U24` (24 유니코드 글자)|

In [None]:
x = np.array([1, 2, 3], dtype='f') # float -> 숫자가 없으니까...
x.dtype

dtype('float32')

In [None]:
x[0] + x[1] # 1 + 2 = 3

3.0

In [None]:
x = np.array([1, 2, 3], dtype='U')
x.dtype

dtype('<U1')

In [None]:
x[0] + x[1]

'12'

### Inf와 NaN
* 무한대를 표현하기 위한 `np.inf`(infinity)라는 값이 있음
* 정의할 수 없는 숫자 : `np.nan`(not a number)

In [None]:
np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])

  np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])
  np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])


array([  0.,  inf, -inf,  nan])

In [None]:
np.log(0)

  np.log(0)


-inf

## 배열 생성

In [None]:
#@title np.zeros(n) : 크기가 정해져 있고, 모든 값이 0인 배열을 생성
a = np.zeros(5) # 정수를 넣으면 해당 크기의 0으로 채워진 1차원 배열 생성
a

array([0., 0., 0., 0., 0.])

In [None]:
# 튜플을 넣으면 해당 크기의 0으로 채워진 다차원 배열을 생성
b = np.zeros((2, 3))
b
# b.shape

array([[0., 0., 0.],
       [0., 0., 0.]])

In [None]:
b.dtype

dtype('float64')

In [None]:
# dtype 인수 명시 할 경우, 해당 자료형 원소 타입 부여
c = np.zeros((5, 2), dtype='i')
c

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int32)

In [None]:
# zeros 숫자 -> 모든 원소의 문자열 크기만 갖다면 문자열 배열
# 만약 더 큰 크기의 문자열을 할당하면 잘림
d = np.zeros(5, dtype='U4')

In [None]:
d

array(['', '', '', '', ''], dtype='<U4')

In [None]:
d[0] = 'abc'
d[1] = 'abcd'
d[2] = 'ABCDE'
d

array(['abc', 'abcd', 'ABCD', '', ''], dtype='<U4')

In [None]:
#@title ones : 1로 초기화된 배열을 생성
e = np.ones((2, 3, 4), dtype='i8')
e

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [None]:
# f = np.ones_like(b, dtype='f') # 1
f = np.zeros_like(b, dtype='f') # 1
f, f.shape

(array([[0., 0., 0.],
        [0., 0., 0.]], dtype=float32), (2, 3))

In [None]:
#@title np.empty
# * 시간이 절약, 메모리 절약
# * 초기화를 하지 않는다 -> 덮어씌우지 않는다
# * 자리만 잡고 테이블은 안치움
g = np.empty((4, 3))
g

array([[1.2515592e-316, 0.0000000e+000, 0.0000000e+000],
       [0.0000000e+000, 0.0000000e+000, 0.0000000e+000],
       [0.0000000e+000, 0.0000000e+000, 0.0000000e+000],
       [0.0000000e+000, 0.0000000e+000, 0.0000000e+000]])

In [None]:
g.shape, g.dtype

((4, 3), dtype('float64'))

### np.arange : 특징 규칙에 따라 증가하는 수열 -> 배열 `range`

In [None]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.arange(3, 21, 2) # 시작(포함), 끝(제외), 단계

array([ 3,  5,  7,  9, 11, 13, 15, 17, 19])

### np.linspace (linear)
* 선형구간을 지정한 구간의 수만큼 분할

In [None]:
np.linspace(0, 100, 5) # 시작(포함), 끝(포함), 구간수

array([  0.,  25.,  50.,  75., 100.])

### np.logspace (log)
* 로그구간을 지정한 구간의 수만큼 분할

In [None]:
np.logspace(0.1, 1, 10)

array([ 1.25892541,  1.58489319,  1.99526231,  2.51188643,  3.16227766,
        3.98107171,  5.01187234,  6.30957344,  7.94328235, 10.        ])

## 배열 변형

### 전치 연산 (transpose)
* 2차원 배열에서 행과 열을 바꾸는 작업
* 배열의 `T` 속성

In [None]:
A = np.array([[1,2,3],[4,5,6]])
A, A.shape # 2 x 3

(array([[1, 2, 3],
        [4, 5, 6]]), (2, 3))

In [None]:
A.T, A.T.shape

(array([[1, 4],
        [2, 5],
        [3, 6]]), (3, 2))

### 배열의 크기 변형 (`reshape`)

In [None]:
a = np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [None]:
# (12) -> (3, 4)
b = a.reshape(3, 4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
# -1 : 다른 값들을 통해서 계산된 값을 채워줌
a.reshape(3, -1) # 12 -> 3 -> -1 (4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
# a.reshape(2, 3, 2)
a.reshape(-1, 3, 2) # 하나는 -1로 바꿀 수 있다

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

### 배열 평탄화 (`flatten`, `ravel`)
* 다차원 배열을 1차원으로 변환

In [None]:
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
b.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [None]:
b.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

### 같은 배열에 대해 차원만 1차원 증가 (`newaxis`)

In [None]:
x = np.arange(5)
x, x.shape # 1차원 배열 -> 각 원소들을 추가적인 차원 -> 2차원 배열

(array([0, 1, 2, 3, 4]), (5,))

In [None]:
y = x[:, np.newaxis]
y, y.shape

(array([[0],
        [1],
        [2],
        [3],
        [4]]), (5, 1))

## 배열 연결
* *행의 수*나 *열의 수*가 같은 *두 개 이상*의 배열을 연결하여 더 큰 배열을 생성

### `concatenate`

In [None]:
"1" + "1"

'11'

In [None]:
[1, 2] + [3, 4]

[1, 2, 3, 4]

In [None]:
arr1 = np.arange(1, 4)
arr2 = np.arange(4, 7)
arr1, arr2
arr1 + arr2 # 벡터화 연산이 됨 (리스트 마냥 concat X)

array([5, 7, 9])

In [None]:
arr = np.concatenate([arr1, arr2])
arr # 1차원 배열 연결

array([1, 2, 3, 4, 5, 6])

In [None]:
# 2차원 배열
arr1 = np.arange(1, 5).reshape(2, 2)
# np.array([[1, 2], [3, 4]])
arr2 = np.arange(5, 9).reshape(2, 2)
# np.array([[5, 6], [7, 8]])
arr1, arr2

(array([[1, 2],
        [3, 4]]), array([[5, 6],
        [7, 8]]))

In [None]:
arr = np.concatenate([arr1, arr2]) # axis=0
arr

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [None]:
# arr = np.concatenate([arr1, arr2]) # axis=0
# arr # 행을 기준
arr = np.concatenate([arr1, arr2], axis=1)
arr # 열을 기준

array([[1, 2, 5, 6],
       [3, 4, 7, 8]])

**h**orizontal - 수평:가로<br>
**v**ertical - 수직:세로

### `hstack`
* 행의 수가 같은 두 개 이상의 배열을 **옆**으로 연결하여 열의 수가 늘어난 배열을 만듦
* 연결할 배열은 하나의 리스트(튜플)에 담아서 메소드에 넣어줘야함

In [None]:
a1 = np.ones((2, 3)) # 2 x 3
a1

array([[1., 1., 1.],
       [1., 1., 1.]])

In [None]:
a2 = np.zeros((2, 2)) # 2 x 2
a2

array([[0., 0.],
       [0., 0.]])

In [None]:
np.hstack([a1, a2])

array([[1., 1., 1., 0., 0.],
       [1., 1., 1., 0., 0.]])

### `vstack`
* 열의 수가 같은 두 개 이상의 배열을 **위아래**로 연결하여 행의 수가 늘어난 배열을 만듦
* 연결할 배열은 하나의 리스트(튜플)에 담아서 메소드에 넣어줘야함

In [None]:
b1 = np.ones((2, 3)) # 2 x 3
b2 = np.zeros((3, 3)) # 3 x 3
b1, b2

(array([[1., 1., 1.],
        [1., 1., 1.]]), array([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]))

In [None]:
np.vstack([b1, b2])

array([[1., 1., 1.],
       [1., 1., 1.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

### `dstack` (depth)
* 제3의 축 즉, 행이나 열이 아니라 깊이(depth) 방향으로 배열을 합침
* 가장 안쪽의 원소의 차원이 증가, 즉 가장 내부의 숫자 원소가 배열

In [None]:
c1 = np.ones((3,4))
c2 = np.zeros((3,4))

In [None]:
c1

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [None]:
c2

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [None]:
np.hstack([c1,c2])

array([[1., 1., 1., 1., 0., 0., 0., 0.],
       [1., 1., 1., 1., 0., 0., 0., 0.],
       [1., 1., 1., 1., 0., 0., 0., 0.]])

In [None]:
np.vstack([c1,c2])

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [None]:
np.dstack([c1,c2])

array([[[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]]])

In [None]:
np.dstack([c1,c2]).shape

(3, 4, 2)

### `stack`
* `dstack`의 기능을 확장한 것으로 `dstack`처럼 마지막 차원으로 연결하는 것이 아니라 사용자가 지정한 차원(축으로) 배열을 연결
* axis 인수(디폴트 0)를 사용하여 연결후의 회전 방향을 정함
* 디폴트 인수값은 0이고 가장 앞쪽에 차원이 생성. 즉, 배열 두 개가 겹치게 되므로 연결하고자 하는 배열들의 크기가 모두 같아야 함

In [None]:
c = np.stack([c1, c2]) # axis=0
c, c.shape

(array([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],
 
        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]]), (2, 3, 4))

In [None]:
c = np.stack([c1, c2], axis=1)
c, c.shape

(array([[[1., 1., 1., 1.],
         [0., 0., 0., 0.]],
 
        [[1., 1., 1., 1.],
         [0., 0., 0., 0.]],
 
        [[1., 1., 1., 1.],
         [0., 0., 0., 0.]]]), (3, 2, 4))

In [None]:
c = np.stack([c1, c2], axis=2)
c, c.shape

(array([[[1., 0.],
         [1., 0.],
         [1., 0.],
         [1., 0.]],
 
        [[1., 0.],
         [1., 0.],
         [1., 0.],
         [1., 0.]],
 
        [[1., 0.],
         [1., 0.],
         [1., 0.],
         [1., 0.]]]), (3, 4, 2))

### `r_`
* `hstack` 비슷하게 배열을 좌-우 연결
* 메소드 소괄호(parenthesis, `()`)를 사용하지 않고, 대괄호 (bracket, `[]`)를 사용
* 특수 메소드 = 인덱서(indexer)

In [None]:
x = np.r_[np.arange(1,4), np.arange(4,7)]
x, x.shape

(array([1, 2, 3, 4, 5, 6]), (6,))

### `c_`
* 배열의 차원을 증가시킨 뒤 좌우로 연결

In [None]:
y = np.c_[np.arange(1,4), np.arange(4,7)]
y, y.shape

(array([[1, 4],
        [2, 5],
        [3, 6]]), (3, 2))

### `tile`
* 동일한 배열을 반복하여 연결

In [None]:
a = np.arange(6).reshape(2, -1)
a

array([[0, 1, 2],
       [3, 4, 5]])

In [None]:
np.tile(a, 2) # 반복할 배열, 반복할 횟수 (가로로 2번)

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5]])

In [None]:
np.tile(a, (3, 2)) # 행으로 3번, 열로 2번

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5]])

## ⚓ 연습문제 1
```
array([[  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.]])
```

In [None]:
# 0, 0, 0, 1, 1
a = np.zeros(3, dtype='f')
a

array([0., 0., 0.], dtype=float32)

In [None]:
b = np.ones(2, dtype='f')

In [None]:
# c = np.r_[a, b]
c = np.hstack([a, b])
c

array([0., 0., 0., 1., 1.], dtype=float32)

In [None]:
d = np.tile(c, (3, 1))
d

array([[0., 0., 0., 1., 1.],
       [0., 0., 0., 1., 1.],
       [0., 0., 0., 1., 1.]], dtype=float32)

In [None]:
e = np.arange(10, 160, 10, dtype='f')
e

array([ 10.,  20.,  30.,  40.,  50.,  60.,  70.,  80.,  90., 100., 110.,
       120., 130., 140., 150.], dtype=float32)

In [None]:
f = e.reshape(3, -1)
f

array([[ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.]], dtype=float32)

In [None]:
g = np.vstack([d, f])
g

array([[  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.]], dtype=float32)

In [None]:
h = np.tile(g, (2, 1))
h

array([[  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.]], dtype=float32)

## 배열 분할

In [None]:
arr = np.arange(1, 7)
arr

array([1, 2, 3, 4, 5, 6])

In [None]:
newarr = np.array_split(arr, 3)
newarr

[array([1, 2]), array([3, 4]), array([5, 6])]

In [None]:
n1, n2, n3 = np.array_split(arr, 3)
n1

array([1, 2])

In [None]:
arr = np.arange(1, 13).reshape(-1, 3)
arr

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [None]:
newarr = np.array_split(arr, 3, axis=1)
newarr

[array([[ 1],
        [ 4],
        [ 7],
        [10]]), array([[ 2],
        [ 5],
        [ 8],
        [11]]), array([[ 3],
        [ 6],
        [ 9],
        [12]])]

In [None]:
# np.hsplit(arr, n)
# np.vsplit(arr, n)
# np.dsplit(arr, n) -> 쪼개줄 방향 / 몇개 쪼갤지

## 2차원 그리드 포인트 생성
* 변수가 2개인 2차원 함수 (x, y) 그래프를 그리거나 표를 작성하거나 할 때 2개의 좌표값 쌍 -> **grid point** (그리드포인트) -> 각 좌표에 대한 함수 값을 계산해야함
<br>
$
(x, y) = (0,0),(0,1),(0,2),(0,3),(0,4),(1,0),\cdots(2,4)
$

* `meshgrid` : 사각형 영역을 구성하는 가로축의 점들과 세로축의 점들을 나타내는 두 벡터를 인수로 받아서 이 사각형 영역을 이루는 조합 출력
=> x,y 좌표쌍들을 출력
* 결과 : 그리드 포인트의 x값만을 표시하는 행렬과 y값만을 표시하는 행렬 두개로 분리하여 출력

In [None]:
x = np.arange(3)
x

array([0, 1, 2])

In [None]:
y = np.arange(5)
y

array([0, 1, 2, 3, 4])

In [None]:
X, Y = np.meshgrid(x, y)

In [None]:
X

array([[0, 1, 2],
       [0, 1, 2],
       [0, 1, 2],
       [0, 1, 2],
       [0, 1, 2]])

In [None]:
Y

array([[0, 0, 0],
       [1, 1, 1],
       [2, 2, 2],
       [3, 3, 3],
       [4, 4, 4]])

In [None]:
[list(zip(x, y)) for x, y in zip(X, Y)]

[[(0, 0), (1, 0), (2, 0)],
 [(0, 1), (1, 1), (2, 1)],
 [(0, 2), (1, 2), (2, 2)],
 [(0, 3), (1, 3), (2, 3)],
 [(0, 4), (1, 4), (2, 4)]]

In [None]:
for x, y in zip(X, Y):
    print(list(zip(x, y)))

[(0, 0), (1, 0), (2, 0)]
[(0, 1), (1, 1), (2, 1)]
[(0, 2), (1, 2), (2, 2)]
[(0, 3), (1, 3), (2, 3)]
[(0, 4), (1, 4), (2, 4)]
