<a href="https://colab.research.google.com/github/playdataJuhanKim/20230619colab/blob/main/ch05_02_%EB%B0%B0%EC%97%B4%EC%9D%98_%EC%83%9D%EC%84%B1%EA%B3%BC_%EB%B3%80%ED%98%95_%EA%B3%B5%EC%9C%A0%EC%9A%A9_ipynb%EC%9D%98_%EC%82%AC%EB%B3%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 배열의 생성과 변형

## Numpy의 자료형
* Numpy의 배열 즉, `ndarray` 클래스는 원소가 모두 같은 자료형이어야 함
* `array` 명령으로 배열을 만들 때 자료형을 명시적으로 적용하려면 `dtype` 인수를 사용
* 만약 `dtype` 인수가 없으면 주어진 데이터를 저장할 수 있는 자료형을 스스로 유추
* 만들어진 배열의 자료형을 알아내려면 `dtype` 속성을 사용


In [4]:
import numpy as np

In [5]:
x=np.array([1,2,3])
x, x.ndim, x.shape, x.dtype

(array([1, 2, 3]), 1, (3,), dtype('int64'))

In [7]:
x=np.array([1,2,3.0]) #넓은 범위로 알아서 적용시킴
x, x.ndim, x.shape, x.dtype

(array([1., 2., 3.]), 1, (3,), dtype('float64'))

In [15]:
x=np.array([1,2,3], dtype='f') #넓은 범위로 알아서 적용시킴
x, x.ndim, x.shape, x.dtype

(array([1., 2., 3.], dtype=float32), 1, (3,), dtype('float32'))

In [None]:
x[0]+x[1]

In [11]:
x=np.array([1,2,3], dtype='U')
x, x.ndim, x.shape, x.dtype

(array(['1', '2', '3'], dtype='<U1'), 1, (3,), dtype('<U1'))

In [None]:
x[0]+x[1]

* `dtype` 인수
    * dtype 접두사로 시작하는 문자열
    * 접두사 뒤 오는 숫자 = 바이트 수 혹은 글자 수
    * 숫자 생략 시 운영체제에 따라 알맞은 크기 지정

|dtype 접두사|설명|사용 예|
|-|-|-|
|`b`|불리언|`b` (참 혹은 거짓)|
|`i`|정수|`i8` (64비트)|
|`u`|부호 없는 정수|`u8` (64비트)|
|`f`|부동소수점|`f8` (64비트)|
|`c`|복소 부동소수점|`c16` (128비트)|
|`O`|객체|`0` (객체에 대한 포인터)|
|`S`|바이트 문자열|`S24` (24 글자)|
|`U`|유니코드 문자열|`U24` (24 유니코드 글자)|

dtype('float32')

3.0

dtype('<U1')

'12'

## Inf와 NaN
* Numpy에서는 무한대를 표현하기 위한 `np.inf`(infinity)와 정의할 수 없는 숫자를 나타내는 `np.nan(not a number)`을 사용


In [13]:
# 1을 0으로 나누려고 할 때, 0을 0으로 나누려고 시도...
np.array([0,1,-1,0]) / np.array([1,0,0,0])

  np.array([0,1,-1,0]) / np.array([1,0,0,0])
  np.array([0,1,-1,0]) / np.array([1,0,0,0])


array([  0.,  inf, -inf,  nan])

In [14]:
# 0에 대한 로그 값을 계산
np.log(0)

  np.log(0)


-inf

## 배열 생성
* `zeros`, `ones`
* `zeros_like`, `ones_like`
* `empty`
* `arange`
* `linspace`, `logspace`

### zeros : 크기가 정해져 있고 모든 값이 0인 배열 생성

In [16]:
# 0 이상의 정수를 넣으면 해당 크기의 0으로 채워진 1차원 배열 생성
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [19]:
# 튜플을 넣으면 해당 크기의 0으로 채워진 다차원 배열 생성
a=np.zeros([6,4])
a

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [21]:
b=np.zeros([2,5,3])
b

array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]])

In [23]:
# dtype 인수 명시 시 해당 자료형 원소 타입 부여
c=np.zeros([5,2], dtype='i')
c

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int32)

In [26]:
# 문자열 배열도 가능하지만, 모든 원소의 문자열 크기가 같아야 함
# 만약 더 큰 크기의 문자열을 할당하면 잘림
d=np.zeros(5, dtype='U4')
d

array(['', '', '', '', ''], dtype='<U4')

In [29]:
d[0]='abc'
d[1]='abcd'
d[2]='abcde'
d

array(['abc', 'abcd', 'abcd', '', ''], dtype='<U4')

### ones : 1로 초기화된 배열을 생성

In [35]:
e=np.ones((2,3,4,5), dtype='U8')
e

array([[[['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1']],

        [['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1']],

        [['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1']]],


       [[['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1']],

        [['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1']],

        [['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1'],
         ['1', '1', '1', '1', '1']]]], dtype='<U8')

### ones_like, zeros_like : 다른 배열과 같은 크기의 배열을 생성

In [37]:
b, b.shape

(array([[[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]],
 
        [[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]]]),
 (2, 5, 3))

In [38]:
f=np.ones_like(b)
f

array([[[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]]])

### empty : 값 초기화 없이 배열을 생성 (시간 절약)
* 기존 메모리에 저장되어 있던 값이 있음
* 배열의 원소 값을 미리 알 수 없음

In [44]:
g=np.empty((4,3))
g

array([[2.8787395e-316, 0.0000000e+000, 0.0000000e+000],
       [0.0000000e+000, 0.0000000e+000, 0.0000000e+000],
       [0.0000000e+000, 0.0000000e+000, 0.0000000e+000],
       [0.0000000e+000, 0.0000000e+000, 0.0000000e+000]])

### arange : 특정 규칙에 따라 증가하는 수열을 만듦 (like `range`)

In [None]:
np.arange(10), np.array(range(10))

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.arange(3, 20, 2, dtype='f')

array([ 3,  5,  7,  9, 11, 13, 15, 17, 19])

### linspace, logspace : 선형 구간 또는 로그 구간을 지정한 구간의 수만큼 분할

In [None]:
np.linspace(0, 100, 5) # 시작(포함), 끝(포함), 갯수(구간)

array([  0.,  25.,  50.,  75., 100.])

In [None]:
np.logspace(0.1, 1, 10) # 시작(포함), 끝(포함), 갯수(구간)

array([ 1.25892541,  1.58489319,  1.99526231,  2.51188643,  3.16227766,
        3.98107171,  5.01187234,  6.30957344,  7.94328235, 10.        ])

## 전치 연산 (transpose)
* 2차원 배열에서 행과 열을 바꾸는 작업
* 배열의 `T` **속성**

In [48]:
a=np.array([[1,2,3],[4,5,6]])
a, a.ndim, a.shape

(array([[1, 2, 3],
        [4, 5, 6]]),
 2,
 (2, 3))

In [50]:
a.T, a.T.ndim, a.T.shape

(array([[1, 4],
        [2, 5],
        [3, 6]]),
 2,
 (3, 2))

## 배열의 크기 변형 (`reshape`)

In [51]:
a=np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [55]:
b=a.reshape(3,4) #shape의 구성요소는 전체 곱했을때, 전체요소의 개수와 같아야 함.
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [54]:
print(np.arange(12).reshape(2,3,2))

[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]


In [60]:
# 사용하는 원소의 갯수가 정해져 있기 때문에
# reshape 명령의 형태 튜플 원소 중 하나는 -1으로 대체 가능
# -1을 넣으면 해당 숫자는 다른 값을 통해 계산되어서 사용
c=a.reshape(3,-1,1)
c

array([[[ 0],
        [ 1],
        [ 2],
        [ 3]],

       [[ 4],
        [ 5],
        [ 6],
        [ 7]],

       [[ 8],
        [ 9],
        [10],
        [11]]])

In [61]:
print(a.reshape(-1,2,3))

[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]


array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

## 배열 평탄화 (`flatten`, `ravel`)
* 다차원 배열을 1차원으로 변환

In [62]:
print(a.reshape(-1))

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [65]:
print(a.flatten())

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [66]:
a.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

## 같은 배열에 대해 차원만 1차원 증가 (`newaxis`)

In [67]:
x=np.arange(5)
x, x.ndim, x.shape

(array([0, 1, 2, 3, 4]), 1, (5,))

In [69]:
x2=x[:,np.newaxis]
x2, x2.ndim, x2.shape

(array([[0],
        [1],
        [2],
        [3],
        [4]]),
 2,
 (5, 1))

In [70]:
x3=x[np.newaxis,:]
x3, x3.ndim, x3.shape

(array([[0, 1, 2, 3, 4]]), 2, (1, 5))

## 배열 연결
* 행의 수나 열의 수가 같은 두 개 이상의 배열을 연결하여 더 큰 배열을 생성 (concatenate)
    * `hstack`
    * `vstack`
    * `dstack`
    * `stack`
    * `r_`
    * `c_`
    * `tile`

### `concatenate`

In [71]:
arr1=np.arange(1,4)
arr2=np.arange(4,7)
np.concatenate([arr1,arr2])
#np.concatenate(arr1,arr2) #가변인수로 넣으면 안됨

array([1, 2, 3, 4, 5, 6])

In [73]:
arr1=arr1.reshape(3,1)
arr2=arr2.reshape(3,1)
x1=np.concatenate([arr1, arr2]) # 가장 바깥을 기준으로 합침. (6,1)
x1, x1.shape
x2=np.concatenate([arr1, arr2], axis=1)
x2, x2.shape

(array([[1, 4],
        [2, 5],
        [3, 6]]),
 (3, 2))

### `hstack`
* 행의 수가 같은 두 개 이상의 배열을 옆으로 연결하여 열의 수가 더 많은 배열을 만듦
* 연결할 배열은 하나의 리스트에 담아야 함

In [79]:
a1 = np.ones((2, 3))

In [80]:
a2=np.zeros((2,2))

In [81]:
ha=np.hstack((a1,a2))
ha, ha.shape

(array([[1., 1., 1., 0., 0.],
        [1., 1., 1., 0., 0.]]),
 (2, 5))

In [84]:
hb=np.concatenate((a1, a2), axis=1)
hb, hb.shape

(array([[1., 1., 1., 0., 0.],
        [1., 1., 1., 0., 0.]]),
 (2, 5))

### `vstack`
* 열의 수가 같은 두 개 이상의 배열을 위아래로 연결하여 행의 수가 더 많은 배열을 만듦
* 연결할 배열은 하나의 리스트에 담아야 함

In [None]:
b1 = np.ones((2, 3)) # 행 2, 열 3
b1, b1.shape

array([[1., 1., 1.],
       [1., 1., 1.]])

In [None]:
b2 = np.zeros((3, 3)) # 행 3, 열 3
b2, b2.shape

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [86]:
vb = np.vstack([b1, b2])  # 열을 기준으로, 행이 합쳐짐 (행이 늘어남.) axis=0
vb, vb.shape

ValueError: ignored

### `dstack`
* 제3의 축 즉, 행이나 열이 아닌 깊이(depth) 방향으로 배열을 합침
* 가장 안쪽의 원소의 차원이 증가, 즉 가장 내부의 숫자 원소가 배열이 됨

In [None]:
c1 = np.ones((3, 4))
c1, c1.shape

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [None]:
c2 = np.zeros_like(c1)
c2, c2.shape

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [None]:
dc = np.dstack((c1, c2))
dc, dc.ndim, dc.shape

array([[[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]]])

In [None]:
# np.concatenate((c1, c2), axis=2)  # 차원을 증가하면서 합칠 수 없다 (concatenate)
np.concatenate((c1[:,:,np.newaxis], c2), axis=2)

(3, 4, 2)

### `stack`
* `dstack`의 기능을 확장한 것으로 `dstack`처럼 마지막 차원으로 연결하는 것이 아니라 사용자가 지정한 차원(축으로) 배열을 연결
* axis 인수(디폴트 0)를 사용하여 연결후의 회전 방향을 정함
* 디폴트 인수값은 0이고 가장 앞쪽에 차원이 생성. 즉, 배열 두 개가 겹치게 되므로 연결하고자 하는 배열들의 크기가 모두 같아야 함

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

(2, 3, 4)

* `axis` 인수가 1이면 두번째 차원으로 새로운 차원이 삽입

array([[[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]]])

(3, 2, 4)

### `r_`
* `hstack` 명령과 비슷하게 배열을 좌우로 연결
* 다만 메서드임에도 불구하고 소괄호(parenthesis, `()`)를 사용하지 않고 인덱싱과 같이 대괄호(bracket, `[]`)를 사용
* 이런 특수 메서드를 인덱서(indexer)라고 함

In [88]:
np.r_[np.arange(1,4), np.arange(4,7)]

array([1, 2, 3, 4, 5, 6])

In [90]:
a=np.arange(1,4); b=np.arange(4,7)

### `c_`
* 배열의 차원을 증가시킨 후 좌우로 연결

In [91]:
np.c_[a,b]

array([[1, 4],
       [2, 5],
       [3, 6]])

### `tile`
* 동일한 배열을 반복하여 연결

In [93]:
a=np.arange(6).reshape(2,-1)
a

array([[0, 1, 2],
       [3, 4, 5]])

In [95]:
np.tile(a,2)

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5]])

## 💡 연습문제 4
```
array([[  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.]])
```

array([0., 0., 0.], dtype=float32)

array([1., 1.], dtype=float32)

array([0., 0., 0., 1., 1.], dtype=float32)

array([[0., 0., 0., 1., 1.],
       [0., 0., 0., 1., 1.],
       [0., 0., 0., 1., 1.]], dtype=float32)

array([ 10.,  20.,  30.,  40.,  50.,  60.,  70.,  80.,  90., 100., 110.,
       120., 130., 140., 150.], dtype=float32)

array([[ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.]], dtype=float32)

array([[  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.]], dtype=float32)

array([[  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.]], dtype=float32)

## 배열 분할

In [96]:
arr=np.arange(1,7)

In [101]:
newarr = np.array_split(arr, 3)
newarr

[array([1, 2]), array([3, 4]), array([5, 6])]

In [98]:
np.split(arr,3)

[array([1, 2]), array([3, 4]), array([5, 6])]

[array([[ 1],
        [ 4],
        [ 7],
        [10],
        [13],
        [16]]), array([[ 2],
        [ 5],
        [ 8],
        [11],
        [14],
        [17]]), array([[ 3],
        [ 6],
        [ 9],
        [12],
        [15],
        [18]])]