<a href="https://colab.research.google.com/github/Mifekmk/SkillTreePython-DataAnalysis/blob/main/04_NumPy_%EB%B0%B0%EC%97%B4%EC%9D%98%EA%B5%AC%EC%A1%B0%EB%8B%A4%EB%A3%A8%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# CH04 Numpy  - 배열의 구조 다루기

---
* 날짜: 2022-04-12
* 이름: 김민규


## 개념정리

데이터 분석에 있어서 배열에 담긴 데이터만큼 중요한 것이 배열의 구조입니다. 특히 머신러닝, 딥러닝에서는 데이터의 선형변환이 주가 되기 때문에 이 과정에서 데이터의 형태 변형이 많이 이루어 집니다. 이번 시간에는 배열의 형태를 변경하고 연결하고, 분할 하는 여러 방법들을 알아보도록 합니다. 

```
import numpy as np
```




In [None]:
import numpy as np

---
### **(1) 형태 변경**
---


#### **| 형태 직접 변경**

* `a.reshape(shape)` : `shape` 형태로 변경한 배열을 반환합니다.
* `a.resize(shape)` : 배열 `a`를 `shape` 형태로 변경합니다. 사이즈가 기존보다 크면 값을 0으로 채우고, 작으면 값이 삭제됩니다.

`.reshape`는 기존 배열과 변경할 배열의 총 크기가 같아야 하지만 `.resize`는 같을 필요가 없습니다. 다만 `..resize`는 값이 임의로 변경되니 사용에 주의해야 합니다.

또한 `reshape`는 기존배열을 보존하고 `resize`는 기존배열을 바로 변경합니다.

```
a = np.arange(10)
a.resize((5,3))
print(a)
a1=a.reshape((3,5))
print(a1)
```

In [None]:
a = np.arange(10)
a.reshape((3,5))
print(a)

ValueError: ignored

In [None]:
a = np.arange(10)
print(a)
print('--------------')
a.resize((5,3)) # 반환값이 없습니다. ex) a1 = resize((3,5))로 따로 바인딩이 불가능합니다.
print(a)    # 빈 칸에는 알아서 0으로 채워줍니다.

print('--------------')

a1 = a.reshape((3,5))
print(a1)

[0 1 2 3 4 5 6 7 8 9]
--------------
[[0 1 2]
 [3 4 5]
 [6 7 8]
 [9 0 0]
 [0 0 0]]
--------------
[[0 1 2 3 4]
 [5 6 7 8 9]
 [0 0 0 0 0]]


#### **| 형태 간접 변경**

* `np.swapaxes(a, axis1, axis2 )` : 배열 `a`의 두 축 (`axis1`, `axis2`)를 교환합니다.
* `.T` : 배열의 차원을 전치(transpose) 합니다.



`swapaxes`로 데이터의 성질을 그대로 보존하면서 형태를 변경할 수 있습니다. 

```
a = np.arange(24).reshape(2,3,4)
print(a, a.shape)

a=np.swapaxes(a, 0,1)
print(a, a.shape)
```

In [None]:
a = np.arange(24).reshape(2,3,4)    # (2,3,4)인 3차원 입니다.
print(a, a.shape)                   # 2=idx[0], 3=idx[1], 4=idx[2]
print('--------------------')
a=np.swapaxes(a, 0, 1)      
print(a, a.shape)
print('--------------------')
a=np.swapaxes(a, 0, 2)
print(a, a.shape)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]] (2, 3, 4)
--------------------
[[[ 0  1  2  3]
  [12 13 14 15]]

 [[ 4  5  6  7]
  [16 17 18 19]]

 [[ 8  9 10 11]
  [20 21 22 23]]] (3, 2, 4)
--------------------
[[[ 0  4  8]
  [12 16 20]]

 [[ 1  5  9]
  [13 17 21]]

 [[ 2  6 10]
  [14 18 22]]

 [[ 3  7 11]
  [15 19 23]]] (4, 2, 3)


여기서 데이터의 성질을 보존한다는 것은 무엇을 뜻할까요? 

안과에 방문한 어린이들의 나이와 시력을 정리한 데이터가 아래와 같이 저장되어 있다고 합시다.


<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-01.png?raw=true width=200>
</p>


```
ds = np.array([[10, 0.5],
               [8, 0.8],
               [12, 0.4],
               [7, 0.7]])
print(ds, ds.shape)
```




In [None]:
ds = np.array([[10, 0.5],
               [8, 0.8],
               [12, 0.4],
               [7, 0.7]])
print(ds, ds.shape)

[[10.   0.5]
 [ 8.   0.8]
 [12.   0.4]
 [ 7.   0.7]] (4, 2)



이 데이터의 형태를 데이터 성질을 유지하면서 변환하려면 아래와 같은 결과가 되어야 하겠지요

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-02.png?raw=true width=320>
</p>


이를 `swapaxes`와 `reshape`로 번형하고 결과를 비교해 보겠습니다.

```
ds1 = np.reshape(ds, (2,4))
print(ds1, ds1.shape)

ds2 = np.swapaxes(ds, 0,1)
print(ds2, ds2.shape)
```

In [None]:
ds1 = np.reshape(ds, (2,4)) 
print(ds1, ds1.shape)

ds1 = ds.reshape((2,4))
print(ds1, ds1.shape)

ds2 = np.swapaxes(ds, 0,1)  # 데이터 형태가 보존이 됩니다.
print(ds2, ds2.shape)

[[10.   0.5  8.   0.8]
 [12.   0.4  7.   0.7]] (2, 4)
[[10.   0.5  8.   0.8]
 [12.   0.4  7.   0.7]] (2, 4)
[[10.   8.  12.   7. ]
 [ 0.5  0.8  0.4  0.7]] (2, 4)


`reshape`를 사용한 결과는 데이터의 성질이 엉망이 되어버린 반면, `swapaxes`를 사용한 결과는 우리가 원하는대로 데이터의 성질이 잘 보존된 것을 볼 수 있습니다. 

2차원 배열에서는 전치(transpose)도 같은 결과가 나옵니다. 

```
a.T, a.T.shape
```

In [None]:
print(a.T)
print(a.T.shape)

[[[ 0  1  2  3]
  [12 13 14 15]]

 [[ 4  5  6  7]
  [16 17 18 19]]

 [[ 8  9 10 11]
  [20 21 22 23]]]
(3, 2, 4)


이제 데이터의 성질을 보존한다는 것이 무엇인지 감이 오셨나요? 우리가 다루게 될 데이터는 각 차원에 따라 데이터의 값이 유의미하게 담겨져 있기 때문에 데이터 형태 변환 시 주의해서 때에 따라 적절한 함수를 사용해야 합니다. 

* `np.expand_dims(a, axis)` : 축 axis에 차원을 추가합니다.

데이터 분석에서 유용히 쓰이는 함수가 바로 `np.expand_dim` 입니다. 개수와 값이 똑같은 데이터라도 1차원, 2차원, 3차원까지 변경할 수 있습니다. 

```
a = np.arange(5)
print(a, a.shape)
a = np.expand_dims(a,1) 
print(a, a.shape)
a = np.expand_dims(a,2)
print(a, a.shape)
```

In [None]:
a = np.arange(5)
print(a, a.shape)

a = np.expand_dims(a,1)
print(a, a.shape)

a = np.expand_dims(a,2)
print(a, a.shape)

a = np.expand_dims(a,1)
print(a, a.shape)

[0 1 2 3 4] (5,)
[[0]
 [1]
 [2]
 [3]
 [4]] (5, 1)
[[[0]]

 [[1]]

 [[2]]

 [[3]]

 [[4]]] (5, 1, 1)
[[[[0]]]


 [[[1]]]


 [[[2]]]


 [[[3]]]


 [[[4]]]] (5, 1, 1, 1)


---
### **(2) 배열 쌓기**
---

| 함수 | 설명 |
|--|--|
| `np.append(a1,a2)` | `a1`에 `a2`를 결합|
| `np.concatenate([a1, a2, a3 ...])` | 배열 리스트를 모두 결합|
| `np.stack([a1, a2, a3 ...])` | 배열을 쌓습니다. |
| `np.hstack([a1, a2, a3 ...])` | 배열을 수평으로 쌓습니다. |
| `np.vstack([a1, a2, a3 ...])` | 배열을 수직으로 쌓습니다. |
| `np.dtack([a1, a2, a3 ...])` | 배열을 새로운 방향으로 쌓습니다. |

배열과 배열을 결합하는 함수는 여러개가 있습니다. 사실 어떻게 사용하냐에 각 함수가 똑같은 결과를 도출할 수도 있습니다. 이번 수업에서는 `concatenate`를 사용해 배열을 쌓아보도록 하겠습니다.

아래 그림을 보고 `concatenate` 코드를 작성해 봅시다.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-03.png?raw=true width=680>
</p>

```
a = np.arange(1, 7).reshape(2,3)
print(a,a.shape)
a1 = np.concatenate([a,a], axis=0)
print(a1,a1.shape)
a2 = np.concatenate([a,a], axis=1)
print(a2,a2.shape)
```

In [None]:
a = np.arange(1,7).reshape(2,3)
print(a,a.shape)

a1 = np.concatenate([a,a], axis=0)
print(a1, a1.shape)

a2 = np.concatenate([a,a], axis=1)
print(a2, a2.shape)

[[1 2 3]
 [4 5 6]] (2, 3)
[[1 2 3]
 [4 5 6]
 [1 2 3]
 [4 5 6]] (4, 3)
[[1 2 3 1 2 3]
 [4 5 6 4 5 6]] (2, 6)


#### **| 연습문제**

연습을 위해 아래와 같이 3차원 배열을 생성하세요 

```
a = np.arange(12).reshape(2,2,3)
b = np.arange(100,106).reshape(1,2,3)
print(a, a.shape)
print(b, b.shape)
```

In [None]:
a = np.arange(12).reshape(2,2,3)
b = np.arange(100,106).reshape(1,2,3)
print(a,a.shape)
print(b,b.shape)

[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]] (2, 2, 3)
[[[100 101 102]
  [103 104 105]]] (1, 2, 3)


**연습 01**

`concatenate`를 이용해 아래와 같은 배열을 출력하세요.

```
array([[[ 0,  1,  2,  0,  1,  2],
        [ 3,  4,  5,  3,  4,  5]],

       [[ 6,  7,  8,  6,  7,  8],
        [ 9, 10, 11,  9, 10, 11]]])
```

함수	설명
np.append(a1,a2)	a1에 a2를 결합
np.concatenate([a1, a2, a3 ...])	배열 리스트를 모두 결합
np.stack([a1, a2, a3 ...])	배열을 쌓습니다.
np.hstack([a1, a2, a3 ...])	배열을 수평으로 쌓습니다.
np.vstack([a1, a2, a3 ...])	배열을 수직으로 쌓습니다.
np.dtack([a1, a2, a3 ...])	배열을 새로운 방향으로 쌓습니다.


In [None]:
# (2,2,3) -> (2,2,6)
np.concatenate([a,a],axis=2)

array([[[ 0,  1,  2,  0,  1,  2],
        [ 3,  4,  5,  3,  4,  5]],

       [[ 6,  7,  8,  6,  7,  8],
        [ 9, 10, 11,  9, 10, 11]]])

**연습 02**

`concatenate`를 이용해 아래와 같은 배열을 출력하세요.

```
array([[[100, 101, 102],
        [103, 104, 105],
        [100, 101, 102],
        [103, 104, 105]]])
```

In [None]:
# (1,2,3) -> (1,4,3)
np.concatenate([b,b], axis=1)

array([[[100, 101, 102],
        [103, 104, 105],
        [100, 101, 102],
        [103, 104, 105]]])

**연습 03**

`concatenate`를 이용해 아래와 같은 배열을 출력하세요.

```
array([[[100, 101, 102],
        [103, 104, 105]],

       [[  0,   1,   2],
        [  3,   4,   5]],

       [[  6,   7,   8],
        [  9,  10,  11]],

       [[100, 101, 102],
        [103, 104, 105]]])
```

In [None]:
# b(1,2,3) a(2,2,3) b(1,2,3) ->(b,a,b)(4,2,3)
np.concatenate([b,a,b],axis=0)

array([[[100, 101, 102],
        [103, 104, 105]],

       [[  0,   1,   2],
        [  3,   4,   5]],

       [[  6,   7,   8],
        [  9,  10,  11]],

       [[100, 101, 102],
        [103, 104, 105]]])

---
### **(3) 배열 분할**
---

분할은 `split`함수를 이용합니다. `split`함수의 `axis`를 이용해서 어느 축으로 분할 할지 정의할 수 있습니다. 한쪽 방향으로만 분할하는 `vsplit`과 `hsplit`이 존재하며 상황에 따라 적절히 사용할 수 있습니다.

* `np.split(a, [n1, n2, ...], axis=axis)` : `axis` 방향으로 배열 `a`를 `n1`.. 기점에서 분할 합니다 .

* `np.vsplit(a, [n1, n2, ...])`: 수직 방향으로 배열 `a`를 `n1`.. 기점에서 분할 합니다 .

* `np.hsplit(a, [n1, n2, ...])` : 수평 방향으로 배열 `a`를 `n1`.. 기점에서 분할 합니다 .

아래 그림을 보고 `split` 코드를 작성해 봅시다.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-04.png?raw=true width=380>
</p>



* 배열 `a`를 생성합니다.

```
a =np.arange(1,13).reshape(4,3)
a, a.shape
```

In [None]:
a = np.arange(1,13).reshape(4,3)
a,a.shape

(array([[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9],
        [10, 11, 12]]), (4, 3))

* 수직방향으로 분할해 봅니다.

```
a1, a2 = np.split(a, [1], axis=0)
print(a1)
print(a2)
a1, a2 = np.vsplit(a, [1])
print(a1)
print(a2)
```

In [None]:
a1, a2 = np.split(a, [1], axis=0)
print(a1)
print(a2)
print('--------------')
a1, a2 = np.vsplit(a, [1])
print(a1)
print(a2)

[[1 2 3]]
[[ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
--------------
[[1 2 3]]
[[ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


* 수평 방향으로 분할해 봅니다.

```
a1, a2 = np.split(a, [2], axis=1)
print(a1)
print(a2)
a1, a2 = np.hsplit(a, [2])
print(a1)
print(a2)
```

In [None]:
a1, a2 = np.split(a, [2], axis=1)
print(a1)
print(a2)
a1, a2 = np.hsplit(a, [2])
print(a1)
print(a2)

[[1 2]
 [4 5]]
[[3]
 [6]]
[[1 2]
 [4 5]]
[[3]
 [6]]


In [None]:
a1, a2,a3 = np.split(a, [1,2], axis=1)   # a.shape(4,3) -> (4,1)/(4,1)/(4,1)
print(a1)
print(a2)
print(a3)
print(' ')
print('--------------')
print(' ')
a1, a2 = np.hsplit(a, [2])
print(a1)
print(a2)

[[ 1]
 [ 4]
 [ 7]
 [10]]
[[ 2]
 [ 5]
 [ 8]
 [11]]
[[ 3]
 [ 6]
 [ 9]
 [12]]
 
--------------
 
[[ 1  2]
 [ 4  5]
 [ 7  8]
 [10 11]]
[[ 3]
 [ 6]
 [ 9]
 [12]]


## 문제풀이
---


**예제 01**

모든 요소가 1이고 `(3,3,2)`  `shape`를 가지는 3차원 배열을 생성하고 `a01`로 바인딩하세요. 이 배열과 배열의 형태를 출력하세요.



In [None]:
a01 = np.ones(18).reshape(3,3,2)
a01, a01.shape

(array([[[1., 1.],
         [1., 1.],
         [1., 1.]],
 
        [[1., 1.],
         [1., 1.],
         [1., 1.]],
 
        [[1., 1.],
         [1., 1.],
         [1., 1.]]]), (3, 3, 2))

**예제 02**

`a01`을  `shape`가 `(3,6)`인 2차원 배열로 바꾸고 배열과 배열의  `shape`를 출력하세요.

In [None]:
a01=a01.reshape((3,6))
a01, a01.shape

(array([[1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.]]), (3, 6))

**예제 03**

`a01`을 transpose 하고 배열과 배열의  `shape`를 출력하세요.

In [None]:
a01=a01.T 
a01, a01.shape

(array([[1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.]]), (3, 6))

**예제 04**

`a01`의 `shape`를 늘려 `(3,8)`인 2차원 배열로 변경하고 배열과 배열의  `shape`를 출력하세요. 어떤 일이 일어나는지 간단히 설명하세요.

In [None]:
a01=np.resize(a01,(3,8))
a01, a01.shape

(array([[1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1.]]), (3, 8))

**예제 05**

`a01`의 `shape`를 `expand_dims`를 이용해 `(1,3,8)`인 3차원 배열로 변경하고  배열과 배열의  `shape`를 출력하세요.

In [None]:
a01 = np.expand_dims(a01,0)
a01, a01.shape

(array([[[1., 1., 1., 1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1., 1., 1., 1.]]]), (1, 3, 8))

아래 그림과 같은 2차원 배열 `a`, `b`, `c`를  생성하세요

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-05.png?raw=true width=360>
</p>


In [None]:
a=np.ones(6).reshape(3,2)
print(a)

b = np.full((3,1),2)
print(b)

c = np.full((2,2),3)
print(c)

[[1. 1.]
 [1. 1.]
 [1. 1.]]
[[2]
 [2]
 [2]]
[[3 3]
 [3 3]]


**예제 06**

`a`와 `b`를 합쳐 `shape`가 `(3,3)`인 배열을 만드세요.

In [None]:
d =np.concatenate([a,b],axis=1)
print(d), d.shape

[[1. 1. 2.]
 [1. 1. 2.]
 [1. 1. 2.]]


(None, (3, 3))

**예제 07**


`a`와 `c`를 합쳐 `shape`가 `(5,2)`인 배열을 만드세요.

In [None]:
print(a)
print(c)
e = np.concatenate([a,c],axis=0)
e.reshape((5,2))
e.shape

[[1. 1.]
 [1. 1.]
 [1. 1.]]
[[3 3]
 [3 3]]


(5, 2)

**예제 08**


`a`,`b`, `a` 를 합쳐 `shape`가 `(3,5)`인 배열을 만들고 `a08`로 바인딩하세요.

In [None]:
print(a)
print(b)
a08 = np.concatenate([a,b,a],axis=1)
a08, a08.shape

[[1. 1.]
 [1. 1.]
 [1. 1.]]
[[2]
 [2]
 [2]]


(array([[1., 1., 2., 1., 1.],
        [1., 1., 2., 1., 1.],
        [1., 1., 2., 1., 1.]]), (3, 5))

**예제 09**

`a08`을 세개의 배열 `[1,1,2,1,1]`가 나오도록 분할하세요.

In [None]:
a08 = np.split(a08,[1,2], axis=0)
a08

[array([[[[[[[1., 1., 2., 1., 1.]]]]]]]),
 array([[[[[[[1., 1., 2., 1., 1.]]]]]]]),
 array([[[[[[[1., 1., 2., 1., 1.]]]]]]])]

**예제 10**

아래 그림을 설명하는 코드를 차례대로 작성하세요.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-06.png?raw=true width=300>
</p>


In [None]:
a =np.array([[0,1,2],[3,4,5]])
a.T

array([[0, 3],
       [1, 4],
       [2, 5]])

**예제 11**


아래 그림을 설명하는 코드를 차례대로 작성하세요.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-07.png?raw=true width=300>
</p>


In [None]:
a = np.array([[0,1,2],[3,4,5],[6,7,8],[9,10,11]])
b = np.array([[0,1,2],[3,4,5],[9,10,11], [6,7,8]])
b

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 9, 10, 11],
       [ 6,  7,  8]])

**예제 12**


아래 그림을 설명하는 코드를 차례대로 작성하세요.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-08.png?raw=true width=560>
</p>


In [None]:
a = np.array([[0,1,2],[3,4,5]])
b = np.array([[6,7,8],[9,10,11]])
c = np.concatenate([a,b],axis=1)
print(c)
d= a.T
e=b.T
f = np.concatenate([d,e],axis=1)
print(f)

[[ 0  1  2  6  7  8]
 [ 3  4  5  9 10 11]]
[[ 0  3  6  9]
 [ 1  4  7 10]
 [ 2  5  8 11]]


**예제 13**

아래 그림을 설명하는 코드를 차례대로 작성하세요.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-09.png?raw=true width=440>
</p>

In [None]:
a = np.array([[0,1],[2,3]])
b = np.array([[4,5],[6,7]])
a.reshape(1,2,2)
b.reshape(1,2,2)
c = np.concatenate([a,b],axis=0)
c = np.array(c).reshape(2,2,2)
c

array([[[0, 1],
        [2, 3]],

       [[4, 5],
        [6, 7]]])

**예제 14**

아래 그림을 설명하는 코드를 차례대로 작성하세요.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-10.png?raw=true width=440>
</p>

In [None]:
a = np.array([[0,1],[2,3]])
b =np.array([[4,5],[6,7]])
a = a.reshape(2,1,2)
b = b.reshape(2,1,2)
print(a)
print(b)
c = np.concatenate([a,b], axis=1)
c

[[[0 1]]

 [[2 3]]]
[[[4 5]]

 [[6 7]]]


array([[[0, 1],
        [4, 5]],

       [[2, 3],
        [6, 7]]])

**예제 15**


아래 그림을 설명하는 코드를 차례대로 작성하세요. 여기서 알수 있는 사실을 간단히 정리하세요.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-11.png?raw=true width=240>
</p>

In [None]:
a = np.array([0,1,2]).reshape(3,1)
b = np.array([3,4,5]).reshape(3,1)
c = np.concatenate([a,b],axis=1)
c

array([[0, 3],
       [1, 4],
       [2, 5]])