# CH04 Numpy  - 배열의 구조 다루기

---
* 날짜:
* 이름:


## 개념정리

데이터 분석에 있어서 배열에 담긴 데이터만큼 중요한 것이 배열의 구조입니다. 특히 머신러닝, 딥러닝에서는 데이터의 선형변환이 주가 되기 때문에 이 과정에서 데이터의 형태 변형이 많이 이루어 집니다. 이번 시간에는 배열의 형태를 변경하고 연결하고, 분할 하는 여러 방법들을 알아보도록 합니다. 

```
import numpy as np
```




In [1]:
import numpy as np

---
### **(1) 형태 변경**
---


#### **| 형태 직접 변경**

* `a.reshape(shape)` : `shape` 형태로 변경한 배열을 반환합니다.
* `a.resize(shape)` : 배열 `a`를 `shape` 형태로 변경합니다. 사이즈가 기존보다 크면 값을 0으로 채우고, 작으면 값이 삭제됩니다.

`.reshape`는 기존 배열과 변경할 배열의 총 크기가 같아야 하지만 `.resize`는 같을 필요가 없습니다. 다만 `..resize`는 값이 임의로 변경되니 사용에 주의해야 합니다.

또한 `reshape`는 기존배열을 보존하고 `resize`는 기존배열을 바로 변경합니다.

```
a = np.arange(10)
a.resize((5,3))
print(a)
a1=a.reshape((3,5))
print(a1)
```

In [6]:
a = np.arange(10)
a.resize((5,3))   #바로변경
print(a)
a1=a.reshape((3,5))  #a를 바탕으로 reshape된 a1을 생성
print(a1)

[[0 1 2]
 [3 4 5]
 [6 7 8]
 [9 0 0]
 [0 0 0]]
[[0 1 2 3 4]
 [5 6 7 8 9]
 [0 0 0 0 0]]


#### **| 형태 간접 변경**

* `np.swapaxes(a, axis1, axis2 )` : 배열 `a`의 두 축 (`axis1`, `axis2`)를 교환합니다.
* `.T` : 배열의 차원을 전치(transpose) 합니다.



`swapaxes`로 데이터의 성질을 그대로 보존하면서 형태를 변경할 수 있습니다. 

```
a = np.arange(24).reshape(2,3,4)
print(a, a.shape)

a=np.swapaxes(a, 0,1)
print(a, a.shape)
```

In [9]:
a = np.arange(24).reshape(2,3,4)
print(a, a.shape)

a=np.swapaxes(a, 0,2)  # shape 좌표에서 맨 앞부터 0, 1, 2 이런식
print(a, a.shape)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]] (2, 3, 4)
[[[ 0 12]
  [ 4 16]
  [ 8 20]]

 [[ 1 13]
  [ 5 17]
  [ 9 21]]

 [[ 2 14]
  [ 6 18]
  [10 22]]

 [[ 3 15]
  [ 7 19]
  [11 23]]] (4, 3, 2)


여기서 데이터의 성질을 보존한다는 것은 무엇을 뜻할까요? 

안과에 방문한 어린이들의 나이와 시력을 정리한 데이터가 아래와 같이 저장되어 있다고 합시다.


<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-01.png?raw=true width=200>
</p>


```
ds = np.array([[10, 0.5],
               [8, 0.8],
               [12, 0.4],
               [7, 0.7]])
print(ds, ds.shape)
```




In [10]:
ds = np.array([[10, 0.5],
               [8, 0.8],
               [12, 0.4],
               [7, 0.7]])
print(ds, ds.shape)

[[10.   0.5]
 [ 8.   0.8]
 [12.   0.4]
 [ 7.   0.7]] (4, 2)



이 데이터의 형태를 데이터 성질을 유지하면서 변환하려면 아래와 같은 결과가 되어야 하겠지요

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-02.png?raw=true width=320>
</p>


이를 `swapaxes`와 `reshape`로 번형하고 결과를 비교해 보겠습니다.

```
ds1 = np.reshape(ds, (2,4))
print(ds1, ds1.shape)

ds2 = np.swapaxes(ds, 0,1)
print(ds2, ds2.shape)
```

In [50]:
ds1 = np.reshape(ds, (2,4))  #ds1=ds.reshape((2,4)) 도가능
print(ds1, ds1.shape)

ds2 = np.swapaxes(ds, 0,1)
print(ds2, ds2.shape)

[[10.   0.5  8.   0.8]
 [12.   0.4  7.   0.7]] (2, 4)
[[10.   8.  12.   7. ]
 [ 0.5  0.8  0.4  0.7]] (2, 4)


`reshape`를 사용한 결과는 데이터의 성질이 엉망이 되어버린 반면, `swapaxes`를 사용한 결과는 우리가 원하는대로 데이터의 성질이 잘 보존된 것을 볼 수 있습니다. 

2차원 배열에서는 전치(transpose)도 같은 결과가 나옵니다. 

```
a.T, a.T.shape
```

In [12]:
a.T, a.T.shape

(array([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],
 
        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]]), (2, 3, 4))

이제 데이터의 성질을 보존한다는 것이 무엇인지 감이 오셨나요? 우리가 다루게 될 데이터는 각 차원에 따라 데이터의 값이 유의미하게 담겨져 있기 때문에 데이터 형태 변환 시 주의해서 때에 따라 적절한 함수를 사용해야 합니다. 

* `np.expand_dims(a, axis)` : 축 axis에 차원을 추가합니다.

데이터 분석에서 유용히 쓰이는 함수가 바로 `np.expand_dim` 입니다. 개수와 값이 똑같은 데이터라도 1차원, 2차원, 3차원까지 변경할 수 있습니다. 

```
a = np.arange(5)
print(a, a.shape)
a = np.expand_dims(a,1) 
print(a, a.shape)
a = np.expand_dims(a,2)
print(a, a.shape)
```

In [13]:
a = np.arange(5)
print(a, a.shape)
a = np.expand_dims(a,1) 
print(a, a.shape)
a = np.expand_dims(a,2)
print(a, a.shape)

[0 1 2 3 4] (5,)
[[0]
 [1]
 [2]
 [3]
 [4]] (5, 1)
[[[0]]

 [[1]]

 [[2]]

 [[3]]

 [[4]]] (5, 1, 1)


---
### **(2) 배열 쌓기**
---

| 함수 | 설명 |
|--|--|
| `np.append(a1,a2)` | `a1`에 `a2`를 결합|
| `np.concatenate([a1, a2, a3 ...])` | 배열 리스트를 모두 결합|
| `np.stack([a1, a2, a3 ...])` | 배열을 쌓습니다. |
| `np.hstack([a1, a2, a3 ...])` | 배열을 수평으로 쌓습니다. |
| `np.vstack([a1, a2, a3 ...])` | 배열을 수직으로 쌓습니다. |
| `np.dtack([a1, a2, a3 ...])` | 배열을 새로운 방향으로 쌓습니다. |

배열과 배열을 결합하는 함수는 여러개가 있습니다. 사실 어떻게 사용하냐에 각 함수가 똑같은 결과를 도출할 수도 있습니다. 이번 수업에서는 `concatenate`를 사용해 배열을 쌓아보도록 하겠습니다.

아래 그림을 보고 `concatenate` 코드를 작성해 봅시다.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-03.png?raw=true width=680>
</p>

```
a = np.arange(1, 7).reshape(2,3)
print(a,a.shape)
a1 = np.concatenate([a,a], axis=0)
print(a1,a1.shape)
a2 = np.concatenate([a,a], axis=1)
print(a2,a2.shape)
```

In [15]:
a = np.arange(1, 7).reshape(2,3)
print(a,a.shape)
a1 = np.concatenate([a,a], axis=0)
print(a1,a1.shape)
a2 = np.concatenate([a,a], axis=1)
print(a2,a2.shape)

[[1 2 3]
 [4 5 6]] (2, 3)
[[1 2 3]
 [4 5 6]
 [1 2 3]
 [4 5 6]] (4, 3)
[[1 2 3 1 2 3]
 [4 5 6 4 5 6]] (2, 6)


#### **| 연습문제**

연습을 위해 아래와 같이 3차원 배열을 생성하세요 

```
a = np.arange(12).reshape(2,2,3)
b = np.arange(100,106).reshape(1,2,3)
print(a, a.shape)
print(b, b.shape)
```

In [16]:
a = np.arange(12).reshape(2,2,3)
b = np.arange(100,106).reshape(1,2,3)
print(a, a.shape)
print(b, b.shape)

[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]] (2, 2, 3)
[[[100 101 102]
  [103 104 105]]] (1, 2, 3)


**연습 01**

`concatenate`를 이용해 아래와 같은 배열을 출력하세요.

```
array([[[ 0,  1,  2,  0,  1,  2],
        [ 3,  4,  5,  3,  4,  5]],

       [[ 6,  7,  8,  6,  7,  8],
        [ 9, 10, 11,  9, 10, 11]]])
```

In [34]:
a1 = np.concatenate([a,a], axis=2)
print(a1, a1.shape)


[[[ 0  1  2  0  1  2]
  [ 3  4  5  3  4  5]]

 [[ 6  7  8  6  7  8]
  [ 9 10 11  9 10 11]]] (2, 2, 6)


**연습 02**

`concatenate`를 이용해 아래와 같은 배열을 출력하세요.

```
array([[[100, 101, 102],
        [103, 104, 105],
        [100, 101, 102],
        [103, 104, 105]]])
```

In [24]:
b1 = np.concatenate([b,b], axis=1)
print(b1, b1.shape)

[[[100 101 102]
  [103 104 105]
  [100 101 102]
  [103 104 105]]] (1, 4, 3)


**연습 03**

`concatenate`를 이용해 아래와 같은 배열을 출력하세요.

```
array([[[100, 101, 102],
        [103, 104, 105]],

       [[  0,   1,   2],
        [  3,   4,   5]],

       [[  6,   7,   8],
        [  9,  10,  11]],

       [[100, 101, 102],
        [103, 104, 105]]])
```

In [28]:
c = np.concatenate([b,a,b], axis=0)
print(c, c.shape)

[[[100 101 102]
  [103 104 105]]

 [[  0   1   2]
  [  3   4   5]]

 [[  6   7   8]
  [  9  10  11]]

 [[100 101 102]
  [103 104 105]]] (4, 2, 3)


---
### **(3) 배열 분할**
---

분할은 `split`함수를 이용합니다. `split`함수의 `axis`를 이용해서 어느 축으로 분할 할지 정의할 수 있습니다. 한쪽 방향으로만 분할하는 `vsplit`과 `hsplit`이 존재하며 상황에 따라 적절히 사용할 수 있습니다.

* `np.split(a, [n1, n2, ...], axis=axis)` : `axis` 방향으로 배열 `a`를 `n1`.. 기점에서 분할 합니다 .

* `np.vsplit(a, [n1, n2, ...])`: 수직 방향으로 배열 `a`를 `n1`.. 기점에서 분할 합니다 .

* `np.hplit(a, [n1, n2, ...])` : 수평 방향으로 배열 `a`를 `n1`.. 기점에서 분할 합니다 .

아래 그림을 보고 `split` 코드를 작성해 봅시다.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-04.png?raw=true width=380>
</p>



* 배열 `a`를 생성합니다.

```
a =np.arange(1,13).reshape(4,3)
a, a.shape
```

In [35]:
a =np.arange(1,13).reshape(4,3)
a, a.shape

(array([[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9],
        [10, 11, 12]]), (4, 3))

* 수직방향으로 분할해 봅니다.

```
a1, a2 = np.split(a, [1], axis=0)
print(a1)
print(a2)
a1, a2 = np.vsplit(a, [1])
print(a1)
print(a2)
```

In [40]:
a1, a2 = np.split(a, [2], axis=0)
print(a1)
print(a2)
a1, a2 = np.vsplit(a, [1])
print(a1)
print(a2)

[[1 2 3]
 [4 5 6]]
[[ 7  8  9]
 [10 11 12]]
[[1 2 3]]
[[ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


* 수평 방향으로 분할해 봅니다.

```
a1, a2 = np.split(a, [2], axis=1)
print(a1)
print(a2)
a1, a2 = np.hsplit(a, [2])
print(a1)
print(a2)
```

In [44]:
a1, a2 = np.split(a, [2], axis=1)
print(a1)
print(a2)

[[ 1  2]
 [ 4  5]
 [ 7  8]
 [10 11]]
[[ 3]
 [ 6]
 [ 9]
 [12]]


## 문제풀이
---


**예제 01**

모든 요소가 1이고 `(3,3,2)`  `shape`를 가지는 3차원 배열을 생성하고 `a01`로 바인딩하세요. 이 배열과 배열의 형태를 출력하세요.



In [93]:
a01 = np.ones(18).reshape((3,3,2))
a01, a01.shape

(array([[[1., 1.],
         [1., 1.],
         [1., 1.]],
 
        [[1., 1.],
         [1., 1.],
         [1., 1.]],
 
        [[1., 1.],
         [1., 1.],
         [1., 1.]]]), (3, 3, 2))

**예제 02**

`a01`을  `shape`가 `(3,6)`인 2차원 배열로 바꾸고 배열과 배열의  `shape`를 출력하세요.

In [94]:
a01 = a01.reshape((3,6))
a01, a01.shape

(array([[1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.]]), (3, 6))

**예제 03**

`a01`을 transpose 하고 배열과 배열의  `shape`를 출력하세요.

In [95]:
at = a01.T
at, at.shape

(array([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]]), (6, 3))

**예제 04**

`a01`의 `shape`를 늘려 `(3,8)`인 2차원 배열로 변경하고 배열과 배열의  `shape`를 출력하세요. 어떤 일이 일어나는지 간단히 설명하세요.

In [101]:
a01 = np.resize(a01, (3,8))
a01, a01.shape


(array([[1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1.]]), (3, 8))

**예제 05**

`a01`의 `shape`를 `expand_dims`를 이용해 `(1,3,8)`인 3차원 배열로 변경하고  배열과 배열의  `shape`를 출력하세요.

In [102]:
a01 = np.expand_dims(a01, 0)
a01, a01.shape

(array([[[1., 1., 1., 1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1., 1., 1., 1.]]]), (1, 3, 8))

아래 그림과 같은 2차원 배열 `a`, `b`, `c`를  생성하세요

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-05.png?raw=true width=360>
</p>


In [114]:
a = np.ones(6).reshape(3,2)
b = np.full(3, 2).reshape(3,1)
c = np.full(4, 3).reshape(2,2)
print(f'{a}\n{b}\n{c}')

[[1. 1.]
 [1. 1.]
 [1. 1.]]
[[2]
 [2]
 [2]]
[[3 3]
 [3 3]]


**예제 06**

`a`와 `b`를 합쳐 `shape`가 `(3,3)`인 배열을 만드세요.

In [115]:
np.concatenate([a,b], axis=1)

array([[1., 1., 2.],
       [1., 1., 2.],
       [1., 1., 2.]])

**예제** **07** 


`a`와 `c`를 합쳐 `shape`가 `(5,2)`인 배열을 만드세요.

In [128]:
np.concatenate([a,c], axis=0)

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [3., 3.],
       [3., 3.]])

**예제 08**


`a`,`b`, `a` 를 합쳐 `shape`가 `(3,5)`인 배열을 만들고 `a08`로 바인딩하세요.

In [131]:
a08 = np.concatenate([a,b,a], axis=1)
a08, a08.shape

(array([[1., 1., 2., 1., 1.],
        [1., 1., 2., 1., 1.],
        [1., 1., 2., 1., 1.]]), (3, 5))

**예제 09**

`a08`을 세개의 배열 `[1,1,2,1,1]`가 나오도록 분할하세요.

In [132]:
np.split(a08, [1, 2, 3], axis=0)

[array([[1., 1., 2., 1., 1.]]),
 array([[1., 1., 2., 1., 1.]]),
 array([[1., 1., 2., 1., 1.]]),
 array([], shape=(0, 5), dtype=float64)]

**예제 10**

아래 그림을 설명하는 코드를 차례대로 작성하세요.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-06.png?raw=true width=300>
</p>


In [149]:
k = np.arange(0, 6).reshape((2,3))
k = np.swapaxes(k, 0, 1)
k, k.shape


(array([[0, 3],
        [1, 4],
        [2, 5]]), (3, 2))

**예제 11**


아래 그림을 설명하는 코드를 차례대로 작성하세요.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-07.png?raw=true width=300>
</p>


In [157]:
k = np.arange(0, 12).reshape((4,3))
print(k)
k1, k2, k3 = np.split(k, [2, 3], axis=0)
k = np.concatenate([k1, k3, k2], axis=0)
print(k)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
[[ 0  1  2]
 [ 3  4  5]
 [ 9 10 11]
 [ 6  7  8]]


**예제 12**


아래 그림을 설명하는 코드를 차례대로 작성하세요.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-08.png?raw=true width=560>
</p>


In [165]:
k1 = np.arange(0, 6).reshape((2,3))
k2 = np.arange(6, 12).reshape((2,3))
k = np.concatenate([k1,k2], axis=1)
print(f'{k1}\n{k2}\n{k}')
k1 = np.swapaxes(k1, 0,1)
k2 = np.swapaxes(k2, 0,1)
k = np.concatenate([k1,k2], axis=1)
print(f'{k1}\n{k2}\n{k}')

[[0 1 2]
 [3 4 5]]
[[ 6  7  8]
 [ 9 10 11]]
[[ 0  1  2  6  7  8]
 [ 3  4  5  9 10 11]]
[[0 3]
 [1 4]
 [2 5]]
[[ 6  9]
 [ 7 10]
 [ 8 11]]
[[ 0  3  6  9]
 [ 1  4  7 10]
 [ 2  5  8 11]]


**예제 13**

아래 그림을 설명하는 코드를 차례대로 작성하세요.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-09.png?raw=true width=440>
</p>

In [181]:
k1 = np.arange(0, 4).reshape((2,2))
k2 = np.arange(4, 8).reshape((2,2))
k3 = np.expand_dims(k1, 0)
k4 = np.expand_dims(k2, 0)
k = np.concatenate([k3,k4], axis=0)
print(k1, k1.shape, "\n", k3, k3.shape, "\n", k2, k2.shape, "\n", k4, k4.shape, "\n\n\n\n", k, k.shape)


[[0 1]
 [2 3]] (2, 2) 
 [[[0 1]
  [2 3]]] (1, 2, 2) 
 [[4 5]
 [6 7]] (2, 2) 
 [[[4 5]
  [6 7]]] (1, 2, 2) 



 [[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]] (2, 2, 2)


**예제 14**

아래 그림을 설명하는 코드를 차례대로 작성하세요.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-10.png?raw=true width=440>
</p>

In [184]:
k1 = np.arange(0, 4).reshape((2,2))
k2 = np.arange(4, 8).reshape((2,2))
print(k1, k1.shape, "\n\n", k2, k2.shape, "\n\n")
k1.resize(2,1,2)
k2.resize(2,1,2)
print(k1, k1.shape, "\n\n", k2, k2.shape, "\n\n")
k = np.concatenate([k1,k2], axis=1)
print(k, k.shape)


[[0 1]
 [2 3]] (2, 2) 

 [[4 5]
 [6 7]] (2, 2) 


[[[0 1]]

 [[2 3]]] (2, 1, 2) 

 [[[4 5]]

 [[6 7]]] (2, 1, 2) 


[[[0 1]
  [4 5]]

 [[2 3]
  [6 7]]] (2, 2, 2)


**예제 15**


아래 그림을 설명하는 코드를 차례대로 작성하세요. 여기서 알수 있는 사실을 간단히 정리하세요.

<p align='center'>
<img src=https://github.com/yebiny/SkillTreePython-DataAnalysis/blob/main/imgs/ch0104-11.png?raw=true width=240>
</p>

In [208]:
a = np.arange(3)
b = np.arange(3, 6)
print(a, b)
a = np.expand_dims(a, 1)
b = np.expand_dims(b, 1)
np.concatenate([a,b], axis=-1)

[0 1 2] [3 4 5]


array([[0, 3],
       [1, 4],
       [2, 5]])

In [207]:
a = np.arange(3)
b = np.arange(3, 6)
print(a, b)
a = np.arange(3).reshape((1,3))
b = np.arange(3, 6).reshape((1,3))
c = np.swapaxes(a, 0,1)
d = np.swapaxes(b, 0,1)
np.concatenate([c,d], axis=-1)

[0 1 2] [3 4 5]


array([[0, 3],
       [1, 4],
       [2, 5]])