<a href="https://colab.research.google.com/github/hajonghyun/inflearn_Numpy_Basic_for_ds/blob/main/5_N%EC%B0%A8%EC%9B%90%EB%B0%B0%EC%97%B4%ED%98%95%ED%83%9C%EB%B3%80%EA%B2%BD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---
#Section5. N차원 배열의 형태 변경
### 배열의 shape를 변형하고 차원을 확장, 축소하는 방법을 다룬다.
---

## 5-1. 배열의 형태 변경1: reshape()

In [None]:
import numpy as np

In [None]:
arr = np.arange(12)
print(arr)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [None]:
arr = arr.reshape([3,4])
print(arr)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


### ✅ 배열 크기 형식 정리 (2, 3) vs [2, 3]
- 대부분의 NumPy 함수에서 배열 크기(shape)를 지정할 때는 **(2, 3) 튜플**을 사용
- 일부 함수에서 크기 정보로 리스트 [2, 3]을 허용하기도 함
- 일반적으로 배열의 shape(형태)을 지정하는 경우 튜플 (2, 3)이 기본적인 선택! 🚀

In [None]:
arr = arr.reshape((2,6))
print(arr)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]


In [None]:
arr = arr.reshape((3,-1))  # -1은 자동으로 계산되어 들어간다.
print(arr)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [None]:
arr = arr.reshape((2,3,2))
print(arr)

[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]


## Curse of dimensionality(차원의 저주) 란?

- 차원이 커질수록 데이터가 희소해지고, 거리 계산이 어려워져 학습이 힘들어지는 현상!
- 이를 해결하려면 차원 축소 기법(PCA, Feature Selection 등)을 활용해야 한다.

### 🎯 차원의 저주

📌 1. 공간이 너무 커진다!
- 1차원에서는 점, 2차원에서는 평면, 3차원에서는 큐브(입체)로 표현.
- 그런데 차원이 100개라면? 데이터가 퍼질 공간이 너무 커져서 희소한 데이터 문제가 생김.
- 즉, 데이터 포인트들이 너무 멀리 떨어져 있어 학습이 어려워짐.
        
📌 2. 거리가 무의미해진다!

- 유클리드 거리(두 점 사이의 거리)는 고차원에서는 차이를 구분하기 어려움
- 예를 들어 2D에서는 가까운 점과 먼 점의 차이가 크지만, 100D에서는 모든 점이 비슷한 거리를 갖게 됨.
- 머신러닝에서 거리가 중요한 알고리즘(KNN, 클러스터링 등)에 큰 영향을 준다.

📌 3. 데이터가 부족해진다!

- 차원이 늘어나면 같은 밀도의 데이터를 유지하려면 기하급수적으로 더 많은 데이터가 필요.
- 하지만 현실적으로 데이터를 많이 확보하는 건 어려우므로, 학습이 잘 안 되는 문제가 발생.




---
## 5-2. 배열의 형태 변경2: resize(), ravel()

In [None]:
import numpy as np

arr = np.arange(12)
print(arr)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


## `np.reshape()` vs `np.resize()` 차이점

### 1. `np.reshape()`
- **원본 배열의 크기를 유지하면서** shape을 변경  
- **원본과 연결된 뷰(view)를 반환** (원본이 변경되면 reshaped 배열도 변경됨)  
- **새로운 shape에 맞지 않으면 오류 발생**  

❌ 주의: 배열 원소 개수가 맞지 않으면 오류 발생

### 2. `np.resize()`

- **원본 배열의 크기를 변경하면서** shape을 변경  
- **새로운 크기가 기존보다 크면 반복적으로 값 채움**  
- **새로운 배열을 반환 (원본과 독립적)**

### 3. 정리

| 함수 | 원본 변경 여부 | 원소 개수 맞아야 함 | 원본과 연결 여부 |
|------|--------------|----------------|---------------|
| `np.reshape()` | ❌ (새로운 배열 반환) | ✅ (맞아야 함) | ✅ (뷰 반환) |
| `np.resize()` | ❌ (새로운 배열 반환) | ❌ (맞지 않아도 됨) | ❌ (독립적) |

✅ **`np.reshape()`**: 원소 개수가 유지된 상태에서 shape을 변경할 때 사용  
✅ **`np.resize()`**: 크기를 조정하고 부족한 부분을 반복해서 채울 때 사용  

In [None]:
arr.resize(3,4)
print(arr)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


### numpy.ravel
- NumPy 라이브러리에서 배열을 1차원으로 펼치는 기능
- 원본 배열을 직접 바꾸지 않고 새로운 1D 배열을 반환함 (대부분의 경우 ravel()은 뷰를 반환하지만, 원본 배열이 연속적이지 않다면 복사본을 반환)

In [None]:
print(arr.ravel())

[ 0  1  2  3  4  5  6  7  8  9 10 11]


---
## 5-3. 배열의 형태 변경3: expand_dims(), squeeze()

---
---
# 중요!!!

axis에대한 이해

## 축 개념 이해하기



**axis는 단지 가장 바깥 리스트에서 안쪽리스트 순으로 0부터 이름을 붙인 것입니다.**



예를들어



[[1,2,3],[4,5,6]]



라는 배열이 있다고 합시다.



axis0 은 [1,2,3]->[4,5,6] 로 진행되는 요소입니다.

axis1 은 1->2->3 또는 4->5->6으로 진행되는 요소입니다.



axis0을 행방향(위->아래), axis1을 열방항(좌->우)로 해석할 수도 있지만 굳이 그러지 않아도 상관 없습니다.



차원을 하나 높여봅시다.



[ [[1,2],[3,4]] , [[5,6],[7,8]] ]


axis0은 [[1,2],[3,4]] -> [[5,6],[7,8]]로 진행되는 요소입니다.

axis1은 [1,2] -> [3,4] 또는 [5,6] -> [7,8]로 진행되는 요소입니다.

axis2는 1->2 또는 3->4 또는 5->6 또는 7->8로 진행되는 요소입니다.
---

# 연산에서의 axis


이런 방식으로 이해한다면 차원이 4차원 이상 높아져도 축 개념을 잡을 수 있습니다. 일종의 축의 '추상화'인것이죠. 행렬개념으로 이해할 경우 4차원 이상에서 축개념을 잡을 수가 없습니다.

예를 들어 axis=0을 기준으로 연산을 한다면, axis=0에 해당하는 요소들끼리 연산을 하면 됩니다. sum을 예로 들면, [[1,2],[3,4]] + [[5,6],[7,8]] = [[6,8],[10,12]]

## 따라서 연산은 axis별 요소들끼리 연산을 하면 된다.
---

# expand dimension에서의 axis

np.expand(arr, axis=2) 이면,

예를들어 기존 arr의 shape이 (2,3,2,5)라고 해보자.

shape의 앞에서부터 axis는 0,1,2,3 이다.

## **axis=2이면, axis=2 자리에 차원을 확장시키는 것**임.

확장 후 arr의 shape는 (2,3,1,2,5) 이다.

---

참고 => https://pybasall.tistory.com/129

---
---

In [None]:
import numpy as np
arr = np.array([3,4])
print(arr)
print(arr.shape)

[3 4]
(2,)


In [None]:
brr= np.expand_dims(arr,axis=0)
print(brr)
brr.shape

[[3 4]]


(1, 2)

In [None]:
crr= np.expand_dims(arr,axis=1)
print(crr)
crr.shape

[[3]
 [4]]


(2, 1)

In [None]:
n_arr = np.array([[3,4],
                  [5,6]])
print(np.expand_dims(n_arr,axis=1))

[[[3 4]]

 [[5 6]]]


In [None]:
print(np.expand_dims(n_arr,axis=-1))

[[[3]
  [4]]

 [[5]
  [6]]]


In [None]:
print(n_arr.sum(axis=0))

[ 8 10]


# NumPy `squeeze()` 함수

`numpy.squeeze()` 함수는 배열(array)에서 크기가 1인 차원(dimension)을 제거하는 함수입니다.  
즉, 불필요한 단일 차원을 없애서 배열의 형태를 더 간결하게 만들어 줍니다.

## 📌 사용법
```python
numpy.squeeze(a, axis=None)
```

##🔹 매개변수
- a : 입력 배열
- axis (선택 사항) : 제거할 차원을 지정할 수 있음.
지정된 차원의 크기가 1이 아닐 경우 오류 발생.
- 반환값 : 크기가 1인 차원이 제거된 새로운 배열 (원본 배열은 변경되지 않음).


In [3]:
import numpy as np
#예제 1
arr = np.array([[1,2]])
print(arr, arr.shape, arr.ndim)

arr = np.squeeze(arr,axis=0)
print(arr, arr.shape, arr.ndim)

[[1 2]] (1, 2) 2
[1 2] (2,) 1


In [6]:
#예제 2
arr = np.array([[[1],
                 [2],
                 [3]]])
print(arr,arr.shape,arr.ndim)
arr = np.squeeze(arr, axis=2)
print(arr,arr.shape,arr.ndim)

[[[1]
  [2]
  [3]]] (1, 3, 1) 3
[[1 2 3]] (1, 3) 2


In [7]:
#예제 3
arr = np.array([[[1],
                 [2],
                 [3]]])
print(arr,arr.shape,arr.ndim)
arr = np.squeeze(arr)
print(arr,arr.shape,arr.ndim)

[[[1]
  [2]
  [3]]] (1, 3, 1) 3
[1 2 3] (3,) 1


---
## 5-4. 전치행렬 (Transpose)

In [10]:
import numpy as np
# 정방행렬
arr = np.array([[2,3],
                [4,5]])

In [11]:
# 방법 1
print(arr.T)
# 방법 2
print(np.transpose(arr))

[[2 4]
 [3 5]]
[[2 4]
 [3 5]]


In [12]:
# 비정방행렬
arr = np.array([[1,2],
                [3,4],
                [5,6]])
print(arr.T)

[[1 3 5]
 [2 4 6]]


In [18]:
# 내적으로 알아보는 전치행렬
arr1 = np.array([[1,2],
                 [3,4],
                 [5,6]])
arr2 = np.full((3,2),2)
# 내적
print(arr1.T.dot(arr2))
print(arr1.dot(arr2.T))

[[18 18]
 [24 24]]
[[ 6  6  6]
 [14 14 14]
 [22 22 22]]
