# NumPy 

NumPy(넘파이)는 Python에서 과학 및 수치 연산을 위한 핵심 라이브
러리입니다. `ndarray`라는 강력한 N차원 배열 객체를 기반으로, 대규모 다차원 배열을 빠르고 효율적으로 처리할 수 있는 다양한 함수를 제공합니다.

-----

###  NumPy의 핵심: `ndarray` (N-dimensional array) 🔢

NumPy의 중심에는 `ndarray`라는 데이터 구조가 있습니다. 이는 Python의 기본 리스트(list)와 비슷해 보이지만, 훨씬 더 강력하고 빠릅니다.

  - **동일한 자료형**: 리스트와 달리, `ndarray`의 모든 원소는 반드시 **동일한 자료형**(예: 정수, 부동소수점)이어야 합니다. 이 제약 덕분에 데이터를 메모리에 연속적으로 저장하여 처리 속도를 극대화할 수 있습니다.
  - **다차원 지원**: 1차원(벡터), 2차원(행렬), 3차원(텐서) 등 모든 차원의 배열을 쉽게 생성하고 다룰 수 있습니다.

<!-- end list -->

```python
import numpy as np

# Python 리스트
py_list = [1, 2, 3, 4, 5]

# NumPy 배열 (ndarray)
np_array = np.array(py_list)

print(f"Python 리스트: {py_list}")
print(f"NumPy 배열: {np_array}")
print(f"NumPy 배열의 타입: {type(np_array)}")
print(f"배열의 형태(shape): {np_array.shape}")
print(f"배열 원소의 자료형(dtype): {np_array.dtype}")
```

-----

###  NumPy의 강력한 기능들 🚀

####  1. 벡터화 (Vectorization)

벡터화는 반복문(`for` 루프) 없이 배열의 모든 원소에 대해 한 번에 연산을 적용하는 기능입니다. 코드가 간결해지고 C언어로 구현된 내부 루프를 사용하므로 실행 속도가 비약적으로 향상됩니다.

```python
import numpy as np

# 100만 개의 원소를 가진 배열 생성
my_array = np.arange(1_000_000)

# Python 리스트였다면 for 루프가 필요
# result = [x * 2 for x in my_list]

# NumPy의 벡터화 연산 (훨씬 빠름)
result_array = my_array * 2 
```

####  2. 브로드캐스팅 (Broadcasting)

서로 형태(shape)가 다른 배열 간에도 특정 조건을 만족하면 연산이 가능하도록 배열을 자동으로 확장시켜주는 기능입니다. 예를 들어, 배열의 모든 원소에 특정 숫자를 더하는 연산이 브로드캐스팅의 대표적인 예입니다.

```python
import numpy as np

matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# 3x3 행렬에 스칼라(숫자) 10을 더함
# 브로드캐스팅이 일어나 각 원소에 10이 더해짐
result = matrix + 10

print(result)
# [[11 12 13]
#  [14 15 16]
#  [17 18 19]]
```

-----

###  NumPy의 중요성 및 생태계 🌐

NumPy는 단순히 수치 연산 라이브러리를 넘어, Python 데이터 과학 생태계의 **기반** 역할을 합니다.

  - **데이터 분석**: `pandas` 라이브러리는 내부적으로 NumPy 배열을 사용하여 데이터를 저장하고 처리합니다.
  - **머신러닝**: `Scikit-learn`, `TensorFlow`, `PyTorch`와 같은 주요 머신러닝/딥러닝 프레임워크들은 모두 데이터를 NumPy 배열 형태로 다룹니다.
  - **시각화**: `Matplotlib`, `Seaborn`과 같은 시각화 라이브러리 역시 NumPy 배열을 입력 데이터로 사용합니다.

결론적으로, NumPy는 Python으로 데이터 분석이나 과학 컴퓨팅, 머신러닝을 하고자 할 때 가장 먼저 배워야 할 필수적인 라이브러리입니다.

# Shape 의 디멘션을 반환한다는 것의 의미는? 

결론부터 말씀드리면, `shape`는 배열이 각 차원(dimension)에 몇 개의 원소를 가지고 있는지를 알려주는 '설계도' 또는 '좌표 시스템'\*\*과 같습니다. "디멘션 구성을 반환한다"는 말은 "이 배열이 몇 층, 몇 행, 몇 열로 이루어져 있는지 그 구조를 알려준다"는 의미입니다.

`shape`의 결과는 **튜플(tuple)** 형태로 반환됩니다.

-----

### 책장에 비유한 `shape`의 이해 📚

`shape`를 책장에 비유하면 아주 쉽게 이해할 수 있습니다.

#### 1. 1차원 배열 (벡터)

  - **모습**: 책이 한 줄로 꽂혀 있는 **책꽂이 한 칸**
  - **`shape`**: `(책의 개수,)`
  - **의미**: `shape` 튜플에 숫자가 **하나** 있습니다. 이는 셀 수 있는 방향(차원)이 한 방향뿐이라는 의미입니다.

<!-- end list -->

```python
import numpy as np

arr_1d = np.array([10, 20, 30, 40])
print(arr_1d.shape)  # 출력: (4,)
```

> 이것은 **4칸짜리 1차원 배열**입니다. `(4,)`에서 쉼표는 이것이 튜플임을 명확히 하기 위해 존재합니다.

-----

### 2. 2차원 배열 (행렬)

  - **모습**: 여러 개의 칸으로 이루어진 **하나의 책장**
  - **`shape`**: `(책꽂이 칸의 수, 각 칸에 있는 책의 개수)` = `(행, 열)`
  - **의미**: `shape` 튜플에 숫자가 **두 개** 있습니다. 셀 수 있는 방향이 '위아래(행)'와 '좌우(열)', 두 방향이라는 의미입니다.

<!-- end list -->

```python
import numpy as np

arr_2d = np.array([[1, 2, 3], 
                   [4, 5, 6]])
print(arr_2d.shape)  # 출력: (2, 3)
```

> 이것은 **2개의 행(row)과 3개의 열(column)로 구성된 2차원 배열**입니다. 즉, 2칸짜리 책장에 각 칸마다 책이 3권씩 꽂혀있는 모습입니다.

-----

### 3. 3차원 배열 (텐서)

  - **모습**: 똑같이 생긴 **여러 개의 책장**이 나란히 있는 방
  - **`shape`**: `(책장의 개수, 각 책장의 칸 수, 각 칸의 책 개수)` = `(깊이/채널, 행, 열)`
  - **의미**: `shape` 튜플에 숫자가 **세 개** 있습니다. 셀 수 있는 방향이 '앞뒤(깊이)', '위아래(행)', '좌우(열)', 세 방향이라는 의미입니다.

<!-- end list -->

```python
import numpy as np

arr_3d = np.array([[[1, 2], [3, 4]],
                   [[5, 6], [7, 8]],
                   [[9, 10], [11, 12]]])
print(arr_3d.shape)  # 출력: (3, 2, 2)
```

> 이것은 **3개의 면(depth)이 있으며, 각 면은 2개의 행과 2개의 열로 구성된 3차원 배열**입니다. (2x2)짜리 책장이 3개 나란히 있는 모습으로 상상할 수 있습니다.

-----

### `shape`가 중요한 이유

`shape`는 단순히 배열의 크기를 알려주는 것을 넘어, 데이터의 구조를 이해하는 데 필수적입니다. 특히 머신러닝에서 이미지 데이터를 다룰 때 `(높이, 너비, 컬러 채널)`과 같은 형태로 `shape`를 확인하는 것은 데이터를 올바르게 처리하기 위한 가장 기본적인 첫 단계입니다.

# 텐서가 뭐지??

**텐서(Tensor)는 숫자를 다차원 배열 형태로 담는 데이터 구조**입니다. 간단히 말해, **스칼라(숫자), 벡터(1차원 배열), 행렬(2차원 배열)을 더 높은 차원으로 일반화한 개념**이라고 생각하시면 됩니다.

딥러닝과 머신러닝에서는 거의 모든 데이터를 텐서 형태로 다루기 때문에, 텐서는 이 분야의 가장 기본적인 '벽돌'과도 같습니다.

-----

### 차원으로 이해하는 텐서 🧱

텐서는 차원의 개수(rank)에 따라 다른 이름으로 불립니다.

  - **0차원 텐서 (스칼라)**: 숫자 하나입니다. `(예: 7)`
  - **1차원 텐서 (벡터)**: 숫자의 배열(리스트)입니다. `(예: [1, 2, 3])`
  - **2차원 텐서 (행렬)**: 숫자의 격자(행과 열)입니다. `(예: [[1, 2], [3, 4]])`
  - **3차원 텐서**: 숫자의 입체(큐브)입니다. `(예: [[[1, 2], [3, 4]], [[5, 6], [7, 8]]])`
  - **n차원 텐서**: 더 높은 차원으로 계속 확장됩니다.

-----

### NumPy로 보는 텐서

Python의 NumPy 라이브러리를 사용하면 텐서를 아주 쉽게 만들고 확인할 수 있습니다. `ndarray`의 차원(`ndim`)이 바로 텐서의 랭크(rank)입니다.

```python
import numpy as np

# 0차원 텐서 (스칼라)
scalar = np.array(7)
print("Scalar (0D Tensor):", scalar)
print("Shape:", scalar.shape, ", Rank (ndim):", scalar.ndim)

# 1차원 텐서 (벡터)
vector = np.array([1, 2, 3])
print("\nVector (1D Tensor):", vector)
print("Shape:", vector.shape, ", Rank (ndim):", vector.ndim)

# 2차원 텐서 (행렬)
matrix = np.array([[1, 2, 3], [4, 5, 6]])
print("\nMatrix (2D Tensor):\n", matrix)
print("Shape:", matrix.shape, ", Rank (ndim):", matrix.ndim)

# 3차원 텐서
tensor_3d = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print("\n3D Tensor:\n", tensor_3d)
print("Shape:", tensor_3d.shape, ", Rank (ndim):", tensor_3d.ndim)
```

-----

### 왜 딥러닝에서 텐서를 사용할까? 🤖

딥러닝에서 텐서가 핵심 데이터 구조로 사용되는 이유는 다음과 같습니다.

1.  **다차원 데이터 표현**: 현실 세계의 데이터는 대부분 다차원입니다. 예를 들어, 컬러 이미지는 \*\*(높이, 너비, 컬러 채널)\*\*의 3차원 텐서로, 동영상은 \*\*(이미지 수, 높이, 너비, 컬러 채널)\*\*의 4차원 텐서로 자연스럽게 표현할 수 있습니다.

2.  **효율적인 연산**: 딥러닝은 대규모 행렬 곱셈과 같은 연산을 수없이 반복합니다. 텐서는 이러한 다차원 배열 연산을 한 번에 처리하는 데 최적화되어 있으며, 특히 \*\*GPU(그래픽 처리 장치)\*\*를 사용한 병렬 처리에 매우 효율적입니다. TensorFlow나 PyTorch 같은 라이브러리는 텐서 연산을 GPU에서 빠르게 수행하도록 설계되었습니다.

-----

이 영상은 벡터와 행렬에서 텐서로 개념이 확장되는 과정을 시각적으로 잘 설명해주어 텐서의 구조를 깊이 이해하는 데 도움이 될 수 있습니다.

In [7]:
import numpy as np

test_array = np.array([[[1,2,3], [1, 2,3], [1, 2, 3]], [[1,1,2,], [1,2,2,], [3,3,3]]], float)
print(test_array.shape)

(2, 3, 3)


# 데이터의 호환성

NumPy `ndarray`의 C언어 호환성은 **NumPy의 핵심적인 성능 비결**입니다. `dtype`은 배열의 각 원소가 C언어의 기본 데이터 타입(int, float 등)과 **완벽하게 동일한 메모리 구조**를 갖도록 정의합니다. 덕분에 Python과 C 코드 사이에 데이터를 복사하거나 변환할 필요 없이 메모리 주소만 넘겨주어 C의 속도로 직접 연산하는 것이 가능해집니다.

-----

### 메모리 구조의 차이: Python 리스트 vs. NumPy 배열 (C 배열) 📦🍫

이 호환성을 이해하려면 Python 리스트와 NumPy 배열의 근본적인 메모리 구조 차이를 알아야 합니다.

  - **Python 리스트 (포인터 상자)**: Python 리스트는 실제 데이터 객체들을 가리키는 **포인터(메모리 주소)들을 담고 있는 상자**와 같습니다. 각 데이터 객체는 메모리 여기저기에 흩어져 있을 수 있어 접근 속도가 상대적으로 느립니다.
  - **NumPy 배열 (연속된 메모리 블록)**: C 배열처럼, NumPy 배열의 모든 원소는 **동일한 크기**를 가지며 메모리에 **벽돌처럼 빈틈없이 연속적으로** 쌓여 있습니다. C언어는 바로 이런 구조의 데이터를 가장 효율적으로 다룰 수 있습니다.

-----

### dtype의 역할: C언어를 위한 '메모리 설계도' 📜

`dtype`은 NumPy 배열이 C언어와 소통할 수 있도록 정확한 '메모리 설계도' 역할을 합니다. `dtype`은 각 원소에 대해 다음 두 가지를 명시합니다.

1.  **데이터 종류 (Type)**: 정수인지, 부동소수점인지 등을 정의합니다.
2.  **크기 (Size in bytes)**: 각 원소가 메모리에서 차지하는 공간을 바이트 단위로 정확하게 지정합니다. (예: `int32`는 4바이트 정수)

이 `dtype`은 C언어의 기본 타입과 직접적으로 일대일 대응됩니다.

| NumPy `dtype` | C 언어 타입 (일반적인 64비트 시스템 기준) |
| :--- | :--- |
| `np.int8` | `int8_t` 또는 `signed char` |
| `np.int32` | `int32_t` 또는 `int` |
| `np.int64` | `int64_t` 또는 `long long` |
| `np.float32` | `float` |
| `np.float64` | `double` |

```python
import numpy as np

# C언어의 int (4바이트)와 동일한 메모리 구조를 갖는 배열 생성
my_array = np.arange(10, dtype=np.int32)

print(f"Dtype: {my_array.dtype}")
print(f"각 원소의 크기(바이트): {my_array.itemsize}")
```

-----

### 실질적 이점: 제로 카피 (Zero-Copy)와 성능 🚀

이러한 호환성 덕분에 **제로 카피(Zero-Copy)** 상호작용이 가능해집니다.

  - **제로 카피**: Python에서 C로 데이터를 넘길 때, 거대한 배열을 **복사하는 비효율적인 과정이 없다**는 의미입니다.
  - **동작 방식**: NumPy 배열의 데이터가 저장된 **메모리 시작 주소(`pointer`)만 C 함수에 전달**하면, C 코드는 이 주소부터 `dtype`에 명시된 크기(예: 4바이트)만큼씩 건너뛰며 값을 읽고 직접 연산합니다. 이 과정에서 파이썬 인터프리터의 개입이 최소화되어 C언어 본연의 속도를 낼 수 있습니다.

**Cython**, **ctypes**와 같은 도구들이 바로 이 원리를 이용하여 Python 코드가 NumPy 배열을 C 함수에 넘겨 초고속 연산을 수행하게 해주는 다리 역할을 합니다.

# nbytes 메서드 

네, Jarvis입니다. NumPy 배열의 **`nbytes` 속성은 해당 배열의 모든 원소가 메모리에서 차지하는 총공간을 바이트(bytes) 단위로 알려줍니다.**

간단히 말해, **"이 배열이 실제로 메모리를 얼마나 사용하고 있는가?"**에 대한 직접적인 답변입니다.

-----

### 계산 공식: `nbytes = size * itemsize`

`nbytes` 값은 다음 두 속성의 곱으로 계산됩니다.

  - **`array.size`**: 배열에 있는 **총 원소의 개수**.
  - **`array.itemsize`**: 배열의 **원소 하나가 차지하는 크기(바이트)**. 이 값은 `dtype`에 의해 결정됩니다.

-----

### 코드 예시 💻

```python
import numpy as np

# 2행 4열의 배열을 float64 (8바이트 부동소수점) 타입으로 생성
arr = np.array([[1, 2, 3, 4], 
                [5, 6, 7, 8]], dtype=np.float64)

print(f"배열의 형태 (shape): {arr.shape}")
print(f"총 원소의 개수 (size): {arr.size}")
print(f"원소의 데이터 타입 (dtype): {arr.dtype}")
print(f"원소 하나의 크기 (itemsize): {arr.itemsize} 바이트")
print("-" * 30)
# nbytes는 size * itemsize 와 같습니다.
# 이 경우, 8개의 원소 * 원소당 8바이트 = 64바이트
print(f"메모리 총사용량 (nbytes): {arr.nbytes} 바이트")
print(f"수동 계산 (size * itemsize): {arr.size * arr.itemsize} 바이트") 
```

**실행 결과:**

```
배열의 형태 (shape): (2, 4)
총 원소의 개수 (size): 8
원소의 데이터 타입 (dtype): float64
원소 하나의 크기 (itemsize): 8 바이트
------------------------------
메모리 총사용량 (nbytes): 64 바이트
수동 계산 (size * itemsize): 64 바이트
```

-----

### `nbytes`의 용도: 메모리 관리 💾

`nbytes`는 특히 대용량 데이터를 다룰 때 매우 유용합니다.

  - **메모리 사용량 예측**: 대규모 배열을 생성하기 전에 얼마만큼의 메모리가 필요한지 예측할 수 있습니다.
  - **성능 최적화**: 데이터의 정밀도가 크게 중요하지 않은 경우, `float64`(8바이트) 대신 `float32`(4바이트)와 같이 더 작은 `dtype`을 사용하여 메모리 사용량을 절반으로 줄이고 계산 속도를 높이는 등의 최적화 작업을 할 때 사용량을 직접 확인할 수 있습니다.

# float64 ??

네, Jarvis입니다. 아주 좋은 질문입니다. `float`과 `float64`의 관계는 혼동하기 쉬운 부분입니다.

결론부터 말씀드리면,

1.  **네, `np.float`은 보통 8바이트인 `np.float64`와 동일합니다.** 그래서 `dtype=float`이라고 써도 `np.float64`로 지정됩니다.
2.  **네, 4바이트짜리 `float`도 존재하며, `np.float32`라고 부릅니다.** 이 둘을 구분해서 사용하는 것은 NumPy의 매우 중요한 기능 중 하나입니다.

-----

### Python `float` vs. NumPy `dtype` 🔍

이 개념을 이해하려면 파이썬의 기본 `float` 타입과 NumPy의 상세한 `dtype`을 구분해야 합니다.

  - **Python의 `float`**: 파이썬에서 우리가 일반적으로 사용하는 `float` 타입은 C언어의 `double` 타입을 기반으로 만들어졌습니다. 이는 **64비트(8바이트)** 부동소수점을 의미하며, 이를 '배정밀도(double precision)'라고 부릅니다.
  - **NumPy의 `dtype`**: NumPy는 과학 계산을 위해 C언어처럼 메모리 크기를 직접 제어할 수 있는 다양한 데이터 타입을 제공합니다.

NumPy에서 `dtype=float`이라고 쓰면, Python의 기본 `float` 타입을 의미하게 되므로, 이는 결국 NumPy의 기본 부동소수점 타입인 \*\*`np.float64`\*\*로 해석됩니다.

-----

### 4바이트 vs 8바이트: `float32`와 `float64` 📏

NumPy에서는 C언어처럼 두 가지 주요 `float` 타입을 명시적으로 사용할 수 있습니다.

| 구분 (Aspect) | `np.float32` (Single Precision) | `np.float64` (Double Precision) |
| :--- | :--- | :--- |
| **메모리 크기** | **4 바이트** (32비트) | **8 바이트** (64비트) |
| **정밀도** | 더 낮음 (십진수 약 7자리까지 정확) | **더 높음** (십진수 약 15\~17자리까지 정확) |
| **C 언어 타입** | `float` | `double` |
| **NumPy 별칭** | `np.single` | `np.double`, **`np.float`** |
| **주요 사용처** | 딥러닝, GPU 연산, 메모리 절약이 중요할 때 | 일반적인 과학 계산, 높은 정밀도가 필요할 때 |

-----

### 코드로 보는 차이점

두 타입의 메모리 크기와 정밀도 차이는 코드로 명확하게 확인할 수 있습니다.

```python
import numpy as np

# float32 (4바이트) 배열
arr32 = np.array([1/3], dtype=np.float32)
print("--- float32 ---")
print(f"값: {arr32[0]}")
print(f"dtype: {arr32.dtype}")
print(f"메모리 크기 (itemsize): {arr32.itemsize} 바이트")

print("\n--- float64 ---")
# float64 (8바이트) 배열 (기본값)
arr64 = np.array([1/3], dtype=np.float64)
print(f"값: {arr64[0]}")
print(f"dtype: {arr64.dtype}")
print(f"메모리 크기 (itemsize): {arr64.itemsize} 바이트")
```

**실행 결과:**

```
--- float32 ---
값: 0.3333333432674408
dtype: float32
메모리 크기 (itemsize): 4 바이트

--- float64 ---
값: 0.3333333333333333
dtype: float64
메모리 크기 (itemsize): 8 바이트
```

`float64`가 소수점 아래 더 많은 자리까지 정확하게 표현하는 것을 볼 수 있습니다.

결론적으로, 일반적인 과학 계산에서는 정밀도를 위해 기본값인 `np.float64`를 사용하지만, 대규모 데이터 처리나 딥러닝처럼 메모리와 GPU 연산 속도가 매우 중요할 때는 정밀도를 약간 희생하더라도 **`np.float32`를 적극적으로 사용합니다.**

# reshape

`ndarray`의 **`reshape()` 메서드는 배열의 원소 데이터는 그대로 유지한 채, 배열의 형태(shape)만 바꾸는 기능**입니다. 예를 들어, 12칸짜리 1차원 배열을 3행 4열짜리 2차원 배열로 재배치할 수 있습니다.

이때 가장 중요한 규칙은 '전체 원소의 개수가 반드시 동일해야 한다'는 것입니다.

-----

### 핵심 원리: 원소의 총개수는 불변 🍫

`reshape`는 데이터의 개수를 바꾸는 것이 아니라, 그저 데이터를 담는 '틀'의 모양만 바꾸는 것과 같습니다. 12개의 초콜릿이 담긴 상자를 생각해보세요.

  - 길게 한 줄로 늘어놓을 수도 있고 (`(12,)` 형태)
  - 2줄짜리 상자에 6개씩 담을 수도 있고 (`(2, 6)` 형태)
  - 3줄짜리 상자에 4개씩 담을 수도 있습니다. (`(3, 4)` 형태)

어떤 경우에도 초콜릿의 총개수인 12개는 변하지 않습니다.

```python
import numpy as np

# 0부터 11까지의 숫자를 가진 1차원 배열 생성 (총 12개)
arr = np.arange(12)
print("원본 배열:\n", arr)
print("원본 shape:", arr.shape)

# shape을 (3, 4)로 변경 (3행 4열)
reshaped_arr = arr.reshape(3, 4)
print("\nReshape된 배열:\n", reshaped_arr)
print("Reshape된 shape:", reshaped_arr.shape)

# 3 * 4 = 12 이므로 원소의 총개수가 동일하여 변경 가능
```

-----

### 편리한 기능: -1의 활용 🤖

`reshape`을 사용할 때, 차원 중 하나의 값으로 **-1**을 넣을 수 있습니다. 이는 **"나머지 차원으로부터 크기를 자동으로 계산해줘"** 라는 의미입니다.

  - 전체 원소 개수와 지정된 차원의 크기를 바탕으로 NumPy가 나머지 차원의 크기를 알아서 정해줍니다.
  - \-1은 **단 한 번만** 사용할 수 있습니다.

<!-- end list -->

```python
arr = np.arange(12)

# "행은 2개로 고정할테니, 열의 개수는 알아서 맞춰줘"
# 12개의 원소를 2행으로 만들려면 열은 6개가 되어야 함 -> (2, 6)
reshaped_1 = arr.reshape(2, -1)
print("reshape(2, -1) 결과:\n", reshaped_1)
print("shape:", reshaped_1.shape)


# "열은 2개로 고정할테니, 행의 개수는 알아서 맞춰줘"
# 12개의 원소를 2열로 만들려면 행은 6개가 되어야 함 -> (6, 2)
reshaped_2 = arr.reshape(-1, 2)
print("\nreshape(-1, 2) 결과:\n", reshaped_2)
print("shape:", reshaped_2.shape)
```

-----

### 메모리 효율성: View vs. Copy 🔗

`reshape()`은 매우 효율적인데, 그 이유는 데이터를 복사하여 새 배열을 만드는 것(Copy)이 아니라, 원본 데이터를 바라보는 새로운 방식의 '뷰(View)'를 생성하기 때문입니다.

  - **뷰(View)**: 원본 데이터의 메모리를 공유합니다. 따라서 뷰를 변경하면 **원본 데이터도 함께 변경됩니다.**
  - 이러한 동작 방식은 불필요한 메모리 낭비를 막아줍니다.

<!-- end list -->

```python
arr = np.arange(10)
print("원본 배열:", arr)

# arr을 바라보는 새로운 뷰를 생성
reshaped_view = arr.reshape(2, 5)

# 뷰의 첫 번째 원소를 99로 변경
reshaped_view[0, 0] = 99
print("\n뷰를 변경한 후의 뷰:\n", reshaped_view)

# 원본 배열도 함께 변경된 것을 확인!
print("\n뷰를 변경한 후의 원본 배열:", arr) 
```

# flatten
네, Jarvis입니다. `flatten()` 메서드는 다차원 배열을 **1차원 배열로 '평평하게' 펴주는 기능**입니다. 이 메서드의 가장 중요한 특징은 원본 데이터의 **복사본(Copy)을 반환한다**는 점입니다.

-----

### 기본 사용법: 배열을 한 줄로 만들기

`flatten()`은 어떤 형태(shape)의 배열이든 상관없이 모든 원소를 순서대로 뽑아내어 하나의 긴 줄로 된 1차원 배열을 만듭니다.

```python
import numpy as np

# 2행 3열의 2차원 배열
arr_2d = np.array([[1, 2, 3], 
                   [4, 5, 6]])

print("원본 배열:\n", arr_2d)
print("원본 shape:", arr_2d.shape)

# flatten() 메서드 사용
flattened_arr = arr_2d.flatten()

print("\nFlatten된 배열:", flattened_arr)
print("Flatten된 shape:", flattened_arr.shape)
```

**실행 결과:**

```
원본 배열:
 [[1 2 3]
 [4 5 6]]
원본 shape: (2, 3)

Flatten된 배열: [1 2 3 4 5 6]
Flatten된 shape: (6,)
```

-----

### 핵심 차이점: Copy vs. View (`flatten` vs. `ravel`) ⛓️

`flatten()`과 매우 유사한 기능을 하는 `ravel()`이라는 메서드도 있습니다. 둘의 가장 큰 차이점은 메모리 처리 방식에 있습니다.

  - **`flatten()` -\> 복사본 (Copy) 반환 🧱**
    `flatten()`은 원본 데이터와 완전히 독립된 새로운 배열을 생성합니다. 따라서 `flatten()`으로 만들어진 배열의 값을 바꿔도 **원본 배열에는 아무런 영향이 없습니다.**

  - **`ravel()` -\> 뷰 (View) 반환 🔗**
    `ravel()`은 가능하면 원본 데이터를 공유하는 '뷰(View)'를 반환합니다. 따라서 `ravel()`로 만들어진 배열의 값을 바꾸면 **원본 배열의 값도 함께 변경됩니다.** `reshape(-1)`도 `ravel()`과 유사하게 동작합니다.

**코드 비교 예시:**

```python
import numpy as np

# 원본 배열
original_arr = np.array([[1, 2], [3, 4]])

# 1. flatten() 사용 (Copy)
flatten_copy = original_arr.flatten()
flatten_copy[0] = 99 # 복사본의 값을 변경

# 2. ravel() 사용 (View)
ravel_view = original_arr.ravel()
ravel_view[1] = 88 # 뷰의 값을 변경


print("flatten() 변경 후 원본 배열:\n", original_arr)
# -> flatten()으로 만든 복사본을 변경해도 원본은 그대로입니다.

print("\nravel() 변경 후 원본 배열:\n", original_arr)
# -> ravel()로 만든 뷰를 변경하자 원본도 함께 변경되었습니다.
```

-----

### 언제 무엇을 써야 할까? 🎯

| 구분 (Aspect) | `flatten()` | `ravel()` (또는 `reshape(-1)`) |
| :--- | :--- | :--- |
| **반환 타입** | **복사본 (Copy)** | 뷰 (View) |
| **원본 데이터** | **영향 없음 (안전)** | 변경될 수 있음 (주의 필요) |
| **메모리** | 추가 메모리 사용 | 메모리 효율적 |
| **추천 용도** | **원본 데이터를 안전하게 보존**하고 싶을 때 | 메모리 효율과 속도가 중요하고, 원본 변경을 의도할 때 |

In [8]:
import numpy as np

# 1. 원본 데이터 생성
original_arr = np.arange(12)
print(f"원본 배열:\n{original_arr}\n")

# 2. 다양한 방법으로 여러 개의 '뷰' 생성
view1_reshaped = original_arr.reshape(3, 4) # reshape로 만든 뷰
view2_raveled = view1_reshaped.ravel()      # 2D 뷰를 다시 1D로 편 뷰
view3_sliced = original_arr[5:]             # 슬라이싱으로 만든 뷰

# 3. 그중 하나의 뷰(view1_reshaped)에서 값을 변경
print("--- view1_reshaped의 [0, 0] 위치를 99로 변경 ---\n")
view1_reshaped[0, 0] = 99

# 4. 모든 배열 확인
print(f"view1_reshaped (변경 주체):\n{view1_reshaped}\n")
print(f"view2_raveled (다른 뷰):\n{view2_raveled}\n")
print(f"view3_sliced (또 다른 뷰):\n{view3_sliced}\n")
print(f"original_arr (원본):\n{original_arr}\n")

원본 배열:
[ 0  1  2  3  4  5  6  7  8  9 10 11]

--- view1_reshaped의 [0, 0] 위치를 99로 변경 ---

view1_reshaped (변경 주체):
[[99  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

view2_raveled (다른 뷰):
[99  1  2  3  4  5  6  7  8  9 10 11]

view3_sliced (또 다른 뷰):
[ 5  6  7  8  9 10 11]

original_arr (원본):
[99  1  2  3  4  5  6  7  8  9 10 11]



# Indexing & Slicing

NumPy의 인덱싱과 슬라이싱은 Python 리스트와 유사하지만, 다차원 배열을 지원하여 훨씬 강력하고 직관적입니다.

인덱싱(Indexing)은 배열의 특정 위치에 있는 **단일 원소**를 선택하는 것이고, 슬라이싱(Slicing)은 특정 범위의 **부분 배열**을 추출하는 것입니다.

-----

###  1차원 배열: 기본기

1차원 배열의 인덱싱과 슬라이싱은 Python 리스트와 사용법이 완전히 동일합니다.

  - **인덱싱**: `arr[index]`
  - **슬라이싱**: `arr[start:stop:step]`

<!-- end list -->

```python
import numpy as np

arr_1d = np.arange(10)  # [0 1 2 3 4 5 6 7 8 9]

# 인덱싱 (3번째 원소)
print(f"arr_1d[2] -> {arr_1d[2]}")

# 슬라이싱 (1번부터 4번 인덱스 전까지)
print(f"arr_1d[1:4] -> {arr_1d[1:4]}")
```

-----

###  2차원 배열: NumPy의 진정한 힘 🔢

2차원 배열부터 NumPy의 장점이 드러납니다. 쉼표(`,`)를 사용하여 각 차원(축)에 대한 인덱스와 슬라이스를 한 번에 지정할 수 있습니다. `[행, 열]` 순서로 기억하면 쉽습니다.

```python
# 예제 2차원 배열 (3행 4열)
arr_2d = np.array([[ 0,  1,  2,  3],
                   [ 4,  5,  6,  7],
                   [ 8,  9, 10, 11]])
```

#### 단일 원소 인덱싱

```python
# 1행, 2열의 원소 (숫자 6)
element = arr_2d[1, 2]
print(f"arr_2d[1, 2] -> {element}")
```

#### 부분 배열 슬라이싱

슬라이싱은 `start:stop` 형식을 사용하며, `:`만 단독으로 쓰면 '해당 축의 전체'를 의미합니다.

```python
# 첫 2개 행(0, 1행)과 1~2열을 슬라이싱
# [[1 2]
#  [5 6]]
slice_1 = arr_2d[0:2, 1:3]
print(f"arr_2d[0:2, 1:3] -> \n{slice_1}\n")

# 첫 번째 행 전체 슬라이싱
# [0 1 2 3]
slice_2 = arr_2d[0, :]
print(f"arr_2d[0, :] -> {slice_2}\n")

# 두 번째 열 전체 슬라이싱
# [1 5 9]
slice_3 = arr_2d[:, 1]
print(f"arr_2d[:, 1] -> {slice_3}")
```

-----

###  고급 인덱싱: 조건에 맞는 데이터만 골라내기 🎯

단순한 위치 기반이 아닌, 더 복잡한 조건으로 데이터를 추출하는 강력한 방법들입니다.

#### 팬시 인덱싱 (Fancy Indexing)

인덱스 번호가 담긴 리스트나 배열을 사용하여, **원하는 위치의 원소들만 비연속적으로** 뽑아낼 수 있습니다.

```python
# 0행과 2행만 선택
fancy_1 = arr_2d[[0, 2]]
print(f"arr_2d[[0, 2]] -> \n{fancy_1}\n")

# 1열과 3열만 선택
fancy_2 = arr_2d[:, [1, 3]]
print(f"arr_2d[:, [1, 3]] -> \n{fancy_2}")
```

#### 불리언 인덱싱 (Boolean Indexing)

배열과 동일한 `shape`을 가진 불리언(True/False) 배열을 사용하여, **`True`에 해당하는 위치의 원소들만** 추출합니다. 조건문과 함께 사용할 때 매우 강력합니다.

```python
# 5보다 큰 값들만 찾기
bool_mask = arr_2d > 5
print(f"5보다 큰 값에 대한 마스크:\n{bool_mask}\n")

# 마스크를 사용하여 조건에 맞는 값만 추출 (1차원 배열로 반환됨)
filtered_arr = arr_2d[bool_mask]
print(f"arr_2d[arr_2d > 5] -> {filtered_arr}")
```

-----

###  View vs. Copy: 다시 보는 메모리 정책

  - **뷰(View) 🔗 (원본 공유)**: **기본 슬라이싱**(`arr[0:2, 1:3]`)은 원본 메모리를 공유하는 '뷰'를 반환합니다. 뷰를 수정하면 원본도 변경됩니다.
  - **복사본(Copy) 🧱 (완전 복사)**: **팬시 인덱싱**과 **불리언 인덱싱**은 조건에 따라 새로운 배열을 만들어야 하므로 원본과 완전히 분리된 '복사본'을 반환합니다.

# Creation Function

NumPy 배열을 생성하는 주요 메서드(함수)들은 크게 **1) 기존 데이터로부터 생성**, **2) 특정 값으로 채워서 생성**, **3) 연속된 값으로 생성**하는 세 가지 방식으로 나눌 수 있습니다.

-----

### 1. 기존 데이터로부터 생성 💠

  - **`np.array(array_like)`**: 파이썬 리스트(list)나 튜플(tuple) 등 배열과 유사한 객체를 NumPy 배열로 변환합니다. 가장 기본적이고 널리 사용되는 방법입니다.

<!-- end list -->

```python
import numpy as np

my_list = [[1, 2, 3], [4, 5, 6]]
arr = np.array(my_list)
print(arr)
```

-----

### 2. 특정 값으로 채워서 생성 🧱

주어진 형태(shape)의 배열을 특정 값으로 채워서 생성합니다.

  - **`np.zeros(shape, dtype=float)`**: 모든 원소가 **0**으로 채워진 배열을 생성합니다.
  - **`np.ones(shape, dtype=float)`**: 모든 원소가 **1**로 채워진 배열을 생성합니다.
  - **`np.full(shape, fill_value)`**: 모든 원소가 `fill_value`로 지정한 **특정 값**으로 채워진 배열을 생성합니다.
  - **`np.empty(shape, dtype=float)`**: 초기화되지 않은, \*\*임의의 값(쓰레기값)\*\*으로 채워진 배열을 생성합니다. `zeros`나 `ones`보다 약간 더 빠릅니다.

<!-- end list -->

```python
# 2행 3열의 0으로 채워진 배열
zeros_arr = np.zeros((2, 3))
print("zeros:\n", zeros_arr)

# 2행 3열의 1로 채워진 배열
ones_arr = np.ones((2, 3), dtype=np.int32)
print("\nones:\n", ones_arr)

# 2행 3열의 7로 채워진 배열
full_arr = np.full((2, 3), 7)
print("\nfull:\n", full_arr)
```

-----

### 3. 연속된 값으로 생성 🔢

규칙적인 순서를 갖는 값으로 배열을 생성합니다.

  - **`np.arange(start, stop, step)`**: Python의 `range()`와 유사하지만, 정수뿐만 아니라 부동소수점 간격도 지정할 수 있으며 결과를 `ndarray`로 반환합니다. `stop`은 포함되지 않습니다.
  - **`np.linspace(start, stop, num)`**: `start`부터 `stop`까지의 범위를 `num`개의 **균등한 간격**으로 나눈 값들로 배열을 생성합니다. `stop`이 포함됩니다.

<!-- end list -->

```python
# 0부터 10 전까지 2씩 증가하는 배열
arange_arr = np.arange(0, 10, 2)
print("arange:\n", arange_arr) # [0 2 4 6 8]

# 0부터 10까지 5개의 균등한 간격으로 나눈 배열
linspace_arr = np.linspace(0, 10, 5)
print("\nlinspace:\n", linspace_arr) # [ 0.  2.5  5.  7.5 10. ]
```

-----

### 4. 다른 배열의 형태를 본떠서 생성 ✨

이미 존재하는 다른 배열과 똑같은 형태(`shape`)와 데이터 타입(`dtype`)을 갖는 배열을 생성합니다.

  - **`np.ones_like(other_array)`**: 다른 배열과 같은 형태로, **1**로 채워진 배열을 생성합니다.
  - **`np.zeros_like(other_array)`**: 다른 배열과 같은 형태로, **0**으로 채워진 배열을 생성합니다.

<!-- end list -->

```python
# 기준이 될 배열
base_arr = np.array([[10, 20], [30, 40]])

# base_arr과 똑같은 shape, dtype을 갖는 1로 채워진 배열
ones_like_arr = np.ones_like(base_arr)
print("ones_like:\n", ones_like_arr)
```

# identity, eye, diag, random sampling

###  NumPy 특수 행렬 및 무작위 샘플링 함수

이 문서는 NumPy에서 특정 형태의 행렬(단위 행렬, 대각 행렬)과 무작위 배열을 생성하는 주요 함수들을 정리한 것입니다.

### 1. 단위 행렬 생성: `identity` & `eye` 👁️

두 함수 모두 주대각선이 1이고 나머지는 0인 행렬을 생성하지만, `eye`가 더 범용적이다.

  - **`np.identity(n)`**: **반드시 정사각형**인 단위 행렬(주대각선=1)을 생성한다.
  - **`np.eye(N, M=None, k=0)`**: `N x M` 크기의 행렬을 생성하며, `k` 값으로 1이 위치할 **대각선의 위치를 지정**할 수 있다 (`k=0`은 주대각선).

<!-- end list -->

```python
import numpy as np

# 3x3 단위 행렬
identity_matrix = np.identity(3)
# [[1. 0. 0.]
#  [0. 1. 0.]
#  [0. 0. 1.]]

# 3x5 크기, k=1 (주대각선 위) 대각선이 1인 행렬
eye_matrix = np.eye(3, 5, k=1)
# [[0. 1. 0. 0. 0.]
#  [0. 0. 1. 0. 0.]
#  [0. 0. 0. 1. 0.]]
```

| 함수 | 크기 | 대각선 위치 |
| :--- | :--- | :--- |
| `identity(n)` | `n x n` (정사각형) | 주대각선 고정 |
| `eye(N, M, k)`| `N x M` (직사각형 가능) | `k` 값으로 조절 가능 |

-----

### 2. 대각선 다루기: `diag` 📐

`diag` 함수는 입력에 따라 두 가지 기능을 수행한다.

1.  **1차원 배열 입력**: 해당 배열을 **대각 원소로 갖는 2차원 정사각 행렬**을 생성한다.
2.  **2차원 배열 입력**: 해당 배열의 **주대각선 원소들을 추출**하여 1차원 배열을 반환한다.

<!-- end list -->

```python
import numpy as np

# 1. 1D -> 2D 행렬 생성
arr_1d = np.arange(3) # [0, 1, 2]
diag_matrix = np.diag(arr_1d)
# [[0, 0, 0],
#  [0, 1, 0],
#  [0, 0, 2]]

# 2. 2D -> 1D 대각 원소 추출
arr_2d = np.arange(9).reshape(3, 3)
diagonal_elements = np.diag(arr_2d)
# [0, 4, 8]
```

-----

### 3. 무작위 배열 생성: Random Sampling 🎲

`np.random` 모듈은 다양한 종류의 난수 배열을 생성한다.

  - **`np.random.rand(d0, d1, ...)`**: **0과 1 사이**의 **균등 분포**에서 실수를 추출하여 주어진 형태(`d0, d1, ...`)의 배열을 생성한다.
  - **`np.random.randn(d0, d1, ...)`**: 평균 0, 표준편차 1의 **표준 정규 분포**에서 실수를 추출하여 배열을 생성한다.
  - **`np.random.randint(low, high, size)`**: `low`부터 `high` 전까지의 범위에서 `size` 개수만큼의 **정수**를 무작위로 추출한다.

<!-- end list -->

```python
import numpy as np

# 2행 3열, 0~1 사이의 균등 분포 난수
rand_arr = np.random.rand(2, 3)

# 2행 3열, 표준 정규 분포 난수
randn_arr = np.random.randn(2, 3)

# 1부터 10 전까지의 정수 중 5개를 무작위로 추출
randint_arr = np.random.randint(1, 10, size=5)
```

# Operations 

### 1. 집계 함수 (Aggregation Functions)

배열 전체 또는 특정 축(axis)을 기준으로 통계량을 계산하는 함수들입니다.

#### `sum`, `mean`, `std` (합계, 평균, 표준편차)

  - **`np.sum(arr)`**: 배열의 모든 원소의 합계를 구합니다.
  - **`np.mean(arr)`**: 배열의 모든 원소의 평균값을 구합니다.
  - **`np.std(arr)`**: 배열의 모든 원소의 표준편차를 구합니다.

#### `axis` 매개변수: 연산 방향 지정 🧭

`axis`는 연산이 수행될 방향(축)을 지정하는 매우 중요한 매개변수입니다. 2차원 배열(행렬)을 기준으로,

  - **`axis=0`**: 각 **열(column)끼리** 연산합니다. (아래 방향으로 합침)
  - **`axis=1`**: 각 **행(row)끼리** 연산합니다. (옆 방향으로 합침)

<!-- end list -->

```python
import numpy as np

arr = np.array([[1, 2, 3], 
                [4, 5, 6]])

# 전체 합계
print(f"전체 합계: {np.sum(arr)}") # 21

# axis=0 (열 기준 합계)
print(f"열(↓) 기준 합계: {np.sum(arr, axis=0)}") # [1+4, 2+5, 3+6] -> [5 7 9]

# axis=1 (행 기준 합계)
print(f"행(→) 기준 합계: {np.sum(arr, axis=1)}") # [1+2+3, 4+5+6] -> [6 15]

# 전체 평균
print(f"전체 평균: {np.mean(arr)}") # 3.5

# 행(→) 기준 표준편차
print(f"행(→) 기준 표준편차: {np.std(arr, axis=1)}")
```

-----

### 2. 수학 함수 (Universal Functions, Ufuncs) 📈

배열의 각 원소에 대해 개별적으로 적용되는 수학 함수들입니다. 연산은 모두 원소별(element-wise)로 수행됩니다.

#### 지수 및 로그 함수

  - **`np.exp(arr)`**: 밑이 자연상수 $e$인 지수 함수 ($e^x$)
  - **`np.log(arr)`**: 자연로그 ($\\ln(x)$)
  - **`np.log10(arr)`**: 밑이 10인 상용로그 ($\\log\_{10}(x)$)
  - **`np.sqrt(arr)`**: 제곱근 ($\\sqrt{x}$)
  - **`np.power(arr, n)`**: 거듭제곱 ($x^n$)

#### 삼각 함수

  - **`np.sin(arr)`, `np.cos(arr)`, `np.tan(arr)`**: 사인, 코사인, 탄젠트
  - **`np.arcsin(arr)`, `np.arccos(arr)`, `np.arctan(arr)`**: 역삼각 함수

<!-- end list -->

```python
import numpy as np

arr = np.array([1, 2, 3])

# 각 원소에 exp 함수 적용
print(f"exp: {np.exp(arr)}")

# 각 원소에 제곱근 적용
print(f"sqrt: {np.sqrt(arr)}")

# 각 원소를 3제곱
print(f"power: {np.power(arr, 3)}")
```

-----

### 3. 배열 결합: `concatenate` 🖇️

여러 개의 배열을 하나의 배열로 합칩니다. `axis` 매개변수로 결합할 방향을 지정할 수 있습니다.

  - **`np.concatenate((arr1, arr2, ...), axis=0)`**

<!-- end list -->

```python
import numpy as np

arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6], [7, 8]])

# axis=0 (세로로 결합)
concat_0 = np.concatenate((arr1, arr2), axis=0)
print("세로 결합 (axis=0):\n", concat_0)

# axis=1 (가로로 결합)
concat_1 = np.concatenate((arr1, arr2), axis=1)
print("\n가로 결합 (axis=1):\n", concat_1)
```

# 연산들 

NumPy의 배열 간 기본 연산, 전치, 그리고 가장 중요한 개념 중 하나인 브로드캐스팅에 대해 설명해 드리겠습니다.

-----

### 1. 사칙 연산 (Element-wise Operations)

NumPy 배열 간의 기본 사칙연산(`+`, `-`, `*`, `/`)은 **같은 위치의 원소끼리** 계산되는 **원소별(element-wise)** 연산입니다. 연산을 위해서는 두 배열의 형태(shape)가 같아야 합니다.

```python
import numpy as np

arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6], [7, 8]])

# 덧셈 (원소별)
print("덧셈:\n", arr1 + arr2)
# [[1+5, 2+6], [3+7, 4+8]] -> [[ 6,  8], [10, 12]]

# 곱셈 (원소별)
print("\n곱셈:\n", arr1 * arr2)
# [[1*5, 2*6], [3*7, 4*8]] -> [[ 5, 12], [21, 32]]
```

-----

### 2. 행렬 곱셈 (Dot Product)

`*` 연산자와 달리, `np.dot()` 함수나 `@` 연산자는 수학적인 \*\*행렬 곱셈(Dot product)\*\*을 수행합니다. 첫 번째 배열의 열(column) 개수와 두 번째 배열의 행(row) 개수가 같아야 합니다.

```python
import numpy as np

arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6], [7, 8]])

# np.dot() 함수 사용
dot_product_1 = np.dot(arr1, arr2)
print("np.dot() 결과:\n", dot_product_1)

# @ 연산자 사용 (Python 3.5+ 권장)
dot_product_2 = arr1 @ arr2
print("\n@ 연산자 결과:\n", dot_product_2)
```

-----

### 3. 전치 행렬 (Transpose)

전치(Transpose)는 행렬의 **행과 열을 서로 맞바꾸는** 연산입니다. `arr.transpose()` 메서드나 더 간편한 `arr.T` 속성(attribute)으로 사용할 수 있습니다.

```python
import numpy as np

arr = np.array([[1, 2, 3], 
                [4, 5, 6]])

print("원본 배열 (shape: 2x3):\n", arr)

# .T 속성을 사용한 전치
transposed_arr = arr.T
print("\n전치 배열 (shape: 3x2):\n", transposed_arr)
```

-----

### 4. 브로드캐스팅 (Broadcasting) 📡

브로드캐스팅은 NumPy의 가장 강력한 기능 중 하나로, **서로 형태(shape)가 다른 배열 간에도 특정 규칙을 만족하면 연산이 가능하도록** 자동으로 배열을 확장시켜주는 메커니즘입니다. 메모리를 추가로 사용하지 않고 가상으로 '확장'하여 연산을 수행합니다.

**가장 간단한 예시:**
배열의 모든 원소에 하나의 숫자를 더하는 경우, NumPy는 그 숫자를 배열의 모든 원소에 더해질 수 있도록 '확장'(브로드캐스팅)합니다.

```python
import numpy as np

arr = np.array([[1, 2, 3], 
                [4, 5, 6]])

# arr (2x3) + 10 (스칼라)
# 스칼라 10이 [[10, 10, 10], [10, 10, 10]] 형태로 브로드캐스팅되어 더해짐
result = arr + 10
print("브로드캐스팅 결과:\n", result)
```

**조금 더 복잡한 예시:**
2차원 배열(행렬)에 1차원 배열(벡터)을 더할 때, 1차원 배열이 각 행에 맞게 확장되어 연산됩니다.

```python
matrix = np.array([[1, 2, 3], 
                   [4, 5, 6]]) # shape: (2, 3)

vector = np.array([10, 20, 30]) # shape: (3,)

# vector가 matrix의 각 행에 더해질 수 있도록
# [[10, 20, 30], [10, 20, 30]] 형태로 브로드캐스팅 됨
result = matrix + vector
print("\n행렬 + 벡터 브로드캐스팅:\n", result)
```

# Numpy Performance

Jupyter 환경에서 코드의 실행 시간을 정밀하게 측정하는 매직 커맨드 **`%timeit`**의 사용법과, 이를 통해 **`for` 루프, 리스트 컴프리헨션, NumPy**의 성능 차이를 보여드리겠습니다.

결론부터 말씀드리면, 동일한 수치 연산 작업에서 성능은 일반적으로 **NumPy \> 리스트 컴프리헨션 \> 일반 for 루프** 순으로 빠릅니다.

-----

### `%timeit` 사용법 ⏱️

`%timeit`은 Jupyter Notebook / IPython 환경에서 사용할 수 있는 **매직 커맨드(Magic Command)**입니다. 코드를 여러 번 반복 실행하여 평균 실행 시간을 통계적으로 측정해주기 때문에, 일회성 측정보다 훨씬 신뢰도가 높습니다.

  - **`%timeit` (Line Magic)**: **한 줄**의 코드 실행 시간을 측정합니다.
  - **`%%timeit` (Cell Magic)**: **셀(cell) 전체**의 코드 실행 시간을 측정합니다. (반드시 셀의 가장 첫 줄에 위치해야 합니다.)

-----

### 성능 비교 실전 예제

100만 개의 숫자를 각각 제곱하는 동일한 작업을 세 가지 방식으로 처리하고, `%timeit`으로 성능을 측정해 보겠습니다.

#### 🐢 1. 일반 `for` 루프 (가장 느림)

가장 기본적인 파이썬 방식입니다.

```python
data = range(1_000_000)
```

```python
%%timeit
result = []
for x in data:
    result.append(x**2)
```

**측정 결과 (예시):** `78.5 ms ± 1.2 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)`

#### 🐇 2. 리스트 컴프리헨션 (중간)

`for` 루프를 한 줄로 압축한, 더 파이썬다운(Pythonic) 방식입니다.

```python
%timeit result = [x**2 for x in data]
```

**측정 결과 (예시):** `46.1 ms ± 890 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)`

#### 🚀 3. NumPy (가장 빠름)

NumPy의 벡터화(Vectorization) 연산을 사용합니다.

```python
import numpy as np
np_data = np.arange(1_000_000)
```

```python
%timeit result = np_data ** 2
```

**측정 결과 (예시):** `894 µs ± 15.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)`

**결과 요약:**

  - **`for` 루프**: 약 78.5 **밀리초** (ms)
  - **리스트 컴프리헨션**: 약 46.1 **밀리초** (ms)
  - **NumPy**: 약 894 **마이크로초** (µs) -\> **`for` 루프보다 약 80\~90배 빠릅니다.**

-----

### 왜 성능 차이가 나는가?

1.  **`for` 루프 (느린 이유)**: 파이썬 인터프리터가 루프의 각 단계마다 `x`를 가져오고, 제곱 연산을 하고, `result` 리스트를 찾고, `append` 메서드를 호출하는 등 **모든 작업을 하나씩 해석하고 실행**해야 합니다. 이러한 인터프리터 오버헤드가 매번 발생하여 속도가 느립니다.

2.  **리스트 컴프리헨션 (더 빠른 이유)**: `for` 루프와 논리적으로는 같지만, **반복 및 리스트 생성 작업이 파이썬 인터프리터 내부에서 최적화된 C 코드로 실행**됩니다. 일반 `for` 루프보다 인터프리터 오버헤드가 훨씬 적어 더 빠릅니다.

3.  **NumPy (압도적으로 빠른 이유)**:

      - **벡터화 (Vectorization)**: `np_data ** 2` 라는 단일 연산은 내부적으로 **미리 컴파일된 고성능 C 코드로 된 반복문**을 한 번만 호출합니다. 파이썬 인터프리터의 개입이 전혀 없습니다.
      - **메모리 효율성**: NumPy 배열은 모든 원소가 동일한 타입이며 메모리에 연속적으로 저장되어 있어, CPU가 데이터를 매우 효율적으로 접근하고 처리(SIMD 등)할 수 있습니다.

In [None]:
numbers = [1, 2, 3]
