## 넘파이 (Numpy)

**넘파이 개요:** NumPy는 파이썬에서 **과학 연산 및 배열 연산**을 위한 핵심 라이브러리입니다. 파이썬의 리스트보다 **효율적인 다차원 배열(ndarray)**을 제공하며, 벡터화 연산과 브로드캐스팅 등을 통해 **빠른 수치 계산**이 가능합니다. NumPy는 선형대수 연산, 난수 생성, 푸리에 변환 등을 지원하며, **SciPy, Pandas, Scikit-learn** 등의 다른 과학 컴퓨팅 라이브러리의 기반이 됩니다.

**데이터 구조와 용어:** NumPy에서는 스칼라(Scalar), 벡터(Vector), 행렬(Matrix), 텐서(Tensor)와 같은 개념을 다룹니다.  
- **스칼라(Scalar)**: 하나의 값으로 이루어진 0차원 데이터 (예: `7`).  
- **벡터(Vector)**: 1차원 배열(1D Tensor)로, 여러 값을 특정 순서로 모은 것.  
- **행렬(Matrix)**: 2차원 배열(2D Tensor)로, 벡터를 모아 표 형태로 구성한 것.  
- **텐서(Tensor)**: 3차원 이상 고차원 배열(ND Tensor)로, 동일한 크기의 행렬들이 모인 구조.

이러한 배열은 **축(axis)**으로 차원을 구분합니다. 축의 개수가 **랭크(rank)**, 배열의 각 축 길이들의 튜플이 **shape(형상)**, 전체 원소 개수가 **size(크기)**입니다.

### 배열 생성과 속성

NumPy 배열은 `np.array(리스트)` 함수를 이용해 **파이썬 리스트로부터 생성**할 수 있습니다. 예를 들어:

In [None]:
import numpy as np
arr1 = np.array([1, 5, 2, 3, 10, 1000])
print(type(arr1))
print(arr1)

<class 'numpy.ndarray'>
[   1    5    2    3   10 1000]


위와 같이 파이썬 리스트 `[1,5,2,...]`로부터 `ndarray` 객체 `arr1`이 생성됩니다. 다차원 리스트로 다차원 배열을 만들 수도 있습니다:

In [None]:
a2 = np.array([[1, 2], [3, 4], [5, 6]])
print(type(a2))
print(a2)

<class 'numpy.ndarray'>
[[1 2]
 [3 4]
 [5 6]]


이제 이 배열들의 **속성**을 확인해보겠습니다. NumPy 배열은 객체 속성으로 `shape` (형상), `dtype` (데이터 타입), `size` (원소 총개수), `ndim` (차원 수)를 제공합니다:

In [None]:
print(arr1.shape, a2.shape)    # 각 배열의 형태 (튜플)
print(arr1.dtype, a2.dtype)    # 배열 원소들의 데이터 타입
print(arr1.size, a2.size)      # 전체 원소 개수
print(arr1.ndim, a2.ndim)      # 차원 수 (랭크)

(6,) (3, 2)
int64 int64
6 6
1 2


`arr1`은 6개의 원소로 이루어진 1차원 배열(`shape=(6,)`, `ndim=1`), `a2`는 3x2 형태의 2차원 배열(`shape=(3,2)`, `ndim=2`)입니다. 두 배열 모두 정수형(`int64`) 원소를 가지며 총 6개의 원소(`size=6`)를 포함합니다.

NumPy 배열은 **하나의 데이터 타입(dtype)**만 가지므로 모든 원소의 타입이 같습니다. `astype()` 메서드를 사용하면 배열의 **데이터 타입을 변환**할 수 있습니다:

In [None]:
arr2 = arr1.astype('int8')  # arr1을 8비트 정수로 변환
print(arr2)
print(arr2.dtype)

[  1   5   2   3  10 -24]
int8


위 결과에서 `1000`이 int8 범위를 넘어서기 때문에 `-24`로 변환된 것을 확인할 수 있습니다. (int8은 -128~127 범위 표현)

### 특별한 값으로 배열 생성

NumPy는 일정한 패턴의 값을 가지는 배열을 쉽게 생성하는 함수를 제공합니다:

- **`np.zeros(shape, dtype)`**: 모든 원소가 0인 배열 생성.  
- **`np.ones(shape, dtype)`**: 모든 원소가 1인 배열 생성.  
- **`np.full(shape, fill_value, dtype)`**: 주어진 값으로 모든 원소를 채운 배열 생성.  
- **`np.zeros_like(arr)`, `np.ones_like(arr)`, `np.full_like(arr, val)`**: 주어진 배열과 동일한 shape로 0, 1, 지정값으로 채운 배열 생성.

In [None]:
a = np.zeros(5)
print(a, a.dtype)
b = np.ones((2, 3))
print(b, b.dtype)
c = np.full((2, 2), 7)
print(c, c.dtype)

[0. 0. 0. 0. 0.] float64
[[1. 1. 1.]
 [1. 1. 1.]] float64
[[7 7]
 [7 7]] int64


별도로 dtype을 지정하지 않으면 `zeros/ones`는 기본적으로 부동소수점(float64)으로 생성됩니다 (`a`, `b`의 dtype이 float64인 점을 확인). `c`는 `fill_value=7`이 정수이므로 dtype이 int64로 설정되었습니다.

또한 `_like` 함수를 이용하면 기존 배열과 동일한 크기의 배열을 쉽게 만들 수 있습니다. 예를 들어 `arr3`가 2x3 배열일 때, `np.ones_like(arr3)`는 동일한 2x3 크기의 1로 채워진 배열을 만듭니다:

In [7]:
l1 = [[1, 2, 3], [4, 5, 6]]
arr3 = np.array(l1, dtype='float64')  # 2x3 배열
print(arr3.shape)
# arr3와 동일한 shape로 0,1,100으로 채운 배열들 생성
print(np.zeros_like(arr3))
print(np.ones_like(arr3))
print(np.full_like(arr3, 100))

(2, 3)
[[0. 0. 0.]
 [0. 0. 0.]]
[[1. 1. 1.]
 [1. 1. 1.]]
[[100. 100. 100.]
 [100. 100. 100.]]


### 일정한 간격의 값으로 배열 생성

연속적인 숫자나 일정 간격의 숫자로 구성된 배열은 `arange`와 `linspace`로 생성할 수 있습니다:

- **`np.arange(start, stop, step, dtype)`**: `start`부터 `stop` **미만**까지 `step` 간격으로 증가하는 1차원 배열을 만듭니다. (파이썬 `range`와 유사하나, 실수 간격도 지원)  
- **`np.linspace(start, stop, num, endpoint=True)`**: `start`부터 `stop`까지 **포함하여** 균등 간격으로 `num`개의 값을 생성합니다. (`endpoint=False`이면 stop 제외)

In [8]:
a1 = np.arange(1, 10)        # 1부터 9까지
print("a1:", a1)
a2 = np.arange(0, 1.1, 0.1)  # 0.0부터 1.0까지 0.1 간격 (실수)
print("a2:", a2)
a3 = np.arange(20)           # 0부터 19까지 (stop만 주면 start=0, step=1)
print("a3:", a3)
a4 = np.arange(10, -11, -1)  # 10부터 -10까지 -1 간격 (역순)
print("a4:", a4)

a1: [1 2 3 4 5 6 7 8 9]
a2: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
a3: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
a4: [ 10   9   8   7   6   5   4   3   2   1   0  -1  -2  -3  -4  -5  -6  -7
  -8  -9 -10]


`linspace`를 사용하면 지정한 구간을 일정 간격으로 나눈 배열을 얻을 수 있습니다:

In [9]:
a5 = np.linspace(1, 100)  # 1~100 사이 50개 값 (디폴트 num=50)
print(a5.shape)
print(a5)
v = np.linspace(1, 100, retstep=True)  # (배열, 간격) 튜플 반환
print("step:", v[1])    # 간격 값
print(v[0])             # 생성된 배열
a6 = np.linspace(1, 10, num=10)  # 1~10을 10개의 값으로 (즉 1,2,...,10)
print(a6)

(50,)
[  1.           3.02040816   5.04081633   7.06122449   9.08163265
  11.10204082  13.12244898  15.14285714  17.16326531  19.18367347
  21.20408163  23.2244898   25.24489796  27.26530612  29.28571429
  31.30612245  33.32653061  35.34693878  37.36734694  39.3877551
  41.40816327  43.42857143  45.44897959  47.46938776  49.48979592
  51.51020408  53.53061224  55.55102041  57.57142857  59.59183673
  61.6122449   63.63265306  65.65306122  67.67346939  69.69387755
  71.71428571  73.73469388  75.75510204  77.7755102   79.79591837
  81.81632653  83.83673469  85.85714286  87.87755102  89.89795918
  91.91836735  93.93877551  95.95918367  97.97959184 100.        ]
step: 2.020408163265306
[  1.           3.02040816   5.04081633   7.06122449   9.08163265
  11.10204082  13.12244898  15.14285714  17.16326531  19.18367347
  21.20408163  23.2244898   25.24489796  27.26530612  29.28571429
  31.30612245  33.32653061  35.34693878  37.36734694  39.3877551
  41.40816327  43.42857143  45.44897959  47.469

위에서 `a5`는 1부터 100까지 균일 간격으로 50개 값을 만든 것이고, `v`는 `(배열, step)` 형태로 반환되어 간격(step)이 약 `2.02`임을 보여줍니다. `a6`는 1부터 10까지 10개 값을 (정수 1,2,...,10) 생성했습니다.

### 난수 배열 생성

NumPy의 `np.random` 서브패키지를 이용하면 **무작위 값**으로 채워진 배열을 만들 수 있습니다. 재현 가능한 난수 생성을 위해 **시드(seed)**를 설정할 수 있습니다 (`np.random.seed(정수)`). 주요 난수 관련 함수:

- **`np.random.rand(d0, d1, ...)`**: 0~1 사이 **균일분포**(Uniform)에서 표본을 뽑아 지정한 shape의 배열 생성.  
- **`np.random.randn(d0, d1, ...)`**: 평균0, 표준편차1의 **표준 정규분포**(Normal)에서 표본 생성.  
- **`np.random.normal(loc, scale, size)`**: 평균 `loc`, 표준편차 `scale`인 정규분포에서 표본 생성.  
- **`np.random.randint(low, high, size)`**: `low`부터 `high`**미만** 사이에서 정수를 뽑아 배열 생성. (`high` 생략시 0~low 미만)  
- **`np.random.choice(a, size, replace, p)`**: 주어진 1차원 배열 `a`에서 임의 추출. (복원추출 여부 `replace`, 각 요소 선택 확률 `p` 지정 가능)

예를 들어 균일분포 난수 및 정수 난수를 생성해보겠습니다:

In [11]:
np.random.seed(42)                # 시드 고정
print(np.random.rand(5))         # 0~1 사이 실수 5개
a = np.random.rand(5, 6, 7)      # 5x6x7 3차원 배열
print(a.shape)
b = np.random.randint(10, 20, size=(5, 3))  # 10~19 사이 정수로 5x3 배열
print(b)

[0.37454012 0.95071431 0.73199394 0.59865848 0.15601864]
(5, 6, 7)
[[10 14 13]
 [17 17 16]
 [12 10 10]
 [12 15 16]
 [15 15 15]]


위에서 `np.random.rand(5)`는 길이 5의 1차원 배열을 반환했고, `np.random.rand(5,6,7)`은 5x6x7 배열을 생성했습니다. `randint(10,20)`은 [10,20) 구간의 정수를 생성하며, 위 `b` 배열에서 모든 원소가 10~19 범위인 것을 볼 수 있습니다.

정규분포 난수의 예시로, 표준정규분포에서 5개의 값을 뽑아보겠습니다. 또한 난수 배열의 통계치를 확인해 보겠습니다:

In [12]:
c = np.random.normal(size=5)
print(np.round(c, 2))  # 표준정규분포 난수 5개 (소수 2자리로 출력)
np.random.seed(0)
sample = np.random.choice([1, 2, 3], size=3, replace=False)
print(sample)          # 1,2,3 중 중복없이 3개 선택 (무작위 순열)

[ 0.88 -0.24  1.21  0.54  2.73]
[3 2 1]


위 `c`는 평균0, 표준편차1인 정규분포의 표본으로, 대략 절반 정도가 음수, 양수가 섞여 있습니다. `np.random.choice`를 이용해 `[1,2,3]`에서 3개를 비복원 추출하면 `[3 2 1]`처럼 하나의 랜덤 순열이 생성됩니다.

> **참고:** 난수 생성에 시드를 고정하지 않으면 실행할 때마다 다른 난수가 나오지만, 시드를 같은 값으로 설정하면 항상 동일한 난수가 재현됩니다.