# NumPy

- 파이썬에서 행렬 연산을 위한 핵심 라이브러리 ("넘파이"라고 읽음)
- "Numerical Python"의 약자로 대규모 다차원 배열과 행렬 연산에 필요한 다양한 함수를 제공
- 파이썬 기본 라이브러리가 아니기 때문에 따로 설치하여 사용해야함 (Anaconda의 경우, 기본 내장)

## NumPy 라이브러리 불러오기
- 약속된 라이브러리의 별칭이 존재 (`np`)
- 이후에 `np.함수명()`의 방식으로 NumPy의 함수 사용

In [1]:
import numpy as np

## NumPy 배열 생성

![](https://taewanmerepo.github.io/2018/01/numpy/nparr.jpg)

### 1차원 배열
- NumPy의 1차원 배열은 수학에서 벡터(vector)에 해당
- 사용방법 : `np.array(리스트)`

In [2]:
a = np.array([1, 2, 3])
a

array([1, 2, 3])

##### `ndarray`는 n-dimensional array의 약자

In [3]:
type(a)

numpy.ndarray

#### 배열의 행과 열의 개수 확인하기 - `shape`

In [4]:
a.shape   # 길이가 3인 벡터(배열)

(3,)

### 2차원 배열
- NumPy의 2차원 배열은 수학에서 행렬(matrix)에 해당
- 이중 리스트가 인자로 들어감

In [5]:
[[1, 2, 3],
 [4, 5, 6]]

[[1, 2, 3], [4, 5, 6]]

In [6]:
# 2 x 3 배열
b = np.array([[1, 2, 3],
              [4, 5, 6]])
b

array([[1, 2, 3],
       [4, 5, 6]])

In [7]:
type(b)

numpy.ndarray

In [8]:
b.shape   # 2 x 3 배열

(2, 3)

### 3차원 배열
- 3중 리스트가 인자로 들어감

In [9]:
# 3중 리스트
[[[1, 2, 3, 4],
  [5, 6, 7, 8],
  [9, 10, 11, 12]],
 [[11, 12, 13, 14],
  [15, 16, 17, 18],
  [19, 20, 21, 22]]]

[[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]],
 [[11, 12, 13, 14], [15, 16, 17, 18], [19, 20, 21, 22]]]

In [10]:
# 2 x 3 x 4 배열
c = np.array([[[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]],
              [[11, 12, 13, 14],
               [15, 16, 17, 18],
               [19, 20, 21, 22]]])
c

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[11, 12, 13, 14],
        [15, 16, 17, 18],
        [19, 20, 21, 22]]])

In [12]:
type(c)

numpy.ndarray

In [13]:
c.shape   # 2 x 3 x 4 배열

(2, 3, 4)

## 배열의 인덱싱과 슬라이싱

### 1. 인덱싱

#### 1차원 배열의 인덱싱
- 리스트의 인덱싱과 동일

In [14]:
# 1차원 배열
a = np.array([0, 1, 2, 3, 4, 5])
a

array([0, 1, 2, 3, 4, 5])

In [15]:
a[2], a[-1]

(2, 5)

#### 2차원 배열의 인덱싱
- 행과 열을 가지고 있기 때문에 2개의 인덱스가 필요

행렬 $A$의 $i, j$번쨰 원소는 $A_{ij}$

In [16]:
b = np.array([[1, 2, 3],
              [4, 5, 6]])
b

array([[1, 2, 3],
       [4, 5, 6]])

In [17]:
b[0, 1]

2

In [18]:
b[1, 2]

6

### 2. 슬라이싱

#### 1차원 배열의 슬라이싱
- 리스트의 슬라이싱과 동일

In [19]:
# 1차원 배열
a = np.array([0, 1, 2, 3, 4, 5])
a

array([0, 1, 2, 3, 4, 5])

In [20]:
a[0:3]

array([0, 1, 2])

#### 1차원 배열에서 조건에 맞는 값 가져오기 (불리언(boolean) 인덱싱)
- 배열에서 특정 조건에 맞는 값들만 가져오는 방법
- `True` 또는 `False`를 가지는 배열을 이용하여 슬라이싱이 가능

In [21]:
# a에서 2로 나눈 나머지가 0인지 아닌지?
# 즉, 짝수번째 값인지 아닌지?
a % 2 == 0

array([ True, False,  True, False,  True, False])

In [22]:
# 위의 True 또는 False로 이루어진 배열을 가지고 슬라이싱
a[a % 2 == 0]

array([0, 2, 4])

#### 2차원 배열의 슬라이싱
- 행과 열을 가지고 있기 때문에 2개의 슬라이싱이 필요

In [23]:
b = np.array([[1, 2, 3, 4, 5],
              [6, 7, 8, 9, 10],
              [11, 12, 13, 14, 15],
              [16, 17, 18, 19, 20]])
b

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20]])

In [24]:
b.shape

(4, 5)

In [25]:
# 3번째 행의 3~4번째 열
b[2, 2:4]

array([13, 14])

In [26]:
# 2~3번째 행의 3번째 열부터 끝까지
b[1:3, 2:]

array([[ 8,  9, 10],
       [13, 14, 15]])

#### 2차원 배열에서 조건에 맞는 값 가져오기 (불리언 인덱싱)
- 2차원 배열에서는, 결과가 1차원 배열로 나타남
- 생각해보면 당연한 것이, 조건이 `True`인 값만 가져오는 것이기 때문에 기존의 2차원을 유지하는 것이 불가능해짐

In [27]:
b % 2 == 0

array([[False,  True, False,  True, False],
       [ True, False,  True, False,  True],
       [False,  True, False,  True, False],
       [ True, False,  True, False,  True]])

In [28]:
b[b % 2 == 0]

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18, 20])

## NumPy 배열을 생성해주는 다양한 함수

#### `np.zeros()`
- 모든 배열의 원소가 0인 배열 생성

In [29]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [30]:
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [32]:
np.zeros([2, 3])

array([[0., 0., 0.],
       [0., 0., 0.]])

#### `np.ones()`
- 모든 배열의 원소가 1인 배열 생성

In [33]:
np.ones(5)

array([1., 1., 1., 1., 1.])

In [34]:
np.ones((2, 3))

array([[1., 1., 1.],
       [1., 1., 1.]])

#### `np.arange(시작점, 끝점, 간격)`
- NumPy에서의 `range()` 험수

In [35]:
np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

#### `np.linspace(시작점, 끝점, 개수)`
- 시작점과 끝점 사이에서 개수만큼 동일한 간격으로 배열 생성
- 끝점을 포함하여 개수를 고려

In [36]:
np.linspace(0, 10, 5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [37]:
np.linspace(0, 10, 10)

array([ 0.        ,  1.11111111,  2.22222222,  3.33333333,  4.44444444,
        5.55555556,  6.66666667,  7.77777778,  8.88888889, 10.        ])

## 배열의 변형

### 배열의 전치 (transpose)
- 행렬의 행과 열의 위치를 바꾸는 것
- `배열.T`

In [38]:
A = np.array([[1, 2, 3], 
              [4, 5, 6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

In [39]:
A.T

array([[1, 4],
       [2, 5],
       [3, 6]])

### 배열의 크기 변형
- `배열.reshape(변형할 차원)` : 배열을 해당 차원으로 변형
- `배열.flatten()` : 다차원 배열을 1차원 배열로 변형

In [40]:
a = np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [41]:
# 1차원 배열을 3 x 4 배열로 변형
b = a.reshape(3, 4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [42]:
# 3 x 4 배열을 1차원 배열로 변형
b.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

### 배열 연결
- `np.hstack([배열1, 배열2])` : 배열1과 배열2를 열로 합침 (옆으로 함침)
- `np.vstack([배열1, 배열2])` : 배열1과 배열2를 행으로 합침 (위아래로 합침)

In [43]:
a1 = np.ones((2, 3))
a1

array([[1., 1., 1.],
       [1., 1., 1.]])

In [44]:
a2 = np.zeros((2, 3))
a2

array([[0., 0., 0.],
       [0., 0., 0.]])

In [45]:
# 옆으로 붙이기
np.hstack([a1, a2])

array([[1., 1., 1., 0., 0., 0.],
       [1., 1., 1., 0., 0., 0.]])

In [46]:
# 위아래로 붙이기
np.vstack([a1, a2])

array([[1., 1., 1.],
       [1., 1., 1.],
       [0., 0., 0.],
       [0., 0., 0.]])

## 배열의 연산

### 1차원 배열의 연산

In [47]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [48]:
x + 10

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [49]:
x * 100

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [50]:
# 같은 자리에 있는 원소끼리 합
x + x

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [51]:
# 같은 자리에 있는 원소끼리 곱
x * x

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [52]:
# 배열의 모든 원소의 합
np.sum(x)

45

### 2차원 배열의 연산

In [53]:
X = np.arange(8).reshape(2, 4)
X

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [54]:
X + 10

array([[10, 11, 12, 13],
       [14, 15, 16, 17]])

In [55]:
X * 100

array([[  0, 100, 200, 300],
       [400, 500, 600, 700]])

In [56]:
# 같은 자리에 있는 원소끼리 합
X + X

array([[ 0,  2,  4,  6],
       [ 8, 10, 12, 14]])

In [57]:
# 같은 자리에 있는 원소끼리 합
X * X

array([[ 0,  1,  4,  9],
       [16, 25, 36, 49]])

In [58]:
# 행렬 곱
np.dot(X, X.T)

array([[ 14,  38],
       [ 38, 126]])

In [59]:
X.dot(X.T)

array([[ 14,  38],
       [ 38, 126]])

## 기술통계량

In [60]:
# 표준정규분포 (N(0, 1))에서 난수 30개 생성
x = np.random.randn(30)
x

array([ 0.75479886, -1.15577643,  1.32466714, -0.40305415,  0.72206954,
       -1.38289636, -2.30056948, -1.0508947 , -0.41621531,  1.41308862,
        1.82509073,  0.2506745 ,  1.76990697,  1.39871511, -1.25294635,
       -0.87199386, -0.84498052,  0.13659647, -0.38249763, -1.73912173,
        0.11658704,  0.04731954, -1.30371851,  0.55651014,  0.42481584,
       -0.26813095, -1.51337899,  1.04262009,  0.55482933, -2.81840422])

In [61]:
# 표본 평균
np.mean(x)

-0.17887630872379148

In [62]:
# 표본 분산
np.var(x)

1.4162127153391049

In [63]:
# 표본 표준편차
np.std(x)

1.1900473584438163

In [64]:
# 최솟값과 최댓값
np.min(x), np.max(x)

(-2.818404217639769, 1.8250907318760112)

In [65]:
# 중앙값
np.median(x)

-0.11040570407923903

In [66]:
# 사분위수 (최소값, 제1사분위수, 제2사분위수(중앙값), 제3사분위수, 최댓값)
np.percentile(x, 0), np.percentile(x, 25), np.percentile(x, 50), np.percentile(x, 75), np.percentile(x, 100)

(-2.818404217639769,
 -1.1295559970839213,
 -0.11040570407923904,
 0.6806796890117849,
 1.8250907318760112)

## Reference
- [NumPy 공식 튜토리얼](https://numpy.org/doc/stable/user/index.html)
- [데이터 사이언스 스쿨](https://datascienceschool.net/01%20python/03.00%203%EC%9E%A5%20%EB%84%98%ED%8C%8C%EC%9D%B4%20%EB%B0%B0%EC%97%B4%20%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D.html)
- [AI Korea CS231n 번역본](https://aikorea.org/cs231n/python-numpy-tutorial/)