# NumPy

- 파이썬에서 행렬 연산을 위한 핵심 라이브러리 ("넘파이"라고 읽음)
- "Numerical Python"의 약자로 대규모 다차원 배열과 행렬 연산에 필요한 다양한 함수를 제공
- 파이썬 기본 라이브러리가 아니기 때문에 따로 설치하여 사용해야함 (Anaconda의 경우, 기본 내장)

## NumPy 라이브러리 불러오기
- 약속된 라이브러리의 별칭이 존재 (`np`)
- 이후에 `np.함수명()`의 방식으로 NumPy의 함수 사용

In [2]:
import numpy as np

## NumPy 배열 생성

![](https://taewanmerepo.github.io/2018/01/numpy/nparr.jpg)

### 1차원 배열
- NumPy의 1차원 배열은 수학에서 벡터(vector)에 해당
- 사용방법 : `np.array(리스트)`

In [7]:
a = np.array([1, 2, 3])
a

array([1, 2, 3])

##### `ndarray`는 n-dimensional array의 약자

In [8]:
type(a)

numpy.ndarray

#### 배열의 차원 확인하기 - `shape`

In [18]:
a.shape

(3,)

### 2차원 배열
- NumPy의 2차원 배열은 수학에서 행렬(matrix)에 해당
- 이중 리스트가 인자로 들어감

In [16]:
# 2 x 3 배열
b = np.array([[1, 2, 3],
              [4, 5, 6]])
b

array([[1, 2, 3],
       [4, 5, 6]])

In [21]:
type(b)

numpy.ndarray

In [17]:
b.shape   # 2 x 3 배열

(2, 3)

### 3차원 배열
- 3중 리스트가 인자로 들어감

In [13]:
# 2 x 3 x 4 배열
c = np.array([[[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]],
              [[11, 12, 13, 14],
               [15, 16, 17, 18],
               [19, 20, 21, 22]]])
c

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[11, 12, 13, 14],
        [15, 16, 17, 18],
        [19, 20, 21, 22]]])

In [22]:
type(d)

numpy.ndarray

In [15]:
d.shape   # 2 x 3 x 4 배열

(2, 3, 4)

## 배열의 인덱싱과 슬라이싱

### 1. 인덱싱

#### 1차원 배열의 인덱싱
- 리스트의 인덱싱과 동일

In [24]:
# 1차원 배열
a = np.array([0, 1, 2, 3, 4, 5])
a

array([0, 1, 2, 3, 4, 5])

In [27]:
a[2], a[-1]

(2, 5)

#### 2차원 배열의 인덱싱
- 행과 열을 가지고 있기 때문에 2개의 인덱스가 필요

In [28]:
b = np.array([[1, 2, 3],
              [4, 5, 6]])
b

array([[1, 2, 3],
       [4, 5, 6]])

In [30]:
b[0, 1]

2

In [31]:
b[1, 2]

6

### 2. 슬라이싱

#### 1차원 배열의 슬라이싱
- 리스트의 슬라이싱과 동일

In [33]:
# 1차원 배열
a = np.array([0, 1, 2, 3, 4, 5])
a

array([0, 1, 2, 3, 4, 5])

In [34]:
a[0:3]

array([0, 1, 2])

#### 1차원 배열에서 조건에 맞는 값 가져오기
- 배열에서 특정 조건에 맞는 값들만 가져오는 방법
- `True` 또는 `False`를 가지는 배열을 이용하여 슬라이싱이 가능

In [51]:
# a에서 2로 나눈 나머지가 0인지 아닌지?
# 즉, 짝수번째 값인지 아닌지?
a % 2 == 0

array([ True, False,  True, False,  True, False])

In [52]:
# 위의 True 또는 False로 이루어진 배열을 가지고 슬라이싱
a[a % 2 == 0]

array([0, 2, 4])

#### 2차원 배열의 슬라이싱
- 행과 열을 가지고 있기 때문에 2개의 슬라이싱이 필요

In [42]:
b = np.array([[1, 2, 3, 4, 5],
              [6, 7, 8, 9, 10],
              [11, 12, 13, 14, 15],
              [16, 17, 18, 19, 20]])
b

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20]])

In [48]:
# 3번째 행의 3~4번째 열
b[2, 2:4]

array([13, 14])

In [46]:
# 2~3번째 행의 3번째 열부터 끝까지
b[1:3, 2:]

array([[ 8,  9, 10],
       [13, 14, 15]])

#### 2차원 배열에서 조건에 맞는 값 가져오기
- 2차원 배열에서는, 결과가 1차원 배열로 나타남
- 생각해보면 당연한 것이, 조건이 `True`인 값만 가져오는 것이기 때문에 기존의 2차원을 유지하는 것이 불가능해짐

In [59]:
b % 2 == 0

array([[False,  True, False,  True, False],
       [ True, False,  True, False,  True],
       [False,  True, False,  True, False],
       [ True, False,  True, False,  True]])

In [61]:
b[b % 2 == 0]

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18, 20])

## NumPy 배열을 생성해주는 다양한 함수

#### `np.zeros()`
- 모든 배열의 원소가 0인 배열 생성

In [63]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [65]:
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

#### `np.ones()`
- 모든 배열의 원소가 1인 배열 생성

In [67]:
np.ones(5)

array([1., 1., 1., 1., 1.])

In [68]:
np.ones((2, 3))

array([[1., 1., 1.],
       [1., 1., 1.]])

#### `np.arange(시작점, 끝점, 간격)`
- NumPy에서의 `range()` 험수

In [70]:
np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

#### `np.linspace(시작점, 끝점, 개수)`
- 시작점과 끝점 사이에서 개수만큼 동일한 간격으로 배열 생성
- 끝점을 포함하여 개수를 고려

In [72]:
np.linspace(0, 10, 5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [73]:
np.linspace(0, 10, 10)

array([ 0.        ,  1.11111111,  2.22222222,  3.33333333,  4.44444444,
        5.55555556,  6.66666667,  7.77777778,  8.88888889, 10.        ])

## 배열의 변형

### 배열의 전치 (transpose)
- 행렬의 행과 열의 위치를 바꾸는 것
- `배열.T`

In [74]:
A = np.array([[1, 2, 3], 
              [4, 5, 6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

In [75]:
A.T

array([[1, 4],
       [2, 5],
       [3, 6]])

### 배열의 크기 변형
- `배열.reshape(변형할 차원)` : 배열을 해당 차원으로 변형
- `배열.flatten()` : 다차원 배열을 1차원 배열로 변형

In [76]:
a = np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [81]:
# 1차원 배열을 3 x 4 배열로 변형
b = a.reshape(3, 4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [82]:
# 3 x 4 배열을 1차원 배열로 변형
b.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

### 배열 연결
- `np.hstack([배열1, 배열2])` : 배열1과 배열2를 열로 합침 (옆으로 함침)
- `np.vstack([배열1, 배열2])` : 배열1과 배열2를 행으로 합침 (위아래로 합침)

In [85]:
a1 = np.ones((2, 3))
a1

array([[1., 1., 1.],
       [1., 1., 1.]])

In [91]:
a2 = np.zeros((2, 3))
a2

array([[0., 0., 0.],
       [0., 0., 0.]])

In [89]:
# 옆으로 붙이기
np.hstack([a1, a2])

array([[1., 1., 1., 0., 0., 0.],
       [1., 1., 1., 0., 0., 0.]])

In [92]:
# 위아래로 붙이기
np.vstack([a1, a2])

array([[1., 1., 1.],
       [1., 1., 1.],
       [0., 0., 0.],
       [0., 0., 0.]])

## 배열의 연산

### 1차원 배열의 연산

In [93]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [98]:
x + 10

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [100]:
x * 100

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [109]:
# 같은 자리에 있는 원소끼리 합
x + x

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [113]:
# 같은 자리에 있는 원소끼리 곱
x * x

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [165]:
# 배열의 모든 원소의 합
np.sum(x)

2.75904689775988

### 2차원 배열의 연산

In [104]:
X = np.arange(8).reshape(2, 4)
X

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [105]:
X + 10

array([[10, 11, 12, 13],
       [14, 15, 16, 17]])

In [106]:
X * 100

array([[  0, 100, 200, 300],
       [400, 500, 600, 700]])

In [110]:
# 같은 자리에 있는 원소끼리 합
X + X

array([[ 0,  2,  4,  6],
       [ 8, 10, 12, 14]])

In [112]:
# 같은 자리에 있는 원소끼리 합
X * X

array([[ 0,  1,  4,  9],
       [16, 25, 36, 49]])

In [116]:
# 행렬 곱
np.dot(X, X.T)

array([[ 14,  38],
       [ 38, 126]])

In [117]:
X.dot(X.T)

array([[ 14,  38],
       [ 38, 126]])

## 기술통계량

In [158]:
# 표준정규분포 (N(0, 1))에서 난수 30개 생성
x = np.random.randn(30)
x

array([-1.55551861,  1.68152776,  0.71484897,  1.91588799, -0.47562094,
       -0.65759378, -0.50843847, -0.3815433 ,  0.26913507, -1.457118  ,
        0.57462006,  0.96482205, -2.12548608,  0.55313784,  0.91769757,
        2.28243616,  1.26933339,  2.452717  , -0.36278026,  0.79946843,
       -0.10403094, -0.66442933, -1.3271446 , -1.32353071, -0.10921319,
       -0.38394323, -1.39567587, -0.18802159,  0.69444533,  0.68905817])

In [159]:
# 표본 평균
np.mean(x)

0.09196822992532933

In [160]:
# 표본 분산
np.var(x)

1.3344202759568482

In [161]:
# 표본 표준편차
np.std(x)

1.1551711024592193

In [162]:
# 최솟값과 최댓값
np.min(x), np.max(x)

(-2.1254860800281694, 2.4527170035946244)

In [163]:
# 중앙값
np.median(x)

-0.1066220614181396

In [164]:
# 사분위수 (최소값, 제1사분위수, 제2사분위수(중앙값), 제3사분위수, 최댓값)
np.percentile(x, 0), np.percentile(x, 25), np.percentile(x, 50), np.percentile(x, 75), np.percentile(x, 100)

(-2.1254860800281694,
 -0.6203049538059416,
 -0.1066220614181396,
 0.7783135676125484,
 2.4527170035946244)