# Numpy

- 파이썬 외부 라이브러리
- 파이썬을 활용한 과학 컴퓨팅 전용 모듈
- 복잡한 행렬계산, 선형대수, 통계등의 기능 제공

## 모듈 import

- 별칭(alias)은 주로 `np`를 사용합니다.

In [1]:
import numpy as np

## 버젼 체크

In [2]:
np.__version__

'1.21.5'

In [3]:
np.__name__

'numpy'

## 배열(Array)

- numpy의 배열은 동일한 type을 가집니다.
- 파이썬의 list로는 고성능 수치계산이 어렵기 때문에 numpy의 배열로 수치계산을 수행합니다.

### 배열(array)의 생성

In [4]:
myarray = np.array([1, 2, 3])
myarray

array([1, 2, 3])

type은 `ndarray`로 생성되는 것을 볼 수 있는데, `n-dimensional array`(N차원 배열) type입니다.

In [5]:
type(myarray)

numpy.ndarray

### ndim: 배열의 차원

In [6]:
myarray1 = np.array([1, 2, 3])
myarray1

array([1, 2, 3])

`ndim`은 배열의 차원을 나타냅니다.

In [7]:
myarray1.ndim

1

중첩된 리스트(list)로 생성시 **2차원 배열**이 생성됩니다.

In [8]:
myarray2 = np.array([[1, 2, 3], [4, 5, 6]])
myarray2

array([[1, 2, 3],
       [4, 5, 6]])

In [9]:
myarray2.ndim

2

### shape: 크기 확인

- shape는 튜플(tuple) 형태로 출력됩니다.

In [10]:
myarray1.shape

(3,)

In [11]:
myarray2.shape

(2, 3)

### dtype: 타입 확인

In [12]:
myarray = np.array([[1, 2, 3], [4, 5, 6]])
myarray

array([[1, 2, 3],
       [4, 5, 6]])

In [13]:
myarray.dtype

dtype('int64')

`dtype`을 지정하여 생성할 수 있습니다.

In [14]:
myarray = np.array([[1, 2, 3], [4, 5, 6]], dtype='float')
myarray

array([[1., 2., 3.],
       [4., 5., 6.]])

In [15]:
myarray.dtype

dtype('float64')

### T: 전치(transpose), 행과 열의 교환

In [16]:
myarray = np.array([1, 2, 3])
myarray

array([1, 2, 3])

In [17]:
myarray.T

array([1, 2, 3])

In [18]:
myarray = np.array([[1, 2, 3], [4, 5, 6]])
myarray

array([[1, 2, 3],
       [4, 5, 6]])

In [19]:
myarray.T

array([[1, 4],
       [2, 5],
       [3, 6]])

### 연습문제

`sample` 변수에 `int` dtype을 가지는 `numpy.array`를 생성해 주세요.

In [20]:
# 코드를 입력해 주세요
sample = np.array([10, 20, 30, 40, 50], dtype='int')
sample

array([10, 20, 30, 40, 50])

`sample` array의 shape와 dtype을 출력하세요

In [21]:
# 코드를 입력해 주세요
print(f'shape: {sample.shape}, dtype: {sample.dtype}')

shape: (5,), dtype: int64


`sample2` 변수에 `float` dtype을 가지는 `numpy.array`를 생성해 주세요.

In [22]:
# 코드를 입력해 주세요
sample2 = np.array([[1, 3, 5], [2, 4, 6]], dtype='float')
sample2

array([[1., 3., 5.],
       [2., 4., 6.]])

`sample2` array의 shape와 dtype을 출력하세요

In [23]:
# 코드를 입력해 주세요
print(f'shape: {sample2.shape}, dtype: {sample2.dtype}')

shape: (2, 3), dtype: float64


`sample2`를 전치(Transpose)한 결과를 출력 하세요

In [24]:
# 코드를 입력해 주세요
sample2.T

array([[1., 2.],
       [3., 4.],
       [5., 6.]])

## arange(): 생성

- `np.arange()`는 파이썬의 `range()`와 유사하며 범위를 통해 배열(array)을 생성합니다.
- **np.arange(start, stop, step)**

stop 지정

In [25]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

start, stop 지정

In [26]:
np.arange(2, 10)

array([2, 3, 4, 5, 6, 7, 8, 9])

start, stop, step 지정

In [27]:
np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

### 연습문제

`np.arange()`를 활용하여 다음의 array를 생성하세요

In [28]:
# 코드를 입력해 주세요
np.arange(2, 9)

array([2, 3, 4, 5, 6, 7, 8])

In [29]:
# 코드를 입력해 주세요
np.arange(11, 30, 3)

array([11, 14, 17, 20, 23, 26, 29])

## 인덱싱(indexing)

### 1차원 배열

In [30]:
arr1 = np.array([1, 2, 3, 4, 5])

In [31]:
arr1

array([1, 2, 3, 4, 5])

shape를 확인합니다.

In [32]:
arr1.shape

(5,)

In [33]:
arr1[2]

3

In [34]:
arr1[-1]

5

인덱스의 범위를 넘어가는 인덱스 접근시 파이썬 리스트(list)와 마찬가지로 Error가 발생합니다.

In [35]:
arr1[6]

IndexError: index 6 is out of bounds for axis 0 with size 5

### 2차원

In [36]:
arr2 = np.array([[1, 2, 3, 4, 5], 
                 [6, 7, 8, 9, 10], 
                 [11, 12, 13, 14, 15]
                ])

In [37]:
arr2

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

In [38]:
arr2.shape

(3, 5)

2차원 배열의 indexing은 다음과 같이 2가지 방식으로 접근 가능합니다.

In [39]:
arr2[2, 3]

14

In [40]:
arr2[2][3]

14

## 슬라이싱(slicing)

### 1차원 배열

In [41]:
arr1 = np.array([1, 2, 3, 4, 5])
arr1

array([1, 2, 3, 4, 5])

In [42]:
arr1[:2]

array([1, 2])

In [43]:
arr1[-2:]

array([4, 5])

### 2차원 배열

In [44]:
arr2 = np.array([[1, 2, 3, 4, 5], 
                 [6, 7, 8, 9, 10], 
                 [11, 12, 13, 14, 15]
                ])
arr2

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

행(row)은 전체 선택, 열(column)은 1:3 슬라이싱

In [45]:
arr2[:, 1:3]

array([[ 2,  3],
       [ 7,  8],
       [12, 13]])

행(row)은 :2, 열(column)은 1:3 슬라이싱

In [46]:
arr2[:2, 1:3]

array([[2, 3],
       [7, 8]])

### 연습문제

In [47]:
sample = np.array([[10, 20, 30, 40, 50], 
                   [15, 20, 25, 30, 35], 
                   [10, 12, 14, 16, 18], 
                  ])
sample

array([[10, 20, 30, 40, 50],
       [15, 20, 25, 30, 35],
       [10, 12, 14, 16, 18]])

주어진 `sample` array를 활용하여 다음과 같이 출력될 수 있도록 **slicing** 하세요

In [48]:
# 코드를 입력해 주세요
sample[:, :3]

array([[10, 20, 30],
       [15, 20, 25],
       [10, 12, 14]])

In [49]:
# 코드를 입력해 주세요
sample[1:, :]

array([[15, 20, 25, 30, 35],
       [10, 12, 14, 16, 18]])

In [50]:
# 코드를 입력해 주세요
sample[1:, 2:]

array([[25, 30, 35],
       [14, 16, 18]])

In [51]:
# 코드를 입력해 주세요
sample[:2, 1:4]

array([[20, 30, 40],
       [20, 25, 30]])

## reshape: 형태 변경

- 형태(shape)는 자유롭게 변경이 가능하나 변경 후의 데이터 개수(size)는 변경 전과 같아야 합니다.
- `-1`은 자동으로 크기를 계산합니다.

In [52]:
arr = np.arange(15)
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [53]:
print(f'ndim: {arr.ndim}, shape: {arr.shape}')

ndim: 1, shape: (15,)


변경 후의 **데이터 개수(size)가 맞지 않는다면 Error가 발생**합니다.

In [54]:
arr.reshape(5, 2)

ValueError: cannot reshape array of size 15 into shape (5,2)

행: 3, 열: 5로 변경

In [55]:
arr.reshape(3, 5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

열은 `-1`로 지정하여 자동으로 계산한 경우

In [56]:
arr.reshape(5, -1)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

행을 `-1`로 지정하여 자동으로 계산한 경우

In [57]:
arr.reshape(-1, 5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

원본 데이터에 적용하기 위해서는 **재대입**을 해야합니다.

In [58]:
arr = np.arange(15)
print(arr.shape)
arr

(15,)


array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [59]:
arr.reshape(3, -1)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

변경 사항이 적용되지 않습니다.

In [60]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [61]:
arr = arr.reshape(3, -1)
print(arr.shape)
arr

(3, 5)


array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

### 연습문제

`np.arange()` 를 활용하여 다음의 array를 생성하고 `myarray` 변수에 대입하세요

In [62]:
# 코드를 입력해 주세요
myarray = np.arange(2, 22, 2)
myarray

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18, 20])

`myarray`의 shape와 차원(dimension)을 출력하세요

In [63]:
# 코드를 입력해 주세요
print(f'shape: {myarray.shape}, dim: {myarray.ndim}')

shape: (10,), dim: 1


`myarray`를 다음과 같이 출력되도록 shape 변경을 해주세요

In [64]:
# 코드를 입력해 주세요
myarray = myarray.reshape(5, -1)
myarray

array([[ 2,  4],
       [ 6,  8],
       [10, 12],
       [14, 16],
       [18, 20]])

`myarray`의 shape를 출력하세요

In [65]:
# 코드를 입력해 주세요
print(f'shape: {myarray.shape}, dim: {myarray.ndim}')

shape: (5, 2), dim: 2


## 행열 연산

- `element-wise operations`: 행과 열이 같은 배열을 계산하면 값은 위치에 있는 값들이 계산됩니다.
- `element-wise operations`은 shape이 행렬의 shape이 같아야 합니다.

In [66]:
x = np.array([[10, 20], [30, 40]])
y = np.array([[5, 6], [7, 8]])

In [67]:
x

array([[10, 20],
       [30, 40]])

In [68]:
y

array([[5, 6],
       [7, 8]])

### 덧셈

In [69]:
x + y

array([[15, 26],
       [37, 48]])

### 곱셈

In [70]:
x * y

array([[ 50, 120],
       [210, 320]])

### 뺄셈

In [71]:
x - y

array([[ 5, 14],
       [23, 32]])

### 나눗셈

In [72]:
x / y

array([[2.        , 3.33333333],
       [4.28571429, 5.        ]])

### modulus, floor division

In [73]:
x % y

array([[0, 2],
       [2, 0]])

In [74]:
x // y

array([[2, 3],
       [4, 5]])

shape가 맞지 않으면 안됩니다!

In [75]:
x = np.array([[1, 2, 3], [3, 4, 5]])
y = np.array([[5, 6, ], [7, 8]])

In [76]:
x + y

ValueError: operands could not be broadcast together with shapes (2,3) (2,2) 

### 브로드캐스팅

- 단순 스칼라(salar) 값 연산시
- 제곱, 거듭제곱 등의 연산시

In [77]:
x = np.array([[1, 2], [3, 4]])
x

array([[1, 2],
       [3, 4]])

In [78]:
x + 10

array([[11, 12],
       [13, 14]])

In [79]:
x ** 2

array([[ 1,  4],
       [ 9, 16]])

`np.sqrt()`는 루트 연산입니다.

In [80]:
np.sqrt(x)

array([[1.        , 1.41421356],
       [1.73205081, 2.        ]])

## 행렬의 곱연산

- `*`: 일반 곱셈 부호
- `@`: matmul, 행열의 곱연산, 내적곱(dot product)

In [81]:
a = np.array([[1, 2], [3, 4]])
a

array([[1, 2],
       [3, 4]])

In [82]:
b = np.array([[5, 6], [7, 8]])
b

array([[5, 6],
       [7, 8]])

일반 곱을 수행한 결과

In [83]:
a * b

array([[ 5, 12],
       [21, 32]])

**행렬곱**을 수행한 결과

In [84]:
a @ b

array([[19, 22],
       [43, 50]])

## Boolean Indexing

- 조건 배열(Boolean array)을 활용하여 인덱싱하는 방법입니다.
- 조건에 해당하는 결과가 `True`인 요소를 반환합니다.
- 인덱싱 후 결과는 항상 **1차원 배열로 반환**합니다.

In [85]:
arr = np.arange(1, 13).reshape(3, 4)
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

**Boolean 배열을 생성**합니다.

In [86]:
# Boolean 배열 생성
bool_arr = arr > 5
bool_arr

array([[False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

위에서 생성한 boolean 배열인 `bool_arr`로 인덱싱 합니다.

In [87]:
arr[bool_arr]

array([ 6,  7,  8,  9, 10, 11, 12])

### 연습문제

In [88]:
np.random.seed(0)
sample = np.random.randn(4, 3)
sample

array([[ 1.76405235,  0.40015721,  0.97873798],
       [ 2.2408932 ,  1.86755799, -0.97727788],
       [ 0.95008842, -0.15135721, -0.10321885],
       [ 0.4105985 ,  0.14404357,  1.45427351]])

`sample` array 중 0 보다 큰 값만 출력 하세요

In [89]:
# 코드를 입력해 주세요
sample[sample > 0]

array([1.76405235, 0.40015721, 0.97873798, 2.2408932 , 1.86755799,
       0.95008842, 0.4105985 , 0.14404357, 1.45427351])

`sample` array 중 -0.5 ~ 0.5 사이의 값만 출력 하세요

In [90]:
# 코드를 입력해 주세요
sample[(sample > -0.5) & (sample < 0.5)]

array([ 0.40015721, -0.15135721, -0.10321885,  0.4105985 ,  0.14404357])

## Fancy Indexing

- 다른 배열(array)이나 리스트(list)를 사용하여 배열을 인덱싱 하는 방법입니다.

In [91]:
arr = np.arange(100, 110)
arr

array([100, 101, 102, 103, 104, 105, 106, 107, 108, 109])

인덱스 리스트(list)를 생성하여 fancy indexing 합니다.

In [92]:
# 인덱스 리스트 생성
idx = [0, 2, 5]
arr[idx]

array([100, 102, 105])

`np.arange()`로 인덱스를 생성할 배열 생성후 fancy indexing 합니다.

In [93]:
# np.arange로 인덱스 생성
arr_idx = np.arange(1, 9, 2)
arr_idx

array([1, 3, 5, 7])

In [94]:
arr[arr_idx]

array([101, 103, 105, 107])

## where()

- 문법: `np.where(조건, 참인 경우 배열, 거짓인 경우 배열)`

In [95]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
condition = np.array([True, False, True, True, False])

In [96]:
np.where(condition, xarr, yarr)

array([1.1, 2.2, 1.3, 1.4, 2.5])

난수로 채워진 (4 X 4) 배열을 생성합니다.

In [97]:
a = np.random.randn(4, 4)
a

array([[ 0.76103773,  0.12167502,  0.44386323,  0.33367433],
       [ 1.49407907, -0.20515826,  0.3130677 , -0.85409574],
       [-2.55298982,  0.6536186 ,  0.8644362 , -0.74216502],
       [ 2.26975462, -1.45436567,  0.04575852, -0.18718385]])

In [98]:
np.where(a >= 0, '양수', '음수')

array([['양수', '양수', '양수', '양수'],
       ['양수', '음수', '양수', '음수'],
       ['음수', '양수', '양수', '음수'],
       ['양수', '음수', '양수', '음수']], dtype='<U2')

### 연습문제

In [99]:
np.random.seed(0)
sample = np.random.randint(1, 30, size=(3, 5))
sample

array([[13, 16, 22,  1,  4],
       [28,  4,  8, 10, 20],
       [22, 19,  5, 24,  7]])

- `sample`의 요소가 **짝수**라면 **X2(곱하기 2)**를 하고, 짝수가 아니라면 **3으로 나눈 나머지**를 구하세요
- 결과를 `output` 변수에 대입하고, 출력합니다.

In [100]:
# 코드를 입력해 주세요
output = np.where((sample % 2 == 0), sample*2, sample%3)
output

array([[ 1, 32, 44,  1,  8],
       [56,  8, 16, 20, 40],
       [44,  1,  2, 48,  1]])

`output` array중 0번째, 2번째 행만 선택하여 출력해 주세요

In [101]:
# 코드를 입력해 주세요
output[[0, 2], :]

array([[ 1, 32, 44,  1,  8],
       [44,  1,  2, 48,  1]])

`output` array중 1번째, 4번째열만 선택하여 출력해 주세요

In [102]:
# 코드를 입력해 주세요
output[:, [1, 4]]

array([[32,  8],
       [ 8, 40],
       [ 1,  1]])

## 통계

### axis: 축

- 배열의 통계 함수는 요소별로 동작하며 축(axis) 지정으로 연산의 방향을 정할 수 있습니다.
- axis를 지정하지 않은 경우에는 모든 요소에 대한 통계 결과를 반환합니다.
- `axis=0`: 행(row) 별 연산 결과를 반환합니다.
- `axis=1`: 열(column) 별 연산 결과를 반환합니다.

### sum(): 합계

In [103]:
arr = np.arange(1, 13).reshape(3, 4)
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [104]:
arr.sum()

78

In [105]:
arr.sum(axis=0)

array([15, 18, 21, 24])

In [106]:
arr.sum(axis=1)

array([10, 26, 42])

### mean(): 평균

In [107]:
arr = np.arange(1, 13).reshape(3, 4)
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [108]:
arr.mean()

6.5

In [109]:
arr.mean(axis=0)

array([5., 6., 7., 8.])

In [110]:
arr.mean(axis=1)

array([ 2.5,  6.5, 10.5])

### min(), max(): 최소값, 최대값

In [111]:
# 난수 seed값 설정
np.random.seed(123)
# 샘플 배열 생성
arr = np.random.permutation(np.arange(1, 13)).reshape(3, 4)
arr

array([[ 6,  1,  5, 10],
       [ 9,  8, 11,  4],
       [ 2,  7, 12,  3]])

**최소값**

In [112]:
arr.min()

1

In [113]:
arr.min(axis=0)

array([2, 1, 5, 3])

In [114]:
arr.min(axis=1)

array([1, 4, 2])

**최대값**

In [115]:
arr

array([[ 6,  1,  5, 10],
       [ 9,  8, 11,  4],
       [ 2,  7, 12,  3]])

In [116]:
arr.max()

12

In [117]:
arr.max(axis=0)

array([ 9,  8, 12, 10])

In [118]:
arr.max(axis=1)

array([10, 11, 12])

### var(), std(): 분산, 표준편차

- 분산과 표준편차: 데이터가 평균으로부터 얼마나 퍼져있는지 정도를 나타내는 지표

**분산($\sigma^2$) 공식**

$\Large \sigma^2 = \frac{\sum_{i=1}^{n}(x_i - \mu)^2} {n}$

**표준편차($\sigma$) 공식**

$\Large \sigma = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \mu)^2} {n}}$

In [119]:
# 샘플 배열 생성
arr = np.arange(1, 13).reshape(3, 4)
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [120]:
arr.var()

11.916666666666666

In [121]:
arr.var(axis=0)

array([10.66666667, 10.66666667, 10.66666667, 10.66666667])

In [122]:
arr.var(axis=1)

array([1.25, 1.25, 1.25])

표준편차는 분산에 루트를 씌운 결과 입니다.

In [123]:
np.sqrt(arr.var()), arr.std()

(3.452052529534663, 3.452052529534663)

### 연습문제

In [124]:
np.random.seed(0)
sample1 = np.random.randn(4, 5)
sample2 = np.random.randn(5, 2)

In [125]:
sample1

array([[ 1.76405235,  0.40015721,  0.97873798,  2.2408932 ,  1.86755799],
       [-0.97727788,  0.95008842, -0.15135721, -0.10321885,  0.4105985 ],
       [ 0.14404357,  1.45427351,  0.76103773,  0.12167502,  0.44386323],
       [ 0.33367433,  1.49407907, -0.20515826,  0.3130677 , -0.85409574]])

In [126]:
sample2

array([[-2.55298982,  0.6536186 ],
       [ 0.8644362 , -0.74216502],
       [ 2.26975462, -1.45436567],
       [ 0.04575852, -0.18718385],
       [ 1.53277921,  1.46935877]])

`sample1`의 열에 대한 **합계**를 출력하세요

In [127]:
# 코드를 입력해 주세요
sample1.sum(axis=1)

array([7.25139873, 0.12883298, 2.92489305, 1.0815671 ])

`sample2`의 행에 대한 **평균**을 출력하세요

In [128]:
# 코드를 입력해 주세요
sample2.mean(axis=0)

array([ 0.43194775, -0.05214744])

`sample1`과 `sample2`의 **행렬 곱셈**을 구한 뒤 `output` 변수에 대입하고, 출력하세요

In [129]:
# 코드를 입력해 주세요
output = sample1 @ sample2
output

array([[ 1.02889179,  1.7572455 ],
       [ 3.59736128, -0.50112324],
       [ 3.30266579, -1.46256978],
       [-1.32080473, -1.90595663]])

`output` 의 **분산**을 구하세요

In [130]:
# 코드를 입력해 주세요
output.var()

4.154518023528764

`sample1`의 열방향 평균과 `output`의 열방향 평균 차이를 구하세요

In [131]:
# 코드를 입력해 주세요
sample1.mean(axis=1) - output.mean(axis=1)

array([ 0.0572111 , -1.52235242, -0.3350694 ,  1.8296941 ])

`sample1`의 제곱한 array의 표준편차와 `sample2`의 제곱한 array의 표준편차의 차이를 구하세요

In [132]:
# 코드를 입력해 주세요
(sample1**2).std() - (sample2**2).std()

-0.7269587835008058