# Numpy

- 파이썬 외부 라이브러리
- 파이썬을 활용한 과학 컴퓨팅 전용 모듈
- 복잡한 행렬계산, 선형대수, 통계등의 기능 제공

## 모듈 import

- 별칭(alias)은 주로 `np`를 사용합니다.

In [None]:
import numpy as np

## 버젼 체크

In [None]:
np.__version__

In [None]:
np.__name__

## 배열(Array)

- numpy의 배열은 동일한 type을 가집니다.
- 파이썬의 list로는 고성능 수치계산이 어렵기 때문에 numpy의 배열로 수치계산을 수행합니다.

### 배열(array)의 생성

In [None]:
myarray = np.array([1, 2, 3])
myarray

type은 `ndarray`로 생성되는 것을 볼 수 있는데, `n-dimensional array`(N차원 배열) type입니다.

In [None]:
type(myarray)

### ndim: 배열의 차원

In [None]:
myarray1 = np.array([1, 2, 3])
myarray1

`ndim`은 배열의 차원을 나타냅니다.

In [None]:
myarray1.ndim

중첩된 리스트(list)로 생성시 **2차원 배열**이 생성됩니다.

In [None]:
myarray2 = np.array([[1, 2, 3], [4, 5, 6]])
myarray2

In [None]:
myarray2.ndim

### shape: 크기 확인

- shape는 튜플(tuple) 형태로 출력됩니다.

In [None]:
myarray1.shape

In [None]:
myarray2.shape

### dtype: 타입 확인

In [None]:
myarray = np.array([[1, 2, 3], [4, 5, 6]])
myarray

In [None]:
myarray.dtype

`dtype`을 지정하여 생성할 수 있습니다.

In [None]:
myarray = np.array([[1, 2, 3], [4, 5, 6]], dtype='float')
myarray

In [None]:
myarray.dtype

### T: 전치(transpose), 행과 열의 교환

In [None]:
myarray = np.array([1, 2, 3])
myarray

In [None]:
myarray.T

In [None]:
myarray = np.array([[1, 2, 3], [4, 5, 6]])
myarray

In [None]:
myarray.T

### 연습문제

`sample` 변수에 `int` dtype을 가지는 `numpy.array`를 생성해 주세요.

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([10, 20, 30, 40, 50])</pre>

`sample` array의 shape와 dtype을 출력하세요

In [None]:
# 코드를 입력해 주세요




<p><strong>[출력 결과]</strong></p><pre>shape: (5,), dtype: int64
</pre>

`sample2` 변수에 `float` dtype을 가지는 `numpy.array`를 생성해 주세요.

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([[1., 3., 5.],
       [2., 4., 6.]])</pre>

`sample2` array의 shape와 dtype을 출력하세요

In [None]:
# 코드를 입력해 주세요




<p><strong>[출력 결과]</strong></p><pre>shape: (2, 3), dtype: float64
</pre>

`sample2`를 전치(Transpose)한 결과를 출력 하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([[1., 2.],
       [3., 4.],
       [5., 6.]])</pre>

## arange(): 생성

- `np.arange()`는 파이썬의 `range()`와 유사하며 범위를 통해 배열(array)을 생성합니다.
- **np.arange(start, stop, step)**

stop 지정

In [None]:
np.arange(10)

start, stop 지정

In [None]:
np.arange(2, 10)

start, stop, step 지정

In [None]:
np.arange(1, 10, 2)

### 연습문제

`np.arange()`를 활용하여 다음의 array를 생성하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([2, 3, 4, 5, 6, 7, 8])</pre>

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([11, 14, 17, 20, 23, 26, 29])</pre>

## 인덱싱(indexing)

### 1차원 배열

In [None]:
arr1 = np.array([1, 2, 3, 4, 5])

In [None]:
arr1

shape를 확인합니다.

In [None]:
arr1.shape

In [None]:
arr1[2]

In [None]:
arr1[-1]

인덱스의 범위를 넘어가는 인덱스 접근시 파이썬 리스트(list)와 마찬가지로 Error가 발생합니다.

In [None]:
arr1[6]

### 2차원

In [None]:
arr2 = np.array([[1, 2, 3, 4, 5], 
                 [6, 7, 8, 9, 10], 
                 [11, 12, 13, 14, 15]
                ])

In [None]:
arr2

In [None]:
arr2.shape

2차원 배열의 indexing은 다음과 같이 2가지 방식으로 접근 가능합니다.

In [None]:
arr2[2, 3]

In [None]:
arr2[2][3]

## 슬라이싱(slicing)

### 1차원 배열

In [None]:
arr1 = np.array([1, 2, 3, 4, 5])
arr1

In [None]:
arr1[:2]

In [None]:
arr1[-2:]

### 2차원 배열

In [None]:
arr2 = np.array([[1, 2, 3, 4, 5], 
                 [6, 7, 8, 9, 10], 
                 [11, 12, 13, 14, 15]
                ])
arr2

행(row)은 전체 선택, 열(column)은 1:3 슬라이싱

In [None]:
arr2[:, 1:3]

행(row)은 :2, 열(column)은 1:3 슬라이싱

In [None]:
arr2[:2, 1:3]

### 연습문제

In [None]:
sample = np.array([[10, 20, 30, 40, 50], 
                   [15, 20, 25, 30, 35], 
                   [10, 12, 14, 16, 18], 
                  ])
sample

주어진 `sample` array를 활용하여 다음과 같이 출력될 수 있도록 **slicing** 하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([[10, 20, 30],
       [15, 20, 25],
       [10, 12, 14]])</pre>

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([[15, 20, 25, 30, 35],
       [10, 12, 14, 16, 18]])</pre>

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([[25, 30, 35],
       [14, 16, 18]])</pre>

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([[20, 30, 40],
       [20, 25, 30]])</pre>

## reshape: 형태 변경

- 형태(shape)는 자유롭게 변경이 가능하나 변경 후의 데이터 개수(size)는 변경 전과 같아야 합니다.
- `-1`은 자동으로 크기를 계산합니다.

In [None]:
arr = np.arange(15)
arr

In [None]:
print(f'ndim: {arr.ndim}, shape: {arr.shape}')

변경 후의 **데이터 개수(size)가 맞지 않는다면 Error가 발생**합니다.

In [None]:
arr.reshape(5, 2)

행: 3, 열: 5로 변경

In [None]:
arr.reshape(3, 5)

열은 `-1`로 지정하여 자동으로 계산한 경우

In [None]:
arr.reshape(5, -1)

행을 `-1`로 지정하여 자동으로 계산한 경우

In [None]:
arr.reshape(-1, 5)

원본 데이터에 적용하기 위해서는 **재대입**을 해야합니다.

In [None]:
arr = np.arange(15)
print(arr.shape)
arr

In [None]:
arr.reshape(3, -1)

변경 사항이 적용되지 않습니다.

In [None]:
arr

In [None]:
arr = arr.reshape(3, -1)
print(arr.shape)
arr

### 연습문제

`np.arange()` 를 활용하여 다음의 array를 생성하고 `myarray` 변수에 대입하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([ 2,  4,  6,  8, 10, 12, 14, 16, 18, 20])</pre>

`myarray`의 shape와 차원(dimension)을 출력하세요

In [None]:
# 코드를 입력해 주세요




<p><strong>[출력 결과]</strong></p><pre>shape: (10,), dim: 1
</pre>

`myarray`를 다음과 같이 출력되도록 shape 변경을 해주세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([[ 2,  4],
       [ 6,  8],
       [10, 12],
       [14, 16],
       [18, 20]])</pre>

`myarray`의 shape를 출력하세요

In [None]:
# 코드를 입력해 주세요




<p><strong>[출력 결과]</strong></p><pre>shape: (5, 2), dim: 2
</pre>

## 행열 연산

- `element-wise operations`: 행과 열이 같은 배열을 계산하면 값은 위치에 있는 값들이 계산됩니다.
- `element-wise operations`은 shape이 행렬의 shape이 같아야 합니다.

In [None]:
x = np.array([[10, 20], [30, 40]])
y = np.array([[5, 6], [7, 8]])

In [None]:
x

In [None]:
y

### 덧셈

In [None]:
x + y

### 곱셈

In [None]:
x * y

### 뺄셈

In [None]:
x - y

### 나눗셈

In [None]:
x / y

### modulus, floor division

In [None]:
x % y

In [None]:
x // y

shape가 맞지 않으면 안됩니다!

In [None]:
x = np.array([[1, 2, 3], [3, 4, 5]])
y = np.array([[5, 6, ], [7, 8]])

In [None]:
x + y

### 브로드캐스팅

- 단순 스칼라(salar) 값 연산시
- 제곱, 거듭제곱 등의 연산시

In [None]:
x = np.array([[1, 2], [3, 4]])
x

In [None]:
x + 10

In [None]:
x ** 2

`np.sqrt()`는 루트 연산입니다.

In [None]:
np.sqrt(x)

## 행렬의 곱연산

- `*`: 일반 곱셈 부호
- `@`: matmul, 행열의 곱연산, 내적곱(dot product)

In [None]:
a = np.array([[1, 2], [3, 4]])
a

In [None]:
b = np.array([[5, 6], [7, 8]])
b

일반 곱을 수행한 결과

In [None]:
a * b

**행렬곱**을 수행한 결과

In [None]:
a @ b

## Boolean Indexing

- 조건 배열(Boolean array)을 활용하여 인덱싱하는 방법입니다.
- 조건에 해당하는 결과가 `True`인 요소를 반환합니다.
- 인덱싱 후 결과는 항상 **1차원 배열로 반환**합니다.

In [None]:
arr = np.arange(1, 13).reshape(3, 4)
arr

**Boolean 배열을 생성**합니다.

In [None]:
# Boolean 배열 생성
bool_arr = arr > 5
bool_arr

위에서 생성한 boolean 배열인 `bool_arr`로 인덱싱 합니다.

In [None]:
arr[bool_arr]

### 연습문제

In [None]:
np.random.seed(0)
sample = np.random.randn(4, 3)
sample

`sample` array 중 0 보다 큰 값만 출력 하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([1.76405235, 0.40015721, 0.97873798, 2.2408932 , 1.86755799,
       0.95008842, 0.4105985 , 0.14404357, 1.45427351])</pre>

`sample` array 중 -0.5 ~ 0.5 사이의 값만 출력 하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([ 0.40015721, -0.15135721, -0.10321885,  0.4105985 ,  0.14404357])</pre>

## Fancy Indexing

- 다른 배열(array)이나 리스트(list)를 사용하여 배열을 인덱싱 하는 방법입니다.

In [None]:
arr = np.arange(100, 110)
arr

인덱스 리스트(list)를 생성하여 fancy indexing 합니다.

In [None]:
# 인덱스 리스트 생성
idx = [0, 2, 5]
arr[idx]

`np.arange()`로 인덱스를 생성할 배열 생성후 fancy indexing 합니다.

In [None]:
# np.arange로 인덱스 생성
arr_idx = np.arange(1, 9, 2)
arr_idx

In [None]:
arr[arr_idx]

## where()

- 문법: `np.where(조건, 참인 경우 배열, 거짓인 경우 배열)`

In [None]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
condition = np.array([True, False, True, True, False])

In [None]:
np.where(condition, xarr, yarr)

난수로 채워진 (4 X 4) 배열을 생성합니다.

In [None]:
a = np.random.randn(4, 4)
a

In [None]:
np.where(a >= 0, '양수', '음수')

### 연습문제

In [None]:
np.random.seed(0)
sample = np.random.randint(1, 30, size=(3, 5))
sample

- `sample`의 요소가 **짝수**라면 **X2(곱하기 2)**를 하고, 짝수가 아니라면 **3으로 나눈 나머지**를 구하세요
- 결과를 `output` 변수에 대입하고, 출력합니다.

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([[ 1, 32, 44,  1,  8],
       [56,  8, 16, 20, 40],
       [44,  1,  2, 48,  1]])</pre>

`output` array중 0번째, 2번째 행만 선택하여 출력해 주세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([[ 1, 32, 44,  1,  8],
       [44,  1,  2, 48,  1]])</pre>

`output` array중 1번째, 4번째열만 선택하여 출력해 주세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([[32,  8],
       [ 8, 40],
       [ 1,  1]])</pre>

## 통계

### axis: 축

- 배열의 통계 함수는 요소별로 동작하며 축(axis) 지정으로 연산의 방향을 정할 수 있습니다.
- axis를 지정하지 않은 경우에는 모든 요소에 대한 통계 결과를 반환합니다.
- `axis=0`: 행(row) 별 연산 결과를 반환합니다.
- `axis=1`: 열(column) 별 연산 결과를 반환합니다.

### sum(): 합계

In [None]:
arr = np.arange(1, 13).reshape(3, 4)
arr

In [None]:
arr.sum()

In [None]:
arr.sum(axis=0)

In [None]:
arr.sum(axis=1)

### mean(): 평균

In [None]:
arr = np.arange(1, 13).reshape(3, 4)
arr

In [None]:
arr.mean()

In [None]:
arr.mean(axis=0)

In [None]:
arr.mean(axis=1)

### min(), max(): 최소값, 최대값

In [None]:
# 난수 seed값 설정
np.random.seed(123)
# 샘플 배열 생성
arr = np.random.permutation(np.arange(1, 13)).reshape(3, 4)
arr

**최소값**

In [None]:
arr.min()

In [None]:
arr.min(axis=0)

In [None]:
arr.min(axis=1)

**최대값**

In [None]:
arr

In [None]:
arr.max()

In [None]:
arr.max(axis=0)

In [None]:
arr.max(axis=1)

### var(), std(): 분산, 표준편차

- 분산과 표준편차: 데이터가 평균으로부터 얼마나 퍼져있는지 정도를 나타내는 지표

**분산($\sigma^2$) 공식**

$\Large \sigma^2 = \frac{\sum_{i=1}^{n}(x_i - \mu)^2} {n}$

**표준편차($\sigma$) 공식**

$\Large \sigma = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \mu)^2} {n}}$

In [None]:
# 샘플 배열 생성
arr = np.arange(1, 13).reshape(3, 4)
arr

In [None]:
arr.var()

In [None]:
arr.var(axis=0)

In [None]:
arr.var(axis=1)

표준편차는 분산에 루트를 씌운 결과 입니다.

In [None]:
np.sqrt(arr.var()), arr.std()

### 연습문제

In [None]:
np.random.seed(0)
sample1 = np.random.randn(4, 5)
sample2 = np.random.randn(5, 2)

In [None]:
sample1

In [None]:
sample2

`sample1`의 열에 대한 **합계**를 출력하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([7.25139873, 0.12883298, 2.92489305, 1.0815671 ])</pre>

`sample2`의 행에 대한 **평균**을 출력하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([ 0.43194775, -0.05214744])</pre>

`sample1`과 `sample2`의 **행렬 곱셈**을 구한 뒤 `output` 변수에 대입하고, 출력하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([[ 1.02889179,  1.7572455 ],
       [ 3.59736128, -0.50112324],
       [ 3.30266579, -1.46256978],
       [-1.32080473, -1.90595663]])</pre>

`output` 의 **분산**을 구하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>4.154518023528764</pre>

`sample1`의 열방향 평균과 `output`의 열방향 평균 차이를 구하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array([ 0.0572111 , -1.52235242, -0.3350694 ,  1.8296941 ])</pre>

`sample1`의 제곱한 array의 표준편차와 `sample2`의 제곱한 array의 표준편차의 차이를 구하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>-0.7269587835008058</pre>