In [2]:
import numpy as np
import matplotlib.pyplot as plt

# Numpy 라이브러리 
- 파이썬에서 수치해석을 하기 위한 기능을 제공
- 벡터, 행렬, ... 과 형태를 편하게 표현
- 내적과 같은 연산을 편하게 구현

## 자료의 형태
- 수학적으로 엄밀한 정의를 따르진 않습니다. 

1. Scalar(스칼라, 스케일러)
- 물리학에서는 `양(volume)`을 표현하는 형태(방향이 없는)
- 파이썬에서는 변하지 않는 `상수` 정도로 해석
$$
    10, [[10]]
$$

2. Vector
- 물리학에서는 방향성을 가지고 있는 형태
- 파이썬에서는 행이 `n`이고, 열이 `1`인 형태를 벡터라고 부릅니다. 
- 벡터라고 부르는건 기본적으로 `열벡터`를 의미합니다. 

$$
    \overrightarrow x, \mathbb{A}
$$

3. Matrix
- 여러개의 벡터가 모여서 행렬을 이루게 된다. 

$$
    \mathbb{A}
$$

## 기본적인 자료형(ndarray, matrix)

### ndarray
- N-Dimentional Array
- 다차원 배열

In [65]:
# 쉽게는 파이썬의 리스트 정도로 해석될 수도 있지만 (형태는 비슷)
# 기본적으로는 리스트와는 아주 많이 달라요

# 1차원 배열
arr = np.array([1,2,3,4,5])
arr

array([1, 2, 3, 4, 5])

### matrix
- 수학적 용도로 많이 사용

In [7]:
mat = np.matrix('1,2,3,4,5 ; 6,7,8,9,10 ; 11, 12, 13, 14, 15')
mat

matrix([[ 1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10],
        [11, 12, 13, 14, 15]])

## Numpy 배열(ndarray)

In [16]:
# 1차원 배열
# 행벡터라고 볼 수 있는데, 벡터로써 취급이 됩니다. 
arr = np.array([1,2,3,4,5])
arr

array([1, 2, 3, 4, 5])

In [13]:
# 2차원 배열
arr2 = np.array([
    [1,2,3,4,5],
    [6,7,8,9,10]
])
arr2

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

### n x m 차원 배열

\begin{bmatrix}
1 & 4 & 2 \\
9 & 5 & 0 \\
4 & 0 & 2 \\
6 & 1 & 8 
\end{bmatrix}

- n: 행
- m: 열

In [15]:
arrn = np.array([
    [1,4,2],
    [9,5,0],
    [4,0,2],
    [6,1,8]
])
arrn

array([[1, 4, 2],
       [9, 5, 0],
       [4, 0, 2],
       [6, 1, 8]])

### 열벡터
\begin{bmatrix}
        1 \\
        2 \\
        3 \\
        4
\end{bmatrix}

In [18]:
vector = np.array([
    [1],
    [2],
    [3],
    [4]
])
vector

array([[1],
       [2],
       [3],
       [4]])

## ndarray의 속성

In [20]:
print(arr.ndim)
print(arrn.ndim)
print(vector.ndim)

1
2
2


In [22]:
# 배열의 모양(크기)
print(arr.shape)
print(arrn.shape)
print(vector.shape)

(5,)
(4, 3)
(4, 1)


## 배열의 인덱싱과 슬라이싱
- 파이썬에서의 리스트와는 다르게 동작
- 인덱싱과 슬라이싱은 많이 익숙해져서 편하게 다룰 수 있어야 합니다. 

### 1차원 인덱싱과 슬라이스
- 어떤 언어든지 1차원은 쉬운것 같아요 
- C언어만 빼고, 얘는 1차원도 어려워요 

In [25]:
arr

array([1, 2, 3, 4, 5])

In [26]:
# 파이썬에서 인덱스 번호는 0번부터 시작
# 음수 인덱싱도 가능
arr[0]

1

In [27]:
arr[-1]

5

In [30]:
# 마지막 인덱스는 열려있는 연산 
# arr[0:2)
arr[0:2] 

array([1, 2])

In [31]:
arr[:]

array([1, 2, 3, 4, 5])

In [33]:
arr[:3]

array([1, 2, 3])

In [34]:
arr[2:]

array([3, 4, 5])

In [37]:
arr[-1:-3:-1]

array([5, 4])

### 2차원 배열의 인덱싱과 슬라이싱

In [38]:
arrn

array([[1, 4, 2],
       [9, 5, 0],
       [4, 0, 2],
       [6, 1, 8]])

In [40]:
arrn[1,1] # 리스트와는 다르게 콤마로 행과 열을 구분

5

In [41]:
arrn[-1,-1]

8

In [47]:
# 배열에서는 행따로, 열따로 슬라이스가 가능
# 이걸 구분하는게 콤마로 구분
# 사소해보이지만, 사소하지 않은 그래서 중요한

# 한 행 전체를 표현
print( arrn[0] )
print( arrn[0,])
print( arrn[0,:])

[1 4 2]
[1 4 2]
[1 4 2]


In [51]:
# 한 열 전체를 표현

print( arrn[:,0])
print( arrn[0:2,0])
print( arrn[1:3,0])

[1 9 4 6]
[1 9]
[9 4]


In [52]:
arrn = np.array([
    [1,2,3,4,5,6,7,8,9,10],
    [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
    [21, 22, 23, 24, 25, 26, 27, 28, 29, 30]
])
arrn

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30]])

In [53]:
# 16이라는 값만 표현
arrn[1,5]

16

In [55]:
# 29라는 값만 표현
arrn[2,8] # 3번째 행 9번째 열이라고 읽고, 2,8이라고 쓴다. 

29

In [57]:
# 14, 15, 16을 나란히 표현
arrn[1, 3:6]

array([14, 15, 16])

In [58]:
# 18, 28을 나란히 표현
arrn[1:3 , 7]

array([18, 28])

In [59]:
# 9, 10, 19, 20을 나란히 표현
arrn[0:2, 8:10]

array([[ 9, 10],
       [19, 20]])

### 인덱싱과 슬라이스 연습

In [6]:
np.arange(1, 51).reshape(5,10)

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [15]:
arrn = []
for i in range(0, 5):
   arr = [x for x in range(i*10 + 1, ((i+1)*10)+1)]
   arrn.append(arr)

In [16]:
np.array(arrn)

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [61]:
arrn = np.array([
    [1,2,3,4,5,6,7,8,9,10],
    [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
    [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
    [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
    [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]
])
arrn

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [62]:
# TODO
# [[14, 15, 16, 17], [24, 25, 26, 27], [34, 35, 36, 37]]

In [63]:
# TODO
# [12, 22, 32]

## 배열인덱싱(array indexing), 팬시 인덱싱(fancy indexing)

### Boolean index
- 원본 배열의 크기와 같은 크기여야 한다. 
- 조건에 맞는 자료를 검색하는 경우에 매우 유용하게 사용된다. 

In [66]:
arr

array([1, 2, 3, 4, 5])

In [71]:
arr[
    [True, False, True, False, False]
]

array([1, 3])

In [69]:
idx = np.array([True, False, False, True, False])
arr[idx]

array([1, 4])

### Interger index
- 크기가 같지 않아도 상관이 없다. 

In [72]:
arr

array([1, 2, 3, 4, 5])

In [74]:
arr[
    [1,1,1,1,1,2,2,3,3,3,4,4,4,4,4,1,2,2,1]
]

array([2, 2, 2, 2, 2, 3, 3, 4, 4, 4, 5, 5, 5, 5, 5, 2, 3, 3, 2])

## 배열의 타입
- 정수(int32, int64), 실수(float32, float64)

In [75]:
arr

array([1, 2, 3, 4, 5])

In [76]:
arr.dtype

dtype('int64')

In [78]:
arrf = np.array([1,2,3,4,.5])
arrf

array([1. , 2. , 3. , 4. , 0.5])

In [79]:
arrf.dtype

dtype('float64')

In [80]:
arrf = np.array([1,2,3,4,5], dtype=np.float64)

In [82]:
arrf.astype(np.int64)

array([1, 2, 3, 4, 5])

## Numpy의 특별한 타입
- NaN(Nat a Number)
    - 결측치를 표현하는 용도로 사용
- inf(infinity)

In [87]:
print(type(np.nan))
print(type(np.inf))

<class 'float'>
<class 'float'>


In [85]:
np.log(0)

  np.log(0)


-inf

In [86]:
np.array([0]) / np.array([0])

  np.array([0]) / np.array([0])


array([nan])

## 배열을 생성하는 방법

### 초기화된 배열

In [90]:
np.zeros((4,3), dtype=np.int64)

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [91]:
np.ones((4,1), dtype=np.int32)

array([[1],
       [1],
       [1],
       [1]], dtype=int32)

In [92]:
np.full((4,1), 5)

array([[5],
       [5],
       [5],
       [5]])

In [210]:
np.arange(1, 10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [97]:
np.linspace(0, 10, 10, dtype=np.int64)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8, 10])

## 랜덤 배열 생성

In [101]:
np.random.rand(10)

array([0.93968533, 0.06779707, 0.25730692, 0.03056509, 0.80817237,
       0.91823023, 0.92757952, 0.66252084, 0.34846893, 0.40855654])

In [103]:
np.random.rand(4,3)

array([[0.44712203, 0.27076917, 0.04434374],
       [0.45769978, 0.39648224, 0.45964064],
       [0.11601003, 0.34644168, 0.4676779 ],
       [0.87424478, 0.80162365, 0.68715489]])

In [106]:
np.random.randint(1,10, size=5)

array([1, 9, 7, 6, 2])

In [107]:
np.random.randint(1,10, size=(4,3))

array([[9, 1, 9],
       [5, 5, 4],
       [5, 4, 9],
       [9, 7, 6]])

In [110]:
np.random.randn(5,5) #정규분포로 부터 샘플링

array([[-2.44271085, -1.33731024,  0.28007843,  0.58943545,  0.0748648 ],
       [-0.56047348,  0.53204246,  1.3918799 ,  0.13952211,  0.18227752],
       [-0.86649198, -0.2358299 , -0.85593778,  0.85615356,  1.85813234],
       [ 0.11161369,  1.07100055, -1.43681328,  0.59894827,  0.63725996],
       [-0.45561822,  0.46933664,  1.31352202,  0.68904904, -0.86014774]])

In [116]:
# 중복없이 랜덤한 값을 선택
arr = np.arange(10)
np.random.choice(arr, size=(2,3), replace=False)

array([[2, 8, 7],
       [0, 5, 6]])

In [129]:
np.random.seed(1234)
np.random.randint(10, size=5)

array([3, 6, 5, 4, 8])

## 배열의 모양
- reshape
    - 저차원 고차원으로 변경 
    - 고차원에서 저차원 변경
- 변경하는 차원의 크기가 꼭, 같아야 됩니다. 

### 저차원에서 고차원으로 변경

In [131]:
arr = np.arange(1, 10)
arr

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [132]:
arr.reshape(3,3)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [134]:
arr.reshape(9,1)

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

### 고차원에서 저차원으로 변경

In [136]:
arrn = np.random.randint(10, size=(4,3))
arrn

array([[0, 5, 2],
       [6, 3, 7],
       [0, 9, 0],
       [3, 2, 3]])

In [137]:
arrn.flatten()

array([0, 5, 2, 6, 3, 7, 0, 9, 0, 3, 2, 3])

In [138]:
arrn.flatten(order='F')

array([0, 6, 0, 3, 5, 3, 9, 2, 2, 7, 0, 3])

## 배열의 함수
- 기술(기초) 통계: 평균, 분산, 중앙, 최빈, 최대, 최소
- 집계(aggrigation): sum, count

In [139]:
arr

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [140]:
arr.mean()

5.0

In [143]:
arr.var()

6.666666666666667

In [144]:
arr.std()

2.581988897471611

In [147]:
# 자료를 순서대로 정렬했을 때, 가운데 오는 값
np.median(arr)

5.0

In [153]:
from scipy.stats import mode
arrr = np.random.randint(1, 10, size=10)
arrr

array([1, 9, 9, 7, 9, 7, 4, 2, 3, 6])

In [154]:
mode(arrr)

ModeResult(mode=array([9]), count=array([3]))

In [155]:
arr.min()

1

In [156]:
arr.max()

9

### 4분위수

In [170]:
# 1분위수
# 전체 데이터의 25%에 해당하는 값
print( np.percentile(arr, 25) )
print( np.quantile(arr, .25) )

3.0
3.0


In [171]:
# 2분위수
# 전체 데이터의 50%에 해당하는 값
# 중앙값과 동일
print(np.percentile(arr, 50))
print(np.quantile(arr, .50))

5.0
5.0


In [173]:
# 3분위수
# 전체 데이터의 75%에 해당하는 값
print(np.percentile(arr, 75))
print(np.quantile(arr, .75))

7.0
7.0


In [176]:
arr.sum()

45

In [178]:
arr.cumsum()

array([ 1,  3,  6, 10, 15, 21, 28, 36, 45])

## axis란? 

In [184]:
arr

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [188]:
arr.sum(axis=0)

45

In [189]:
arrn

array([[0, 5, 2],
       [6, 3, 7],
       [0, 9, 0],
       [3, 2, 3]])

In [200]:
arrn.sum(axis=0) # 행을 기준으로 모든 행의 값을 더해준다. 

array([ 9, 19, 12])

In [201]:
arrn.sum(axis=1) # 열을 기준으로 모든 열의 값을 더해준다. 

array([ 7, 16,  9,  8])

# Numpy을 이용한 연산

## 여러가지 형태의 벡터와 행렬

### 영벡터

In [282]:
np.zeros((4,1))

array([[0.],
       [0.],
       [0.],
       [0.]])

### 일벡터

In [283]:
np.ones((4,1))

array([[1.],
       [1.],
       [1.],
       [1.]])

### 정방행렬(squre matrix)
- 행과 열의 갯수가 동일한 행렬

In [285]:
np.random.randint(10, size=(5,5))

array([[9, 1, 2, 9, 1],
       [5, 7, 4, 7, 7],
       [1, 4, 0, 5, 4],
       [9, 2, 9, 1, 3],
       [5, 9, 3, 0, 4]])

### 대각행렬(digonal matrix)
- 행과 열이 같은 위치를 대각이라고 표현
- 비대각(대각 위치가 아닌/행과 열이 다른위치)
- 비대각이 전부 0인 요소

In [286]:
np.diag([1,2,3,4,5])

array([[1, 0, 0, 0, 0],
       [0, 2, 0, 0, 0],
       [0, 0, 3, 0, 0],
       [0, 0, 0, 4, 0],
       [0, 0, 0, 0, 5]])

### 항등행렬(identity matrix)
- 대각행렬 중에서도 대각위치의 값이 모두 1인 행렬

In [287]:
np.diag([1,1,1,1,1])

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1]])

### Transpose(전치연산, 전치행렬)
- 행과 열을 바꾸는 연산 전치연산
- 그 행렬을 전치행렬
$$
    \mathbb{A}^{T}
$$

In [291]:
arrn = np.random.randint(10, size=(3,4))
arrn

array([[2, 2, 3, 2],
       [9, 7, 4, 8],
       [1, 9, 2, 7]])

In [292]:
arrn.T

array([[2, 9, 1],
       [2, 7, 9],
       [3, 4, 2],
       [2, 8, 7]])

In [295]:
# 1차원 배열에 대해서는 전치행렬이 정의되지 않는다. 
arr.T

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

## 타입에 따른 연산

### Scalar와 벡터의 연산
- 사칙연산이 가능