# Numpy 기본연산


1. [Numpy 기본연산](#Numpy-기본연산)
1. [내장 수학 함수](#내장-수학-함수)
1. [행렬](#행렬)
1. [난수 생성](#4.-난수-생성)
1. [범위 벡터의 생성](#범위-벡터의-생성)
1. [집합](#집합)

> 2021/11

In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

# np.random.seed(12345)
# PREVIOUS_MAX_ROWS = pd.options.display.max_rows
# pd.options.display.max_rows = 20
# np.set_printoptions(precision=4, suppress=True)

# 1. 내장 수학 함수


- numpy는 배열 연산에 유용하게 사용되는 많은 함수를 제공
- 배열 연산 함수 참조 : https://docs.scipy.org/doc/numpy/reference/routines.math.html

### np.sum()

[np.sum()](https://docs.scipy.org/doc/numpy/reference/generated/numpy.sum.html#numpy.sum)

sum of array elements over a given axis
```
numpy.sum(a, axis=None, dtype=None, out=None, keepdims=<no value>, initial=<no value>)
 - a : array like
 - axis: axis[s] which a sum is performed.
```


In [None]:
a = np.array([1,2,3])
np.sum(a)

In [None]:
a = np.array([[1,2,3],[4,5,6]])
np.sum(a)

In [None]:
a.sum(dtype=float)

In [None]:
np.sum([[0, 1], [0, 5]]) # 6

In [None]:
np.sum([[1, 1], [1, 5]]) # 8

#### 축방향으로 연산

In [None]:
#axis
np.sum([[0, 1], [0, 5]], axis=0)   # array([0, 6])

In [None]:
np.sum([[0, 1], [0, 5]], axis=1)    # array([1, 5])

In [None]:
np.sum([[1, 1], [0, 5]], axis=1)     #array([2, 5])

In [None]:
a = np.array([[1,2,3],[4,5,6]])

In [None]:
np.sum(a, axis=0)  # sum over rows for each of the 3 columns

In [None]:
np.sum([[1,2,3],[4,5,6]],axis=1) #sum over columns for each of the 2 rows

### ex) 1~13 사이 숫자를 가진 4x3 배열을 생성하 Axis 방향 sum() 연산을 수행하자

In [None]:
x = np.arange(1, 13).reshape(4, 3)
print(x)

In [None]:
print("sum:", x.sum()) # 기본적으로는 모든 요소의 합

In [None]:
# axis로 연산 함수를 적용할 축을 지정
# axix=0, 각 열의 합산값(행의 방향)
print(np.sum(x, axis=0)) # 각 열의 합산값(행의 방향)

In [None]:
# axis=1, 각 행의 합산값(열의 방향)
print(np.sum(x, axis=1)) 

In [None]:
print("sum:", x.sum(axis=0)) # 기본적으로는 모든 요소의 합

### np.sqrt()

In [None]:
a = np.array([1,2,3,3,2,5]).reshape(2,3) #2x3
b = np.array([[-1,3,5],[1,4,2]])         #2x3

In [None]:
# 제곱근
np.sqrt(a)

In [None]:
np.sqrt(b) # 실행 결과는?

In [None]:
b = np.array([[9,3,5],[1,4,2]])         #2x3
np.sqrt(b)

### 상관계수 corrcoef()

In [None]:
T = np.array([1.3, 4.5, 2.8, 3.9]) # temperature measurements
P = np.array([2.7, 8.7, 4.7, 8.2]) # corresponding pressure measurements
np.corrcoef([T,P]) # correlation matrix of temperature and pressure

In [None]:
np.corrcoef([T,P])[0,1]

# 2. 배열(벡터) 연산

- 기본적 수학 함수는 배열의 각 요소별로 동작
- 연산자를 이용 동작하거나 numpy 함수 모듈을 이용하여 동작함

![image.png](attachment:9fb3b1fa-2c1e-47e3-b37b-6f2854ac7d53.png)

In [None]:
# 벡터
a = np.array([2,1])
print(a)

In [None]:
type(a)

In [None]:
# 2x1 벡터
a = np.array([[1],[2]])
a

In [None]:
a.shape

2x2 벡터

In [None]:
x = np.arange(1, 5).reshape(2, 2)
y = np.arange(5, 9).reshape(2, 2)

In [None]:
print(x)
print(y)

### 벡터의 사칙연산

합과 차에 대한 연산

In [None]:
x = np.array([[3,4],[5,6]])
y = np.array([[1,2],[2,1]])

In [None]:
# 배열과 배열의 합
print(x + y)

In [None]:
print(np.add(x, y))

In [None]:
# 배열과 배열의 차
print(x - y)
print(np.subtract(x, y))


numpy의 ndarray의 `*` 연산은 벡터의 브로드캐스팅을 다룬다.

In [None]:
# 배열과 배열의 브로드캐스팅
print(x * y)

In [None]:
print(np.multiply(x, y))

In [None]:
# 배열과 배열의 나눗셈
print(x / y)
print(np.divide(x, y))

### 벡터의 스칼라 연산

![image.png](attachment:aa0e985a-f9b7-4638-924e-016a991216e5.png)

In [None]:
x = np.arange(12).reshape(3, 4)
print(x)

In [None]:
# 각 요소에 동일한 값을 더해 봅시다.
print(x + 2)

In [None]:
x * 0.1

### 벡터의 브로드캐스팅

NumPy에서 배열의 실수배는 **브로드캐스팅** 이라 부르기도 한다.
- numpy에서 shape가 다른 배열 혹은 배열과 스칼라 사이의 산술 연산이 가능하도록 하는 매커니즘
- Universal Function이라고도 함

In [None]:
y = np.array([1, 2, 3, 4])
print(y)

In [None]:
x.shape, y.shape

In [None]:
# 벡터와 벡터의 브로드캐스팅
print(x + y)

In [None]:
x * y

### 벡터의 크기



벡터 $\vec{AB}$ 를 크기로 표현하면 $|\overrightarrow{AB}|$ 같이 표현해서 **벡터의 크기**를 나타내고, 스칼라 숫자 값이다. 특히 크기가 1인 벡터를 **단위벡터**라고하고, 크기가 0인 벡터를 영벡터라하고 $\vec{0}$ 으로 나타낸다.

> 참고: [벡터의 합과 크기](https://j1w2k3.tistory.com/552)

In [None]:
np.linalg.norm(x)

### 벡터의 내적

**벡터의 내적** 은 두 벡터의 방향과 힘에 대한 곱 연산의 하나로 여기서 내적은 **.** 을 사용해서 아래 같이 표현한다.

$$
\vec{a} \cdot \vec{b} = \left|\vec{a}\right| \left|\vec{b}\right| cos\theta \quad \longleftarrow 식2
$$

두 벡터를 내적하려면 다음과 같은 조건이 만족해야 한다.

 - 우선 두 벡터의 길이가 같아야 한다.
 - 앞의 벡터가 **행 벡터**이고 뒤의 벡터가 **열 벡터**야 한다.
 - 행렬 곱 A*B에 대해 A의 열의 수와 B의 행의 수가 같아야 한다.
 - 결국 A행과 B열의 개수를 가진다.
 - 단, 교환법칙은 성립하지 않는다.

<img src='https://i.ytimg.com/vi/IOf1o72aKDc/maxresdefault.jpg' width='400'>

> https://www.youtube.com/watch?v=IOf1o72aKDc

`numpy.dot()` 를 통해서 내적 계산이 가능하다.

In [None]:
x = np.array([1,3])
y = np.array([4,2])
print(y.dot(x))

# 3. 행렬

행렬의 이름은 보통 대문자로 (), \[\] 괄호에 표기한다.

<img src='attachment:0d0bab18-73fe-4374-890c-2ce74ad7edd0.png' width=300>

LaTex 행렬
 - bmatrix, cmatrix, pmatrix
 
```LaTex
$$
A = \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix} \\
A = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix}
$$
```

## 행렬의 종류

**ndarray** 클래스 메서드를 사용해 배열과 벡터를 만들수 있다. 다차원 배열은 행렬로 다룰 수 있어서 파이썬으로 수치해석을 사용하는데 도움을 준다.

또한 수학에서 행렬에 관해 알려져 있는 특징을 다음 함수를 통해서 직접 생성할 수 있다.

- zeros: 제로 행렬
- zeros() : 0으로 채워진 배열. 영 벡터/배열/행렬
- ones() : 1로 채워진 배열. 원 행렬
- zeros_like(), ones_like(): 
- eye() : 단위 행렬 생성
- full() : 지정한 상수로 채워진 배열
- empty() : 지정된 크기의 0으로 초기화된 배열 생성
- empty_like() : 주어진 배열과 동일한 shape를 가친 초기화되지 않은 배열 생성
- linspace(), logspace()
- sum()
- fratten()


### 일 행렬

np.ones((rows, columns)) 로 1로 채워진 일행렬을 생성할 수 있다.

In [None]:
np.ones((3,2)) # 1로 채워진 3x2 크기 일 행렬를 생성한다.

In [None]:
np.ones((2, 3, 4), dtype="i8") # 2x3x4 3차원 행렬

### 영 행렬

zeros() 는 0으로 채워진 영 행렬을 생성해 준다.

In [None]:
np.zeros((3,2)) # 0으로 채워진 3x2 크기 행렬

### 대각 행렬

대학행렬 Diagonal matrix는 대각성분 이외의 모든 성분이 **0**인 n차 정방행렬이다. 

  - 영행렬, 단위행렬, 항등행렬도 대각행렬에 속한다고 할 수 있다.
  - 또한 대각행렬은 상삼각/하삼각행렬에 속한다고 할 수 있다

diag() 함수로 생성시 대각성분만 제공한다.

```
np.diag((a,b,c,d))
```
.

In [None]:
np.diag((4,5,6))

### eye() 단위행렬

단위행렬은 항등행렬이라고 하고 대각성분이 모두 1이고 그 외 성분은 0인 n차 정방행렬이다. 그러므로 단위행렬은 대각행렬 Diagonal 이기도 하다.

In [None]:
np.eye(2) # 단위행렬

### ones_like(), zeros_like()

주어진 배열 혹은 리스트와 같은 크기의 일행렬, 영행렬 배열을 생성해 준다. 예를 들어 다음 같은 배열이 있으면


In [None]:
a = np.array( [ [1,2,3],[4,5,6]] )
np.ones_like( a, dtype="float32")

In [None]:
np.zeros_like( a, dtype="float32")

### empty() 

초기화 하지 않은 빈 배열 생성 - empty()로 생성되는 성분은 현재 메모리의 가비지 값으로 생성된다.

In [None]:
np.empty([4,3]) # 4x3 빈 배열

In [None]:
arr = np.array([
    [1, 2, 3],
    [4, 5, 6]
])
el = np.empty_like(arr) # arr과 shape가 동일한 초기화 되지 않은 배열 생성
print(el)
print(arr.shape == el.shape) # shape는 동일한가?

### full()

주어진 상수로 채워진 배열 생성

In [None]:
a = np.full((2, 2), 7) # 2 * 2의 상수 7로 채워진 rank 2의 배열
print("full:", a)

### ex) 연습 문제

1. 영벡터, 일벡터, 정방행렬, 대각행렬, 항등행렬, 대칭행렬의 예를 하나씩 만들어본다.

2. 위의 벡터와 행렬을 NumPy로 나타내 본다.


## 행렬의 연산

**ndarray** 클래스 메서드를 사용해 배열과 벡터를 만들수 있다. 다차원 배열은 행렬로 다룰 수 있어서 파이썬으로 수치해석을 사용하는데 도움을 준다.
 - https://ratsgo.github.io/linear%20algebra/2017/03/14/operations/
 - https://angeloyeo.github.io/2020/09/07/basic_vector_operation.html

### 행렬 덧셈/뺄셈

같은 크기를 가진 두 개의 벡터/행렬은 덧셈과 뺄셈을 할 수 있다. 벡터와 행렬의 같은 위치의 성분 끼리 연산을 하고 이런 연산을 요소별(Element-wise) 연산이라 한다.

In [None]:
a = np.array([1,2,3,3,2,5]).reshape(2,3)
b = np.array([[-1,1,5],[3,4,2]])
print(a)
print(b)

In [None]:
a + b

In [None]:
b - a

### 행렬의 실수배

In [None]:
A = np.array([[50,40], [10,10]])
0.8 * A

### 전치연산 Transpose

전치연산은 행렬의 행과 열을 전환하는 연산이다. 전치한 행렬은 T라는 위첨자를 붙여 표기한다.

In [None]:
a = np.array([1,2,3,3,2,5]).reshape(2,3)
b = np.array([[-1,1],[3,4],[5,2]])
a

2차원 행렬의 전치연산은 행과 열을 서로 바꾸는 것이다. **ndarray.T** 속성으로 전환이 가능하다. 그리고 transpose() 함수도 사용할 수 있다.

In [None]:
a.T

In [None]:
a.transpose()

In [None]:
b.T

전치한 2x3 행렬 두 개를 행렬곱으로 계산한다.

In [None]:
np.dot(a.T, b.T)

### 행렬의 곱연산

- `*`, `multiply()` 는 기본적으로 요소의 곱
- 일반적으로 행렬곱은 벡터의 내적, 벡터와 행렬의 곱, 행렬곱을 위해서는 dot 함수 사용한다.
- dot 메서드는 모듈 함수, 배열 객체의 인스턴스 양쪽 모두 사용 가능
- [행렬 곱셈의 성질, khan아카데미](https://ko.khanacademy.org/math/precalculus-new/x9e81a4f98389efdf:matrices)
-  https://angeloyeo.github.io/2020/09/08/matrix_multiplication.html
- https://j1w2k3.tistory.com/575

내적(Dot Produt)는 기호로 `.` dot 기호를 쓴다. 벡터의 내적을 구하는 방법에서 각 성분의 좌표값을 곱해서 더하는 것이다.

![image.png](attachment:2e1f1ce4-244e-45fc-893e-9bfadc746442.png)

넘파이에서 벡터와 행렬의 내적은 `dot()`이라는 명령 또는 Python3.5 이상은 `@`(at이라고 읽는다) 연산자로 계산한다. 2차원 배열로 표시한 벡터를 내적했을 때는 결과값이 스칼라가 아닌 2차원 배열이다.

In [None]:
# numpy 행렬 곱 연습
v1 = np.array([9, 10])
v2 = np.array([11, 12])
print(v1)
print(v2)

In [None]:
# v1*v2 : 9 * 11 + 10 * 12
print(v1.dot(v2))
print(np.dot(v1, v2))

#### 행렬과 벡터의 내적

In [None]:
# 행렬과 벡터의 곱
x = np.arange(1, 5).reshape(2, 2)
print(x)

In [None]:
print("행렬 * 벡터:", x.dot(v1))
print("행렬 * 벡터:", np.dot(x, v1))

#### 행렬과 행렬의 내적

- 같은 차수를 가진 행렬
- 곱하는 왼쪽 행렬의 열의 개수가 오른쪽 쪽 행렬의 행의 개수와 같은 경우

In [None]:
# 행렬과 행렬의 내적(중요)
y = np.arange(5, 9).reshape(2, 2)
print(x)
print(y)

In [None]:
print(x.dot(y)) # 내적

In [None]:
print(np.dot(x, y))

In [None]:
x = np.array([[0,3,5],
                 [5,5,2]])
y = np.array([[3,4],
                 [3,-2],
                [4,-2]])
print(x)
print(y)

In [None]:
np.dot(x, y)

# 4. 난수 생성

컴퓨터 모듈 등에서 난수를 발생하는 것은 어떤 계산식에 의해서 구한 값으로 유사 난수라고 한다. 유사 난수는 어떤 문제를 발생할 수 있어 깊게 믿어서는 안된다.


## Python `random 모듈`  사용

In [None]:
import random

rand = [] 

for i in range(10):
    rand.append(random.randint(0,100)) # 1～100의 범위에서 난수를 생성한다
rand

컴퓨터 모듈 등에서 난수를 발생하는 것은 어떤 계산식에 의해서 구한 값으로 *유사 난수*라고 한다. 유사 난수는 어떤 문제를 발생할 수 있어 깊게 믿어서는 안된다.

## `numpy.random 모듈` 사용

- 임의의 수가 필요할 때, 혹은 전체 데이터를 기반으로 샘플링을 하고자 할 때는 난수가 필요
- numpy의 난수 발생은 단순히 임의의 난수를 넘어 다양한 통계(분포:distribution) 기반의 샘플링을 위한 난수 기능을 다양하게 제공
- random 패키지 내에 위치

- 다양한 난수 메서드들

    - randint() : 정수 난수 발생
    - randn() : n차원 난수 발생
    - binomial() : 이항분포
    - hypergeometric() : 초기하분포
    - poisson() : 포아송 분포
    - normal() : 정규 분포
    - standart_t() : t-분포
    - uniform() : 균등분포
    - f() : f-분포
    
    - seed() : 재현 가능성(Reproductibility)을 위한 난수 초기값 설정

## 임의 정수/실수 난수 

임의의 난수를 생성할 수 있다. 
- rand(): uniform 분포를 따르는 난수를 생성
 - randn(): 가우시안 정규 분포를 따르는 난수를 생성

시드는 생성하려면 *np.random.seed* 명령을 사용한다.

### rand()

In [None]:
# 기본적인 난수 발생과 분포 기반 난수
np.random.seed(0)
np.random.rand(4)

### randint()

In [None]:
np.random.seed(seed=42) # 재현 가능성을 위한 난수 초깃값

# 정수 난수
print(np.random.randint(10)) # 10이하의 정수난수
print(np.random.randint(1, 101, 10)) # 1 ~ 100 사이의 정수 난수 10개 생성


In [None]:
np.random.seed(100)
y = np.random.randint(1000,1200,80)
x = np.arange(0,y.size)
plt.plot(x, y)
plt.show()

### randn()

In [None]:
# n차원 난수 발생
np.random.randn(4)

In [None]:
np.random.randn(3, 3) # 3 * 3의 난수 행렬 생성


#### normal() 정규분포 난수

In [None]:
# 정규분포 데이터 x=0, y=5
x = np.random.randn(100000)
y = .4 * x + np.random.randn(100000) + 5

plt.hist(x, bins=20)
plt.show()

In [None]:
# 정규 분포 기반 난수 발생
print(np.random.normal())

# size 옵션 파라미터로 난수의 행렬 크기 지정할 수 있다
print(np.random.normal(size=(2, 2))) # 2 * 2의 정규분포 기반 난수 행렬

평균이 0이고 표준편차가 3인 정규 분포로부터 난수 100개 생성해서 히스토그램을 그려 봅니다: 정규 분포 기반이므로 종형 그래프가 나올 것

![image.png](attachment:5bc28abf-117f-4c33-a089-9291768f8b56.png)

평균이 0이고 표준편차가 3인 정규 분포로부터 난수 100개 생성해서 히스토그램을 그려 봅니다: 정규 분포 기반이므로 종형 그래프가 나올 것



In [None]:
# 평균이 0이고 표준편차가 3인 정규 분포로부터 난수 100개 생성
rand_norm = np.random.normal(0.0, # 평균
                            3.0, # 표준편차
                             size=100 # 표본의 갯수
                            )
print(rand_norm)

In [None]:
plt.hist(rand_norm)
plt.show()

### uniform()

In [None]:
# 랜덤한 수 얻기 (균일 분포)
rand = np.random.uniform(0,1,size=(1,))
rand

## 범위 벡터의 생성
    - arange() : 범위 값으로 배열 만들기
    - linspace() : 선형 간격의 벡터 만들기
    - logspace() : 로그 간격의 벡터 만들기

#### linspace(), logspace()

```
linespace(start, end, count)
logspace(start, end, count)
```

주어진 start-end 구간 사이에 count 만큼을 linspace()는 선형 구간을 logspace()는 로그 구간의 수 만큼 분할한다.

In [None]:
np.linspace(0, 30, 5) # 시작, 끝, 갯수

In [None]:
np.logspace(0.1, 1, 20, endpoint=False) #

In [None]:
# 범위 벡터를 만들기 연습
arr = np.arange(100) # 0부터 99까지의 범위 벡터
print(arr)
arr = np.linspace(0, 1, 100) # 0부터 1까지의 범위를 100개로 선형 분할
print(arr)
arr = np.logspace(0, 1, 100) # 0부터 1까지의 범위를 100개로 로그 분할
print(arr)

### 불균형 데이터 생성

In [None]:
이상치 샘플링

In [None]:
"""
https://stackoverflow.com/questions/55351782/how-should-i-generate-outliers-randomly
"""
def generate(median=630, err=12, outlier_err=100, size=80, outlier_size=10):
    errs = err * np.random.rand(size) * np.random.choice((-1, 1), size)
    data = median + errs

    lower_errs = outlier_err * np.random.rand(outlier_size)
    lower_outliers = median - err - lower_errs

    upper_errs = outlier_err * np.random.rand(outlier_size)
    upper_outliers = median + err + upper_errs

    data = np.concatenate((data, lower_outliers, upper_outliers))
    np.random.shuffle(data)

    return data

# 5. 집합

In [None]:
# Unique
names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])
np.unique(names)

In [None]:
# intersect 교집합
np.intersect1d(names, np.array(['Bob', 'Hanna']))

In [None]:
# union 합집합
np.union1d(names, np.array(['Bob', 'Hanna']))

In [None]:
# setdiff 차집합
np.setdiff1d(names, np.array(['Bob', 'Hanna']))

In [None]:
# Xor
np.setxor1d(names, np.array(['Bob', 'Hanna']))