# 데이터와 수치연산
* 통계연산에 필요한 여러 가지 대표값들을 다뤄보자.
* 또한 선형대수, 미적분, 최적화문제 등을 다루는 방법을 알아보자.
* 데이터 분석에 생각보다 중요한 역할을 많이 한다.

In [2]:
import numpy as np
import pandas as pd

# 대푯값 만들기

넘파이를 사용하면 다양한 통계 연산을 손쉽게 수행할 수 있다.  
예를 들어, 합(sum), 평균(mean), 표준편차(std), 분산(var), 최소값(min), 최대값(max), 누적합(cumsum), 누적곱(cumprod) 등을 계산할 수 있다.

In [3]:
arr = np.arange(1, 11)
print(f"합계 : {arr.sum()}")
print(f"평균 : {arr.mean()}")
print(f"표준편차 : {arr.std()}")
print(f"분산 : {arr.var()}")
print(f"최솟값 : {arr.min()}")
print(f"최댓값 : {arr.max()}")
print(f"누적합 : {arr.cumsum()[-1]}")
print(f"누적곱 : {arr.cumprod()[-1]}")

합계 : 55
평균 : 5.5
표준편차 : 2.8722813232690143
분산 : 8.25
최솟값 : 1
최댓값 : 10
누적합 : 55
누적곱 : 3628800


In [7]:
df = pd.read_csv("../../Dataset/epi_data.csv")
df.describe()

Unnamed: 0,id,Exercise,Diet,Age,Sex,SBP1,SBP2,SBP3,SBP4,SBP5,...,DBP4,DBP5,DBP6,DBP7,DBP8,DBP9,DBP10,Height,Weight,Marriage
count,5000.0,5000.0,4990.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,...,5000.0,5000.0,5000.0,5000.0,4965.0,4933.0,4933.0,5000.0,4903.0,4967.0
mean,2500.5,0.3,0.600401,43.9404,0.502,142.4876,142.4236,142.4832,142.5194,142.4944,...,98.283,98.0802,98.2512,98.4986,98.485398,98.566187,98.555848,158.9132,69.791556,1.53936
std,1443.520003,0.458303,0.489865,14.717098,0.500046,36.403408,36.32087,36.38728,36.298275,36.471638,...,33.706577,33.944912,33.900099,33.937695,33.984462,34.006248,33.951637,12.002253,20.119436,0.498499
min,1.0,0.0,0.0,20.0,0.0,65.0,68.0,64.0,64.0,62.0,...,20.0,16.0,22.0,22.0,23.0,21.0,22.0,140.0,35.0,1.0
25%,1250.75,0.0,0.0,31.0,0.0,112.0,112.0,112.0,113.0,112.0,...,69.0,68.0,68.0,68.0,68.0,68.0,69.0,150.0,54.0,1.0
50%,2500.5,0.0,1.0,43.0,1.0,128.0,128.0,128.0,128.0,128.0,...,94.0,94.0,94.0,95.0,94.0,95.0,95.0,157.0,68.0,2.0
75%,3750.25,1.0,1.0,57.0,1.0,181.0,180.0,180.25,180.0,180.0,...,131.0,131.0,132.0,131.0,131.0,132.0,132.0,166.0,84.0,2.0
max,5000.0,1.0,1.0,69.0,1.0,228.0,222.0,223.0,228.0,225.0,...,163.0,173.0,172.0,169.0,167.0,169.0,169.0,190.0,110.0,2.0


# 선형대수 (1)
행렬과 벡터는 데이터 과학에서 중요한 개념이다. 넘파이를 사용하여 행렬과 벡터를 생성하고 연산해보자.

## 만들어보기

우선 벡터를 만들어보자.

In [None]:
# 1차원 벡터 생성
vector = np.array([1, 2, 3, 4, 5])
print("1차원 벡터:")
print(vector)

1차원 벡터:
[1 2 3 4 5]


In [None]:
vec2 = np.linspace(1, 10, 10)
print(vec2)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]


행렬 역시 만들어볼 수 있다.

In [None]:
# 2차원 행렬 생성
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("\n2차원 행렬:")
print(matrix)


2차원 행렬:
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [None]:
# 단위 행렬 생성
identity_matrix = np.eye(3)
print("\n단위 행렬:")
print(identity_matrix)


단위 행렬:
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [None]:
# 영행렬 생성
zero_matrix = np.zeros((3, 3))
print("\n영행렬:")
print(zero_matrix)


영행렬:
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [None]:
# 1로 채워진 행렬 생성
ones_matrix = np.ones((3, 3))
print("\n1로 채워진 행렬:")
print(ones_matrix)


1로 채워진 행렬:
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


In [None]:
# 대각 행렬 생성
diagonal_matrix = np.diag([1, 2, 3])
print("\n대각 행렬:")
print(diagonal_matrix)


대각 행렬:
[[1 0 0]
 [0 2 0]
 [0 0 3]]


In [None]:
# 난수 행렬 생성
random_matrix = np.random.rand(3, 3)
print("\n난수 행렬:")
print(random_matrix)


난수 행렬:
[[0.16262346 0.47523169 0.22401507]
 [0.16971136 0.39419156 0.27607043]
 [0.17318034 0.98440237 0.8384508 ]]


## 벡터의 연산

In [None]:
# 벡터 생성
vector1 = np.array([1, 2, 3])
vector2 = np.array([4, 5, 6])

벡터의 덧셈, 상수배, inner product를 구현해보자.
* 덧셈 : 벡터 간의 덧셈
* 상수배 : 벡터와 숫자(스칼라)를 서로 곱한것.
* dot product : 벡터와 벡터 간의 곱셈. 결과는 숫자.

In [None]:
# 벡터 덧셈
vector_sum = vector1 + vector2
print("벡터 덧셈:")
print(f"{vector1} + {vector2} = {vector_sum}")

# 벡터 상수배
scalar = 3
vector_scalar_multiplication = scalar * vector1
print("\n벡터 상수배:")
print(f"{scalar} * {vector1} = {vector_scalar_multiplication}")

# 벡터 내적 (dot Product)
inner_product = np.dot(vector1, vector2)
print("\n벡터 내적 (dot Product):")
print(f"{vector1} • {vector2} = {inner_product}")


벡터 덧셈:
[1 2 3] + [4 5 6] = [5 7 9]

벡터 상수배:
3 * [1 2 3] = [3 6 9]

벡터 내적 (dot Product):
[1 2 3] • [4 5 6] = 32


이어서 cross product, outer product, hadamond product를 구현
* cross product : 벡터와 벡터를 곱함. 결과는 벡터
* outer product : 벡터와 벡터를 곱함. 결과는 행렬

In [None]:
# 벡터 외적 (Cross Product)
vector_cross_product = np.cross(vector1, vector2)
print("\n벡터 외적 (Cross Product):")
print(f"{vector1} x {vector2} = {vector_cross_product}")

# 벡터 외적 (Outer Product)
outer_product = np.outer(vector1, vector2)
print("\n벡터 외적 (Outer Product):")
print(f"Outer product of {vector1} and {vector2} =\n{outer_product}")


벡터 외적 (Cross Product):
[1 2 3] x [4 5 6] = [-3  6 -3]

벡터 외적 (Outer Product):
Outer product of [1 2 3] and [4 5 6] =
[[ 4  5  6]
 [ 8 10 12]
 [12 15 18]]


## 행렬의 연산

In [None]:
# 행렬 정의
matrix1 = np.array([[1, 2], [3, 4]])
matrix2 = np.array([[5, 6], [7, 8]])

행렬의 덧셈, 행렬끼리의 곱셈, 상수배, 역행렬을 구현해보자.

In [None]:
# 행렬 덧셈
matrix_addition = matrix1 + matrix2
print("행렬의 덧셈:\n", matrix_addition)

# 행렬 곱셈 (행렬 내적)
matrix_multiplication = np.dot(matrix1, matrix2)
print("\n행렬의 곱셈:\n", matrix_multiplication)

# 상수배 연산
constant = 3
matrix_scalar_multiplication = constant * matrix1
print("\n행렬의 상수배:\n", matrix_scalar_multiplication)

행렬의 덧셈:
 [[ 6  8]
 [10 12]]

행렬의 곱셈:
 [[19 22]
 [43 50]]

행렬의 상수배:
 [[ 3  6]
 [ 9 12]]


In [None]:
# 정사각 행렬 생성
A = np.array([[1, 2], [3, 4]])
print("Original Matrix A:")
print(A)

A_inv = np.linalg.inv(A)
print("Inverse of Matrix A:")
print(A_inv)


Original Matrix A:
[[1 2]
 [3 4]]
Inverse of Matrix A:
[[-2.   1. ]
 [ 1.5 -0.5]]


이어서, 여러 가지 종류의 곱셈(Product)을 구현해보자.

In [None]:
# Test matrices and vectors
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# Pretty print function
def pretty_print(matrix, name):
    print(f"{name}:\n{matrix}\n")

### Hadamard Product
Hadamard Product는 행렬의 대응하는 원소끼리 곱하는 것이다. 이는 Element-wise Multiplication이라고도 한다.

예시:
$A = \begin{pmatrix}
1 & 2 \\
3 & 4 
\end{pmatrix}$, 
$B = \begin{pmatrix}
5 & 6 \\
7 & 8 
\end{pmatrix}$

Hadamard Product는 다음과 같다:
$A \circ B = \begin{pmatrix}
1 \cdot 5 & 2 \cdot 6 \\
3 \cdot 7 & 4 \cdot 8 
\end{pmatrix} = \begin{pmatrix}
5 & 12 \\
21 & 32 
\end{pmatrix}$

In [None]:
# Hadamard Product
pretty_print(A * B, "Hadamard Product")

Hadamard Product:
[[ 5 12]
 [21 32]]



### Kronecker Product
Kronecker Product는 두 행렬의 모든 가능한 곱을 행렬 형태로 구성한 것이다.

예시:
$A = \begin{pmatrix}
1 & 2 \\
3 & 4 
\end{pmatrix}$, 
$B = \begin{pmatrix}
0 & 5 \\
6 & 7 
\end{pmatrix}$

Kronecker Product는 다음과 같다:
$A \otimes B = \begin{pmatrix}
1 \cdot B & 2 \cdot B \\
3 \cdot B & 4 \cdot B 
\end{pmatrix} = \begin{pmatrix}
0 & 5 & 0 & 10 \\
6 & 7 & 12 & 14 \\
0 & 15 & 0 & 20 \\
18 & 21 & 24 & 28 
\end{pmatrix}$

In [None]:
pretty_print(np.kron(A, B), "Kronecker Product")

Kronecker Product:
[[ 5  6 10 12]
 [ 7  8 14 16]
 [15 18 20 24]
 [21 24 28 32]]



### Tensor Product
Tensor Product는 두 텐서의 모든 가능한 곱을 구성한 것이다. 이는 높은 차원의 텐서를 생성한다.

예시:
$A = \begin{pmatrix}
1 & 2 \\
3 & 4 
\end{pmatrix}$, 
$B = \begin{pmatrix}
5 & 6 \\
7 & 8 
\end{pmatrix}$

Tensor Product는 다음과 같다:
$A \otimes B$는 4차원 텐서를 생성하며, 각 차원의 슬라이스는 다음과 같다:

Slice 0:
$\begin{pmatrix}
5 & 6 \\
7 & 8 
\end{pmatrix}$

Slice 1:
$\begin{pmatrix}
10 & 12 \\
14 & 16 
\end{pmatrix}$

Slice 2:
$\begin{pmatrix}
15 & 18 \\
21 & 24 
\end{pmatrix}$

Slice 3:
$\begin{pmatrix}
20 & 24 \\
28 & 32 
\end{pmatrix}$


In [None]:
# Tensor Product
def tensor_product(A, B):
    return np.tensordot(A, B, axes=0)

tensor_prod = tensor_product(A, B)
print("Tensor Product:")
for i in range(tensor_prod.shape[0]):
    print(f"Slice {i}:\n{tensor_prod[i]}\n")

Tensor Product:
Slice 0:
[[[ 5  6]
  [ 7  8]]

 [[10 12]
  [14 16]]]

Slice 1:
[[[15 18]
  [21 24]]

 [[20 24]
  [28 32]]]



# 선형대수 (2)

## 연립방정식 풀기

넘파이의 `linalg.solve` 함수를 사용하여 선형 시스템을 풀 수 있다. 위 예제는 두 개의 방정식을 풀어 해를 구한 것이다.

In [None]:
# 선형 시스템 풀기 예제
C = np.array([[1, 1], [1, -1]])
D = np.array([12, 2])
np.linalg.solve(C, D)

array([7., 5.])

## 행렬과 벡터공간
* 특정한 규칙을 만족하는 벡터의 집합을 우리는 벡터공간이라고 한다.
* 행렬을 벡터의 집합으로 생각할 수 있고, 따라서 행렬은 벡터공간이다.
* 이때 행렬을 구성하는 벡터 간의 관계를 생각해볼 수 있으며, 각 벡터가 서로에게 얼마나 영향력을 끼치고 있는지를 선형종속/선형독립이라고 한다.
* 한 행렬을 구성하는 벡터들 중 완전히 독립인 벡터의 갯수를 랭크(rank)라고 한다.
* 랭크(rank)를 구해보자.

In [None]:
import numpy as np

# 행렬 생성
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("Matrix A:")
print(A)

# 랭크 계산
rank = np.linalg.matrix_rank(A)
print("\nRank of Matrix A:")
print(rank)

Matrix A:
[[1 2 3]
 [4 5 6]
 [7 8 9]]

Rank of Matrix A:
2


행렬을 벡터공간으로 본다면, 두 벡터공간을 합치는 것도 가능할 것이다.  
이를 직합(direct sum)이라고 한다.

In [None]:
import numpy as np

# 행렬 정의
matrix1 = np.array([[1, 2], [3, 4]])
matrix2 = np.array([[5, 6, 7], [8, 9, 10], [11, 12, 13]])

# 행렬의 크기
m1, n1 = matrix1.shape
m2, n2 = matrix2.shape

# Direct Sum을 위한 블록 대각 행렬 생성
direct_sum = np.zeros((m1 + m2, n1 + n2))
direct_sum[:m1, :n1] = matrix1
direct_sum[m1:, n1:] = matrix2

print("Direct Sum:\n", direct_sum)

Direct Sum:
 [[ 1.  2.  0.  0.  0.]
 [ 3.  4.  0.  0.  0.]
 [ 0.  0.  5.  6.  7.]
 [ 0.  0.  8.  9. 10.]
 [ 0.  0. 11. 12. 13.]]


## 고유값, 행렬분해

In [None]:
import numpy as np

# 행렬 생성
A = np.array([[4, -2], 
              [1, 1]])

# 고유값과 고유벡터 계산
eigenvalues, eigenvectors = np.linalg.eig(A)

print("고유값:")
print(eigenvalues)

print("\n고유벡터:")
print(eigenvectors)

고유값:
[3. 2.]

고유벡터:
[[0.89442719 0.70710678]
 [0.4472136  0.70710678]]


In [None]:
# 대각화
D = np.diag(eigenvalues)  # 대각행렬
P = eigenvectors  # 고유벡터 행렬
P_inv = np.linalg.inv(P)  # 고유벡터 행렬의 역행렬

# A = PDP^-1 확인
A_diag = P @ D @ P_inv

print("\n대각화된 행렬 A:")
print(A_diag)


대각화된 행렬 A:
[[ 4. -2.]
 [ 1.  1.]]


## 유사역행렬

In [None]:
import numpy as np

# 행렬 생성
A = np.array([[1, 2, 3], 
              [4, 5, 6]])

# 유사역행렬 계산
A_pseudo_inv = np.linalg.pinv(A)

print("유사역행렬:")
print(A_pseudo_inv)

유사역행렬:
[[-0.94444444  0.44444444]
 [-0.11111111  0.11111111]
 [ 0.72222222 -0.22222222]]


## 이차형식

In [None]:
import numpy as np

# 행렬 생성 (대칭행렬)
A = np.array([[2, 1], 
              [1, 3]])

# 벡터 생성
x = np.array([1, 2])

# 이차형식 계산
quadratic_form = np.dot(x.T, np.dot(A, x))

print("이차형식:")
print(quadratic_form)

# 미적분
미적분은 변화율과 적분을 다루는 수학의 한 분야로, 데이터 과학에서도 중요한 역할을 한다.

## 극한 계산
다음 두 가지의 극한을 sympy로 계산해보자

$$
1. \lim_{{x \to 0}} \frac{{\sin(x)}}{x}  \\[15pt]
2. \lim_{{x \to \infty}} \left(1 + \frac{1}{x}\right)^x
$$

In [None]:
import sympy as sp

# 심볼릭 변수 정의
x = sp.symbols('x')

# 함수 정의
f = sp.sin(x) / x

# 극한 계산 (x가 0으로 갈 때)
limit_at_0 = sp.limit(f, x, 0)

print("x가 0으로 갈 때 sin(x)/x의 극한:")
print(limit_at_0)

x가 0으로 갈 때 sin(x)/x의 극한:
1


In [None]:
# 또 다른 예제
g = (1 + 1/x)**x

# 극한 계산 (x가 무한대로 갈 때)
limit_at_inf = sp.limit(g, x, sp.oo)

print("x가 무한대로 갈 때 (1 + 1/x)^x의 극한:")
print(limit_at_inf)

x가 무한대로 갈 때 (1 + 1/x)^x의 극한:
E


## 미분 계산

함수 $f = x^2$와 $g = \sin(x)$의 곱의 미분을 계산

In [None]:
# 심볼릭 변수 정의
x = sp.symbols('x')

# 함수 정의
f = x**2
g = sp.sin(x)

# 두 함수의 곱의 미분
product_derivative = sp.diff(f * g, x)

print("두 함수의 곱 (x^2 * sin(x))의 미분:")
print(product_derivative)

두 함수의 곱 (x^2 * sin(x))의 미분:
x**2*cos(x) + 2*x*sin(x)


$h = x^2 y + \exp(x y)$를 정의하고, $x$와 $y$에 대한 편미분을 계산.

In [None]:
# 다변수 함수 정의
y = sp.symbols('y')
h = x**2 * y + sp.exp(x * y)

# 다변수 함수의 편미분
partial_derivative_x = sp.diff(h, x)
partial_derivative_y = sp.diff(h, y)

print("\n다변수 함수 (x^2 * y + exp(x * y))의 x에 대한 편미분:")
print(partial_derivative_x)

print("\n다변수 함수 (x^2 * y + exp(x * y))의 y에 대한 편미분:")
print(partial_derivative_y)


다변수 함수 (x^2 * y + exp(x * y))의 x에 대한 편미분:
2*x*y + y*exp(x*y)

다변수 함수 (x^2 * y + exp(x * y))의 y에 대한 편미분:
x**2 + x*exp(x*y)


## 적분 계산

함수 $f = x^2$와 $g = \sin(x)$의 곱의 적분을 계산

In [None]:
# 심볼릭 변수 정의
x = sp.symbols('x')

# 함수 정의
f = x**2
g = sp.sin(x)

# 두 함수의 곱의 적분
product_integral = sp.integrate(f * g, x)

print("두 함수의 곱 (x^2 * sin(x))의 적분:")
print(product_integral)

두 함수의 곱 (x^2 * sin(x))의 적분:
-x**2*cos(x) + 2*x*sin(x) + 2*cos(x)


함수 $h = x^2 y + \exp(x y)$를 정의하고, 범위 $0 \le x \le 1$ 및 $0 \le y \le 2$에서의 적분

In [None]:
# 다변수 함수 정의
y = sp.symbols('y')
h = x**2 * y + sp.exp(x * y)

# 범위가 제한된 적분
bounded_integral = sp.integrate(h, (x, 0, 1), (y, 0, 2))

print("\n범위가 제한된 다변수 함수 (x^2 * y + exp(x * y))의 적분 (0 <= x <= 1, 0 <= y <= 2):")
print(bounded_integral)


범위가 제한된 다변수 함수 (x^2 * y + exp(x * y))의 적분 (0 <= x <= 1, 0 <= y <= 2):
-log(2) - EulerGamma + 2/3 + Ei(2)


## 테일러 급수 도출
* `taylor_series` 함수는 주어진 함수 `func`의 변수 `var`에 대한 테일러 급수를 전개점 `point`를 중심으로 주어진 차수 `order`까지 도출
* $\sin(x)$ 함수의 테일러 급수를 $x = 0$을 중심으로 10차수까지 도출

In [None]:
# 심볼릭 변수 정의
x = sp.symbols('x')

# 함수 정의
f = sp.sin(x)

# 테일러 급수 도출 함수 정의
def taylor_series(func, var, point, order):
    return func.series(var, point, order).removeO()

# 테일러 급수 도출
taylor_expansion = taylor_series(f, x, 0, 10)

print("sin(x)의 테일러 급수:")
print(taylor_expansion)

sin(x)의 테일러 급수:
x**9/362880 - x**7/5040 + x**5/120 - x**3/6 + x


# 최적화 이론

## 선형계획법


최대화하고자 하는 목표 함수: $z = 3x_1 + 2x_2$

제약 조건:
$$
 x_1 + x_2 \leq 4 
 2x_1 + x_2 \leq 5 
 x_1, x_2 \geq 0 
$$

In [None]:
from scipy.optimize import linprog

# 목표 함수 계수 (최대화를 최소화 문제로 변환: -c)
c = [-3, -2]

# 제약 조건 행렬 (좌변)
A = [
    [1, 1],
    [2, 1]
]

# 제약 조건 상수 (우변)
b = [4, 5]

# 변수의 경계 (0 <= x1, 0 <= x2)
x0_bounds = (0, None)
x1_bounds = (0, None)

# 선형 계획법 문제 해결
res = linprog(c, A_ub=A, b_ub=b, bounds=[x0_bounds, x1_bounds], method='simplex')

# 결과 출력
print('최적의 값:', -res.fun)
print('x1 값:', res.x[0])
print('x2 값:', res.x[1])

최적의 값: 9.0
x1 값: 1.0
x2 값: 3.0


  res = linprog(c, A_ub=A, b_ub=b, bounds=[x0_bounds, x1_bounds], method='simplex')


## 라그랑주 승수법

최대화하고자 하는 목표 함수: $f(x, y) = x^2 + y^2 $

제약 조건:
$$
 g(x, y) = x + y - 1 = 0 
$$

In [None]:
# 변수 정의
x, y, λ = sp.symbols('x y λ')

# 목표 함수 정의
f = x**2 + y**2

# 제약 조건 정의
g = x + y - 1

# 라그랑주 함수 정의
L = f - λ * g

# 라그랑주 함수의 편도함수 계산
Lx = sp.diff(L, x)
Ly = sp.diff(L, y)
Lλ = sp.diff(L, λ)

# 방정식 세트 정의
equations = [Lx, Ly, Lλ]

# 방정식 세트를 풀기
solution = sp.solve(equations, (x, y, λ))

# 결과 출력
print(f'x = {solution[x]}, y = {solution[y]}, λ = {solution[λ]}')

# 최적값 계산
optimal_value = f.subs({x: solution[x], y: solution[y]})
print(f'최적의 값: {optimal_value}')

x = 1/2, y = 1/2, λ = 1
최적의 값: 1/2
