<a href="https://colab.research.google.com/github/LeeSeungwon89/Python_for_Data_Analytics_Science/blob/main/2.%20%EC%84%A0%ED%98%95%EB%8C%80%EC%88%98.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**선형대수**는 다차원 구조를 가진 수치의 나열을 다루는 수학 분야입니다. 인공지능에서 선형대수를 활용하면 많은 수치를 간결한 수식으로 처리하고 기술할 수 있습니다.

In [None]:
# 기본적인 라이브러리입니다.
import time
import datetime
import random
import math

# 데이터 분석을 위한 라이브러리입니다.
import numpy as np
import pandas as pd
import sklearn as sk

# 수학 라이브러리입니다.
import scipy as sp
import statsmodels.api as sm

# 웹 스크레이핑을 위한 라이브러리입니다
import re
import requests
from bs4 import BeautifulSoup
import os
import json

# 시각화 라이브러리입니다.
import matplotlib as mpl
import matplotlib.pylab as plb
import matplotlib.pyplot as plt
import seaborn as sns
import folium as flm

# 시각화 자료를 바로 띄워줍니다.
%matplotlib inline

# 그래프에 retina를 지정합니다.
%config InlineBackend.figure_format = 'retina'

# 음수 부호를 깨지지 않도록 합니다.
mpl.rc('axes', unicode_minus=False)

  import pandas.util.testing as tm


# **1. 스칼라**

**스칼라(scalar)**는 보통 수치(1, 4.6, 1.5e6, -8 등)를 의미합니다. 행렬을 구성하는 요소 중에 최소 단위입니다.

# **2. 벡터**

**벡터(vector)**는 스칼라의 집합이며 스칼라를 직선 상에 나열한 것을 의미합니다. 스칼라는 크기만 가지고, 벡터는 크기와 방향을 가집니다. 벡터 표기는 아래와 같습니다.

> $\overrightarrow{a} = \begin{pmatrix}
3\\
4\\
5
\end{pmatrix}$

> $\overrightarrow{b} = \begin{pmatrix}
b_1\\
b_2\\
\vdots\\
b_m
\end{pmatrix}$

> $\overrightarrow{c} = (1.2, 3.21, -3.6, 0.1)$

> $\overrightarrow{d} = (d_1, d_2, \cdots, d_n)$

$\overrightarrow{a}$와 $\overrightarrow{b}$는 세로 벡터, $\overrightarrow{c}$와 $\overrightarrow{d}$는 가로 벡터입니다. 아울러 벡터의 요소를 변수로 나타낼 때 $\overrightarrow{b}$와 $\overrightarrow{d}$의 첨자(알파벳 아래 붙은 $n$) 수는 1개이며, 첨자의 개수에 따라 차원이 달라집니다. 벡터의 차원은 1차원입니다.

## **2.1. 내적**

**내적**은 벡터끼리 곱하는 방식 중 하나입니다. 아래에 두 벡터가 존재한다고 가정하겠습니다.

> $\overrightarrow{a} = (a_1, a_2, \cdots, a_n)$

> $\overrightarrow{b} = (b_1, b_2, \cdots, b_n)$

두 벡터의 내적은 아래와 같습니다. 벡터의 내적을 구하려면 요소 개수는 같아야 합니다. 

> $\begin{align}
\overrightarrow{a} \cdot \overrightarrow{b} &= (a_1, a_2, \cdots, a_n) \cdot (b_1, b_2, \cdots, b_n) \\
&= (a_1b_1 + a_2b_2 + \cdots + a_nb_n) \\
&= \displaystyle\sum_{k=1}^{n} a_kb_k
\end{align}$

내적은 벡터간 **상관관계**를 구할 때 활용합니다. 상관관계는 **4. 확률 및 통계**에서 다룰 예정입니다.

`np.dot()` 메서드로 내적을 구할 수 있습니다.

In [None]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([5, 4, 3, 2, 1])

np.dot(a, b)

35

`sum()` 메서드로도 내적을 구할 수 있습니다.

In [None]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([5, 4, 3, 2, 1])

sum(a * b)

35

## **2.2. 놈**

놈(norm)은 벡터의 크기를 나타내는 양입니다. 인공지능에서는 $L^2$놈과 $L^1$놈을 자주 사용하여 정칙화를 목적으로 삼습니다. 정칙화는 모델이 필요 이상으로 학습되지 않도록 파라미터 조정을 통해 방지하는 조치입니다.

먼저 $L^2$ 놈은 $||\overrightarrow{x}||_2$로 나타냅니다. 벡터의 각 요소를 제곱하고 합해서 제곱근을 구합니다.

> $\begin{align}
||\overrightarrow{x}||_2 &= \sqrt{x^2_1 + x^2_2 + \cdots + x^2_n} \\
&= \sqrt{\displaystyle\sum_{k=1}^{n} x^2_k}
\end{align}$

다음으로 $L^1$ 놈은 $||\overrightarrow{x}||_1$로 나타냅니다. 벡터의 각 요소의 절댓값을 더합니다.

> $\begin{align}
||\overrightarrow{x}||_1 &= |x_1| + |x_2| + \cdots + |x_n| \\
&= \displaystyle\sum_{k=1}^n |x_k|
\end{align}$

놈을 더 일반화한 $L^p$ 놈도 있습니다.

> $\begin{align}
||\overrightarrow{x}||_p &= |x^p_1| + |x^p_2| + \cdots + |x^p_n| \\
&= (\displaystyle\sum_{k=1}^n x^p_k)^{\frac{1}{p}}
\end{align}$

`np.linalg.norm()` 메서드로 놈을 구할 수 있습니다. 기본값은 $L^2$ 놈입니다.

In [None]:
a = ([1, 3, 2, 6, -9])

np.linalg.norm(a)

11.445523142259598

$L^1$ 놈을 적용하겠습니다. $L^2$ 놈과 다른 값이 도출됩니다.

In [None]:
a = ([1, 3, 2, 6, -9])

np.linalg.norm(a, 1)

21.0

# **3. 행렬**

행렬은 벡터의 집합입니다. 행렬을 구성하는 스칼라 값은 원소(element)라고 부릅니다.

## **3.1. 행렬 곱**

행렬곱의 예시를 아래에 기술하겠습니다. 행렬 $A$와 $B$가 있다고 가정합니다.

> $A =
\begin{pmatrix}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23} \\
\end{pmatrix}$

> $B =
\begin{pmatrix}
b_{11} & b_{12} \\
b_{21} & b_{22} \\
b_{31} & b_{32}
\end{pmatrix}$

이 두 행렬을 곱하면 아래 형식이 됩니다.

> $AB =
\begin{pmatrix}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23} \\
\end{pmatrix}
\begin{pmatrix}
b_{11} & b_{12} \\
b_{21} & b_{22} \\
b_{31} & b_{32}
\end{pmatrix}$

> $= \begin{pmatrix}
a_{11}b_{11} + a_{12}b_{21} + a_{13}b_{31} & a_{11}b_{12} + a_{12}b_{22} + a_{13}b_{32} \\
a_{21}b_{11} + a_{22}b_{21} + a_{23}b_{31} & a_{21}b_{12} + a_{22}b_{22} + a_{23}b_{32}
\end{pmatrix}$

> $= \begin{pmatrix}
\displaystyle\sum_{k=3} a_{1k}b_{k1} & \displaystyle\sum_{k=3} a_{1k}b_{k2} \\
\displaystyle\sum_{k=3} a_{2k}b_{k1} & \displaystyle\sum_{k=3} a_{2k}b_{k2}
\end{pmatrix}$

쉽게 말하면 $A$의 1행과 $B$의 1열 및 2열을 각각 곱해서 1행의 두 원소로 삼습니다. $A$의 2행과 $B$의 1열 및 2열을 각각 곱해서 2행의 두 원소로 삼습니다. 참고로 행렬곱 계산 조건은 앞 행렬의 열수와 뒷 행렬의 행수가 같아야 합니다. 예컨대 앞 행렬의 열수가 2라면 뒷 행렬의 행수가 2여야 합니다.

## **3.2. 원소별 곱**

## **3.3. 전치**

## **3.4. 단위행렬**

## **3.5. 역행렬**

## **3.6. 행렬식**

# **4. 텐서**

# **5. 선형변환**

## **5.1. 선형변환**

## **5.2. 표준기저**

# **6. 고윳값 및 고유벡터**

# **7. 코사인 유사도** 