- https://ratsgo.github.io/linear%20algebra/2017/03/14/operations/
- https://datascienceschool.net/view-notebook/35099ac4aea146c69cc4b3f50aec736f/

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston

## 백터

백터는 어떤 형태의 데이터를 여러개 담아논 것이라고 생각하시면 됩니다. 백터를 표현하는 방식은 행백터와 열 백터가 있습니다. 일반적으로 데이터분석에서는 행백터는 하나의 record에 대한 feature 데이터를, 열백터에서는 하나의 feature에 대한 record 데이터를 보여줍니다.

$$
X=\begin{pmatrix} { 1 } \\ 3 \\ 5 \end{pmatrix},\quad Y=\begin{pmatrix} 2 \\ -1 \\ 0 \end{pmatrix}
$$

$$
X+Y=\begin{pmatrix} { 1 } \\ 3 \\ 5 \end{pmatrix}+\begin{pmatrix} 2 \\ -1 \\ 0 \end{pmatrix}=\begin{pmatrix} 3 \\ -2 \\ 5 \end{pmatrix}
$$

## 백터를 도와주는 Numpy 배열

넘파이는 수치해석용 파이썬 패키지이다. 다차원 배열 구조클래스인 ndarray 글래스를 지원하여 백터와 행렬을 사용하는 선형대수 계산에 주로 사용된다. 내부적으로 BLAS 와 LAPACK 라이브러리를 사용하고 있다. Numpy 배열연산은 C로 구현된 내부 반복문을 사용하기 때문에, 파이썬 반복문에 비해 속도가 빠르며 벡터화 연산을 이용하여 간단한 연산을 수행할 수 있다.

In [26]:
X = np.array([1,3,5])
X

array([1, 3, 5])

In [27]:
Y = np.array([2,-1,0])
Y

array([ 2, -1,  0])

In [28]:
#스칼라 곱
X*5

array([ 5, 10, 15])

In [30]:
#백터 합
X + Y

array([3, 2, 5])

## 데이터 분석에서 백터가 필요한 이유

일반적으로 하나의 데이터 포인트를 표현할때 다양한 변수들로 표현이 됩니다(다변수). 위 데이터는 본인 소유의 주택가격을, 범죄율, 면적, 상업지구, 강가, 이산화탄소, 방의 개수, 나이, 거리, 도로 접근성, 재산세율, 학생과 교사비율, 흑인 비율, 하층계급의 비율등으로 표현하고 있습니다. 

- CRIM	자치시(town) 별 1인당 범죄율
- ZN	25,000 평방피트를 초과하는 거주지역의 비율
- INDUS	비소매상업지역이 점유하고 있는 토지의 비율
- CHAS	찰스강에 대한 더미변수(강의 경계에 위치한 경우는 1, 아니면 0)
- NOX	10ppm 당 농축 일산화질소
- RM	주택 1가구당 평균 방의 개수
- AGE	1940년 이전에 건축된 소유주택
- DIS	5개의 보스턴 직업센터까지의 접근성 지수
- RAD	방사형 도로까지의 접근성 지수
- TAX	10,000 달러 당 재산세율
- PTRATIO	자치시(town)별 학생/교사 비율
- B	1000(Bk-0.63)^2, 여기서 Bk는 자치시별 흑인의 비율을 말함.
- LSTAT	모집단의 하위계층의 비율(%)
- MEDV	본인 소유의 주택가격(중앙값) (단위: $1,000)

In [3]:
boston = load_boston()

# 설명변수들을 DataFrame으로 변환
df = pd.DataFrame(boston.data, columns = boston.feature_names)

# 목적변수를 DataFrame에 추가
df['MEDV'] = np.array(boston.target)
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


In [9]:
boston.data[0].astype(int)

array([  0,  18,   2,   0,   0,   6,  65,   4,   1, 296,  15, 396,   4])

## 백터의 내적 (inner product)

백터에서 서로 대응하는 성분끼리 곱한 다음 그것들을 모두 더한 값입니다. 내적의 기호로는 $<a,b>$ 로 나타냅니다.

$$
X=({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n }{ ) }^{ T }\\ Y=({ y }_{ 1 },y_{ 2 },...,{ y }_{ n }{ ) }^{ T }\\ <X,Y>={ X }^{ T }Y=\sum _{ i=1 }^{ n }{ { x }_{ i }{ y }_{ i }= } { x }_{ 1 }{ y }_{ 1 }+{ x }_{ 2 }{ y }_{ 2 }+...+{ x }_{ n }{ y }_{ n }
$$

In [35]:
np.dot(X,Y.T)

-1

## 백터의 길이 (norm, Length)

2차원 공간에서, 삼각형의 빗변을 구하는 거리를 떠올리시면 더 쉽게 이해하실수 있습니다.

$$
Lx=\sqrt { { x }_{ 1 }^{ 2 }+{ x }_{ 2 }^{ 2 }+...+{ x }_{ n }^{ 2 } } =\sqrt { { X }^{ T }X }
$$

In [46]:
X

array([1, 3, 5])

In [44]:
np.sqrt(np.dot(X.T,X))

5.916079783099616

In [36]:
#Euclidian distance
np.linalg.norm(X, 2)

5.916079783099616

In [45]:
# L1 norm
np.linalg.norm(X,1)

9.0

In [42]:
x = np.array([[4],
             [3]])
#Euclidian distance
np.linalg.norm(x, 2)

5.0

In [43]:
# L1 norm
np.linalg.norm(x,1)

7.0

## 백터간 각도(Angle, theta)

$$
cos(X,Y)=\frac { ({ x }_{ 1 }{ y }_{ 1 }+{ x }_{ 2 }{ y }_{ 2 }+...+{ x }_{ n }{ y }_{ n }) }{ Lx\cdot Ly } =\frac { { x }^{ T }y }{ \sqrt { { x }^{ T }x } \cdot \sqrt { { y }^{ T }y }  }
$$

$$
\begin{align*}
x^Ty &= \lVert x \rVert \lVert y\rVert \cos\theta
\end{align*}
$$

코사인 값은 기하학적인 의미는 x,y가 서로를 설명하는 양이라고 할 수 있다.

In [57]:
X,Y

(array([1, 3, 5]), array([ 2, -1,  0]))

In [55]:
inner = np.dot(X.T,Y)
X_norm = np.linalg.norm(X, 2)
Y_norm = np.linalg.norm(Y, 2)
print(inner,X_norm,Y_norm)

-1 5.916079783099616 2.23606797749979


In [58]:
cos = inner/(X_norm*Y_norm)
cos

-0.07559289460184544

## 백터의 사영(Projection)

백터 x를 y에 사영한 결과는 다음과 같습니다. 백터의 내적은 기하학적으로 x의 y로의 projection에 y의 크기를 곱한것 이라고도 해석이 가능하다.
<br>

이는 다르게 해석하면 x의 변화를 y가 얼마나 설명해 줄 수 있는가?
$$
y=\frac { { x }^{ T }y }{ { y }^{ T }y } \cdot y
$$

![png](png/theta.png)