In [2]:
from pprint import pprint as p
from functools import reduce
import math
import matplotlib as plt

# 선형대수

선형대수는 데이터 과학 기술과 개념을 뒷받침 해주는 분야이다.

### 1. 벡터

벡터는 어떤 유한한 차원에 공간에 존재하는 점들이다. 대부분의 데이터(특히 숫자)는 벡터로 표현 가능하다. 벡터를 가장 간단하게 list로 표현 가능하다. 단 list로 벡터 연산은 할 수 없다. 따로 함수를 만들어주어야 한다.


In [3]:
index = [1, 2, 3] #키, 몸무게, 나이
grade = [100,84,92] #시험1~3 점수
all=[[176, 66, 27],
    [100,84,92,51]]

각 성분끼리의 덧,뺄셈

In [4]:
def vectorAdd(v,w): 
    """각 성분끼리 덧셈"""
    return[v_i + w_i for v_i,w_i in zip(v,w)]

def vectorSubtract(v,w):
    """각 성분끼리 뺄셈"""
    return[v_i - w_i for v_i,w_i in zip(v,w)]

In [5]:
p(vectorAdd(index, grade))
p(vectorSubtract(index,grade))

[101, 86, 95]
[-99, -82, -89]


벡터로 구성된 list에서 모든 벡터의 각 성분을 더하고 싶은 경우

In [6]:
def vectorSum(vectors): 
    """모든 벡터의 각 성분들끼리 덧셈"""
    return reduce(vectorAdd, vectors)

In [7]:
p(vectorSum(all))

[276, 150, 119]


벡터와 스칼라 곱셈

In [8]:
def scalarMultiply(scalar,vectors): 
    """벡터에 스칼라를 곱함"""
    return [scalar * v_i for v_i in vectors] 

In [9]:
scalarMultiply(10,index)

[10, 20, 30]

같은 길이의 벡터로 구성된 list가 주어졌을 때 각 성분병 평균을 구함

In [10]:
def vectorMean(vectors):
    """i번째 성분이 입력된 벡터의
    i번째 성분의 평균을 의미하는 벡터 계산"""
    lenth=len(vectors)
    return scalarMultiply(1/lenth, vectorSum(vectors))

In [11]:
vectorMean(all)

[138.0, 75.0, 59.5]

벡터의 내적 계산(벡터의 각 성분별 곱한 값을 더한 값)

내적은 벡터 v가 벡터 w방향으로 얼마나 멀리 뻗는지를 나타냄

In [12]:
def dot(v,w):
    """v_1 * w_1 + ... + v_n * w_n"""
    return sum(v_i * w_i for v_i, w_i in zip(v,w))

In [13]:
dot(index,[10,1,0])

12

내적의 개념을 사용하여 각 성분의 제곱 합을 쉽게 구할 수 있다.

In [15]:
def sumOfSquares(v):
    """v_1 * v1 + ... + v_n * v_n"""
    return dot(v, v)

In [16]:
sumOfSquares(index)

14

제곱 값의 합을 이용하여 벡터의 크기를 계산할 수 있다.

In [17]:
def magnitude(v):
    return math.sqrt(sumOfSquares(v))

In [18]:
magnitude(index)

3.7416573867739413

두 벡터간의 거리 계산 식은 아래와 같다.
$$\sqrt{(v_1 - w_1)^2 + ... + (v_n - w_n)^2 }$$

In [19]:
def squaredDistance(v, w):
    return sumOfSquares(vectorSubtract(v, w))

def distance(v, w):
    return math.sqrt(squaredDistance(v, w))

In [20]:
distance(index,grade)

156.35216659835578

### 2. 행렬

2차원으로 구성된 숫자의 집합. 2차원 list로 표현 가능하다.

In [21]:
A = [[1,2,3],[4,5,6]] # 2 Row, 3 Col
B = [[1,2],[3,4,],[4,5]] # 3 Row, 2 Col

In [22]:
def shape(L):
    numOfRows=len(L)
    numOfCols=len(L[0]) if L else 0
    return numOfRows, numOfCols

In [23]:
print(shape(A))
print(shape(B))

(2, 3)
(3, 2)


In [24]:
def getRow(L,i):
    return L[i]
def getColumn(L,j):
    return [L_i[j] for L_i in L]

In [25]:
print(getRow(A,0))
print(getColumn(A,0))

[1, 2, 3]
[1, 4]


단위 행렬을 만들어 보자

In [26]:
def make_matrix(num_rows, num_cols, entry_fn):
    """i, j번째 원소가 entry_fn(i,j)인
    num_rows * num_cols 행렬을 반환"""
    return [[entry_fn(i, j) for j in range(num_cols)] for i in range(num_rows)]

def is_diagonal(i, j):
    """i, j가 같을 때 1이여야 대각행렬 완성"""
    return 1 if i == j else 0

In [27]:
identity_matrix = make_matrix(5, 5, is_diagonal)
p(identity_matrix)

[[1, 0, 0, 0, 0],
 [0, 1, 0, 0, 0],
 [0, 0, 1, 0, 0],
 [0, 0, 0, 1, 0],
 [0, 0, 0, 0, 1]]


행렬이 중요한 몇 가지 이유가 있다.
1. 각 벡터를 행렬의 행으로 나타냄으로써 여러 벡터로 구성된 데이터 셋을 행렬로 표현할 수 있다. 예로 3명에 대한 키, 몸무게가 주어졌다면 3 * 2 행렬로 표현 가능하다.

In [28]:
data = [[175,66],
       [192,82],
       [155,48]]

2. k차원의 벡터를 n차원 벡터로 변환해주는 선형함수를 n*k 행렬로 표현할 수 있다.
3. 행렬로 이진관계를 나타낼 수 있다. 예로, i와 j가 연결되어 있다면 A[i][j]의 값이 1이고 그렇지 않다면 0인 행렬 A로 네트워크를 표현할 수 있다. 아래와 같이 네트워크를 표현한다면

In [29]:
friendships=[(0,1), (0,2), (1,2), (1,3),(2,3),(3,4),
            (4,5), (5,6), (5,7), (6,8), (7,8), (8,9)]

아래와 같이 행렬로 표현 가능하다

In [30]:
#          user 0  1  2  3  4  5  6  7  8  9
#
friendships = [[0, 1, 1, 0, 0, 0, 0, 0, 0, 0], # user 0
               [1, 0, 1, 1, 0, 0, 0, 0, 0, 0], # user 1
               [1, 1, 0, 1, 0, 0, 0, 0, 0, 0], # user 2
               [0, 1, 1, 0, 1, 0, 0, 0, 0, 0], # user 3
               [0, 0, 0, 1, 0, 1, 0, 0, 0, 0], # user 4
               [0, 0, 0, 0, 1, 0, 1, 1, 0, 0], # user 5
               [0, 0, 0, 0, 0, 1, 0, 0, 1, 0], # user 6
               [0, 0, 0, 0, 0, 1, 0, 0, 1, 0], # user 7
               [0, 0, 0, 0, 0, 0, 1, 1, 0, 1], # user 8
               [0, 0, 0, 0, 0, 0, 0, 0, 1, 0]] # user 9

만약 네트워크에서 연결된 사용자 수가 적다면 행렬은 수많은 0 값을 저장하기에 네트워크를 표현하기에 더 비효율 적일 것. 

하지만 행렬에서는 두 사용자가 연결되어있는지 빠르게 확인할 수 있다.

In [31]:
def IsFriendships(L,row,col):
    if bool(L[row][col]):
        print(str(row)+"와 "+str(col)+"은 친구입니다.")
    else:
        print(str(row)+"와 "+str(col)+"은 친구가 아닙니다.")

In [32]:
IsFriendships(friendships,0,2)
IsFriendships(friendships,0,8)

0와 2은 친구입니다.
0와 8은 친구가 아닙니다.


사용자가 누구와 연결되어 있는지 알아보기 위해 해당 사용자를 나타내는 열 혹은 행만 살펴보몬 된다.

In [33]:
connFriends=[i for i, is_friend in enumerate(friendships[5]) if is_friend]

In [34]:
connFriends

[4, 6, 7]