# 개요
+ Vector와 Matrix
  - 숫자 데이터셋을 표현하는 방법
  - 잘 정의된 수학적 연산을 이용할 수 있는 데이터 표현방법
    - Vector와 Matrix를 다루는 여러가지 수학적 연산을 이용하여 데이터를 조작하거나 분석, 비교할 수 있다
    - 대개의 데이터 분석 및 머신러닝 기법은 수학적 원리를 토대로 고안된 것이며, 대개는 Vector와 Matrix로 데이터를 표현한다
  - 숫자형 데이터셋 &rarr; Vector와 Matrix로 표현 &rarr; Vector/Matrix 연산을 이용하여 분석
+ Example
  - 한 학생의 국어, 영어, 수학, 과학 점수 &rarr; Vector
  - 전교생 500명의 국어, 영어, 수학, 과학 점수 &rarr; Matrix
  - 분석 예
    - 두 학생의 성적을 기준으로 볼 때, 어떤 유사성이나 상관성이 있는가?
    - 학생들의 성적을 판가름하는 중요한 과목은 어떤 과목인가?

# Vector
+ 여러 개의 숫자로 된 데이터 셋 (숫자의 List) 표현
+ 데이터 셋의 <b>방향</b>과 <b>크기</b>를 설명
+ 여러 가지 연산이 가능
    - add, subtract, scala multiply, dot-product
+ 데이터 분석에서 벡터의 활용
    - 벡터 연산을 이용하여 데이터 셋을 가공하거나 데이터 셋을 서로 비교할 수 있다.
+ 벡터로 정의될 수 있는 데이터 셋
    - 숫자로 이루어진 데이터 셋
    - 데이터 셋에 등장하는 숫자의 순서가 보장되어야 함
    - 모든 데이터 셋은 길이가 같음

In [1]:
from typing import List

Vector = List[float]

height_weight_age = [70,  # inches,
                     170, # pounds,
                     40 ] # years

grades = [95,   # exam1
          80,   # exam2
          75,   # exam3
          62 ]  # exam4

### Add

In [2]:
def add(v: Vector, w: Vector) -> Vector:
    """Adds corresponding elements"""
    assert len(v) == len(w), "vectors must be the same length"

    return [v_i + w_i for v_i, w_i in zip(v, w)]

assert add([1, 2, 3], [4, 5, 6]) == [5, 7, 9]

### Subtract

In [3]:
def subtract(v: Vector, w: Vector) -> Vector:
    """Subtracts corresponding elements"""
    assert len(v) == len(w), "vectors must be the same length"

    return [v_i - w_i for v_i, w_i in zip(v, w)]

assert subtract([5, 7, 9], [4, 5, 6]) == [1, 2, 3]

### Vector Sum

In [4]:
def vector_sum(vectors: List[Vector]) -> Vector:
    """Sums all corresponding elements"""
    # Check that vectors is not empty
    assert vectors, "no vectors provided!"

    # Check the vectors are all the same size
    num_elements = len(vectors[0])
    assert all(len(v) == num_elements for v in vectors), "different sizes!"

    # the i-th element of the result is the sum of every vector[i]
    return [sum(vector[i] for vector in vectors)
            for i in range(num_elements)]

assert vector_sum([[1, 2], [3, 4], [5, 6], [7, 8]]) == [16, 20]


### Scalar Multiply

In [5]:
def scalar_multiply(c: float, v: Vector) -> Vector:
    """Multiplies every element by c"""
    return [c * v_i for v_i in v]

assert scalar_multiply(2, [1, 2, 3]) == [2, 4, 6]

### Vector Mean

In [6]:
def vector_mean(vectors: List[Vector]) -> Vector:
    """Computes the element-wise average"""
    n = len(vectors)
    return scalar_multiply(1/n, vector_sum(vectors))

assert vector_mean([[1, 2], [3, 4], [5, 6]]) == [3, 4]

### Dot Product

In [8]:
def dot(v: Vector, w: Vector) -> float:
    """Computes v_1 * w_1 + ... + v_n * w_n"""
    assert len(v) == len(w), "vectors must be same length"

    return sum(v_i * w_i for v_i, w_i in zip(v, w))

assert dot([1, 2, 3], [4, 5, 6]) == 32  # 1 * 4 + 2 * 5 + 3 * 6

### Sum of Squares

In [9]:
def sum_of_squares(v: Vector) -> float:
    """Returns v_1 * v_1 + ... + v_n * v_n"""
    return dot(v, v)

assert sum_of_squares([1, 2, 3]) == 14  # 1 * 1 + 2 * 2 + 3 * 3

### Magnitude
+ 벡터의 크기
+ $\sqrt{{v_1}^2+...+{v_n}^2}$

In [10]:
import math

def magnitude(v: Vector) -> float:
    """Returns the magnitude (or length) of v"""
    return math.sqrt(sum_of_squares(v))   # math.sqrt is square root function

assert magnitude([3, 4]) == 5

### Distance (두 벡터 사이의 거리)
+ $\sqrt{(v_1-w_1)^2+...+(v_n-w_n)^2}$
+ Euclidean Distance

In [16]:
def squared_distance(v: Vector, w: Vector) -> float:
    """Computes (v_1 - w_1) ** 2 + ... + (v_n - w_n) ** 2"""
    return sum_of_squares(subtract(v, w))

def distance(v: Vector, w: Vector) -> float:
    """Computes the distance between v and w"""
    return math.sqrt(squared_distance(v, w))

'''
def distance(v: Vector, w: Vector) -> float:  # type: ignore
    return magnitude(subtract(v, w))
'''

'\ndef distance(v: Vector, w: Vector) -> float:  # type: ignore\n    return magnitude(subtract(v, w))\n'

# Matrix (행렬)
+ 행(Row)과 열(Column)로 구성된 숫자 데이터 셋 표현
  - List of List of Numbers
  - 숫자로 이루어진 표(Table)
+ 벡터와 마찬가지로 여러 가지 연산이 가능
  - add, subtract, scala multiply, dot-product
  - 기타 여러가지 수학적인 기법을 이용하여 조작할 수 있음
+ Matrix $A$
  - $A[i][j]$ : $i$번째 행, $j$번째 열의 데이터

In [17]:
# Another type alias
Matrix = List[List[float]]

A = [[1, 2, 3],  # A has 2 rows and 3 columns
     [4, 5, 6]]

B = [[1, 2],     # B has 3 rows and 2 columns
     [3, 4],
     [5, 6]]

from typing import Tuple

### Shape

In [18]:
def shape(A: Matrix) -> Tuple[int, int]:
    """Returns (# of rows of A, # of columns of A)"""
    num_rows = len(A)
    num_cols = len(A[0]) if A else 0   # number of elements in first row
    return num_rows, num_cols

assert shape([[1, 2, 3], [4, 5, 6]]) == (2, 3)  # 2 rows, 3 columns

### Row, Column 추출

In [19]:
def get_row(A: Matrix, i: int) -> Vector:
    """Returns the i-th row of A (as a Vector)"""
    return A[i]             # A[i] is already the ith row

def get_column(A: Matrix, j: int) -> Vector:
    """Returns the j-th column of A (as a Vector)"""
    return [A_i[j]          # jth element of row A_i
            for A_i in A]   # for each row A_i

### Matrix 만들기
+ 값을 만들기 위한 함수 필요
  - entry_fn

In [20]:
from typing import Callable

def make_matrix(num_rows: int,
                num_cols: int,
                entry_fn: Callable[[int, int], float]) -> Matrix:
    """
    Returns a num_rows x num_cols matrix
    whose (i,j)-th entry is entry_fn(i, j)
    """
    return [[entry_fn(i, j)             # given i, create a list
             for j in range(num_cols)]  #   [entry_fn(i, 0), ... ]
            for i in range(num_rows)]   # create one list for each i

### Identity Matrix (단위행렬)
+ 주대각선의 원소가 모두 1이며 나머지 원소는 모두 0인 정사각 행렬

In [21]:
def identity_matrix(n: int) -> Matrix:
    """Returns the n x n identity matrix"""
    return make_matrix(n, n, lambda i, j: 1 if i == j else 0)

assert identity_matrix(5) == [[1, 0, 0, 0, 0],
                              [0, 1, 0, 0, 0],
                              [0, 0, 1, 0, 0],
                              [0, 0, 0, 1, 0],
                              [0, 0, 0, 0, 1]]

## Matrix Example - Personal Data
+ 예) [키, 몸무게, 나이]로 구성된 개인 데이터 (1,000명)
+ 1000 Rows, 3 Columns : 1000x3 Matrix

In [22]:
data = [[70, 170, 40],
        [65, 120, 26],
        [77, 250, 19],
        # ....
       ]

## Matrix Example - Relationship
+ n명 사용자들의 친구관계를 Matrix로 표현
  - $n\times n$ matrix
+ 사용자 $i$와 사용자 $j$가 친구관계 &rarr; friend_matrix[i][j]=1

In [37]:
friendships = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4),
               (4, 5), (5, 6), (5, 7), (6, 8), (7, 8), (8, 9)]

#            user 0  1  2  3  4  5  6  7  8  9
#
friend_matrix = [[0, 1, 1, 0, 0, 0, 0, 0, 0, 0],  # user 0
                 [1, 0, 1, 1, 0, 0, 0, 0, 0, 0],  # user 1
                 [1, 1, 0, 1, 0, 0, 0, 0, 0, 0],  # user 2
                 [0, 1, 1, 0, 1, 0, 0, 0, 0, 0],  # user 3
                 [0, 0, 0, 1, 0, 1, 0, 0, 0, 0],  # user 4
                 [0, 0, 0, 0, 1, 0, 1, 1, 0, 0],  # user 5
                 [0, 0, 0, 0, 0, 1, 0, 0, 1, 0],  # user 6
                 [0, 0, 0, 0, 0, 1, 0, 0, 1, 0],  # user 7
                 [0, 0, 0, 0, 0, 0, 1, 1, 0, 1],  # user 8
                 [0, 0, 0, 0, 0, 0, 0, 0, 1, 0]]  # user 9

### Friendships Matrix 만들기

In [36]:
# Raw 데이터로부터 friendships matrix 만들기
fm = make_matrix(10,10, lambda i, j:0)

for i,j in friendships:
    fm[i][j]=1
    fm[j][i]=1
    
assert fm == friend_matrix

### Matrix에서 탐색하기
+ Friendships matrix는 친구관계를 구현하는 자료구조 중 하나
+ Matrix 자료구조에 맞는 연산을 이용하여 친구관계 탐색

In [38]:
assert friend_matrix[0][2] == 1, "0 and 2 are friends"
assert friend_matrix[0][8] == 0, "0 and 8 are not friends"

# only need to look at one row
friends_of_five = [i
                   for i, is_friend in enumerate(friend_matrix[5])
                   if is_friend]



In [39]:
friends_of_five

[4, 6, 7]