## What is Correlation

correlation คือ การหาความสัมพันธ์ ระหว่างสองตัวแปร

# ค่าสหสัมพันธ์ (Correlation)

In [2]:
from typing import List
import numpy as np

### ค่าแปรปรวนร่วม (Covariance)

* ดูที่ ค่าแปรปรวนร่วม (covariance)

เพื่อดูว่า ตัวแปรสองตัวมีความเปลี่ยนแปรงตามกันมากแค่ไหน

In [17]:
Vector = List[float]

In [18]:
def dot(v: Vector,w: Vector) -> float:
    assert len(v) == len(w) , 'Vector must be in the same length'
    return sum(v_i*w_i for v_i,w_i in zip(v,w))

In [4]:
def de_mean(xs:List[float]) -> List[float]:
    xs_bar = xs.mean()
    return [ x_i - xs_bar for x_i in xs ]


In [19]:
def covariance(xs:List[float] ,ys: List[float]) -> float :
    assert len(xs) == len(ys) ,'ต้องเท่ากัน'
    de_xs = de_mean(xs)
    de_ys = de_mean(ys)
    return dot(de_mean(xs) , de_mean(ys)) / (len(xs) -1 )


* Example

In [13]:
a = np.arange(1,11)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [15]:
b = np.arange(21,31)

array([21, 22, 23, 24, 25, 26, 27, 28, 29, 30])

In [20]:
covariance(a,b)

9.166666666666666

* หากว่าค่า covariance > 0 แสดงว่ามีความเกี่ยวข้องแบบ ถ้า x เพิ่ม y เพิ่ม  
* หากว่าค่า covariance < 0 แสดงว่ามีความเกี่ยวข้องแบบ ถ้า x ลด y ลด  
ยิ่งมากแสดงว่าเกี่ยวข้องมาก ยิ่งเข้าใกล้ 0 คือ มีความเกี่ยวข้องน้อย หรือ อาจไม่มีความเกี่ยวข้อเลย  

อย่างไรก็ตาม ค่า covariance อาจตีความได้ยากเพราะ  
* หน่วยของผลลัพธ์เป็นหน่วยของ input  
* หากจำนวน x มีค่าเพิ่มขึ้น 2 เท่า แต่ y เท่าเดิม ความแปรปรวนร่วมจะเพิ่มขึ้น 2 เท่า  
  แต่ในแง่มุมนึง ตัวแปรแค่มีความสัมพันธ์กันเท่านั้น มันยากที่จะนับว่า เป็นค่า แปรปรวนร่วมที่มากขึ้น

เราจึงต้องพิจารณาค่า **สหสัมพันธ์(Correlation)** ซึ่งแยกส่วนเบี่ยงเบนมาตรฐานออกจากกัน

### ค่าสหสัมพันธ์ (Correlation)

In [22]:
import math

In [21]:
def sum_of_square(xs : List[float]) -> float:
    s = 0
    for n in xs:
        s += n**2
    return s

In [23]:
def standard_deviation(xs:List[float]) -> float:
    return math.sqrt(sum_of_square(xs)/(len(xs)-1))


In [25]:
def correlation(xs:List[float] , ys:List[float]) -> float:
    stdev_x = standard_deviation(xs)
    stdev_y = standard_deviation(ys)
    if stdev_x > 0 and stdev_y > 0: 
        return covariance(xs,ys)/ stdev_x / stdev_y
    else :
        return 0