In [1]:
data1 = np.array([80,85,100,90,95])
data2 = np.array([70,80,100,95,95])

##### 분산(variance)
- 1개의 이산정도를 나타냄
- 편차제곱의 평균

$ variance = \frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n}, (\bar{x}:평균) $

In [39]:
%%time
# 분산
def variance(data):
    # TODO
    ls = []
    for i in data:
        ls.append((i - data.mean()) ** 2)
    return sum(ls) / len(data)
    
    
# # test code (분산, 표준편차)
print( "variance :", variance(data1), variance(data2) )
# print( "standard deviation :", variance(data1)**0.5, variance(data2)**0.5 )

variance : 50.0 126.0
Wall time: 0 ns


##### 공분산(covariance)
- 2개의 확률변수의 상관정도를 나타냄
- 평균 편차곱
- 방향성은 보여줄수 있으나 강도를 나타내는데 한계가 있다
    - 표본데이터의 크기에 따라서 값의 차이가 큰 단점이 있다

$ covariance = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $

In [34]:
# 표본상관계수를 사용 (모상관계수를 사용하면 -1을 제거)
def covariance(data1, data2):
    # TODO
    x_ = np.average(data1)
    y_ = np.average(data2)
    
    cov = 0
    for i in range(len(data1)):
        cov += (data1[i] - x_) * (data2[i] - y_)
    return cov / (len(data1) -1)


In [35]:
# teat code 1
# data1이 커짐으로 data2도 커진다. (비례)
data1 = np.array([80,85,100,90,95])
data2 = np.array([70,80,100,95,95])
covariance(data1, data2)

93.75

In [36]:
# test code 2
# data3는 커지지만 data4는 작아진다. (반비례)
data3 = np.array([80,85,100,90,95])
data4 = np.array([100,90,70,90,80])
covariance(data3, data4)

-87.5

In [37]:
# test code 3
# 표본데이터의 크기가 커지면 공분산 값도 커진다.
# 두 데이터의 상관정도의 강도를 나타내는데 무리가 있다.
data5 = np.array([800,850,1000,900,950])
data6 = np.array([1000,900,700,900,800])
covariance(data5, data6)

-8750.0

In [38]:
# numpy
print(np.cov(data1, data2)[0][1])
print(np.cov(data3, data4)[0][1])
print(np.cov(data5, data6)[0][1])

93.75
-87.5
-8750.0


##### 상관계수(correlation coefficient)
- 공분산의 한계를 극복하기 위해서 만들어짐
- -1 ~ 1까지의 수를 가지며 0과 가까울수록 상관도가 적음을 의미
- x의 분산과 y의 분산을 곱한 결과의 제곱근을 나눠주면 x나 y의 변화량이 클수록 0에 가까워짐
- https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.corrcoef.html

$ correlation-coefficient = \frac{공분산}{\sqrt{{x분산} \cdot {y분산}}} $

최종 상관계수

$ r = \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{{\sum(x-\bar{x})^2}\cdot{\sum(y-\bar{y})^2}}} $

In [49]:
def cc(data1, data2):
    # TODO
    x_ = np.average(data1)
    y_ = np.average(data2)
    
    cov, xv, yv = 0, 0, 0
    
    for i in range(len(data1)):
        cov += (data1[i] - x_) * (data2[i] - y_)
        xv += (data1[i] - x_) ** 2
        yv += (data2[i] - y_) ** 2
        
    return cov / ((xv * yv) ** 0.5)

In [50]:
# teat code 1
data1 = np.array([80,85,100,90,95])
data2 = np.array([70,80,100,95,95])
cc(data1, data2)

0.944911182523068

In [51]:
# teat code 2
data3 = np.array([80,85,100,90,95])
data4 = np.array([100,90,70,90,80])
cc(data3, data4)

-0.970725343394151

In [52]:
# teat code 3
data5 = np.array([800,850,1000,900,950])
data6 = np.array([1000,900,700,900,800])
cc(data5, data6)

-0.970725343394151

In [53]:
# numpy
print(np.corrcoef(data1, data2)[0][1])
print(np.corrcoef(data3, data4)[0][1])
print(np.corrcoef(data5, data6)[0][1])

0.9449111825230682
-0.970725343394151
-0.970725343394151


##### 결정계수(cofficient of determination)
- x로부터 y를 예측할수 있는 정도
- 상관계수의 제곱 (상관계수를 양수화)
- 수치가 클수록 예측할수 있는 정도가 더 정확

In [54]:
p_df = pd.read_csv("premierleague.csv")
p_df.tail()

Unnamed: 0,name,gf,ga,points
15,Huddersfield Town,28,58,37
16,Southampton,37,56,36
17,Swansea City,28,56,33
18,Stoke City,35,68,33
19,West Bromwich Albion,31,56,31


In [55]:
# 승점과 득점의 상관계수
np.corrcoef(p_df["points"], p_df["gf"])[0][1]

0.9318404636463515

In [56]:
# 승점과 실점의 상관계수
np.corrcoef(p_df["points"], p_df["ga"])[0][1]

-0.8705940043262675