### 상관계수 ( Correlation Coefficient )
- numpy를 이용하여 데이터의 상관계수를 구합니다.
- python 코드와 numpy의 함수의 속도차이를 비교합니다.

#### Index

1. 분산
1. 공분산
1. 상관계수
1. 결정계수
1. 프리미어리그 데이터 상관계수 분석

In [1]:
import numpy as np

샘플 데이터 생성

In [2]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])

#### 1. 분산(variance)
- 1개의 이산정도를 나타냄
- 편차제곱의 평균 : 요소들의 편차의 제곱들을 모두 더해서 총 갯수로 나누어주면 됨.

$ variance = \frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n}, (\bar{x}:평균) $

In [3]:
# variance code
avg = np.average(data1)
c = 0
def variance(data):
    for i in data1:
        (i - avg)**2

In [6]:
def variance(datas):
    var = 0
    x_ = np.average(datas)
    for data in datas:
        var += (data - x_) **2
    return var/len(datas)

In [9]:
variance(data1),variance(data2)

(50.0, 126.0)

In [7]:
4**0.5

2.0

In [5]:
variance(data1)**0.5,variance(data2)**0.5
#0.5 제곱을 해주면 루트씌워준것과 같음. 위의 결과 수치는 표준편차
#분산 = 편차의 제곱을 모두 더해서 총 갯수로 나눠주고
#표준편차 = 분산에 루트를 씌워주면 됨
'''
평균
분산 = 
표준편차 =

'''

(7.0710678118654755, 11.224972160321824)

In [20]:
np.var(data1),np.var(data2),np.std(data1),np.std(data2),

'''
np.var로 분산을 바로 구할 수 있고
np.std로 표준편차를 바로 구할 수 있다.

'''

(50.0, 126.0, 7.0710678118654755, 11.224972160321824)

In [10]:
p_data1 = np.random.randint(60,100,int(1E5))   # 1E5 : 10의 5승
p_data2 = np.random.randint(60,100,int(1E5))   # 1E5 : 10의 5승

In [24]:
%%time
variance(p_data1),variance(p_data2)

CPU times: user 558 ms, sys: 4 ms, total: 562 ms
Wall time: 562 ms


(133.4082933319165, 133.45788041439823)

In [25]:
%%time
np.var(p_data1),np.var(p_data2)

CPU times: user 1.47 ms, sys: 984 µs, total: 2.45 ms
Wall time: 1.23 ms


(133.40829333189998, 133.4578804144)

일반 함수와 numpy 함수의 퍼포먼스 비교

#### 2. 공분산(covariance)
- 2개의 확률변수의 상관정도를 나타냄
- 평균 편차곱
- 방향성은 보여줄수 있으나 강도를 나타내는데 한계가 있다 (강도 : 어느정도로 닮고 다른지)
    - 표본데이터의 크기에 따라서 값의 차이가 큰 단점이 있다

$ covariance = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n-1}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $

In [11]:
# covariance function

In [11]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])
data3 = np.array([100, 90, 70, 90, 80])

In [12]:
np.cov(data1,data2)

array([[ 62.5 ,  93.75],
       [ 93.75, 157.5 ]])

In [34]:
np.cov(data1,data2)[0,1],np.cov(data1,data3)[0,1]

(93.75, -87.5)

In [35]:
data4 = data1 *10
data5 = data3 *10
data4, data5

(array([ 800,  850, 1000,  900,  950]), array([1000,  900,  700,  900,  800]))

In [37]:
np.cov(data4,data5)[0,1]

-8750.0

#### 3. 상관계수(correlation coefficient)
- 공분산의 한계를 극복하기 위해서 만들어짐
- -1 ~ 1까지의 수를 가지며 0과 가까울수록 상관도가 적음을 의미
- x의 분산과 y의 분산을 곱한 결과의 제곱근을 나눠주면 x나 y의 변화량이 클수록 0에 가까워짐
- https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.corrcoef.html

$ correlation-coefficient = \frac{공분산}{\sqrt{{x분산} \cdot {y분산}}} $

최종 상관계수

$ r = \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{{\sum(x-\bar{x})^2}\cdot{\sum(y-\bar{y})^2}}} $

In [39]:
np.corrcoef(data1,data3)[0,1],np.corrcoef(data4,data5)[0,1]

(-0.970725343394151, -0.970725343394151)

In [40]:
2**7
1 2 3 4 5 6 7


128

#### 4. 결정계수(cofficient of determination: R-squared) : 상관계수를 제곱 for -를 제거하기 위해
- x로부터 y를 예측할수 있는 정도
- 상관계수의 제곱 (상관계수를 양수화)
- 수치가 클수록 회기분석을 통해 예측할수 있는 수치의 정도가 더 정확
- 회귀분석에서 자주 사용됨

In [43]:
np.corrcoef(data1,data2)[0,1]**2,np.corrcoef(data1,data3)[0,1]**2

(0.892857142857143, 0.9423076923076923)

#### 5. 프리미어리그 데이터 상관계수 분석
- 2016년 프리미어리그 성적에서 득점과 실점 데이터중에 승점에 영향을 더 많이 준 데이터는?

In [5]:
import pickle

In [6]:
%ls datas

[34marticles[m[m/


In [7]:
with open('datas2/premierleague.pkl',"rb") as file:
    datas = pickle.load(file)

In [8]:
datas
gf = datas[:,1].astype(np.int)

In [9]:
datas

array([['Manchester City', 106, 27, 100],
       ['Manchester United', 68, 28, 81],
       ['Tottenham Hotspur', 74, 36, 77],
       ['Liverpool', 84, 38, 75],
       ['Chelsea', 62, 38, 70],
       ['Arsenal', 74, 51, 63],
       ['Burnley', 36, 39, 54],
       ['Everton', 44, 58, 49],
       ['Leicester City', 56, 60, 47],
       ['Newcastle United', 39, 47, 44],
       ['Crystal Palace', 45, 55, 44],
       ['Bournemouth', 45, 61, 44],
       ['West Ham United', 48, 68, 42],
       ['Watford', 44, 64, 41],
       ['Brighton and Hove Albion', 34, 54, 40],
       ['Huddersfield Town', 28, 58, 37],
       ['Southampton', 37, 56, 36],
       ['Swansea City', 28, 56, 33],
       ['Stoke City', 35, 68, 33],
       ['West Bromwich Albion', 31, 56, 31]], dtype=object)

In [10]:
ga = datas[:,2].astype(np.int)

In [11]:
point = datas[:,3].astype(np.int)

In [13]:
np.corrcoef(gf,point)[0,1]**2,np.corrcoef(ga,point)[0,1]**2

(0.8683266496886471, 0.757933920368845)

In [2]:
from sklearn.linear_model import LinearRegression

In [12]:
gf,ga,point

(array([106,  68,  74,  84,  62,  74,  36,  44,  56,  39,  45,  45,  48,
         44,  34,  28,  37,  28,  35,  31]),
 array([27, 28, 36, 38, 38, 51, 39, 58, 60, 47, 55, 61, 68, 64, 54, 58, 56,
        56, 68, 56]),
 array([100,  81,  77,  75,  70,  63,  54,  49,  47,  44,  44,  44,  42,
         41,  40,  37,  36,  33,  33,  31]))

In [15]:
#모델학습

In [18]:
#득점 데이터 모델
model_1 = LinearRegression().fit(gf.reshape(-1, 1), point)
#실점 데이터 모델]
model_1 = LinearRegression().fit(ga.reshape(-1, 1), point)

In [19]:
model_1.predict(gf.reshape(-1, 1))

array([-21.70580269,  29.16026813,  21.12878326,   7.74297515,
        37.191753  ,  21.12878326,  71.99485409,  61.2862076 ,
        45.22323786,  67.97911165,  59.94762679,  59.94762679,
        55.93188435,  61.2862076 ,  74.67201571,  82.70350058,
        70.65627328,  82.70350058,  73.3334349 ,  78.68775814])

In [20]:
%matplotlib inline
%config InlineBackend.figure_formats = {"png","retina"}

In [21]:
import matplotlib as mpl
import matplotlib.pyplot as plt

# 광고데이터의 광고효과 확인 및 예측
- tv, radio, newspaper, sales(target)
- 각 매체별 상관계수를 구하기
- 각 매체별 회귀분석 모델 만들기 및 평가

In [13]:
import pickle


In [16]:
with open("datas/advertising.plk", "rb") as file:
    datas = pickle.load(file)

FileNotFoundError: [Errno 2] No such file or directory: 'data/advertising.plk'

In [37]:
datas

array([[230.1,  37.8,  69.2,  22.1],
       [ 44.5,  39.3,  45.1,  10.4],
       [ 17.2,  45.9,  69.3,   9.3],
       [151.5,  41.3,  58.5,  18.5],
       [180.8,  10.8,  58.4,  12.9],
       [  8.7,  48.9,  75. ,   7.2],
       [ 57.5,  32.8,  23.5,  11.8],
       [120.2,  19.6,  11.6,  13.2],
       [  8.6,   2.1,   1. ,   4.8],
       [199.8,   2.6,  21.2,  10.6],
       [ 66.1,   5.8,  24.2,   8.6],
       [214.7,  24. ,   4. ,  17.4],
       [ 23.8,  35.1,  65.9,   9.2],
       [ 97.5,   7.6,   7.2,   9.7],
       [204.1,  32.9,  46. ,  19. ],
       [195.4,  47.7,  52.9,  22.4],
       [ 67.8,  36.6, 114. ,  12.5],
       [281.4,  39.6,  55.8,  24.4],
       [ 69.2,  20.5,  18.3,  11.3],
       [147.3,  23.9,  19.1,  14.6],
       [218.4,  27.7,  53.4,  18. ],
       [237.4,   5.1,  23.5,  12.5],
       [ 13.2,  15.9,  49.6,   5.6],
       [228.3,  16.9,  26.2,  15.5],
       [ 62.3,  12.6,  18.3,   9.7],
       [262.9,   3.5,  19.5,  12. ],
       [142.9,  29.3,  12.6,  15. ],
 

In [26]:
#각 컬럼별 상관계수 및 결정계수 출력


In [78]:
rate = 0.3
idx = int(len(datas) * rate)
idx

60

In [79]:
train_x_tv = datas[:-idx, 0]
train_x_radio = datas[:-idx,1]
train_x_newspaper = datas[:-idx,2]
train_y = datas[:-idx, -1]

test_x_tv = datas[-idx:, 0]
test_x_radio = datas[-idx:,1]
test_x_newspaper = datas[-idx:,2]
test_y = datas[-idx:,-1]

features = {
    "tv": datas[:,0],
    "radio": datas[:,1],
    "newspaper": datas[:,2],
}
target = datas[:,-1]


In [80]:
train_x_tv.reshape(1,-1)

array([[230.1,  44.5,  17.2, 151.5, 180.8,   8.7,  57.5, 120.2,   8.6,
        199.8,  66.1, 214.7,  23.8,  97.5, 204.1, 195.4,  67.8, 281.4,
         69.2, 147.3, 218.4, 237.4,  13.2, 228.3,  62.3, 262.9, 142.9,
        240.1, 248.8,  70.6, 292.9, 112.9,  97.2, 265.6,  95.7, 290.7,
        266.9,  74.7,  43.1, 228. , 202.5, 177. , 293.6, 206.9,  25.1,
        175.1,  89.7, 239.9, 227.2,  66.9, 199.8, 100.4, 216.4, 182.6,
        262.7, 198.9,   7.3, 136.2, 210.8, 210.7,  53.5, 261.3, 239.3,
        102.7, 131.1,  69. ,  31.5, 139.3, 237.4, 216.8, 199.1, 109.8,
         26.8, 129.4, 213.4,  16.9,  27.5, 120.5,   5.4, 116. ,  76.4,
        239.8,  75.3,  68.4, 213.5, 193.2,  76.3, 110.7,  88.3, 109.8,
        134.3,  28.6, 217.7, 250.9, 107.4, 163.3, 197.6, 184.9, 289.7,
        135.2, 222.4, 296.4, 280.2, 187.9, 238.2, 137.9,  25. ,  90.4,
         13.1, 255.4, 225.8, 241.7, 175.7, 209.6,  78.2,  75.1, 139.2,
         76.4, 125.7,  19.4, 141.3,  18.8, 224. , 123.1, 229.5,  87.2,
      

In [81]:
model_tv = LinearRegression().fit(train_x_tv.reshape(-1,1), train_y)

In [82]:
model_radio = LinearRegression().fit(train_x_radio.reshape(-1,1), train_y)

In [83]:
model_newspaper = LinearRegression().fit(train_x_newspaper.reshape(-1,1), train_y)

In [84]:
#모델평가 : MAE = sum(|pred - test|) / n

In [85]:
pred_tv = model_tv.predict(test_x_tv.reshape(-1,1))
pred_tv = np.round(pred_tv,1)
mae_tv = np.round(mae_tv,3)
pred_tv, test_y

(array([10.7, 16.6, 17.9, 12.2, 11.8, 14. , 18.9, 19. ,  9. ,  9.3, 20.8,
        13. , 16.8, 15.5, 16.3,  7.3, 11.7, 14.4,  7.7, 13.6, 15.6, 11.3,
        16.3, 15.1, 12.8, 18.6,  8. , 17.2, 17.6, 21. ,  9.6, 15.2,  8.1,
        15.4, 18. , 20.7, 19.3, 15.4, 20.6, 15.2, 14.8, 17.8,  9.9, 21.2,
        19.5, 17.1, 13.9, 16.5, 21.1,  8. ,  9.1, 10.8,  8. , 15.3, 14.4,
         9. , 11.7, 15.8, 21. , 18.5]),
 array([10.9, 19.2, 20.1, 10.4, 11.4, 10.3, 13.2, 25.4, 10.9, 10.1, 16.1,
        11.6, 16.6, 19. , 15.6,  3.2, 15.3, 10.1,  7.3, 12.9, 14.4, 13.3,
        14.9, 18. , 11.9, 11.9,  8. , 12.2, 17.1, 15. ,  8.4, 14.5,  7.6,
        11.7, 11.5, 27. , 20.2, 11.7, 11.8, 12.6, 10.5, 12.2,  8.7, 26.2,
        17.6, 22.6, 10.3, 17.3, 15.9,  6.7, 10.8,  9.9,  5.9, 19.6, 17.3,
         7.6,  9.7, 12.8, 25.5, 13.4]))

In [86]:
pred_radio = model_radio.predict(test_x_radio.reshape(-1,1))
pred_radio = np.round(pred_radio,1)
mae_radio = np.round(mae_radio,3)
pred_radio, test_y

(array([12.7, 16.2, 15.8, 10.5, 12.2,  9.7, 10.8, 18.9, 17.2, 14.4, 12. ,
        11. , 13.9, 17.1, 13.4, 11.6, 17.8,  9.6, 16.5, 12.9, 12.9, 16.3,
        12.9, 16.5, 12.2, 10. , 16.7, 10.4, 13.9, 11.4, 11.6, 13.4, 13.3,
        10.7, 10. , 18.9, 15.2, 10.9,  9.8, 11.3,  9.8, 10.4, 10.5, 17.7,
        13.5, 18.1,  9.7, 14.9, 12. , 11.7, 17.3, 11.4, 10.1, 17.5, 16.3,
        10.1, 10.3, 11.2, 17.5, 11. ]),
 array([10.9, 19.2, 20.1, 10.4, 11.4, 10.3, 13.2, 25.4, 10.9, 10.1, 16.1,
        11.6, 16.6, 19. , 15.6,  3.2, 15.3, 10.1,  7.3, 12.9, 14.4, 13.3,
        14.9, 18. , 11.9, 11.9,  8. , 12.2, 17.1, 15. ,  8.4, 14.5,  7.6,
        11.7, 11.5, 27. , 20.2, 11.7, 11.8, 12.6, 10.5, 12.2,  8.7, 26.2,
        17.6, 22.6, 10.3, 17.3, 15.9,  6.7, 10.8,  9.9,  5.9, 19.6, 17.3,
         7.6,  9.7, 12.8, 25.5, 13.4]))

In [87]:
pred_newspaper = model_newspaper.predict(test_x_newspaper.reshape(-1,1))
pred_newspaper = np.round(pred_newspaper,1)
mae_newspaper = np.round(mae_newspaper,3)
pred_newspaper, test_y

(array([13.3, 15.9, 14.4, 14.2, 14.4, 13.2, 13.2, 14.6, 13.3, 13.7, 14.3,
        14.8, 13.4, 14.4, 13.2, 13. , 14.9, 13.8, 14.7, 14.2, 14.1, 14.9,
        13.9, 13.1, 13. , 16.3, 13.7, 13.6, 15.2, 13.1, 13.6, 14.8, 13.5,
        13.3, 13.3, 14.5, 13.6, 14.3, 13.8, 13.5, 13.1, 13.9, 14. , 15.8,
        14. , 13.6, 13.9, 13.6, 13. , 13.8, 13. , 13. , 14.1, 12.9, 13. ,
        13.4, 13.1, 13.1, 15.6, 13.2]),
 array([10.9, 19.2, 20.1, 10.4, 11.4, 10.3, 13.2, 25.4, 10.9, 10.1, 16.1,
        11.6, 16.6, 19. , 15.6,  3.2, 15.3, 10.1,  7.3, 12.9, 14.4, 13.3,
        14.9, 18. , 11.9, 11.9,  8. , 12.2, 17.1, 15. ,  8.4, 14.5,  7.6,
        11.7, 11.5, 27. , 20.2, 11.7, 11.8, 12.6, 10.5, 12.2,  8.7, 26.2,
        17.6, 22.6, 10.3, 17.3, 15.9,  6.7, 10.8,  9.9,  5.9, 19.6, 17.3,
         7.6,  9.7, 12.8, 25.5, 13.4]))

In [88]:
mae_tv = np.sum(np.absolute(pred_tv - test_y)) /len(test_y)

In [89]:
mae_radio = np.sum(np.absolute(pred_radio - test_y)) /len(test_y)

In [90]:
mae_newspaper = np.sum(np.absolute(pred_newspaper - test_y)) /len(test_y)

In [91]:
mae_tv,mae_radio,mae_newspaper

(2.885, 3.0516666666666667, 3.8883333333333336)

In [73]:
#상관계수

In [92]:
datas[:,0],datas[:,-1]
np.corrcoef(datas[:,0],datas[:,-1])[0,1],np.corrcoef(datas[:,1],datas[:,-1])[0,1],np.corrcoef(datas[:,2],datas[:,-1])[0,1]

(0.7822244248616061, 0.5762225745710551, 0.22829902637616528)

In [93]:
'''
도출된 상관계수와 MAE값이 다를땐 overfiting의 가능성이 있음
그래서 테스트의 개수를 조절해서 해결
'''

'\n도출된 상관계수와 MAE값이 다를땐 overfiting의 가능성이 있음\n그래서 테스트의 개수를 조절해서 해결\n'

In [94]:
#모델 생성시 모든 feature 사용

In [97]:
model = LinearRegression().fit(train_x_tv.reshape(-1,1), train_y)

In [98]:
train_x = datas[:-idx, :-1]
train_y = datas[:-idx, -1]
test_x = datas[-idx:, :-1]
test_y = datas[-idx:, -1]

model = LinearRegression().fit(train_x, train_y)

In [99]:
pred_y = model.predict(test_x)
pred_y = np.round(pred_y, 1)
mae = np.sum(np.absolute(pred_y - test_y)) / len(test_y) 
mae = np.round(mae, 3)
mae

1.245

In [100]:
np.corrcoef(datas[:, 0], datas[:, -1])[0, 1] ** 2,\
np.corrcoef(datas[:, 1], datas[:, -1])[0, 1] ** 2,\
np.corrcoef(datas[:, 2], datas[:, -1])[0, 1] ** 2,

(0.6118750508500705, 0.33203245544529514, 0.05212044544430501)

In [101]:
sample = np.array([[100,  20,  200]])
model.predict(sample)

array([10.74255704])