# 상관계수 ( Correlation Coefficient )

### Index

1. 분산
1. 공분산
1. 상관계수
1. 결정계수
1. 프리미어리그 데이터 상관계수 분석

In [6]:
import numpy as np

샘플 데이터 생성

In [7]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])

### 2. 분산(variance)
- 1개의 이산정도를 나타냄
- 편차제곱의 평균

$ variance = \frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n}, (\bar{x}:평균) $

In [8]:
# variance code
def variance(data):
    
    avg = np.average(data)
    var = 0
    
    for num in data:
        var += (num - avg) ** 2
        
    return var / len(data)

In [9]:
variance(data1), variance(data2), variance(data1) ** 0.5, variance(data2) ** 0.5

(50.0, 126.0, 7.0710678118654755, 11.224972160321824)

In [10]:
np.var(data1), np.var(data2), np.std(data1), np.std(data2)

(50.0, 126.0, 7.0710678118654755, 11.224972160321824)

일반 함수와 numpy 함수의 퍼포먼스 비교

In [22]:
p_data1 = np.random.randint(60, 100, int(1E5))
p_data2 = np.random.randint(60, 100, int(1E5))

In [23]:
# 일반함수

In [24]:
%%time
variance(p_data1), variance(p_data2)

Wall time: 575 ms


(133.68447646360104, 133.36510375910493)

In [20]:
# numpy

In [25]:
%%time
np.var(p_data1), np.var(p_data2)

Wall time: 2 ms


(133.68447646360002, 133.36510375909998)

### 3. 공분산(covariance)
- 2개의 확률변수의 상관정도를 나타냄
- 평균 편차곱
- 방향성은 보여줄수 있으나 강도를 나타내는데 한계가 있다
    - 표본데이터의 크기에 따라서 값의 차이가 큰 단점이 있다

$ covariance = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $

In [26]:
# covariance function

In [27]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])
np.cov(data1, data2)[0, 1]

93.75

In [28]:
data3 = np.array([80, 85, 100, 90, 95])
data4 = np.array([100, 90, 70, 90, 80])
np.cov(data3, data4)[0, 1]

-87.5

In [29]:
data5 = np.array([800, 850, 1000, 900, 950])
data6 = np.array([1000, 900, 700, 900, 800])
np.cov(data5, data6)[0, 1]

-8750.0

### 4. 상관계수(correlation coefficient)
- 공분산의 한계를 극복하기 위해서 만들어짐
- -1 ~ 1까지의 수를 가지며 0과 가까울수록 상관도가 적음을 의미
- x의 분산과 y의 분산을 곱한 결과의 제곱근을 나눠주면 x나 y의 변화량이 클수록 0에 가까워짐
- https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.corrcoef.html

$ correlation-coefficient = \frac{공분산}{\sqrt{{x분산} \cdot {y분산}}} $

최종 상관계수

$ r = \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{{\sum(x-\bar{x})^2}\cdot{\sum(y-\bar{y})^2}}} $

In [32]:
# correlation coefficient function
np.corrcoef(data1, data2)[0,1],\
np.corrcoef(data3, data4)[0,1],\
np.corrcoef(data5, data6)[0,1]

(0.9449111825230682, -0.970725343394151, -0.970725343394151)

### 5. 결정계수(cofficient of determination: R-squared)
- x로부터 y를 예측할수 있는 정도
- 상관계수의 제곱 (상관계수를 양수화)
- 수치가 클수록 회기분석을 통해 예측할수 있는 수치의 정도가 더 정확

In [34]:
np.corrcoef(data1, data2)[0,1] ** 2,\
np.corrcoef(data1, data4)[0,1] ** 2

(0.892857142857143, 0.9423076923076923)

### 6. 프리미어리그 데이터 상관계수 분석
- 2016년 프리미어리그 성적에서 득점과 실점 데이터중에 승점에 영향을 더 많이 준 데이터는?

In [31]:
import pandas as pd

In [32]:
!ls datas

2014_p.csv
2014_s.csv
premierleague.csv
train.csv


In [33]:
df = pd.read_csv("datas/premierleague.csv")
df.tail()

Unnamed: 0,name,gf,ga,points
15,Huddersfield Town,28,58,37
16,Southampton,37,56,36
17,Swansea City,28,56,33
18,Stoke City,35,68,33
19,West Bromwich Albion,31,56,31


In [34]:
# 득점
gf = np.array(df["gf"])
gf

array([106,  68,  74,  84,  62,  74,  36,  44,  56,  39,  45,  45,  48,
        44,  34,  28,  37,  28,  35,  31], dtype=int64)

In [35]:
# 실점
ga = np.array(df["ga"])
ga

array([27, 28, 36, 38, 38, 51, 39, 58, 60, 47, 55, 61, 68, 64, 54, 58, 56,
       56, 68, 56], dtype=int64)

In [36]:
# 승점
points = np.array(df["points"])
points

array([100,  81,  77,  75,  70,  63,  54,  49,  47,  44,  44,  44,  42,
        41,  40,  37,  36,  33,  33,  31], dtype=int64)

In [37]:
data1, data2 = np.corrcoef(gf, points)[0, 1] ** 2, np.corrcoef(ga, points)[0, 1] ** 2
data1, data2

(0.8683266496886471, 0.757933920368845)

In [38]:
round(data1, 2), round(data2, 2)

(0.87, 0.76)

In [40]:
### 100 ~ 130 랜덤수 8*8 행렬을 만들고
# 3의 배수는 fiz, 5의 배수는 buz, 3과 5의 배수는 fbz 문자로 변환

#랜덤한 행렬데이터
oct1 = np.random.randint(100, 130, (8, 8))

# 데이터 타입이 정수 -> 문자열
oct1



array([[116, 111, 105, 105, 106, 128, 119, 127],
       [118, 123, 103, 126, 117, 120, 100, 110],
       [114, 115, 118, 112, 106, 107, 108, 104],
       [113, 101, 115, 121, 125, 125, 114, 126],
       [117, 116, 128, 105, 103, 122, 107, 104],
       [127, 111, 112, 111, 109, 104, 115, 108],
       [129, 102, 109, 100, 119, 115, 128, 115],
       [110, 103, 102, 107, 110, 117, 107, 122]])

In [41]:
stroct1 = oct1.astype(str)

array([['116', '111', '105', '105', '106', '128', '119', '127'],
       ['118', '123', '103', '126', '117', '120', '100', '110'],
       ['114', '115', '118', '112', '106', '107', '108', '104'],
       ['113', '101', '115', '121', '125', '125', '114', '126'],
       ['117', '116', '128', '105', '103', '122', '107', '104'],
       ['127', '111', '112', '111', '109', '104', '115', '108'],
       ['129', '102', '109', '100', '119', '115', '128', '115'],
       ['110', '103', '102', '107', '110', '117', '107', '122']],
      dtype='<U11')

In [42]:
# 3의 배수, 5의 배수, 15의 배수 위치 값에 대한 T, F 행렬 생성
idx_3 = oct1 % 3 == 0
idx_5 = oct1 % 5 == 0
idx_15 = oct1 % 15 == 0

In [46]:
# 데이터 타입을 str으로 변환
stroct1 = oct1.astype(str)

In [49]:
# T,F 매트릴스를 이용해 조건 데이터로 변경
stroct1[idx_3] = "fiz"
stroct1[idx_5] = "buz"
stroct1[idx_15] = "fbz"


In [50]:
stroct1

array([['116', 'fiz', 'fbz', 'fbz', '106', '128', '119', '127'],
       ['118', 'fiz', '103', 'fiz', 'fiz', 'fbz', 'buz', 'buz'],
       ['fiz', 'buz', '118', '112', '106', '107', 'fiz', '104'],
       ['113', '101', 'buz', '121', 'buz', 'buz', 'fiz', 'fiz'],
       ['fiz', '116', '128', 'fbz', '103', '122', '107', '104'],
       ['127', 'fiz', '112', 'fiz', '109', '104', 'buz', 'fiz'],
       ['fiz', 'fiz', '109', 'buz', '119', 'buz', '128', 'buz'],
       ['buz', '103', 'fiz', '107', 'buz', 'fiz', '107', '122']],
      dtype='<U11')

### quiz
- 1 ~ 20 랜덤수 5*5 행렬
- 최대값 max 최소값 min 문자
- 최대값, 최소값 함수


In [66]:
# 행렬만들기
penta1 = np.random.randint(1, 20, (5, 5))

In [67]:
# max, min 값 구하기
penta1
penMax = penta1.max()
penMin = penta1.min()
print(penMax, penMin)

19 1


In [72]:
# 조건에 맞는 T, F 행렬 만들기
idx_max = penta1 == penMax
idx_min = penta1 == penMin
print(penMax, penMin)

19 1


In [69]:
# String 배열로 변경
idx_max, idx_min
penStr = penta1.astype(str)

In [70]:
# 적용
penStr[idx_max] = "MAX"
penStr[idx_min] = "MIN"

In [71]:
penStr

array([['18', '15', '15', '18', '12'],
       ['4', '6', '7', '13', 'MAX'],
       ['15', '11', '8', '12', 'MIN'],
       ['18', '5', 'MIN', '15', '15'],
       ['2', '16', '17', '5', '9']], dtype='<U11')

### linspace, logspace 함수
- linspace : 설정한 범위에서 선형적으로 분할한 위치의 값을 출력
- logspace : 설정한 범위에서 로그로 분할한 위치의 값을 출력


In [73]:
# linspace
np.linspace(0, 100, 5)

array([  0.,  25.,  50.,  75., 100.])

In [74]:
# longspace
np.logspace(2, 4, 3)

array([  100.,  1000., 10000.])

In [77]:
# 30세 연봉이 $100000 일때, 60세의 연봉이 $1000000 일때
# 연봉이 선형으로 증가, 지수함수로 증가하는 두 경우에서 40, 50세 연봉을 출력
age_30 = 100000
age_60 = 1000000
np.linspace(age_30, age_60, 4)

array([ 100000.,  400000.,  700000., 1000000.])

In [78]:
np.logspace(np.log10(age_30), np.log10(age_60), 4)

array([ 100000.        ,  215443.46900319,  464158.88336128,
       1000000.        ])

### numpy random
- seed : 랜덤의 설정값
- rand : 균등분포로 난수 생성
- randn : 정규분포로 난수 생성
- randint: 균등분포로 정수 발생
- shuffle : 행렬 데이터를 섞어줌
- choice : 특정 확률로 데이터를 선택

In [79]:
# seed
np.random.seed(1)
result1 = np.random.randint(10, 100, 10)

np.random.seed(1)
result2 = np.random.randint(10, 100, 10)

np.random.seed(2)
result3 = np.random.randint(10, 100, 10)

result1, result2, result3

(array([47, 22, 82, 19, 85, 15, 89, 74, 26, 11]),
 array([47, 22, 82, 19, 85, 15, 89, 74, 26, 11]),
 array([50, 25, 82, 32, 53, 92, 85, 17, 44, 59]))

In [85]:
np.random.rand(10)

array([0.66842705, 0.19802711, 0.87626645, 0.4323891 , 0.61964146,
       0.29042674, 0.61525457, 0.95365996, 0.44801472, 0.20704984])

In [84]:
np.random.randn(10)

array([-0.32358007,  0.42382471,  0.79918   ,  1.26261366,  0.75196485,
       -0.99376098,  1.10914328, -1.76491773, -0.1144213 , -0.49817419])

In [86]:
# shuffle
r = np.random.randint(1, 10 , (3, 4))

In [87]:
r

array([[5, 8, 6, 2],
       [4, 8, 5, 6],
       [2, 3, 4, 7]])

In [89]:
np.random.shuffle(r)

In [90]:
r

array([[4, 8, 5, 6],
       [5, 8, 6, 2],
       [2, 3, 4, 7]])

In [98]:
# choice
np.random.choice(5, 10, p = [0.1, 0.1, 0.4, 0.2, 0.2])

array([4, 3, 3, 1, 3, 2, 4, 2, 3, 2])

In [101]:
# unique - 유일하게 뽑음
numbers, counts = np.unique(r, return_counts = True)

print(numbers)
print(counts)


[2 3 4 5 6 7 8]
[2 1 2 2 2 1 2]


### 행렬데이터 결합
- concatenate

In [103]:
na1 = np.random.randint(10, size = (2, 3))
na2 = np.random.randint(10, size = (3, 2))
na3 = np.random.randint(10, size = (3, 3))



In [114]:
na1,na2, na3

(array([[9, 4, 7],
        [4, 6, 5]]),
 array([[9, 5],
        [5, 9],
        [2, 6]]),
 array([[2, 9, 4],
        [0, 9, 8],
        [2, 1, 6]]))

In [107]:
# 세로결합
np.concatenate((na1, na3))

array([[9, 4, 7],
       [4, 6, 5],
       [2, 9, 4],
       [0, 9, 8],
       [2, 1, 6]])

In [112]:
# 가로결합
np.concatenate((na2, na3), axis = 1)

array([[9, 5, 2, 9, 4],
       [5, 9, 0, 9, 8],
       [2, 6, 2, 1, 6]])