# 상관계수 ( Correlation Coefficient )

### Index

1. 분산
1. 공분산
1. 상관계수
1. 결정계수
1. 프리미어리그 데이터 상관계수 분석

In [6]:
import numpy as np

샘플 데이터 생성

In [6]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])

### 2. 분산(variance)
- 1개의 이산정도를 나타냄
- 편차제곱의 평균

$ variance = \frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n}, (\bar{x}:평균) $

In [8]:
# variance code
def variance(data):
    
    avg = np.average(data)
    var = 0
    
    for num in data:
        var += (num - avg) ** 2
        
    return var / len(data)

In [12]:
variance(data1), variance(data2), variance(data1) ** 0.5, variance(data2) ** 0.5

(50.0, 126.0, 7.0710678118654755, 11.224972160321824)

In [13]:
np.var(data1), np.var(data2), np.std(data1), np.std(data2)

(50.0, 126.0, 7.0710678118654755, 11.224972160321824)

일반 함수와 numpy 함수의 퍼포먼스 비교

In [18]:
p_data1 = np.random.randint(60, 100, int(1E5))
p_data2 = np.random.randint(60, 100, int(1E5))

In [19]:
# 일반함수

In [21]:
%%time
variance(p_data1), variance(p_data2)

CPU times: user 503 ms, sys: 7.19 ms, total: 510 ms
Wall time: 518 ms


(133.71037285760136, 133.8094498879131)

In [20]:
# numpy

In [22]:
%%time
np.var(p_data1), np.var(p_data2)

CPU times: user 1.71 ms, sys: 3.43 ms, total: 5.14 ms
Wall time: 2.94 ms


(133.7103728576, 133.80944988789997)

### 3. 공분산(covariance)
- 2개의 확률변수의 상관정도를 나타냄
- 평균 편차곱
- 방향성은 보여줄수 있으나 강도를 나타내는데 한계가 있다
    - 표본데이터의 크기에 따라서 값의 차이가 큰 단점이 있다

$ covariance = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $

In [8]:
# covariance function

In [27]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])
np.cov(data1, data2)[0, 1]

93.75

In [28]:
data3 = np.array([80, 85, 100, 90, 95])
data4 = np.array([100, 90, 70, 90, 80])
np.cov(data3, data4)[0, 1]

-87.5

In [30]:
data5 = np.array([800, 850, 1000, 900, 950])
data6 = np.array([1000, 900, 700, 900, 800])
np.cov(data5, data6)[0, 1]

-8750.0

### 4. 상관계수(correlation coefficient)
- 공분산의 한계를 극복하기 위해서 만들어짐
- -1 ~ 1까지의 수를 가지며 0과 가까울수록 상관도가 적음을 의미
- x의 분산과 y의 분산을 곱한 결과의 제곱근을 나눠주면 x나 y의 변화량이 클수록 0에 가까워짐
- https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.corrcoef.html

$ correlation-coefficient = \frac{공분산}{\sqrt{{x분산} \cdot {y분산}}} $

최종 상관계수

$ r = \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{{\sum(x-\bar{x})^2}\cdot{\sum(y-\bar{y})^2}}} $

In [32]:
# correlation coefficient function
np.corrcoef(data1, data2)[0,1],\
np.corrcoef(data3, data4)[0,1],\
np.corrcoef(data5, data6)[0,1]

(0.9449111825230682, -0.970725343394151, -0.970725343394151)

### 5. 결정계수(cofficient of determination: R-squared)
- x로부터 y를 예측할수 있는 정도
- 상관계수의 제곱 (상관계수를 양수화)
- 수치가 클수록 회기분석을 통해 예측할수 있는 수치의 정도가 더 정확

In [34]:
np.corrcoef(data1, data2)[0,1] ** 2,\
np.corrcoef(data1, data4)[0,1] ** 2

(0.892857142857143, 0.9423076923076923)

### 6. 프리미어리그 데이터 상관계수 분석
- 2016년 프리미어리그 성적에서 득점과 실점 데이터중에 승점에 영향을 더 많이 준 데이터는?

In [2]:
!ls

[34m08. Ensemble 기법의 종류와 원리[m[m
3 day.ipynb
4 day.ipynb
5 day.ipynb
[34mR[m[m
Untitled.ipynb
exam_01_correlation_coefficient_pearson.ipynb
[34mnaver[m[m
premierleague.csv


In [35]:
import pandas as pd

In [36]:
!ls datas

2014_p.csv        2014_s.csv        premierleague.csv train.csv


In [37]:
df = pd.read_csv("datas/premierleague.csv")
df.tail()

Unnamed: 0,name,gf,ga,points
15,Huddersfield Town,28,58,37
16,Southampton,37,56,36
17,Swansea City,28,56,33
18,Stoke City,35,68,33
19,West Bromwich Albion,31,56,31


In [39]:
# 득점
gf = np.array(df["gf"])
gf

array([106,  68,  74,  84,  62,  74,  36,  44,  56,  39,  45,  45,  48,
        44,  34,  28,  37,  28,  35,  31])

In [40]:
# 실점
ga = np.array(df["ga"])
ga

array([27, 28, 36, 38, 38, 51, 39, 58, 60, 47, 55, 61, 68, 64, 54, 58, 56,
       56, 68, 56])

In [41]:
# 승점
points = np.array(df["points"])
points

array([100,  81,  77,  75,  70,  63,  54,  49,  47,  44,  44,  44,  42,
        41,  40,  37,  36,  33,  33,  31])

In [43]:
data1, data2 = np.corrcoef(gf, points)[0, 1] ** 2, np.corrcoef(ga, points)[0, 1] ** 2
data1, data2

(0.8683266496886471, 0.757933920368845)

In [44]:
round(data1, 2), round(data2, 2)

(0.87, 0.76)

In [15]:
#map

In [16]:
ls1 = [1,2,3,4]
ls2 = [5,6,7]
ls3 = [9,10,11,12]

In [18]:
#map 함수 사용
list(map(lambda *args : sum(args), ls1, ls2, ls3))

[15, 18, 21]

## summary
- numpy : 선형대수를 빠르게 연산해주는 패키지
- 행열의 생성1 : ndarray, np.array([])
- 행열의 생성 2 : ones, zeros
- 행열 데이터 선택 : array[x, y, z]
- 행열 데이터 수정
    - 행열 데이터를 선택
    - =, > (값(scala, vector, matrix))
    - 브로드 캐스팅 개념
- arange : list에서 사용하는 range : 결과가 ndarray

### quiz 
- 100 ~ 130까지 랜덤한 숫자를 가지는 8x8행렬을 만들고,
- 3의 배수는 fiz, 5의 배수는 buz, 3과 5의 배수는 fbz 문자로 변환
- 랜덤한 행렬 데이터
```
np.random.randint(100,130, size = (8,8))
```
- 데이터 타입이 정수 -> 문자열 : ndarray.astype()

In [30]:
import numpy as np
datas = np.random.randint(100,130, size = (8,8))
datas

array([[125, 121, 126, 128, 123, 111, 108, 110],
       [104, 111, 105, 102, 101, 105, 111, 114],
       [125, 122, 115, 114, 116, 120, 114, 105],
       [127, 104, 114, 106, 113, 121, 124, 109],
       [117, 129, 110, 113, 111, 110, 102, 104],
       [129, 100, 105, 127, 112, 129, 112, 126],
       [106, 129, 127, 116, 119, 111, 103, 111],
       [100, 123, 111, 127, 123, 125, 115, 129]])

In [31]:
data1 = np.array([1,2,3])
data2 = [True, False, True]
data1[data2]

array([1, 3])

In [32]:
# 3의 배수, 5의 배수, 15의 배수 위치값에 대한 T,F생성
idx_3 = datas % 3 == 0
idx_5 = datas % 5 == 0
idx_15 = datas % 15 == 0

In [34]:
# 데이터의 타입을 str으로 변환
print(datas.dtype)

dtype('int64')

In [36]:
result = datas.astype('str')
result

array([['125', '121', '126', '128', '123', '111', '108', '110'],
       ['104', '111', '105', '102', '101', '105', '111', '114'],
       ['125', '122', '115', '114', '116', '120', '114', '105'],
       ['127', '104', '114', '106', '113', '121', '124', '109'],
       ['117', '129', '110', '113', '111', '110', '102', '104'],
       ['129', '100', '105', '127', '112', '129', '112', '126'],
       ['106', '129', '127', '116', '119', '111', '103', '111'],
       ['100', '123', '111', '127', '123', '125', '115', '129']],
      dtype='<U21')

In [38]:
# T,F matrix를 이용하여 특정 조건의 데이터를 선택 후 값에 대응
result[idx_3] = 'fiz'
result[idx_5] = 'buz'
result[idx_15] = 'fbz'

In [39]:
result

array([['buz', '121', 'fiz', '128', 'fiz', 'fiz', 'fiz', 'buz'],
       ['104', 'fiz', 'fbz', 'fiz', '101', 'fbz', 'fiz', 'fiz'],
       ['buz', '122', 'buz', 'fiz', '116', 'fbz', 'fiz', 'fbz'],
       ['127', '104', 'fiz', '106', '113', '121', '124', '109'],
       ['fiz', 'fiz', 'buz', '113', 'fiz', 'buz', 'fiz', '104'],
       ['fiz', 'buz', 'fbz', '127', '112', 'fiz', '112', 'fiz'],
       ['106', 'fiz', '127', '116', '119', 'fiz', '103', 'fiz'],
       ['buz', 'fiz', 'fiz', '127', 'fiz', 'buz', 'buz', 'fiz']],
      dtype='<U21')

### Quiz
- 1 ~ 20까지 랜덤한 숫자를 가지는 5x5 행렬 생성
- 최대값에는 Max, 최소값에는 Min문자열이 들어가도록 코드
- 최대값과 최솟값 함수
```
np.min(ndarray), np.max(ndarray)
```

In [66]:
datas = np.random.randint(1,20, size=(5,5))
datas

array([[19,  1, 16, 16, 18],
       [ 2,  7, 10, 12,  1],
       [ 7, 17,  7, 10,  6],
       [15, 12, 19, 13,  5],
       [14, 19, 14, 15, 16]])

In [67]:
min_num = datas == np.min(datas)
max_num = datas == np.max(datas)

In [68]:
result = datas.astype('str')

In [69]:
result[min_num] = 'Min'
result[max_num] = 'Max'

In [70]:
result

array([['Max', 'Min', '16', '16', '18'],
       ['2', '7', '10', '12', 'Min'],
       ['7', '17', '7', '10', '6'],
       ['15', '12', 'Max', '13', '5'],
       ['14', 'Max', '14', '15', '16']], dtype='<U21')

### linspace, logspace 함수
- linspace : 설정한 범위에서 선형적으로 분할한 위치의 값을 출력
- logspace : 설정한 범위에서 로그로 분할안 위치의 값을 출력

In [71]:
# linspace
np.linspace(0, 100, 5)

array([  0.,  25.,  50.,  75., 100.])

In [72]:
# logspace
np.logspace(2, 4, 3)

array([  100.,  1000., 10000.])

In [None]:
# 30세에 연봉이 $100,000 이고 60세의 연봉이 $1,000,000 일때
# 연봉이 선형으로 증가, 지수함수로 증강하는 두 경에서의 40새, 50세 연봉을 출력

In [73]:
#선형으로 증가
age_30 = 100000
age_60 = 1000000
np.linspace(age_30, age_60, 4)

array([ 100000.,  400000.,  700000., 1000000.])

In [74]:
# 지수함수로 증가
np.logspace(np.log10(age_30), np.log10(age_60), 4)

array([ 100000.        ,  215443.46900319,  464158.88336128,
       1000000.        ])

### numpy random
- seed : 랜덤값을 설정값
- rand : 균등분포로 랜덤한 값을 생성
- randn : 정규분포로 난수를 발생
- randint : 균등분포로 정수값을 발생
- suffle : 행렬 데이터를 섞어 줍니다.
- choice : 특정 확률로 데이터를 선택

In [78]:
# seed
np.random.seed(1)
result1 = np.random.randint(10,100,10)

np.random.seed(1)
result2= np.random.randint(10,100,10)

np.random.seed(2)
result3 = np.random.randint(10,100,10)

result1, result2, result3

(array([47, 22, 82, 19, 85, 15, 89, 74, 26, 11]),
 array([47, 22, 82, 19, 85, 15, 89, 74, 26, 11]),
 array([50, 25, 82, 32, 53, 92, 85, 17, 44, 59]))

In [79]:
# 0~1 사이의 균등분포
np.random.rand(10)

array([0.20464863, 0.61927097, 0.29965467, 0.26682728, 0.62113383,
       0.52914209, 0.13457995, 0.51357812, 0.18443987, 0.78533515])

In [80]:
# 정규분포
np.random.randn(10)

array([-0.0191305 ,  1.17500122, -0.74787095,  0.00902525, -0.87810789,
       -0.15643417,  0.25657045, -0.98877905, -0.33882197, -0.23618403])

In [81]:
# suffle
r = np.random.randint(1,10, (3,4))
r

array([[2, 8, 9, 3],
       [9, 8, 2, 7],
       [9, 6, 4, 1]])

In [82]:
np.random.shuffle(r)
r

array([[9, 8, 2, 7],
       [9, 6, 4, 1],
       [2, 8, 9, 3]])

In [86]:
# choice 0~4, 10개데이터
np.random.choice(5, 10, p =[0.1, 0, 0.4, 0.2, 0.3])

array([4, 4, 3, 2, 4, 2, 4, 4, 3, 4])

In [88]:
# unique 유일한 값들 뽑음
np.unique(r)

array([1, 2, 3, 4, 6, 7, 8, 9])

### 행렬 데이터의 결합
- concatenate

In [90]:
na1 = np.random.randint(10, size= (2,3))
na2 = np.random.randint(10, size = (3,2))
na3 = np.random.randint(10, size = (3,3))

In [92]:
# 세로 결합(열의수가 비슷해야됨)
np.concatenate((na1, na3))

array([[8, 3, 0],
       [0, 5, 7],
       [7, 4, 3],
       [6, 1, 4],
       [0, 8, 5]])

In [93]:
# 가로 결합(행의 수가 비슷해야됨)
np.concatenate((na2,na3), axis = 1)

array([[5, 0, 7, 4, 3],
       [8, 6, 6, 1, 4],
       [5, 1, 0, 8, 5]])