### 상관계수 ( Correlation Coefficient )
- 두개의 데이터 집합의 상관도를 구합니다.

##### Index

1. 분산
1. 공분산
1. 상관계수
1. 결정계수
1. 광고 데이터 상관계수 및 회귀분석 모델 생성

샘플 데이터 생성

In [1]:
data1 = [80, 85, 100, 90, 95]
data2 = [70, 80, 100, 95, 95]
data3 = [100, 90, 70, 90, 80]
data4 = [data*10 for data in data1] # data1의 모든 값에 10에 곱함
data5 = [data*10 for data in data3] # data3의 모든 값에 10을 곱함
data1, data2, data3, data4, data5

([80, 85, 100, 90, 95],
 [70, 80, 100, 95, 95],
 [100, 90, 70, 90, 80],
 [800, 850, 1000, 900, 950],
 [1000, 900, 700, 900, 800])

### 2. 분산(variance)
- 1개의 이산정도를 나타냄
- 편차제곱의 평균

```
A : 80(평균) - 60, 80, 100.. - 분산 높다
B : 80(평균) - 75, 80, 85 .. - 분산 낮다
```

In [None]:
1/2 제곱 -> 제곱근?????

$ variance = \frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n}, (\bar{x}:평균) $

In [2]:
# variance code
def variance(data):
    
    avg = sum(data) / len(data)
    var = 0
    
    for num in data:
        var += (num - avg) ** 2
    
    return var / len(data)
    
variance(data1), variance(data2), variance(data1) ** 0.5, variance(data2) ** 0.5

(50.0, 126.0, 7.0710678118654755, 11.224972160321824)

### 3. 공분산(covariance) 
- 2개의 확률변수의 상관정도를 나타냄
- 평균 편차곱
- 방향성은 보여줄수 있으나 강도를 나타내는데 한계가 있다
    - 표본데이터의 크기에 따라서 값의 차이가 큰 단점이 있다

In [3]:
# A : 100 80 60
# B : 60  80 100
# A는 잘하는 과목은 B는 잘 못한다 (음의 상관관계)

$ covariance = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $

In [4]:
# covariance function : n -> (n-1) : 자유도
def covariance(data1, data2):
    
    x_ = sum(data1) / len(data1)
    y_ = sum(data2) / len(data2)
    cov = 0
    
    for num1, num2 in zip(data1, data2):
        cov += (num1 - x_) * (num2 - y_)
    
    return cov / len(data1)

In [5]:
data1, data2, data3, data4, data5

([80, 85, 100, 90, 95],
 [70, 80, 100, 95, 95],
 [100, 90, 70, 90, 80],
 [800, 850, 1000, 900, 950],
 [1000, 900, 700, 900, 800])

In [6]:
covariance(data1, data2), covariance(data1, data3), covariance(data4, data5)

(75.0, -70.0, -7000.0)

### 4. 상관계수(correlation coefficient) -피어슨 상관계수
- 공분산의 한계를 극복하기 위해서 만들어짐
- -1 ~ 1까지의 수를 가지며 0과 가까울수록 상관도가 적음을 의미
- x의 분산과 y의 분산을 곱한 결과의 제곱근을 나눠주면 x나 y의 변화량이 클수록 0에 가까워짐
- https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.corrcoef.html

$ correlation-coefficient = \frac{공분산}{\sqrt{{x분산} \cdot {y분산}}} $

최종 상관계수

$ r = \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{{\sum(x-\bar{x})^2}\cdot{\sum(y-\bar{y})^2}}} $

In [7]:
def cc(data1, data2):
    
    cov = covariance(data1, data2)
    var_x = variance(data1)
    var_y = variance(data2)
    
    return cov / ((var_x * var_y) ** 0.5)

In [8]:
cc(data1, data2), cc(data1, data3), cc(data4, data5)

(0.944911182523068, -0.970725343394151, -0.970725343394151)

### 5. 광고 데이터의 상관계수
- tv, radio,  newspaper 중 어떤 매체가 상관관계가 높은지 분석

In [9]:
import pickle

In [10]:
with open("datas/advertising.np", "rb") as f:
    datas = pickle.load(f)

In [11]:
df = pd.DataFrame(datas, columns=["tv", "radio", "newspaper", "sales"])
df.head()

Unnamed: 0,tv,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [12]:
cc(df["tv"], df["sales"]), cc(df["radio"], df["sales"]), cc(df["newspaper"], df["sales"])

(0.782224424861606, 0.5762225745710553, 0.22829902637616525)

In [13]:
for column in df.columns[:-1]:
    print("{}:{}".format(column, cc(df[column], df["sales"])))

tv:0.782224424861606
radio:0.5762225745710553
newspaper:0.22829902637616525


In [14]:
# TV가 매출과 상관관계가 가장 높다. > TV 광고를 많이하자!