<a href="https://colab.research.google.com/github/Zamoca42/TIL/blob/main/math/2D_data_analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 2차원 데이터 분석

## 관계를 나타내는 지표 - 공분산, 상관계수

- 두 가지 특성을 나타내는 변수(영어 점수, 수학 점수)가 존재할 때,  
'영어 점수가 높은 학생이 수학 점수가 높은지?'와 같이 데이터의 상관성을 파악하는데 주로 활용된다.

- 2차원 데이터 분석하는 방법 또한 크게 2가지 방법으로 나뉜다. 
  - 수치를 사용한 지표: 공분산, 상관계수
  - 시각화 그래프: 산점도, 회귀직선

  

In [1]:
import numpy as np
import pandas as pd

# Colab의 출력을 소수점 이하 3자리로 제한
%precision 3
# Pandas DataFrame의 출력을 소수점 이하 3자리로 제한
pd.set_option('precision', 3)

en_scores = [42, 69, 56, 41, 57, 48, 65, 49, 65, 58]
ma_scores = [65, 80, 63, 63, 76, 60, 81, 66, 82, 78]

scores_df = pd.DataFrame(
    {
        'english': en_scores,
        'mathematics': ma_scores
    },
    index=pd.Index(
        [
            'A', 'B', 'C', 'D', 'E',
            'F', 'G', 'H', 'I', 'J'
        ],
        name='student'
    )
)

scores_df

Unnamed: 0_level_0,english,mathematics
student,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,65
B,69,80
C,56,63
D,41,63
E,57,76
F,48,60
G,65,81
H,49,66
I,65,82
J,58,78


상관관계란?
- 영어점수가 높은 학생일수록 수학 점수도 높은 경향이 있을 때
  - 영어 점수와 수학 점수가 양의 상관관계에 있다
- 영어 점수가 높은 학생일수록 수학 점수는 낮은 경향을 보일 때
  - 영어 점수와 수학 점수가 음의 상관관계에 있다
- 영어점수와수학점수가서로직접적인영향을미치지않을때
  - 영어 점수와 수학 점수가 무상관관계에 있다


## 공분산

- 영어 점수와 수학 점수의 분포가  
  상관관계가 있어보일 때 이를 수치화하기 위한 지표  
- 분산과 비슷한 지표

  ![스크린샷 2022-12-19 오후 11 42 51](https://user-images.githubusercontent.com/96982072/208451333-21ec495a-dc34-4c7b-84cc-fc5559898008.png)



## 공분산 계산 방법

- 직사각형의 가로 길이: 영어 점수의 편차  
- 직사각형의 세로 길이: 수학 점수의 편차
- 우측의 면적 값들의 총합의 평균
  $$ Cov(X,Y) = {\sum{(X_i - \bar{X})(Y_j - \bar{Y})} \over {n}}$$

- 특징
  - 가로축과 세로축의 데이터가 달라서, 한쪽의 편차는 양이고,  
  한쪽의 편차는 음이라면 면적이 음의 값으로 나오는 경우가 가능하다.  
  
  ![스크린샷 2022-12-19 오후 11 47 41](https://user-images.githubusercontent.com/96982072/208452337-44fe96e6-72a5-4472-b3ee-16690c077234.png)




In [3]:
# 공분산 계산 방법 (직접 계산)

# 1.각 데이터 건별로 영어 점수의 편차와 수학 점수의 편차를 계산 후 곱한다.

summary_df = scores_df.copy()
summary_df['english_deviation'] = \
    summary_df['english'] - summary_df['mathematics'].mean()
summary_df['mathematics_deviation'] = \
    summary_df['mathematics'] - summary_df['mathematics'].mean()
summary_df['product of deviations'] = \
    summary_df['english_deviation'] * summary_df['mathematics_deviation']
summary_df

Unnamed: 0_level_0,english,mathematics,english_deviation,mathematics_deviation,product of deviations
student,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,42,65,-29.4,-6.4,188.16
B,69,80,-2.4,8.6,-20.64
C,56,63,-15.4,-8.4,129.36
D,41,63,-30.4,-8.4,255.36
E,57,76,-14.4,4.6,-66.24
F,48,60,-23.4,-11.4,266.76
G,65,81,-6.4,9.6,-61.44
H,49,66,-22.4,-5.4,120.96
I,65,82,-6.4,10.6,-67.84
J,58,78,-13.4,6.6,-88.44


In [4]:
# 2.영어 및 수학 점수의 편차곱 평균 계산

summary_df['product of deviations'].mean()

65.6000000000001

## 공분산 계산 방법 (Numpy)

- numpy.cov()를 활용하여 계산 가능
- 다만, 계산 결과값이 단순 공분산이 아닌 ‘공분산행렬(Covariance Matrix)’로 표현
- 서로 같은 데이터의 공분산값은 1차원 데이터는 ‘분산’값과 동일하며,  
서로 다른 데이터간의 공분산값은 앞서 계산식에 따라 나오게 된다.

In [5]:
np.cov(summary_df['english'], summary_df['mathematics'], ddof=0)

array([[86.  , 65.6 ],
       [65.6 , 68.44]])

In [6]:
# 영어 점수의 분산 : 86.000 
# 수학 점수의 분산 : 68.440
# 수학 점수의 공분산 : 65.600

np.var(summary_df['english'], ddof=0), np.var(summary_df['mathematics'], ddof=0)

(86.0, 68.44000000000001)

## 공분산 해석시 문제점
- 시험 점수들 간의 공분산의 단위는 (점수 X 점수)이다.
  - 하지만, 학생의 키와 시험 점수의 상관관계를 확인하려면 공분산의 단위는 (cm X 점수)이다. 
- 즉, 분산과 마찬가지로 공분산의 이런 단위는 직감적인 이해를 어렵게 만든다.
  - 단위에 의존하지 않는 상관을 나타내는 지표가 필요 (=> 상관계수)

## 상관계수 (Correlation Coefficient)

- 공분산 값에서 단위에 의존하지 않도록 각 데이터의 단위인 표준편차를 나누어준 값

$$ r_{xy} = {S_{xy} \over S_x S_y} = {1 \over n} \sum^n_{i=1}({x_i - \bar{x} \over S_x})({y_i - \bar{y} \over S_y}) $$

- 이와 같이 정의된 지표 $r_{xy}$를 상관계수(Correlation Coefficient)라고 한다




## 상관계수의 특징
- 상관계수는 반드시 -1에서 1 사이의 값을 가진다
- 데이터 간 양의 상관관계의 형태를 보이면 상관계수는
1에 가깝고,  
음의 상관관계의 형태를 보이면 상관계수는 -1에 가까운 값을 가진다
- 데이터가 정확히 1 혹은 -1이라면 데이터가 완전히 직선상에 놓인다