In [1]:
import numpy as np
import scipy as sp
import pandas as pd

여러개의 변수를 조합한 데이터를 다변량 데이터라고 부릅니다. 다변량 데이터의 핵심은 '깔끔한 데이터' 형식으로 정리하는 것이라고 할 수 있습니다.

### 깔끔한 데이터란?
- 2014년 해들리 위컴이 통계 소프트웨어 저널에서 처음 제시한 용어입니다.
- 개별 값이 하나의 셀을 이룬다.
- 개별 변수가 하나의 열을 이룬다.
- 개별 관측이 하나의 행을 이룬다.
- 개별 관측 유닛 유형이 하나의 표를 이룬다.

깔끔한 데이터는 '의미와 구조가 대응한다'는 특징이 있습니다.

In [2]:
%precision 3

'%.3f'

### 다변량 데이터의 그룹별 통계량 계산하기

In [7]:
fish_multi = pd.read_csv("./sample/3-2-1-fish_multi.csv")
print(fish_multi)

  species  length
0       A       2
1       A       3
2       A       4
3       B       6
4       B       8
5       B      10


In [10]:
# 종류별 평균값과 표준편차
grouped = fish_multi.groupby("species")

print(grouped.mean())
print(grouped.std(ddof=1))

         length
species        
A           3.0
B           8.0
         length
species        
A           1.0
B           2.0


### 교차분석표 구현

In [13]:
shoes = pd.read_csv("./sample/3-2-2-shoes.csv")
shoes

Unnamed: 0,store,color,sales
0,tokyo,blue,10
1,tokyo,red,15
2,osaka,blue,13
3,osaka,red,9


In [16]:
cross = pd.pivot_table(data=shoes, values="sales",
                       aggfunc="sum", index="store", columns="color")

cross

color,blue,red
store,Unnamed: 1_level_1,Unnamed: 2_level_1
osaka,13,9
tokyo,10,15


### 공분산
영어로 Covariance라고 하는 공분산은 2개의 연속병 변수의 관계성을 확인하는 통계랑입니다.

공분산은 다음 조건을 만족해야 합니다.
- 공분산이 0보다 클 때 : 변수 한 쪽이 큰 값을 갖게 되면 다른 한 쪽도 커집니다.
- 공분산이 0보다 작을 때 : 변수 한 쪽이 큰 값을 갖게 되면 다른 한 쪽은 작아집니다.
- 공분산이 0일 때 : 변수 사이에 관계성이 없습니다.

예를 들면, 공분산은 다음과 같이 해석할 수 있습니다.
- 공분산이 0 보다 큰 값일 경우 : "변수 x가 평균보다 큰 값일 때, 다른 변수 y도 평균보다 큰 값을 갖는다고 기대할 수 있다."
- 공분산이 0 보다 작을 경우 : "변수 x가 평균보다 큰 값일 때, 다른 변수 y는 평균보다 작은 값을 갖는다고 기대 할 수 있다."

In [18]:
cov_data = pd.read_csv("./sample/3-2-3-cov.csv")
cov_data

Unnamed: 0,x,y
0,18.5,34
1,18.7,39
2,19.1,41
3,19.7,38
4,21.5,45
5,21.7,41
6,21.8,52
7,22.0,44
8,23.4,44
9,23.8,49


In [20]:
# 데이터를 분리
x = cov_data["x"]
y = cov_data["y"]

# 표본의 크기
N = len(cov_data)

# 평균값 계산
mu_x = np.mean(x)
mu_y = np.mean(y)

In [25]:
cov_sample = sum((x - mu_x) * (y - mu_y)) / N
cov_sample

6.906

In [26]:
cov = sum((x - mu_x) * (y - mu_y)) / (N - 1)
cov

7.673

In [27]:
# 분산 공분산 행렬
np.cov(x, y, ddof=0)

array([[ 3.282,  6.906],
       [ 6.906, 25.21 ]])

In [28]:
np.cov(x, y, ddof=1)

array([[ 3.646,  7.673],
       [ 7.673, 28.011]])

### 피어슨 상관계수
- 변수 x, y가 있을 때 두 변수간의 선형관계를 척도로 나타내는 수치를 피어슨 상관계수라고 합니다.
- 피어슨 상관계수는 공분산을 최대값 1 그리고 최소값 -1 사이가 되도록 표준화하는 것이기도 합니다.
- 공분산의 특성상 데이터의 단위와 크기에 따라 최대값과 최소값이 얼마가 될 지 알 수 없습니다. 
- 데이터 간의 공분산의 정도를 비교할수 있도록 -1 ~ +1 범위가 되도록 보정하기 위한 장치가 상관계수입니다.

In [30]:
# 분산 계산
sigma_2_x = np.var(x, ddof=1)
sigma_2_y = np.var(y, ddof=1)

# 상관계수
rho = cov / np.sqrt(sigma_2_x * sigma_2_y)
rho

0.7592719041137088

상관계수의 특징상 분모와 분자가 같은 값으로 나눠지므로 분산과 공분산 계산식의 분모에 N 또는 N -1을 사용하든 상관계수는 변하지 않습니다.

In [33]:
# 분산 계산
sigma_2_x_sample = np.var(x, ddof=0)
sigma_2_y_sample = np.var(y, ddof=0)

# 상관계수
rho = cov_sample / np.sqrt(sigma_2_x_sample * sigma_2_y_sample)
rho

0.7592719041137087

In [34]:
# 상관행렬
np.corrcoef(x, y)

array([[1.   , 0.759],
       [0.759, 1.   ]])