# 3.2 파이썬을 이용한 기술통계: 다변량 데이터

3.2.1 깔끔한 데이터

In [None]:
from google.colab import drive
drive.mount('/content/drive')

%cd /content/drive/MyDrive/Colab\ Notebooks/StatisticsWithPython/data/

In [None]:
import pandas as pd
import numpy as np

%precision 3

In [None]:
fish_multi = pd.read_csv("3-2-1-fish_multi.csv")
print(fish_multi)

3.2.5 그룹별 통계량 계산하기

In [None]:
group = fish_multi.groupby("species")
print(group.mean())

In [None]:
print(group.std(ddof=1))

In [None]:
group.describe()

3.2.6 교차분석표 구현하기

In [None]:
shoes = pd.read_csv("3-2-2-shoes.csv")
print(shoes)

In [None]:
cross = pd.pivot_table(data=shoes, 
                       values="sales", 
                       aggfunc="sum", 
                       index="store", 
                       columns="color")
print(cross)

3.2.7 공분산

**공분산**은 2개의 연속형 변수의 관계성을 확인하는 통계량입니다.

- 공분산이 0보다 클 때: 변수 한쪽이 큰 값을 갖게 되면 다른 한 쪽도 커집니다.
- 공분산이 0보다 작을때: 변수 한 쪽이 큰 값을 갖게 되면 다른 한 쪽은 작아집니다.
- 공분산이 0일 때: 변수 사이에 관계성이 없습니다.

$$Cov(x, y) = {1 \over N} {\sum_{i=1}^N} {(x_i - \mu_x)(y_i - \mu_y)}$$

3.2.8 분산-공분산 행렬

$ \begin{bmatrix}
\sigma^2_x & Cov(x, y) \\\\ 
Cov(x, y) & \sigma^2_y
\end{bmatrix}$

3.2.9 공분산(실습)

In [None]:
cov_data = pd.read_csv("3-2-3-cov.csv")
print(cov_data)

In [None]:
x = cov_data["x"]
y = cov_data["y"]

N = len(cov_data)

mu_x = np.mean(x)
mu_y = np.mean(y)

In [None]:
cov_sample = sum((x - mu_x) * (y - mu_y)) / N
print(f"{cov_sample:.3f}")

In [None]:
cov = sum((x - mu_x) * (y - mu_y)) / (N - 1)
print(f"{cov:.3f}")

3.2.10 분산-공분산 행렬(실습)

In [None]:
print(f"{np.cov(x, y, ddof=0)}")

In [None]:
print(f"{np.cov(x, y, ddof=1)}")

3.2.11 피어슨 상관계수$^{[1]}$

$$\rho = {Cov(x, y) \over \sqrt{\sigma^2_x \sigma^2_y}}$$

3.2.12 상관행렬$^{[1]}$

$ Cov(x, y) = 
\begin{bmatrix}
1 & \rho_{xy} \\\\ 
\rho_{xy} & 1
\end{bmatrix}$

3.2.13 피어슨 상관계수(실습)

In [None]:
sigma_2_x = np.var(x, ddof=1)
sigma_2_y = np.var(y, ddof=1)

rho = cov / np.sqrt(sigma_2_x * sigma_2_y)
print(f"rho = {rho:.3f}")

In [None]:
sigma_2_x_sample = np.var(x, ddof=0)
sigma_2_y_sample = np.var(y, ddof=0)

rho_sample = cov_sample / np.sqrt(sigma_2_x_sample * sigma_2_y_sample)
print(f"{rho_sample:.3f}")

In [None]:
print(np.corrcoef(x, y))

참고문헌: 

[1] 파이썬으로 배우는 통계학 교과서; 바바 신야 지음, 윤옹식 옮김; 한빛미디어 (2020)