# ch.3　Python을 이용한 데이터 분석

## 3.2　Python을 이용한 기술통계:다변량 데이터

### 3.2.1 깔끔한 데이터

깔끔한 데이터의 4가지 특징
1. 개별 값이 하나의 셀을 이룸
2. 개별 변수가 하나의 열을 이룸
3. 개별 관측이 하나의 행을 이룸
4. 개별 관측 유닛 유형이 하나의 표를 이룸
- 의미와 구조가 대응한다.
    - 값=셀, 변수=열, 관측=행 
      
[깔끔한데이터 예시]  

| 물고기 종류 | 물고기 몸길이 |
| :---------: | :-----------: |
|      A      |       2       |
|      A      |       3       |
|      A      |       4       |
|      B      |       7       |
|      B      |       8       |
|      B      |       9       |

### 3.2.2 지저분한 데이터
지저분한 데이터: 깔끔한 데이터가 아닌 데이터  

| A 종 물고기 |  B 종 물고기  |
| :---------: | :-----------: |
|      2      |       7       |
|      3      |       8       |
|      4      |       9       |

### 3.2.3 교차분석표

| 가게 위치  |  구두 색  | 구두가 팔린 수 |
| :---------: | :-----------: | :-----------: |
|      서울점      |       파랑       |       13       |
|      서울점      |       빨강       |       9       |
|      대구점      |       파랑       |       10       |
|      대구점      |       빨강       |       15       |
  
  이 표는 의미는 명확하지만 깔끔한 데이터는 아니다. 이런 데이터를 교차분석표 또는 분할표라 한다.  
  깔끔한 데이터가 아닌 이유는 행의 변수에 가게 위치가 있기 때문이다. 깔끔한 데이터는 행 하나에 1개의 결과가 있도록 정리해야한다.

### 3.2.4 다변량 데이터 관리하기

In [21]:
# 수치 계산에 사용하는 라이브러리(pandas 두두둥장)
import pandas as pd
import scipy as sp
import numpy as np

# 표시 자릿수 지정
%precision 3

'%.3f'

In [7]:
#다변량 데이터 불러오기
fish_multi = pd.read_csv("3-2-1-fish_multi.csv")
print(fish_multi)

  species  length
0       A       2
1       A       3
2       A       4
3       B       6
4       B       8
5       B      10


### 3.2.5 그룹별 통계량 계산하기

In [8]:
# 그룹별 평균 구하기
group = fish_multi.groupby("species")# grouphy: 데이터를 그룹화 하는 함수
print(group.mean())

         length
species        
A             3
B             8


In [11]:
#그룹별 표준편차 구하기
print(group.std(ddof = 1)) # ddof는 자유도

         length
species        
A           1.0
B           2.0


In [13]:
#다양한 값을 정리해서 표로 출력
group.describe()

Unnamed: 0_level_0,length,length,length,length,length,length,length,length
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,3.0,3.0,1.0,2.0,2.5,3.0,3.5,4.0
B,3.0,8.0,2.0,6.0,7.0,8.0,9.0,10.0


### 3.2.6 교차분석표 구현하기

In [15]:
# 깔끔한 데이터 읽기
shoes = pd.read_csv("3-2-2-shoes.csv")
print(shoes)

   store color  sales
0  tokyo  blue     10
1  tokyo   red     15
2  osaka  blue     13
3  osaka   red      9


In [16]:
# 교차분석표로 데이터 정리
cross = pd.pivot_table(
    data = shoes, #데이터를 지정
    values = "sales", # 데이터를 모을 열 지정
    aggfunc = "sum", #데이터를 모을 함수 지정
    index = "store", #교차분석표의 행 지정
    columns = "color"#교차분석표의 열 지정
)
print(cross)

color  blue  red
store           
osaka    13    9
tokyo    10   15


### 3.2.7 공분산

  공분산: 2개의 연속향 뱐수의 관계성을 확인하는 통계량
  - 공분산이 0보다 클 때: 양의 상관관계 (절대값이 커질 수록 더 강한 상관관계)
  - 공분산이 0보다 작을 때: 음의 상관관계 (절대값이 작아질 수록 더 강한 상관관계)
  - 공분산이 0일 떄: 변수 사이에 관계성이 없다.
  
  공분산의 계산식
  $$
  Cov(x,y)=\frac{1}{N}\sum_{i=1}^{N}{(x_i-\mu_x)}{(y_i-\mu_y)}
  $$
  x_i와 y_i는 각각 x와 y의 평균이다.N은 표본크기, Cov는 Covariance(공분산)의 약자이다.

### 3.2.8 분산-공분산 행렬
분산과 공분산 목록을 행렬형태로 정리한것.
  $$
  \begin{bmatrix}
\sigma_x^2 & Cov(x,y) \\
Cov(x,y) & \sigma_y^2
\end{bmatrix}
  $$

### 3.2.9 공분산(실습)

In [17]:
cov_data = pd.read_csv("3-2-3-cov.csv")
print(cov_data)

      x   y
0  18.5  34
1  18.7  39
2  19.1  41
3  19.7  38
4  21.5  45
5  21.7  41
6  21.8  52
7  22.0  44
8  23.4  44
9  23.8  49


In [22]:
# 데이터 분리
x = cov_data["x"]
y = cov_data["y"]

# 표본 크기
N = len(cov_data)

# 평균값 계산
mu_x = np.mean(x)
mu_y = np.mean(y)

In [36]:
# 공분산 계산
cov_sample = sum((x - mu_x) * (y - mu_y)) / N
cov_sample

6.906

In [23]:
# 30 이하의 공분산 계산
cov = sum((x - mu_x) * (y - mu_y)) / (N - 1)
cov

7.673

### 3.2.10 분산-공분산 행렬(실습)

In [26]:
# cov함수 이용하여 행렬로 계산
np.cov(x, y, ddof = 0)

array([[ 3.282,  6.906],
       [ 6.906, 25.21 ]])

In [28]:
# cov 함수 이용하여 데이터 30개 이하일때, N-1로 계산
np.cov(x, y, ddof = 1) # ddof=1로 지정

array([[ 3.646,  7.673],
       [ 7.673, 28.011]])

### 3.2.11 피어슨 상관계수

  피어슨 상관계수: 변수 x,y가 있을때 공분산을 각각의 표준편차로 나눈 값
  
  이 계산 과정을 통해 공분산이 최대값 1, 최소값 -1 사이가 되도록 표준화하는 것이기도 하다.

### 3.2.12 상관행렬

$$
  \begin{bmatrix}
1 & p_{xy} \\
p_{xy} & 1
\end{bmatrix}
  $$

### 3.2.13 피어슨 상관계수(실습)

In [32]:
# 분산 계산
sigma_2_x = np.var(x, ddof = 1)
sigma_2_y = np.var(y, ddof = 1)

# 상관계수
rho = cov / np.sqrt(sigma_2_x * sigma_2_y)
rho

0.7592719041137088

In [37]:
# 분산 계산
sigma_2_x_sample = np.var(x, ddof = 0)
sigma_2_y_sample = np.var(y, ddof = 0)

# 상관계수
cov_sample / np.sqrt(sigma_2_x_sample * sigma_2_y_sample)

0.7592719041137087

In [38]:
# corrcoef 함수를 사용하면 상관행렬을 바로 구할 수 있다.
np.corrcoef(x, y)

array([[1.   , 0.759],
       [0.759, 1.   ]])

분산-공분산 행렬, 상관행렬에 대해 자세히 알 필요는 없지만 각각의 위치가 무엇을 표현하는지는 알 필요가 있다. 이걸 알고 있으면 복잡한 계산식을 코드로 표현하지 않고 바로 구할 수 있다.

### 3.2.14 상관계수가 무의미할 때

  상관계수가 0에 가까운 값을 나타낼땐 여러 변수사이의 관계를 제대로 나타내지 못하므로 실제 그래프를 그려서 관계를 확인해봐야한다.