In [1]:
# 기본 라이브러리
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12, 6
plt.rcParams['font.size'] = 14
plt.rcParams['axes.unicode_minus'] = False

# 그래프 기본 테마 설정
# https://coldbrown.co.kr/2023/07/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%8B%A4%EC%A0%84%ED%8E%B8-08-seaborn-sns-set%EC%9D%84-%ED%86%B5%ED%95%B4-%EC%8A%A4%ED%83%80%EC%9D%BC-%EC%84%A4%EC%A0%95%ED%95%98%EA%B8%B0/
sns.set()

# 복잡한 통계 처리를 위한 라이브러리
from scipy import stats

### 01_공분산
- 공분산은 두 컬럼의 상관관계를 분석할 수 있는 수치이다.
- 두 컬럼의 값이 같이 증가하고 같이 감소하면 공분산 값은 0보다 크다.
- 두 컬럼의 값이 서로 반대로 증감하면 공분산 값은 0보다 작다.
- 아무 관계가 없다면 공분산 값은 0에 가까워진다. 

In [2]:
cov_data = pd.read_csv('data/3-5-1-cov.csv')
cov_data

Unnamed: 0,x,y
0,18.5,34
1,18.7,39
2,19.1,41
3,19.7,38
4,21.5,45
5,21.7,41
6,21.8,52
7,22.0,44
8,23.4,44
9,23.8,49


In [3]:
# 각 데이터를 추출한다.
x = cov_data['x']
y = cov_data['y']
# 샘플 크기
n = len(cov_data)
# 표본 평균
x_bar = np.mean(x)
y_bar = np.mean(y)

In [4]:
# 공분산
cov = sum((x - x_bar) * (y - y_bar)) / n
cov

6.9060000000000015

In [5]:
test_x = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
test_y = [5, 5, 5, 5, 5, 5, 5, 5, 5, 5]

n2 = len(test_x)

x_bar2 = np.mean(test_x)
y_bar2 = np.mean(test_y)

sum((test_x - x_bar2) * (test_y - y_bar2)) / n2

0.0

### 공분산 행렬

In [6]:
# x의 표본 분산
s2_x = np.var(x, ddof=0)
# y의 표본 분산
s2_y = np.var(y, ddof=0)

# 공분산 행렬
cov_array = np.array([
    [s2_x, cov],
    [cov, s2_y]
])
cov_array

array([[ 3.2816,  6.906 ],
       [ 6.906 , 25.21  ]])

In [7]:
# 공분산 행렬을 구하는 함수를 numpy가 제공하고 있다.
np.cov(x, y, ddof=0)

array([[ 3.2816,  6.906 ],
       [ 6.906 , 25.21  ]])

### 03_피어슨 상관계수

In [8]:
# 피어슨 상관계수를 계산한다
rho = cov / np.sqrt(s2_x * s2_y)
rho

0.7592719041137087

In [9]:
# 상관행렬
corr_array1 = np.array([
    [1, rho],
    [rho, 1]
])
corr_array1

array([[1.       , 0.7592719],
       [0.7592719, 1.       ]])

In [10]:
# numpy 에서 상관행렬을 구할 수 있는 함수를 제공한다.
np.corrcoef(x, y)

array([[1.       , 0.7592719],
       [0.7592719, 1.       ]])

### 04_교차분석표

In [11]:
# sunlight : 햇빛을 받았는가
# disease : 질병이 있는가
disease = pd.read_csv('data/3-5-2-cross.csv')
disease

Unnamed: 0,sunlight,disease
0,yes,yes
1,yes,yes
2,yes,yes
3,yes,no
4,yes,no
5,yes,no
6,yes,no
7,yes,no
8,yes,no
9,yes,no


In [13]:
# pandas의 함수를 이용해 교차분석표를 구한다.
cross_1 = pd.crosstab(
    disease['sunlight'],
    disease['disease']
)
cross_1

disease,no,yes
sunlight,Unnamed: 1_level_1,Unnamed: 2_level_1
no,2,8
yes,7,3


In [14]:
# 다른 형태의 교차 분석표를 만드는 사례를 살펴본다.
shoes = pd.read_csv('data/3-5-3-cross2_korean.csv')
shoes

Unnamed: 0,store,color,sales
0,seoul,blue,10
1,seoul,red,15
2,busan,blue,13
3,busan,red,9


In [15]:
cross_2 = pd.pivot_table(
    data = shoes,
    # 통계값을 구하기 위해 사용할 컬럼
    values = 'sales',
    # 구할 통계값(통계 함수의 이름을 넣어주세요')
    aggfunc = 'sum',
    # 행 기준
    index = 'store',
    # 열 기준
    columns = 'color'
)
cross_2

color,blue,red
store,Unnamed: 1_level_1,Unnamed: 2_level_1
busan,13,9
seoul,10,15


**해석**
- busan - blue 조합에서 sales의 합이 13
- busan - red 조합에서 sales의 합이 9
- seoul - blue 조합에서 sales의 합이 10
- seoul - red 조합에서 sales의 합이 15