# 📘 01. Statistical Independence

- 두 확률 변수 X, Y가 독립이면:
  $$P(X, Y) = P(X) \cdot P(Y)$$
- 조건부 확률로 표현하면:
  $$P(Y \mid X) = P(Y)$$

In [15]:
import numpy as np
import pandas as pd

# 시드 고정 (무작위 결과 재현 가능하게)
np.random.seed(42)

# 두 확률 변수 X, Y 생성
# X: 0 또는 1 중 하나를 0.5, 0.5의 확률로 10,000개 생성
# Y: 0 또는 1 중 하나를 0.3, 0.7의 확률로 10,000개 생성
X = np.random.choice([0, 1], size=10000, p=[0.5, 0.5])
Y = np.random.choice([0, 1], size=10000, p=[0.3, 0.7])

# 확률 계산
p_x1 = np.mean(X == 1)                        # P(X=1): X가 1인 비율
p_y1 = np.mean(Y == 1)                        # P(Y=1): Y가 1인 비율
p_xy11 = np.mean((X == 1) & (Y == 1))         # P(X=1 and Y=1): 두 조건 모두 만족하는 비율
p_x1_y1 = p_x1 * p_y1

# 결과 정리
df = pd.DataFrame({
    '항목': ['P(X=1)', 'P(Y=1)', 'P(X=1 and Y=1)', 'P(X=1)*P(Y=1)'],
    '값': [p_x1, p_y1, p_xy11, p_x1_y1]   # 독립일 경우 두 확률 곱과 공동확률이 유사해야 함
})

df.head()

Unnamed: 0,항목,값
0,P(X=1),0.4924
1,P(Y=1),0.7067
2,P(X=1 and Y=1),0.347
3,P(X=1)*P(Y=1),0.347979


In [16]:
import numpy as np

# 시드 고정 (무작위 결과 재현 가능하게)
np.random.seed(42)

# 두 확률 변수 X, Y 생성
# X: 0 또는 1 중 하나를 0.5, 0.5의 확률로 10,000개 생성
# Y: 0 또는 1 중 하나를 0.3, 0.7의 확률로 10,000개 생성
X = np.random.choice([0, 1], size=10000, p=[0.5, 0.5])
Y = np.random.choice([0, 1], size=10000, p=[0.3, 0.7])

# 확률 계산
p_x1 = np.mean(X == 1)                        # P(X=1): X가 1인 비율
p_y1 = np.mean(Y == 1)                        # P(Y=1): Y가 1인 비율
p_xy11 = np.mean((X == 1) & (Y == 1))         # P(X=1 and Y=1): 두 조건 모두 만족하는 비율
p_x1_y1 = p_x1 * p_y1

# P(Y=1 | X=1): X=1인 조건에서 Y=1인 비율
p_y1_given_x1 = np.mean(Y[X == 1] == 1)

print("P(Y=1):", p_y1)
print("P(Y=1 | X=1):", p_y1_given_x1)

P(Y=1): 0.7067
P(Y=1 | X=1): 0.7047116165718927


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl

# 시드 고정 (무작위 결과 재현 가능하게)
np.random.seed(42)

# 두 확률 변수 X, Y 생성
# X: 0 또는 1 중 하나를 0.5, 0.5의 확률로 10,000개 생성
# Y: 0 또는 1 중 하나를 0.3, 0.7의 확률로 10,000개 생성
X = np.random.choice([0, 1], size=10000, p=[0.5, 0.5])
Y = np.random.choice([0, 1], size=10000, p=[0.3, 0.7])

# 확률 계산
p_x1 = np.mean(X == 1)                        # P(X=1): X가 1인 비율
p_y1 = np.mean(Y == 1)                        # P(Y=1): Y가 1인 비율
p_xy11 = np.mean((X == 1) & (Y == 1))         # P(X=1 and Y=1): 두 조건 모두 만족하는 비율
p_x1_y1 = p_x1 * p_y1

# 막대그래프 시각화
labels = ['P(X=1)', 'P(Y=1)', 'P(X=1 ∧ Y=1)', 'P(X=1)·P(Y=1)']
values = [p_x1, p_y1, p_xy11, p_x1_y1]

# 시각화 표시시 한글 깨짐 방지
# macOS 한글 폰트 설정 (Apple 시스템 기본 폰트 사용)
mpl.rc('font', family='AppleGothic')
plt.rcParams['axes.unicode_minus'] = False  # 음수 기호 깨짐 방지

# # Windows 한글 폰트 설정
# mpl.rc('font', family='Malgun Gothic')  # 또는 'NanumGothic'
# plt.rcParams['axes.unicode_minus'] = False

# 시각화 표시
# P(X=1) ≈ 0.5
# P(Y=1) ≈ 0.7
# P(X=1 ∧ Y=1) ≈ 0.35
# P(X=1)·P(Y=1) ≈ 0.35
plt.figure(figsize=(8, 5))
plt.bar(labels, values)
plt.ylim(0, 1)
plt.title("통계적 독립 - 확률 비교")
plt.ylabel("확률 값")
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()