# 분산의 일반적인 표기와 확률 가중 표기의 차이

In [1]:
import numpy as np

# 주사위 데이터 설정
values = np.array([1, 2, 3, 4, 5, 6])  # 주사위 눈
probabilities = np.array([1/6, 1/6, 1/6, 1/6, 1/6, 1/6])  # 각 눈이 나올 확률
n = len(values)

# 평균(기댓값) 계산
mu = np.sum(values * probabilities)
print(f"평균(μ): {mu}")

# 방법 1: 일반적인 표기 - sum(x_i - μ)² / n
variance_1 = np.sum((values - mu)**2) / n
print(f"\n방법 1: Σ(x_i - μ)² / n = {variance_1:.4f}")

# 방법 2: 확률 가중 표기 - Σ(x_i - μ)² * p_i
variance_2 = np.sum((values - mu)**2 * probabilities)
print(f"방법 2: Σ(x_i - μ)² * p_i = {variance_2:.4f}")

# 검증
print(f"\n두 방법이 같은가? {np.isclose(variance_1, variance_2)}")
print(f"차이: {abs(variance_1 - variance_2):.10f}")

# 왜 같은지 보여주기
print(f"\n== 증명 ==")
print(f"방법 1에서 p_i = 1/n = 1/{n} = {1/n:.4f}")
print(f"따라서 방법 2 = Σ(x_i - μ)² * (1/n) = (1/n) * Σ(x_i - μ)² = 방법 1")

평균(μ): 3.5

방법 1: Σ(x_i - μ)² / n = 2.9167
방법 2: Σ(x_i - μ)² * p_i = 2.9167

두 방법이 같은가? True
차이: 0.0000000000

== 증명 ==
방법 1에서 p_i = 1/n = 1/6 = 0.1667
따라서 방법 2 = Σ(x_i - μ)² * (1/n) = (1/n) * Σ(x_i - μ)² = 방법 1


# 편향된 주사위 (각 면이 다른 확률을 가짐)


In [2]:

values = np.array([1, 2, 3, 4, 5, 6])
# 1이 자주 나오고, 6이 드물게 나오는 편향된 주사위
probabilities = np.array([0.3, 0.25, 0.2, 0.15, 0.07, 0.03])

print("편향된 주사위:")
print(f"값들: {values}")
print(f"확률들: {probabilities}")
print(f"확률 합: {probabilities.sum()}")

# 평균 계산
mu = np.sum(values * probabilities)
print(f"\n평균(μ): {mu:.4f}")

# 방법 1: 잘못된 계산 (1/n 사용)
n = len(values)
wrong_variance = np.sum((values - mu)**2) / n
print(f"\n❌ 잘못된 방법 (1/n 사용): {wrong_variance:.4f}")

# 방법 2: 올바른 계산 (각각의 확률 p_i 사용)
correct_variance = np.sum((values - mu)**2 * probabilities)
print(f"✅ 올바른 방법 (p_i 사용): {correct_variance:.4f}")

print(f"\n차이: {abs(wrong_variance - correct_variance):.4f}")
print("→ 확률이 다르면 결과가 다릅니다!")

# 왜 다른지 구체적으로 보기
print(f"\n== 각 항목별 기여도 ==")
deviations_squared = (values - mu)**2
for i in range(len(values)):
    wrong_contrib = deviations_squared[i] / n
    correct_contrib = deviations_squared[i] * probabilities[i]
    print(f"값 {values[i]}: 잘못된 기여도={wrong_contrib:.4f}, 올바른 기여도={correct_contrib:.4f}")

편향된 주사위:
값들: [1 2 3 4 5 6]
확률들: [0.3  0.25 0.2  0.15 0.07 0.03]
확률 합: 1.0

평균(μ): 2.5300

❌ 잘못된 방법 (1/n 사용): 3.8576
✅ 올바른 방법 (p_i 사용): 1.9291

차이: 1.9285
→ 확률이 다르면 결과가 다릅니다!

== 각 항목별 기여도 ==
값 1: 잘못된 기여도=0.3902, 올바른 기여도=0.7023
값 2: 잘못된 기여도=0.0468, 올바른 기여도=0.0702
값 3: 잘못된 기여도=0.0368, 올바른 기여도=0.0442
값 4: 잘못된 기여도=0.3601, 올바른 기여도=0.3241
값 5: 잘못된 기여도=1.0168, 올바른 기여도=0.4271
값 6: 잘못된 기여도=2.0068, 올바른 기여도=0.3612


# 분산을 절대값을 사용해 구한다면?

In [5]:
# 주사위 설정
values = np.array([1, 2, 3, 4, 5, 6])
probabilities = np.array([1/6] * 6)  # 공정한 주사위

# 기댓값(평균) 계산
mu = np.sum(values * probabilities)
print(f"주사위 기댓값(μ): {mu}")

# 1. 분산 계산 (제곱 방식)
variance = np.sum((values - mu)**2 * probabilities)
std_dev = np.sqrt(variance)

# 2. 평균절대편차(MAD) 계산
mad = np.sum(np.abs(values - mu) * probabilities)

print(f"\n=== 결과 비교 ===")
print(f"분산 (Variance): {variance:.4f}")
print(f"표준편차 (Std Dev): {std_dev:.4f}")
print(f"평균절대편차 (MAD): {mad:.4f}")

주사위 기댓값(μ): 3.5

=== 결과 비교 ===
분산 (Variance): 2.9167
표준편차 (Std Dev): 1.7078
평균절대편차 (MAD): 1.5000


# 각 값에서의 기여도 확인

In [6]:
# 각 값별 기여도 분석
print(f"\n=== 각 주사위 눈별 기여도 ===")
print("값\t편차\t제곱편차\t절대편차\t분산기여도\tMAD기여도")
print("-" * 60)

total_var_contrib = 0
total_mad_contrib = 0

for i, x in enumerate(values):
    deviation = x - mu
    squared_dev = deviation**2
    abs_dev = abs(deviation)
    var_contrib = squared_dev * probabilities[i]
    mad_contrib = abs_dev * probabilities[i]
    
    total_var_contrib += var_contrib
    total_mad_contrib += mad_contrib
    
    print(f"{x}\t{deviation:+.1f}\t{squared_dev:.2f}\t\t{abs_dev:.1f}\t\t{var_contrib:.4f}\t\t{mad_contrib:.4f}")

print("-" * 60)
print(f"합계\t\t\t\t\t\t{total_var_contrib:.4f}\t\t{total_mad_contrib:.4f}")

# 이상치 영향 분석을 위한 편향된 주사위
print(f"\n=== 편향된 주사위와의 비교 ===")
# 극단값(1,6)이 더 자주 나오는 경우
biased_probs = np.array([0.25, 0.15, 0.15, 0.15, 0.15, 0.25])
mu_biased = np.sum(values * biased_probs)
var_biased = np.sum((values - mu_biased)**2 * biased_probs)
mad_biased = np.sum(np.abs(values - mu_biased) * biased_probs)

print(f"편향된 주사위 평균: {mu_biased:.4f}")
print(f"편향된 주사위 분산: {var_biased:.4f} (공정 대비 {var_biased/variance:.2f}배)")
print(f"편향된 주사위 MAD: {mad_biased:.4f} (공정 대비 {mad_biased/mad:.2f}배)")


=== 각 주사위 눈별 기여도 ===
값	편차	제곱편차	절대편차	분산기여도	MAD기여도
------------------------------------------------------------
1	-2.5	6.25		2.5		1.0417		0.4167
2	-1.5	2.25		1.5		0.3750		0.2500
3	-0.5	0.25		0.5		0.0417		0.0833
4	+0.5	0.25		0.5		0.0417		0.0833
5	+1.5	2.25		1.5		0.3750		0.2500
6	+2.5	6.25		2.5		1.0417		0.4167
------------------------------------------------------------
합계						2.9167		1.5000

=== 편향된 주사위와의 비교 ===
편향된 주사위 평균: 3.8500
편향된 주사위 분산: 4.0098 (공정 대비 1.37배)
편향된 주사위 MAD: 1.8500 (공정 대비 1.23배)
