In [2]:
import numpy as np
import pandas as pd
from scipy.stats import norm

In [3]:
# 1. 정규분포 데이터 생성
# - 평균(mu): 50
# - 표준편차(sigma): 10
# - 데이터 개수(size): 1000개
mu, sigma, size = 50, 10, 1000
data = np.random.normal(loc=mu, scale=sigma, size=size)  # 빈칸을 채워 정규분포 데이터 생성

In [4]:
# 2. 데이터를 DataFrame으로 변환
# - pandas의 DataFrame()을 사용하여 데이터를 저장
df = pd.DataFrame({"value": data}) 
df

Unnamed: 0,value
0,42.886989
1,53.984165
2,53.488308
3,66.816081
4,38.459345
...,...
995,62.225396
996,54.642979
997,58.821879
998,53.078794


In [None]:
# 3. 전체 데이터의 기본 통계량 확인
# - describe() 함수를 사용하여 평균, 표준편차, 최소값, 최대값 등을 확인
summary_stats = df["value"].describe() 

count    1000.000000
mean       49.930618
std        10.272254
min        19.425317
25%        42.989870
50%        50.181804
75%        56.785189
max        83.730612
Name: value, dtype: float64

In [None]:
# 4. 정규분포의 이론적 기대값과 비교
# - 정규분포는 평균(mu)과 표준편차(sigma)를 기준으로 데이터가 분포함
# - 68-95-99.7 법칙을 통해 실제 데이터가 정규분포와 얼마나 유사한지 확인

# 평균과 표준편차 계산
mean_value = df["value"].mean() 
std_value = df["value"].std() 

# 68-95-99.7 법칙 적용
# - 정규분포에서는 평균을 기준으로 데이터가 특정 범위 내에 포함되는 비율이 정해져 있음
# - 평균 ±1 표준편차 내에 약 68%의 데이터가 존재해야 함
# - 평균 ±2 표준편차 내에 약 95%의 데이터가 존재해야 함
# - 평균 ±3 표준편차 내에 약 99.7%의 데이터가 존재해야 함

within_1_sigma = np.sum((df["value"] >= mean_value - std_value) & (df["value"] <= mean_value + std_value)) / size * 100  # ±1 표준편차
within_2_sigma = np.sum((df["value"] >= mean_value - 2*std_value) & (df["value"] <= mean_value + 2*std_value)) / size * 100  # ±2 표준편차
within_3_sigma = np.sum((df["value"] >= mean_value - 3*std_value) & (df["value"] <= mean_value + 3*std_value)) / size * 100  # ±3 표준편차

within_1_sigma 69.19999999999999
within_2_sigma 95.0
within_3_sigma 99.8


In [None]:
# 5. 정규분포 검정 수행
# - 평균과 표준편차가 정규분포의 이론적인 값과 얼마나 유사한지 확인
# - 특정 값(예: 평균)에서의 확률밀도함수(PDF) 값을 계산하여 정규성을 검토

sample_value = mu  # 평균 값에서의 확률밀도 계산
pdf_value = norm.pdf(sample_value, loc=mean_value, scale=std_value)

0.03883599246372166


In [11]:
# 6. 결과 출력
print("전체 데이터의 기본 통계량:")
print(summary_stats)

print("\n68-95-99.7 법칙 적용 결과:")
print(f"68% 범위 내 데이터 비율: {within_1_sigma:.2f}%")
print(f"95% 범위 내 데이터 비율: {within_2_sigma:.2f}%")
print(f"99.7% 범위 내 데이터 비율: {within_3_sigma:.2f}%")

print("\n정규분포 검정 결과:")
print(f"샘플 평균: {mean_value:.2f}, 샘플 표준편차: {std_value:.2f}")
print(f"이론적 정규분포의 평균: {mu}, 표준편차: {sigma}")
print(f"평균 값({sample_value})에서의 이론적 확률밀도함수(PDF) 값: {pdf_value:.6f}")

# 7. 결론 해석
# - 생성된 데이터가 평균 50, 표준편차 10을 따르는 정규분포에 가깝다는 것을 확인
# - 68-95-99.7 법칙을 적용한 결과, 실제 데이터가 이론적 정규분포와 유사한 분포를 보임
# - 샘플 데이터의 평균과 표준편차가 정규분포의 이론적 값과 거의 동일함
# - 추가적인 정규성 검정(예: QQ-Plot, 샤피로-윌크 검정 등)을 수행하면 보다 정확한 분석이 가능함


전체 데이터의 기본 통계량:
count    1000.000000
mean       49.930618
std        10.272254
min        19.425317
25%        42.989870
50%        50.181804
75%        56.785189
max        83.730612
Name: value, dtype: float64

68-95-99.7 법칙 적용 결과:
68% 범위 내 데이터 비율: 69.20%
95% 범위 내 데이터 비율: 95.00%
99.7% 범위 내 데이터 비율: 99.80%

정규분포 검정 결과:
샘플 평균: 49.93, 샘플 표준편차: 10.27
이론적 정규분포의 평균: 50, 표준편차: 10
평균 값(50)에서의 이론적 확률밀도함수(PDF) 값: 0.038836
