<a href="https://colab.research.google.com/github/parkjeung/first-repository/blob/main/%ED%8C%8C%EC%9D%B4%EC%8D%AC%EC%9C%BC%EB%A1%9C_%EB%B0%B0%EC%9A%B0%EB%8A%94_6%EA%B0%80%EC%A7%80_%ED%86%B5%EA%B3%84_%EB%B6%84%EC%84%9D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
# 파이썬으로 직접 실행해보는 6가지 통계 분석 시나리오
# 필요한 라이브러리를 불러옵니다.
import scipy.stats as stats
import numpy as np
import pandas as pd

print("안녕하세요! '나의 통계 선생님'과 함께하는 파이썬 통계 분석 시간입니다. 🚀\n")

# --- 시나리오 1: 일표본 T-검정 (One-Sample T-test) ---
print("="*50)
print("☕ 시나리오 1: 우리 카페 손님들은 정말 10,000원 이상 쓸까?")
print("="*50)

# 데이터: 한 그룹의 구매 금액
purchase_amounts = [12000, 12500, 13000, 12800, 12600, 12200, 12700, 12900, 12400, 12100]
# 비교하려는 목표 평균 구매 금액
expected_value = 10000

# 일표본 T-검정 수행
# ttest_1samp 함수는 데이터와 비교할 평균값을 받아서 T-통계량과 p-value를 돌려줍니다.
t_stat_1, p_value_1 = stats.ttest_1samp(purchase_amounts, expected_value)

# 결과 출력
print(f"T-통계량 (T-statistic): {t_stat_1:.4f}")
print(f"p-value: {p_value_1:.10f}")

# 해석
alpha = 0.05  # 유의수준 5%
if p_value_1 < alpha:
    print(f"결론: 그룹의 평균 구매 금액이 {expected_value}원과 유의미하게 다릅니다. (우연이 아니야!)")
else:
    print(f"결론: 그룹의 평균 구매 금액이 {expected_value}원과 유의미하게 다르지 않습니다. (우연일 수 있어!)")
print("\n")


# --- 시나리오 2: 대응표본 T-검정 (Paired Sample T-test) ---
print("="*50)
print("🛍️ 시나리오 2: 프로모션, 정말 효과가 있었을까?")
print("="*50)

# 데이터: 똑같은 고객들의 프로모션 전후 구매 금액
before_promo = [12000, 12500, 13000, 12800, 12600, 12200, 12700, 12900, 12400, 12100]
after_promo = [13500, 14000, 13800, 13600, 13900, 13700, 13400, 13200, 14100, 13300]

# 대응표본 T-검정 수행
# ttest_rel 함수는 '전' 데이터와 '후' 데이터를 받아서 T-통계량과 p-value를 돌려줍니다.
t_stat_2, p_value_2 = stats.ttest_rel(before_promo, after_promo)

# 결과 출력
print(f"T-통계량 (T-statistic): {t_stat_2:.4f}")
print(f"P-value: {p_value_2:.10f}")

# 해석
if p_value_2 < alpha:
    print("결론: 프로모션 전후 구매 금액 차이가 유의미합니다. (프로모션 효과가 있었어!)")
else:
    print("결론: 프로모션 전후 구매 금액 차이가 유의미하지 않습니다. (효과가 있다고 보기 어려워!)")
print("\n")


# --- 시나리오 3: 독립표본 T-검정 (Independent Samples T-test) ---
print("="*50)
print("🆚 시나리오 3: A 프로모션 vs B 프로모션, 누가 더 나을까?")
print("="*50)

# 데이터: 서로 다른 두 그룹의 구매 금액
promotion_A = [12000, 12500, 13000, 12800, 12600, 12200, 12700, 12900, 12400, 12100]
promotion_B = [13500, 14000, 13800, 13600, 13900, 13700, 13400, 13200, 14100, 13300]

# 독립표본 T-검정 수행 (등분산을 가정하지 않음)
# ttest_ind 함수는 두 그룹의 데이터를 받습니다. equal_var=False는 두 그룹의 데이터 흩어짐 정도가 달라도 괜찮다고 알려주는 옵션입니다.
t_stat_3, p_value_3 = stats.ttest_ind(promotion_A, promotion_B, equal_var=False)

# 결과 출력
print(f"T-통계량 (T-statistic): {t_stat_3:.4f}")
print(f"P-value: {p_value_3:.10f}")

# 해석
if p_value_3 < alpha:
    print("결론: A 그룹과 B 그룹의 구매 금액 차이가 유의미합니다. (두 프로모션의 효과가 달라!)")
else:
    print("결론: A 그룹과 B 그룹의 구매 금액 차이가 유의미하지 않습니다. (효과 차이가 있다고 말하기 힘들어!)")
print("\n")


# --- 시나리오 4: 분산 분석 (ANOVA) ---
print("="*50)
print("📊 시나리오 4: 무료배송, 10%할인, 1+1 행사 중 최고는?")
print("="*50)

# 데이터: 세 가지 프로모션별 구매 금액
free_shipping = [12000, 12500, 13000, 12800, 12600]
discount_10 = [13500, 14000, 13800, 13600, 13900]
buy1get1 = [15000, 15500, 15200, 14800, 15400]

# ANOVA 수행
# f_oneway 함수는 세 개 이상의 그룹 데이터를 받아서 F-통계량과 p-value를 돌려줍니다.
f_stat_4, p_value_4 = stats.f_oneway(free_shipping, discount_10, buy1get1)

# 결과 출력
print(f"F-통계량 (F-statistic): {f_stat_4:.4f}")
print(f"P-value: {p_value_4:.10f}")

# 해석
if p_value_4 < alpha:
    print("결론: 프로모션 그룹 간 구매 금액 차이가 유의미합니다. (적어도 하나는 효과가 달라!)")
else:
    print("결론: 프로모션 그룹 간 구매 금액 차이가 없습니다. (다들 비슷비슷해!)")
print("\n")


# --- 시나리오 5: 카이제곱 검정 (Chi-Square Test) ---
print("="*50)
print("📈 시나리오 5: A/B 프로모션, 어느 쪽 전환율이 더 높을까?")
print("="*50)

# 데이터: A/B 프로모션별 [전환한 고객 수, 전환하지 않은 고객 수]
promotion_A_counts = [60, 440]
promotion_B_counts = [90, 410]

# 카이제곱 검정을 위한 분할표(contingency table) 생성
conversion_table = np.array([promotion_A_counts, promotion_B_counts])

# 카이제곱 검정 수행
# chi2_contingency 함수는 분할표를 받아서 카이제곱 통계량, p-value, 자유도(dof), 기대빈도표를 돌려줍니다.
chi2_stat_5, p_value_5, dof_5, expected_5 = stats.chi2_contingency(conversion_table)

# 결과 출력
print(f"카이제곱 통계량 (Chi-Square Statistic): {chi2_stat_5:.4f}")
print(f"P-value: {p_value_5:.10f}")
print(f"자유도 (dof): {dof_5}")

# 해석
if p_value_5 < alpha:
    print("결론: A/B 프로모션 간 전환율 차이가 유의미합니다. (두 프로모션의 성과가 달라!)")
else:
    print("결론: A/B 프로모션 간 전환율 차이가 유의미하지 않습니다. (성과 차이가 우연일 수 있어!)")
print("\n")


# --- 시나리오 6: 쿠키캣 A/B 테스트 (비모수 검정 및 리텐션 분석) ---
print("="*50)
print("🎮 시나리오 6: 쿠키캣 게임, 첫 관문은 어디가 좋을까?")
print("="*50)

# 실제 데이터 파일 대신, 비슷한 모양의 가상 데이터(DataFrame)를 만듭니다.
# 데이터를 '/content/cookie_cats.csv' 파일에서 불러옵니다.
df = pd.read_csv('/content/cookie_cats.csv')

# 1. 게임 라운드 수 비교 (Mann-Whitney U 검정)
# version에 따라 두 그룹으로 데이터를 나눕니다.
gate_30 = df[df["version"] == "gate_30"]["sum_gamerounds"]
gate_40 = df[df["version"] == "gate_40"]["sum_gamerounds"]

# Mann-Whitney U 검정 수행
# mannwhitneyu 함수는 정규분포를 따르지 않을 것 같은 두 독립 그룹을 비교할 때 사용합니다.
stat_6, p_value_6_mw = stats.mannwhitneyu(gate_30, gate_40, alternative='two-sided')

print("--- 게임 라운드 수 비교 (Mann-Whitney U 검정) ---")
print(f"p-value: {p_value_6_mw:.4f}")
if p_value_6_mw < alpha:
    print("결론: 두 그룹 간 게임 라운드 수에 통계적으로 유의미한 차이가 있습니다.\n")
else:
    print("결론: 두 그룹 간 게임 라운드 수에 통계적으로 유의미한 차이가 없습니다.\n")


# 2. 1일차 리텐션(재방문율) 비교 (카이제곱 검정)
# pd.crosstab은 버전별, 리텐션별로 사람 수를 세어 표로 만들어줍니다.
retention_table = pd.crosstab(df['version'], df['retention_1'])
print("--- 1일차 리텐션 분할표 ---")
print(retention_table)
print("")

# 카이제곱 검정 수행
chi2_6, p_value_6_chi, _, _ = stats.chi2_contingency(retention_table)

print("--- 1일차 리텐션 비교 (카이제곱 검정) ---")
print(f"p-value: {p_value_6_chi:.4f}")
if p_value_6_chi < alpha:
    print("결론: 두 그룹 간 1일차 리텐션에 유의미한 차이가 있습니다.")
else:
    print("결론: 두 그룹 간 1일차 리텐션에 유의미한 차이가 없습니다.")

안녕하세요! '나의 통계 선생님'과 함께하는 파이썬 통계 분석 시간입니다. 🚀

☕ 시나리오 1: 우리 카페 손님들은 정말 10,000원 이상 쓸까?
T-통계량 (T-statistic): 23.2643
p-value: 0.0000000024
결론: 그룹의 평균 구매 금액이 10000원과 유의미하게 다릅니다. (우연이 아니야!)


🛍️ 시나리오 2: 프로모션, 정말 효과가 있었을까?
T-통계량 (T-statistic): -7.8583
P-value: 0.0000255257
결론: 프로모션 전후 구매 금액 차이가 유의미합니다. (프로모션 효과가 있었어!)


🆚 시나리오 3: A 프로모션 vs B 프로모션, 누가 더 나을까?
T-통계량 (T-statistic): -7.8164
P-value: 0.0000003767
결론: A 그룹과 B 그룹의 구매 금액 차이가 유의미합니다. (두 프로모션의 효과가 달라!)


📊 시나리오 4: 무료배송, 10%할인, 1+1 행사 중 최고는?
F-통계량 (F-statistic): 95.2135
P-value: 0.0000000434
결론: 프로모션 그룹 간 구매 금액 차이가 유의미합니다. (적어도 하나는 효과가 달라!)


📈 시나리오 5: A/B 프로모션, 어느 쪽 전환율이 더 높을까?
카이제곱 통계량 (Chi-Square Statistic): 6.5961
P-value: 0.0102203630
자유도 (dof): 1
결론: A/B 프로모션 간 전환율 차이가 유의미합니다. (두 프로모션의 성과가 달라!)


🎮 시나리오 6: 쿠키캣 게임, 첫 관문은 어디가 좋을까?
--- 게임 라운드 수 비교 (Mann-Whitney U 검정) ---
p-value: 0.0502
결론: 두 그룹 간 게임 라운드 수에 통계적으로 유의미한 차이가 없습니다.

--- 1일차 리텐션 분할표 ---
retention_1  False  True 
version                  
gate_30      24666  20034
gate_40  

##질문

1️⃣ Mann-Whitney U 검정

	•	두 독립된 그룹의 중앙값을 비교하는 비모수 검정.
	•	정규분포를 따르지 않거나 표본 크기가 작을 때 사용.
	•	평균 대신 **순위(rank)**로 두 그룹의 분포 차이를 확인.

2️⃣ 리텐션율 분석 결론 (gate_30 vs gate_40)

	•	카이제곱 검정 결과: 유의미한 차이가 있고, gate_30의 리텐션율이 더 높다면,
	•	gate_30의 첫 관문 위치가 리텐션율 향상에 더 효과적이라고 결론.
	•	A/B 테스트 결과로 전략적 의사결정에 활용 가능.