# 대응 표본 검정

In [11]:
# 같은 집단(한 컬럼)에서 2번 이상 측정된 데이터의 평균의 차이를 비교할때 사용됨
# 시간이 지남에 따라서 전과 후가 차이가 있는지 확인 가능

# -----------------------------------------------------------------------------
# 2. 대응 표본검정
# -----------------------------------------------------------------------------
# 대응표본 t검정(paired t-test) 은
# 같은 집단에서 두 번 이상 측정된 데이터의 평균 차이를 비교할 때 사용하는 검정

# 즉,

# “같은 사람(또는 같은 대상)에게 두 번 측정한 값이 통계적으로 달라졌는가?”
# 를 확인하는 검정입니다.

# 2. 예시로 이해하기
# | 예시 상황                       | 설명                                     |
# | --------------------           | -------------------------------------- |
# | **다이어트 전후 체중 비교**      | 같은 사람 30명을 대상으로, 식단 전/후의 체중 차이가 있는지 검정 |
# | **교육 프로그램 전후 점수 비교** | 같은 학생들이 수업 전/후 시험을 본 후 점수 향상이 있는지 검정   |
# | **약 복용 전후 혈압 변화**      | 같은 환자군에서 약 복용 전후 혈압이 유의하게 달라졌는지 검정     |

# 이런 경우, 두 데이터(전(before) / 후(after))가 서로 연결(대응) 되어 있으므로, 대응표본 t검정을 사용합니다.

# 3. 가설 설정
# | 구분            | 내용              | 수식                 |
# | ------------- | --------------- | ------------------ |
# | **귀무가설 (H₀)** | 두 시점의 평균 차이가 없다 | μ<sub>차이</sub> = 0 |
# | **대립가설 (H₁)** | 두 시점의 평균 차이가 있다 | μ<sub>차이</sub> ≠ 0 |



In [7]:
import pandas as pd
df = pd.DataFrame({
    'before':[85, 90, 92, 88, 86, 89, 83, 87],
    'after':[85.5,89.9,92.6,89.5,85.8,88.8,84.6,87.8]
})


In [8]:
from scipy import stats
print(stats.ttest_rel(df['before'], df['after'], alternative='less'))


TtestResult(statistic=-2.2127749675452324, pvalue=0.03127028733756238, df=7)


In [9]:
print(stats.ttest_rel(df['after'], df['before'], alternative='greater'))


TtestResult(statistic=2.2127749675452324, pvalue=0.03127028733756238, df=7)


In [12]:
print(stats.ttest_rel(df['after'], df['before']))

TtestResult(statistic=2.2127749675452324, pvalue=0.06254057467512476, df=7)


In [None]:
# -----------------------------------------------
# sales_data_sample
# -----------------------------------------------

In [13]:
# ---------------------------------------
# 문제정의 - sales_data_sample.csv
# ---------------------------------------
# 같은 제품의 1분기와 2분기(QTR_ID) 매출이 유의하게 다른지 확인
# 2004년 기준, Q1 vs Q2 매출 비교

# | 컬럼명                  | 한글명칭     | 데이터 내용 / 설명                                    |
# | -------------------- | -------- | ---------------------------------------------- |
# | **ORDERNUMBER**      | 주문번호     | 하나의 주문을 구분하는 고유 번호. 하나의 주문에 여러 상품 라인이 있을 수 있음. |
# | **QUANTITYORDERED**  | 주문수량     | 해당 상품이 주문된 수량 (예: 30개, 50개 등).                 |
# | **PRICEEACH**        | 개당가격     | 상품 1개의 단가 (예: 95.7 달러).                        |
# | **ORDERLINENUMBER**  | 주문라인번호   | 같은 주문번호 내에서 상품별 순서(1, 2, 3...)를 구분.            |
# | **SALES**            | 매출금액     | 주문 수량 × 단가. 한 라인의 총 매출액.                       |
# | **ORDERDATE**        | 주문일자     | 주문이 접수된 날짜 (`YYYY-MM-DD`).                     |
# | **STATUS**           | 주문상태     | 주문의 진행상태 (예: Shipped, Cancelled, On Hold 등).   |
# | **QTR_ID**           | 분기번호     | 해당 주문의 회계분기 (1~4분기 중 하나).                      |
# | **MONTH_ID**         | 월번호      | 주문 발생 월 (1~12).                                |
# | **YEAR_ID**          | 연도       | 주문 발생 연도 (예: 2003, 2004, 2005).                |
# | **PRODUCTLINE**      | 제품라인     | 제품이 속한 카테고리명 (예: Classic Cars, Motorcycles 등). |
# | **MSRP**             | 권장소비자가격  | 제조사가 제시한 권장 판매가.                               |
# | **PRODUCTCODE**      | 제품코드     | 제품을 고유하게 식별하는 코드 (예: `S10_1678`).              |
# | **CUSTOMERNAME**     | 고객명      | 주문을 한 고객(회사) 이름.                               |
# | **PHONE**            | 전화번호     | 고객의 연락처 전화번호.                                  |
# | **ADDRESSLINE1**     | 주소(1)    | 고객의 기본 주소 (도로명 주소).                            |
# | **ADDRESSLINE2**     | 주소(2)    | 추가 주소 정보 (건물명, 층 등). 비어 있는 경우도 많음.             |
# | **CITY**             | 도시       | 고객이 속한 도시명 (예: San Francisco, Madrid 등).       |
# | **STATE**            | 주(State) | 미국/캐나다 등에서 사용하는 주 단위 지역명.                      |
# | **POSTALCODE**       | 우편번호     | 고객 주소의 우편번호.                                   |
# | **COUNTRY**          | 국가       | 고객이 위치한 나라명 (예: USA, France 등).                |
# | **TERRITORY**        | 영업지역     | 영업 담당 구역 (예: EMEA, APAC, NA 등).                |
# | **CONTACTLASTNAME**  | 담당자 성    | 고객 담당자의 성(last name).                          |
# | **CONTACTFIRSTNAME** | 담당자 이름   | 고객 담당자의 이름(first name).                        |
# | **DEALSIZE**         | 거래규모     | 거래 규모 등급 (예: Small, Medium, Large 등으로 분류).     |


In [None]:
# QTR_ID 의 1분기 , 2분기각 평균 비교

In [24]:
import pandas as pd
from scipy import stats

# 1. 데이터 불러오기
df = pd.read_csv("sales_data_sample.csv")

# 2. 특정 연도(데이터가 가장 많은 연도)만 선택
target_year = int(df["YEAR_ID"].value_counts().idxmax())
# target_year # 결과 : 2004
data = df[df["YEAR_ID"] == target_year]
# data # 2004년도의 데이터만 추출

# # 3. 제품별 분기별 매출 합계 계산
# 기존의 컬럼에서 원하는 형태의 테이블을 만드는 작업
pivot = data.pivot_table(index="PRODUCTCODE", columns="QTR_ID", values="SALES", aggfunc="sum")
print(data.head(5))
print(pivot)
# # 4. Q1, Q2 매출이 모두 존재하는 제품만 추출
paired = pivot[[1, 2]].dropna() # NAN제거(결측치 제거)
before = paired[1]  # Q1 매출
after = paired[2]   # Q2 매출

before

# # 5. 대응표본 t검정 수행 (양측검정)
t_stat, p_val = stats.ttest_rel(before, after)

# # 6. 결과 출력
print(f"대응표본 t검정 (연도: {target_year}, Q1 vs Q2 매출)")
print("t-statistic:", t_stat)
print("p-value:", p_val)

# # 7. 해석
# if p_val < 0.05:
#     print("귀무가설 기각 → Q1과 Q2의 평균 매출에 통계적으로 유의한 차이가 있습니다.")
# else:
#     print("귀무가설 채택 → Q1과 Q2의 평균 매출에 유의한 차이가 없습니다.")


# # 귀무가설(H₀) : "두 집단의 평균은 같다" 또는 "차이가 없다"는 가정
# # 대립가설(H₁) : "두 집단의 평균은 다르다" 또는 "차이가 있다"는 주장
# # p-value(유의확률) : “귀무가설이 참이라고 가정했을 때, 지금처럼 극단적인 결과가 나올 확률"
# # p-value가 작다(0.05 미만) -> 귀무가설이 맞을 가능성이 낮음 -> ‘차이가 있다’(통계적으로 유의함) 라고 판단
# # p-value가 크다(0.05 이상) -> 이런 결과는 우연히도 충분히 일어날 수 있음 -> ‘차이가 없다’(유의하지 않음)

# # 즉, 1분기(Q1)과 2분기(Q2) 매출이 ‘통계적으로는 비슷’하다
# # 분기가 달라져도 (1분기 -> 2분기) 매출에 뚜렷한 영향을 준다고 보기 어렵다 
# # ->분기컬럼을 삭제하는 방향으로 고려해도 괜찮을것같다(나머지 Q3,Q4도  확인해서 유의성 검정)

    ORDERNUMBER  QUANTITYORDERED  PRICEEACH  ORDERLINENUMBER    SALES  \
9         10211               41      100.0               14  4708.44   
10        10223               37      100.0                1  3965.66   
11        10237               23      100.0                7  2333.12   
12        10251               28      100.0                2  3188.64   
13        10263               34      100.0                2  3676.76   

         ORDERDATE   STATUS  QTR_ID  MONTH_ID  YEAR_ID  ...  \
9   1/15/2004 0:00  Shipped       1         1     2004  ...   
10  2/20/2004 0:00  Shipped       1         2     2004  ...   
11   4/5/2004 0:00  Shipped       2         4     2004  ...   
12  5/18/2004 0:00  Shipped       2         5     2004  ...   
13  6/28/2004 0:00  Shipped       2         6     2004  ...   

           ADDRESSLINE1  ADDRESSLINE2         CITY     STATE POSTALCODE  \
9     25, rue Lauriston           NaN        Paris       NaN      75016   
10    636 St Kilda Road       Le