In [1]:
# 자녀 수와 단맛 제품 판매량의 관계

# 가설 : H0-자녀 수에 따라 단맛이 나는 제품의 평균 판매량은 차이가 없다
#       H1-자녀 수에 따라 단맛이 나는 제품의 평균 판매량은 차이가 있다

# 데이터 불러오기
import pandas as pd
df = pd.read_csv('ifood_df.csv', encoding = "cp949")
df

Unnamed: 0,Income,Kidhome,Teenhome,Recency,MntWines,MntFruits,MntMeatProducts,MntFishProducts,MntSweetProducts,MntGoldProds,...,marital_Together,marital_Widow,education_2n Cycle,education_Basic,education_Graduation,education_Master,education_PhD,MntTotal,MntRegularProds,AcceptedCmpOverall
0,58138.0,0,0,58,635,88,546,172,88,88,...,0,0,0,0,1,0,0,1529,1441,0
1,46344.0,1,1,38,11,1,6,2,1,6,...,0,0,0,0,1,0,0,21,15,0
2,71613.0,0,0,26,426,49,127,111,21,42,...,1,0,0,0,1,0,0,734,692,0
3,26646.0,1,0,26,11,4,20,10,3,5,...,1,0,0,0,1,0,0,48,43,0
4,58293.0,1,0,94,173,43,118,46,27,15,...,0,0,0,0,0,0,1,407,392,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2200,61223.0,0,1,46,709,43,182,42,118,247,...,0,0,0,0,1,0,0,1094,847,0
2201,64014.0,2,1,56,406,0,30,0,0,8,...,1,0,0,0,0,0,1,436,428,1
2202,56981.0,0,0,91,908,48,217,32,12,24,...,0,0,0,0,1,0,0,1217,1193,1
2203,69245.0,0,1,8,428,30,214,80,30,61,...,1,0,0,0,0,1,0,782,721,0


In [8]:
# df의 'Kidhome'과 'MntSweetProducts' 2개 변수 출력 후 df1에 저장
df1 = df[['Kidhome', 'MntSweetProducts']]
df1

Unnamed: 0,Kidhome,MntSweetProducts
0,0,88
1,1,1
2,0,21
3,1,3
4,1,27
...,...,...
2200,0,118
2201,2,0
2202,0,12
2203,0,30


In [9]:
# Kidhome의 대표값 추출
df1['Kidhome'].unique()

array([0, 1, 2])

In [10]:
 # Kidhome 열을 기준으로 그룹화한 후 각 그룹의 평균을 계산
df1.groupby('Kidhome').mean()

Unnamed: 0_level_0,MntSweetProducts
Kidhome,Unnamed: 1_level_1
0,40.757053
1,8.644394
2,3.891304


In [3]:
# 자녀 수(Kidhome) 변수는 0, 1, 2 총 3개의 값이 있는
# 범주형 변수
# 각 범주별 단맛이 나는 제품(MntSweetProds)의 평균 판매량 비교

import pandas as pd
from scipy.stats import f_oneway

# ANOVA 실행
grouped_data = []
for group in df['Kidhome'].unique():
    grouped_data.append(df[df['Kidhome'] == group]['MntSweetProducts'])

f_statistic, p_value = f_oneway(*grouped_data)

print(f"F-통계량: {f_statistic}")
print(f"p-value: {p_value}")

# F-값이 크므로 범주간 평균 차이는 의미가 있음
# p-값이 유의수준보다 작으므로 대립가설 채택

F-통계량: 196.0318481423178
p-value: 4.4584446045966057e-79


In [4]:
# 사후검정
import pandas as pd
from scipy.stats import f_oneway
from statsmodels.stats.multicomp import pairwise_tukeyhsd

# Tukey's HSD 사후검정 실행
posthoc = pairwise_tukeyhsd(df['MntSweetProducts'], df['Kidhome'])
print(posthoc)

# 0-1 True : 범주간 평균차이 있음
# 0-2 True : 범주간 평균차이 있음
# 1-2 False : 범주간 평균차이 없음

 Multiple Comparison of Means - Tukey HSD, FWER=0.05 
group1 group2 meandiff p-adj  lower    upper   reject
-----------------------------------------------------
     0      1 -32.1127   0.0 -36.0049 -28.2204   True
     0      2 -36.8657   0.0 -50.2098 -23.5217   True
     1      2  -4.7531 0.685 -18.2001   8.6939  False
-----------------------------------------------------


In [11]:
 # Kidhome 열을 기준으로 그룹화한 후 각 그룹의 평균을 계산
df1.groupby('Kidhome').mean()

Unnamed: 0_level_0,MntSweetProducts
Kidhome,Unnamed: 1_level_1
0,40.757053
1,8.644394
2,3.891304


In [None]:
# 결론 :
# 자녀 수에 따라 단맛이 나는 제품의 판매량 평균은 차이가 있다

# 단맛이 나는 제품 평균 판매량 :
# 자녀 수에 따른 제품 평균 판매량 비교 0 > 1 > 2
# 자녀를 가진 가정은 자녀의 건강에 민감하므로(설탕 과다섭취는 건강에 안 좋기 때문)
# 설탕(또는 단맛을 내는 성분이 포함된) 성분이 포함된 제품을 꺼리는 경향이 있을것이라고 추론

# Insight :
# 자녀를 가진 가정은 설탕 성분에 민감하므로 제로슈거 또는 유기농 제품을
# 자녀를 가진 가정을 상대로 판매 촉진 활동을 한다(어떻게?, 구체적인 방법 필요)