In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
from statsmodels.stats.weightstats import ztest
from scipy.stats import pearsonr, chi2_contingency
import statsmodels.api as sm
from statsmodels.formula.api import ols

In [2]:
df = pd.read_csv("data/Customer_Behavior_Analysis.csv")
df.head()

Unnamed: 0,ID,Age,Gender,Income,Score_A,Score_B,Group,Category,Purchase
0,1,56,Male,64439.61935,102.83938,66.654494,Treatment,C,0
1,2,69,Male,46854.613447,74.688132,58.549619,Treatment,C,0
2,3,46,Male,38389.356039,74.884167,83.45317,Treatment,B,0
3,4,32,Male,44603.327821,76.905987,45.631635,Treatment,B,0
4,5,60,Male,60861.248773,81.069757,88.32384,Control,B,1


Câu 1: Có sự khác biệt có ý nghĩa thống kê về thu nhập trung bình giữa nam và nữ không?

In [3]:
dfMale = df[df["Gender"] == "Male"]
dfFemale = df[df["Gender"] == "Female"]

ztest(dfMale["Income"], dfFemale["Income"], value=0)

# H0: Thu nhập trung bình giữa nam và nữ bằng nhau
# H1: Thu nhập trung bình giữa nam và nữ không bằng nhau

# p-value là 0.7871213135845863 > 0.05 [ACCEPT H0]
# Kết luận: không đủ dữ kiện bác bỏ thu nhập trung bình giữa nam và nữ bằng nhau
# với độ tin cậy 95%

(np.float64(0.2700506161493615), np.float64(0.7871213135845863))

Câu 2: Tuổi có ảnh hưởng đến thu nhập không? Nếu có, mô tả mối quan hệ giữa chúng.

In [None]:
model = ols('Income ~ Age', data=df).fit()
aov_table = sm.stats.anova_lm(model, typ=1)
aov_table

# H0: Tuổi không ảnh hưởng đến thu nhập
# H1: Tuổi có ảnh hưởng đến thu nhập

# Do PR(>F) là 0.515 > 0.05 [ACCEPT H0]
# Kết luận: Không đủ dữ kiện để bác bỏ tuổi không ảnh hưởng
# đến thu nhập với độ tin cậy 95%

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
Age,1.0,99253600.0,99253600.0,0.426762,0.515112
Residual,98.0,22792200000.0,232573500.0,,


Câu 3: Điểm số A có khác nhau giữa các nhóm (Control và Treatment) không?

In [5]:
dfControl = df[df["Group"] == "Control"]
dfTreatment = df[df["Group"] == "Treatment"]

ztest(dfControl["Score_A"], dfTreatment['Score_A'], value=0)

# H0: Không có sự khác biệt điểm A trung bình giữa nhóm Control và Treatment
# H1: Có sự khác biệt điểm A trung bình giữa nhóm Control và Treatment

# Do p-value 0.956162570529875 > 0.05 [ACCEPT H0]
# Kết luận: không đủ bằng chứng để bác bỏ giả thuyết không có sự khác biệt
# điểm A trung giữa nhóm Control và Treatment

(np.float64(-0.054969740980529175), np.float64(0.956162570529875))

Câu 4: Có mối tương quan giữa tuổi và điểm số A không? Nếu có, mô tả tính chất của mối tương quan đó.

In [6]:
pearsonr(df["Score_A"], df["Age"])

# H0: Không có mối tương quan giữa tuổi và điểm số A

# pvalue là 0.2503362018523023 > 0.05 [ACCEPT H0]
# Kết luận: không đủ dữ kiện để bác bỏ Không 
# có mối tương quan giữa tuổi và điểm số A

# r = -0.11602331348032557. Tương quan ngược nhưng rất yếu

PearsonRResult(statistic=np.float64(-0.11602331348032557), pvalue=np.float64(0.2503362018523023))

Câu 5: Có sự khác biệt về điểm số B giữa các nhóm khác nhau trong biến Category (A, B, C) không?

In [None]:
model = ols('Score_B ~ Category', data=df).fit()
aov_table = sm.stats.anova_lm(model, typ=1)
print(aov_table)

# H0: Không có sự khác biệt gì giữa điểm số B với các nhóm Category

# PR(>F) là 0.595 > 0.05 [ACCEPT H0]
# Kết luận: không có đủ dữ kiện để bác bỏ giả thuyết không
# có sự khác biệt gì giữa điểm số B với các nhóm Category
# với độ tin cậy là 95%

            df        sum_sq     mean_sq         F    PR(>F)
Category   2.0    266.330191  133.165096  0.521118  0.595509
Residual  97.0  24787.104076  255.537155       NaN       NaN


Câu 6: Kiểm tra xem thu nhập có ảnh hưởng đến khả năng mua hàng (Purchase) không?

In [None]:
model = ols('Purchase ~ Income', data=df).fit()
aov_table = sm.stats.anova_lm(model, typ=1)
print(aov_table)

# H0: Thu nhập không có ảnh hưởng đến khả năng mua hàng (Purchase)

# PR(>F) là 0.14 > 0.05 
# Kết luận: không đủ dữ kiện để bắt bỏ thu nhập không 
# có ảnh hưởng đến khả năng mua hàng (Purchase) với
# độ tin cậy 95%

            df     sum_sq   mean_sq         F   PR(>F)
Income     1.0   0.541663  0.541663  2.178358  0.14317
Residual  98.0  24.368337  0.248657       NaN      NaN


Câu 7: Kiểm tra xem thu nhập có ảnh hưởng đến khả năng mua hàng (Purchase) không?
Tạo thêm một bảng loại thu nhập (income <= 30000 low, <= 60000 medium, còn lại high)

In [None]:
dfTemp = df.copy()

def incomeGrouping(x):
  if x <= 30000:
    return "Low"
  elif x <= 60000:
    return "Medium"
  return "High"

dfTemp["IncomeGroup"] = dfTemp["Income"].apply(incomeGrouping)

crosdata = pd.crosstab(dfTemp["IncomeGroup"], df["Purchase"], rownames=['IncomeGroup'], colnames=['Purchase'])
chi2, p_value, dof, expected = stats.chi2_contingency(crosdata)
print('p_value is : ' + str(p_value))

# H0: Thu nhập không ảnh hưởng tới khả năng mua hàng

# p_value is : 0.47763126507564824 > 0.05 [ACCEPT H0]
# Không đủ dữ kiện để bác bỏ giả thuyết thu nhập 
# không ảnh hưởng tới khả năng mua hàng với độ
# tin cậy 95%

p_value is : 0.47763126507564824


Câu 8: Có mối liên hệ nào giữa giới tính (Gender) và việc mua hàng (Purchase) không?

In [None]:
crosdata = pd.crosstab(dfTemp["Gender"], df["Purchase"], rownames=['Gender'], colnames=['Purchase'])
chi2, p_value, dof, expected = stats.chi2_contingency(crosdata)
print('p_value is : ' + str(p_value))


# H0: Giới tính và việc mua hàng không có mối quan hệ nào

# p_value is : 0.7746563311906023 > 0.05 [ACCEPT H0]
# Không đủ dữ kiện để bác bỏ giả thuyết giới tính 
# và việc mua hàng không có mối quan hệ nào tin
# cậy 95%

p_value is : 0.7746563311906023
