In [1]:
import numpy as np
import pandas as pd
from scipy import stats
import statsmodels.api as sm

## สัมประสิทธิ์สหสัมพันธ์ (Correlation Coefficient)

#### แบบทดสอบ 10.2

In [2]:
df_sales = pd.read_csv("https://raw.githubusercontent.com/ThammakornS/ProgStat/main/dataset/sale.csv")
df_sales

Unnamed: 0,ad_cost,sale
0,3.7,42.5
1,2.0,35.0
2,3.0,39.5
3,2.0,36.5
4,3.5,47.5
5,4.8,44.0
6,4.5,49.0
7,4.5,48.0
8,3.8,42.0
9,5.0,56.0


In [3]:
r, p_value = stats.pearsonr(df_sales.ad_cost, df_sales.sale)
print(r, p_value)

0.8410425833995455 0.0006081181882655834


## การทดสอบสมมติฐานเกี่ยวกับสัมประสิทธิ์สหสัมพันธ์

#### แบบทดสอบ 10.3

In [4]:
# H0: ad_cost กับ sale ไม่มีความสัมพันธ์เชิงเส้นกัน
# H1: ad_cost กับ sale มีความสัมพันธ์เชิงเส้นกัน

alpha = 0.05

Sr = np.sqrt( (1-r**2) / (df_sales.shape[0]-2) )

t_cal = r / Sr
t_crit_left = stats.t.ppf(alpha/2, df=df_sales.shape[0]-2)
t_crit_right = stats.t.isf(alpha/2, df=df_sales.shape[0]-2)

print(t_crit_left, t_cal, t_crit_right, p_value)

# ปฏิเสธสมมติฐานหลัก H0 (ad_cost กับ sale มีความสัมพันธ์เชิงเส้นกัน)

-2.2281388519649385 4.9163825723122985 2.2281388519649385 0.0006081181882655834


#### แบบทดสอบ 10.4

In [5]:
df_cosmetics = pd.read_csv("https://raw.githubusercontent.com/ThammakornS/ProgStat/main/dataset/cosmetic.csv")
df_cosmetics

Unnamed: 0,mk_share,payback_customer
0,15,24
1,14,20
2,18,25
3,20,28
4,10,15
5,11,15
6,13,16
7,16,17
8,10,12
9,12,13


In [6]:
# สัมประสิทธิ์สหสัมพันธ์ระหวา่งสัดส่วนการครองตลาดและกําไรจ่ายคืนลูกค้า

r, p_value = stats.pearsonr(df_cosmetics.mk_share, df_cosmetics.payback_customer)
print(r, p_value)

0.86392120041863 6.793657739462234e-05


In [7]:
# H0: สัดส่วนการครองตลาดและกำไรจ่ายคืนลูกค้า ไม่มีความสัมพันธ์เชิงเส้นกัน
# H1: สัดส่วนการครองตลาดและกำไรจ่ายคืนลูกค้า มีความสัมพันธ์เชิงเส้นกัน

alpha = 0.05
n = df_cosmetics.shape[0]

Sr = np.sqrt( (1-r**2) / (n-2) )

t_cal = r / Sr
t_crit_left = stats.t.ppf(alpha/2, df=n-2)
t_crit_right = stats.t.isf(alpha/2, df=n-2)

print(t_crit_left, t_cal, t_crit_right, p_value)

# ปฏิเสธสมมติฐานหลัก H0 (mk_share กับ payback_customer มีความสัมพันธ์เชิงเส้นกัน)

-2.178812829663418 5.942316039704832 2.178812829663418 6.793657739462234e-05


#### แบบทดสอบ 10.6

In [8]:
alpha = 0.05

x = df_sales.ad_cost
y = df_sales.sale
x_wconst = sm.add_constant(x)
lr = sm.OLS(y, x_wconst).fit()
print(lr.summary())

                            OLS Regression Results                            
Dep. Variable:                   sale   R-squared:                       0.707
Model:                            OLS   Adj. R-squared:                  0.678
Method:                 Least Squares   F-statistic:                     24.17
Date:                Fri, 22 Mar 2024   Prob (F-statistic):           0.000608
Time:                        18:48:48   Log-Likelihood:                -31.561
No. Observations:                  12   AIC:                             67.12
Df Residuals:                      10   BIC:                             68.09
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         25.4655      4.170      6.107      0.0



In [9]:
# H0: ไม่มีความสัมพันธ์เชิงเส้นตรงกัน
# H1: มีความสัมพันธ์เชิงเส้นตรงกัน

f_cal = lr.fvalue
f_crit = stats.f.isf(alpha, dfn=1, dfd=10)
p_value = lr.f_pvalue

print(f_cal, f_crit, p_value)

# ปฏิเสธสมมติฐานหลัก H0 (มีความสัมพันธ์เชิงเส้นตรงกัน)

24.170817597336125 4.9646027437307145 0.0006081181882655805


In [10]:
# สัมประสิทธิ์การตัดสินใจ
r2 = lr.rsquared
print(r2)

0.7073526270913817
