### 記錄一下操作過程
1. 建立虛擬環境
   >conda create --name envStatistics
2. 安裝必要庫
   >conda install -c conda-forge pandas pyreadstat statsmodels

In [7]:
import pandas as pd
import pyreadstat
import statsmodels.formula.api as smf

### 讀取並檢視資料

In [9]:
# 讀取 .sav 檔案
df, meta = pyreadstat.read_sav('V04_for_Modeler.sav')

# 檢視 DataFrame 的前幾行，確認資料讀取正確
print(df.head())


    sn  nomophobia_continue  sex  age  edu  job  use_time  use_experience  \
0  1.0                102.0  1.0  4.0  2.0  4.0       2.0             1.0   
1  2.0                116.0  0.0  2.0  2.0  2.0       3.0             1.0   
2  3.0                 67.0  0.0  3.0  3.0  2.0       2.0             1.0   
3  4.0                103.0  2.0  2.0  3.0  2.0       4.0             1.0   
4  5.0                105.0  0.0  4.0  3.0  1.0       4.0             1.0   

   use_service  want_try  ...  use_problem8  avgPE  avgEE     avgSI     avgFC  \
0          0.0       1.0  ...           0.0    4.0   6.25  1.333333  5.000000   
1          0.0       0.0  ...           0.0    3.0   3.25  2.000000  4.333333   
2          0.0       0.0  ...           0.0    1.0   5.50  1.000000  6.000000   
3          0.0       1.0  ...           0.0    6.5   7.00  5.666667  5.000000   
4          0.0       1.0  ...           0.0    6.0   3.25  1.000000  4.333333   

      avgHM     avgHB     avgPV     avgBI  test  


### 進行迴歸分析

>此處假設以 'avgBI' 為因變數， 'avgPE'、'avgPE'等為自變數

In [10]:

model = smf.ols(formula='avgBI ~ avgPE + avgPE + avgSI + avgFC + avgHM + avgHB', data=df)
results = model.fit()

# 列印迴歸分析結果
print(results.summary())


                            OLS Regression Results                            
Dep. Variable:                  avgBI   R-squared:                       0.692
Model:                            OLS   Adj. R-squared:                  0.686
Method:                 Least Squares   F-statistic:                     124.3
Date:                Wed, 31 May 2023   Prob (F-statistic):           8.96e-82
Time:                        08:50:23   Log-Likelihood:                -455.11
No. Observations:                 339   AIC:                             924.2
Df Residuals:                     332   BIC:                             951.0
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -0.7902      0.201     -3.933      0.0

In [2]:
import pandas as pd
import pyreadstat
import statsmodels.api as sm



In [5]:
# 讀取 .sav 檔案
df, meta = pyreadstat.read_sav('Data_0519_01.sav')

# 假設你有三個變數: 'Var1', 'Var2', 'Var3'，你想要以'Var1'為因變數，'Var2'和'Var3'為自變數

# 建立因變數和自變數
Y = df['ZavgBI']

# 第一階段：只包含
X = df[['age', 'edu']]
X = sm.add_constant(X)  # 增加常數項

model = sm.OLS(Y, X)  # 構建模型
results1 = model.fit()
print('==============第一階==============')
print(results1.summary())

# 第二階段：包含兩個自變數
X = df[['age', 'edu', 'ZavgPE', 'Zcontinue_nomophobia']]
X = sm.add_constant(X)  # 增加常數項
model = sm.OLS(Y, X)  # 構建模型
results2 = model.fit()
print('==============第二階==============')
print(results2.summary())

# 第三階段：包含交互作用
X = df[['age', 'edu', 'ZavgPE', 'Zcontinue_nomophobia', 'MO_nomo_pe']]
X = sm.add_constant(X)  # 增加常數項
model = sm.OLS(Y, X)  # 構建模型
results3 = model.fit()
print('==============第三階==============')
print(results3.summary())

                            OLS Regression Results                            
Dep. Variable:                 ZavgBI   R-squared:                       0.074
Model:                            OLS   Adj. R-squared:                  0.068
Method:                 Least Squares   F-statistic:                     13.39
Date:                Wed, 31 May 2023   Prob (F-statistic):           2.54e-06
Time:                        09:20:15   Log-Likelihood:                -467.52
No. Observations:                 339   AIC:                             941.0
Df Residuals:                     336   BIC:                             952.5
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.1955      0.257      0.760      0.4

In [8]:
output = f"""
在第一階段階層迴歸中，我們只考慮變數 Var2 對 Var1 的影響。模型的統計結果如下：

{results1.summary()}

在第二階段，我們增加了變數 Var3 進行階層迴歸。模型的統計結果如下：

{results2.summary()}

進一步的分析與討論......
{results3.summary()}

"""
print(output)


在第一階段階層迴歸中，我們只考慮變數 Var2 對 Var1 的影響。模型的統計結果如下：

                            OLS Regression Results                            
Dep. Variable:                 ZavgBI   R-squared:                       0.074
Model:                            OLS   Adj. R-squared:                  0.068
Method:                 Least Squares   F-statistic:                     13.39
Date:                Wed, 31 May 2023   Prob (F-statistic):           2.54e-06
Time:                        09:20:47   Log-Likelihood:                -467.52
No. Observations:                 339   AIC:                             941.0
Df Residuals:                     336   BIC:                             952.5
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
cons

In [15]:
# 從你給的回歸分析結果中提取出相關的數值
first_stage = {
    'r_squared': 0.074,
    'adj_r_squared': 0.068,
    'f_statistic': 13.39,
    'age_coef': -0.1936,
    'edu_coef': 0.1582
}

second_stage = {
    'r_squared': 0.469,
    'adj_r_squared': 0.463,
    'f_statistic': 73.79,
    'age_coef': -0.0795,
    'edu_coef': 0.0472,
    'ZavgPE_coef': 0.6032,
    'Zcontinue_nomophobia_coef': 0.0921
}

third_stage = {
    'r_squared': 0.485,
    'adj_r_squared': 0.477,
    'f_statistic': 62.62,
    'age_coef': -0.0980,
    'edu_coef': 0.0541,
    'ZavgPE_coef': 0.5897,
    'Zcontinue_nomophobia_coef': 0.1085,
    'MO_nomo_pe_coef': 0.1119
}

# 將結果以文字描述
output = f"""
在第一階段的迴歸分析中，我們只考慮年齡和教育程度兩個變數。
模型的R平方值為 {first_stage['r_squared']:.3f}，
調整後的R平方值為 {first_stage['adj_r_squared']:.3f}，
F統計值為 {first_stage['f_statistic']:.2f}。
年齡的迴歸係數為 {first_stage['age_coef']:.4f}，
教育程度的迴歸係數為 {first_stage['edu_coef']:.4f}。

在第二階段，我們在模型中加入了 'ZavgPE' 和 'Zcontinue_nomophobia' 兩個變數。
模型的R平方值提升至 {second_stage['r_squared']:.3f}，
調整後的R平方值為 {second_stage['adj_r_squared']:.3f}，
F統計值提升至 {second_stage['f_statistic']:.2f}。
此階段中，年齡、教育程度、'ZavgPE'、以及 'Zcontinue_nomophobia' 的迴歸係數
分別為 {second_stage['age_coef']:.4f}、{second_stage['edu_coef']:.4f}、{second_stage['ZavgPE_coef']:.4f}、以及 {second_stage['Zcontinue_nomophobia_coef']:.4f}。

在第三階段，我們進一步在模型中加入了 'MO_nomo_pe' 變數。
模型的R平方值進一步提升至 {third_stage['r_squared']:.3f}，
調整後的R平方值為 {third_stage['adj_r_squared']:.3f}，
F統計值為 {third_stage['f_statistic']:.2f}。
此階段中，年齡、教育程度、'ZavgPE'、'Zcontinue_nomophobia'、以及 'MO_nomo_pe' 的迴歸係數
分別為 {third_stage['age_coef']:.4f}、{third_stage['edu_coef']:.4f}、{third_stage['ZavgPE_coef']:.4f}、{third_stage['Zcontinue_nomophobia_coef']:.4f}、以及 {third_stage['MO_nomo_pe_coef']:.4f}。
"""
print(output)



在第一階段的迴歸分析中，我們只考慮年齡和教育程度兩個變數。
模型的R平方值為 0.074，
調整後的R平方值為 0.068，
F統計值為 13.39。
年齡的迴歸係數為 -0.1936，
教育程度的迴歸係數為 0.1582。

在第二階段，我們在模型中加入了 'ZavgPE' 和 'Zcontinue_nomophobia' 兩個變數。
模型的R平方值提升至 0.469，
調整後的R平方值為 0.463，
F統計值提升至 73.79。
此階段中，年齡、教育程度、'ZavgPE'、以及 'Zcontinue_nomophobia' 的迴歸係數
分別為 -0.0795、0.0472、0.6032、以及 0.0921。

在第三階段，我們進一步在模型中加入了 'MO_nomo_pe' 變數。
模型的R平方值進一步提升至 0.485，
調整後的R平方值為 0.477，
F統計值為 62.62。
此階段中，年齡、教育程度、'ZavgPE'、'Zcontinue_nomophobia'、以及 'MO_nomo_pe' 的迴歸係數
分別為 -0.0980、0.0541、0.5897、0.1085、以及 0.1119。

