In [19]:
import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy
import os
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm
from scipy import stats
from scipy.stats import norm, ttest_ind, shapiro

In [20]:
path = "C:\\Users\\ROfl\\Desktop\\MS\\MatStat\\4"
os.chdir(path)

CFD = pd.read_excel("DATA.xlsx", sheet_name='ДАННЫЕ')
CFD.columns = ["STAF","EDU","GEN","SAL"]
n = 509
CFD = CFD.iloc[: n]
CFD

Unnamed: 0,STAF,EDU,GEN,SAL
0,22.384615,12,0,53.410000
1,8.903846,12,0,8.000000
2,13.250000,15,0,24.000000
3,18.250000,13,0,29.500000
4,13.769231,18,0,32.049999
...,...,...,...,...
504,16.019230,16,1,23.250000
505,17.557692,17,1,48.070000
506,18.942308,12,1,11.500000
507,17.442308,12,1,9.250000


In [21]:
alpha = 0.02
gamma = 0.975
n = 509

In [22]:
X = CFD[['STAF', 'EDU', 'GEN']]
X = np.c_[np.ones(X.shape[0]), X]  # Добавляем столбец для константы (свободный член)
y = CFD['SAL']

# Построение модели
model = LinearRegression(fit_intercept=False)  # fit_intercept=False так как мы уже добавили константу вручную
model.fit(X, y)

# Получаем оценки коэффициентов
beta_hat = model.coef_

In [23]:
# Выводим оценки параметров модели
print("Оценки параметров модели:")
print(f"β0 (константа): {beta_hat[0]:.4f}")
print(f"β1 (СТАЖ РАБОТЫ): {beta_hat[1]:.4f}")
print(f"β2 (ВРЕМЯ, ЗАТРАЧЕННОЕ НА ОБРАЗОВАНИЕ): {beta_hat[2]:.4f}")
print(f"β3 (ПОЛ): {beta_hat[3]:.4f}")

Оценки параметров модели:
β0 (константа): -20.8922
β1 (СТАЖ РАБОТЫ): 0.4327
β2 (ВРЕМЯ, ЗАТРАЧЕННОЕ НА ОБРАЗОВАНИЕ): 2.6434
β3 (ПОЛ): -5.8258


In [24]:
X = CFD[['STAF', 'EDU', 'GEN']]
y = CFD['SAL']

# Добавляем столбец для константы
X = sm.add_constant(X)

# Построение модели с использованием statsmodels
model = sm.OLS(y, X).fit()

# Выводим сводку о модели, которая включает p-значения и коэффициенты
print(model.summary())

# Проверка объясняющей способности модели (коэффициент детерминации R^2)
R2 = model.rsquared
print(f"Коэффициент детерминации R^2: {R2:.4f}")

# Получаем p-значения для каждого коэффициента
p_values = model.pvalues
print("\nP-значения для коэффициентов:")
print(p_values)

# Проверка значимости на уровне alpha
significant_coefficients = p_values < alpha
print("\nКоэффициенты с p-значением меньше alpha:")
print(significant_coefficients)


                            OLS Regression Results                            
Dep. Variable:                    SAL   R-squared:                       0.242
Model:                            OLS   Adj. R-squared:                  0.238
Method:                 Least Squares   F-statistic:                     53.75
Date:                Sat, 14 Dec 2024   Prob (F-statistic):           3.65e-30
Time:                        17:51:08   Log-Likelihood:                -2019.8
No. Observations:                 509   AIC:                             4048.
Df Residuals:                     505   BIC:                             4065.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        -20.8922      4.564     -4.578      0.0

In [25]:
p_value = model.pvalues['GEN']
print(f"P-значение для переменной 'ПОЛ': {p_value}")

P-значение для переменной 'ПОЛ': 9.532785261414297e-07


In [26]:
if p_value < alpha:
    print("ПОЛ оказывает значимое влияние на зарплату при прочих равных условиях.")
else:
    print("ПОЛ не оказывает значимого влияния на зарплату при прочих равных условиях.")

ПОЛ оказывает значимое влияние на зарплату при прочих равных условиях.


In [27]:
p_value_stazh = model.pvalues['STAF']
print(f"P-значение для переменной 'СТАЖ РАБОТЫ': {p_value_stazh}")

P-значение для переменной 'СТАЖ РАБОТЫ': 0.0016196046314132558


In [28]:
if p_value_stazh < alpha:
    print("СТАЖ РАБОТЫ оказывает значимое влияние на зарплату.")
else:
    print("СТАЖ РАБОТЫ не оказывает значимого влияния на зарплату.")

СТАЖ РАБОТЫ оказывает значимое влияние на зарплату.


In [29]:
p_value_edu = model.pvalues['EDU']
print(f"P-значение для переменной 'СТАЖ РАБОТЫ': {p_value_edu}")

P-значение для переменной 'СТАЖ РАБОТЫ': 6.131317417087692e-26


In [30]:
if p_value_edu < alpha:
    print("СТАЖ РАБОТЫ оказывает значимое влияние на зарплату.")
else:
    print("СТАЖ РАБОТЫ не оказывает значимого влияния на зарплату.")

СТАЖ РАБОТЫ оказывает значимое влияние на зарплату.


In [31]:
X = CFD[['STAF', 'EDU', 'GEN']]
y = CFD['SAL']
X = sm.add_constant(X)

In [32]:
model = sm.OLS(y, X).fit()

In [33]:
a = 11  # СТАЖ РАБОТЫ
b = 14  # ВРЕМЯ, ЗАТРАЧЕННОЕ НА ОБРАЗОВАНИЕ
Z = 0  # Пол 

In [34]:
X_new = np.array([1, a, b, Z]).reshape(1, -1)  # Вектор для нового наблюдения
y_new = model.predict(X_new)[0]

In [35]:
y_hat = model.fittedvalues
residuals = y - y_hat
mse = np.sum(residuals**2) / (len(y) - X.shape[1])
se_y_new = np.sqrt(mse * (1 + X_new @ np.linalg.inv(X.T @ X) @ X_new.T))

In [36]:
# t-статистика для уровня значимости gamma (например, 0.975)
alpha = 1 - 0.975
t_critical = stats.t.ppf(1 - alpha/2, df=len(y) - X.shape[1])


In [38]:
lower_bound = y_new - t_critical * se_y_new
upper_bound = y_new + t_critical * se_y_new

print(f"Прогнозная зарплата: {y_new:.2f}")
print(f"Доверительный интервал: ({lower_bound}, {upper_bound})")

Прогнозная зарплата: 20.87
Доверительный интервал: ([[-8.13772139]], [[49.88752064]])


In [39]:
beta_1 = model.params['STAF']  # Получаем коэффициент из модели

# Изменение зарплаты при увеличении СТАЖА РАБОТЫ на 2 года
delta_salary = beta_1 * 2
print(f"Изменение зарплаты при увеличении стажа на 2 года: {delta_salary:.2f} долларов в час")

Изменение зарплаты при увеличении стажа на 2 года: 0.87 долларов в час
