Вариаант 21

In [52]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import statsmodels.api as sm
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [53]:
file_data = pd.read_excel("./data8/Volgmed_2013.xlsx", header=1)
data = file_data[['Пол', 'Курс', 'Сила правой руки, кг', 'Рост, см', 'Сила левой руки, кг', 'Бег 100 м, с']]
data = data.dropna()
data = data.loc[((data['Пол'] == 'жен') | (data['Пол'] == 'жен.'))& (data['Курс'] == 1)]

In [54]:
def clean_strings(data, column_name):
    data =  data[pd.to_numeric(data[column_name], errors='coerce').notnull()]
    data = data.dropna(axis=0, subset=column_name)
    return data

def clean_data(data, column_name):
    data_arr = data[column_name].to_numpy()
    q_025 = np.quantile(data_arr, 0.25)
    q_075 = np.quantile(data_arr, 0.75)
    iqd = q_075-q_025
    upper_threshold = q_075+1.5*iqd
    lower_threshold = q_025-1.5*iqd
    data =  data.loc[ (data[column_name] <= upper_threshold) & (data[column_name] >= lower_threshold)]
    return data

data = clean_strings(data, 'Сила правой руки, кг')
data = clean_strings(data, 'Сила левой руки, кг')
data = clean_strings(data, 'Рост, см')
data = clean_strings(data, 'Бег 100 м, с')

data = clean_data(data, 'Сила правой руки, кг')
data = clean_data(data, 'Сила левой руки, кг')
data = clean_data(data, 'Рост, см')
data = clean_data(data, 'Бег 100 м, с')

In [55]:
right = data['Сила правой руки, кг'].to_numpy(dtype=float)
X1 = sm.add_constant(data['Рост, см'].to_numpy(dtype=float))
X2 = np.column_stack((X1, data['Сила левой руки, кг'].to_numpy(dtype=float)))
X3 = np.column_stack((X2, data['Бег 100 м, с'].to_numpy(dtype=float)))
model = sm.OLS(right, X3)
res = model.fit()
print(res.summary())
print('Коэффициент детерминации', res.rsquared)
print('Коэффициенты с их оценкой пи-значений:')
names = ['Константа', 'Рост, см', 'Сила левой руки, кг', 'Бег 100 м, с']
params_to_delete = []
for i in range(len(res.params)):
    print(f"{names[i]}: {res.params[i]} (p-значение: {res.pvalues[i]})")
    if(res.pvalues[i] > 0.05):
        params_to_delete.append(i)

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.647
Model:                            OLS   Adj. R-squared:                  0.646
Method:                 Least Squares   F-statistic:                     402.3
Date:                Thu, 31 Oct 2024   Prob (F-statistic):          2.91e-148
Time:                        19:12:12   Log-Likelihood:                -1906.5
No. Observations:                 661   AIC:                             3821.
Df Residuals:                     657   BIC:                             3839.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         -7.3877      5.124     -1.442      0.1

In [56]:
for p in params_to_delete[::-1]:
    X3 = np.delete(X3, p, axis=1)
    names = np.delete(names, p, axis=None)
model = sm.OLS(right, X3)
res = model.fit()
print(res.summary())
print('Коэффициент детерминации', res.rsquared)
print('Коэффициенты с их оценкой пи-значений:')
for i in range(len(res.params)):
    print(f"{names[i]}: {res.params[i]} (p-значение: {res.pvalues[i]})")

                                 OLS Regression Results                                
Dep. Variable:                      y   R-squared (uncentered):                   0.971
Model:                            OLS   Adj. R-squared (uncentered):              0.971
Method:                 Least Squares   F-statistic:                          1.115e+04
Date:                Thu, 31 Oct 2024   Prob (F-statistic):                        0.00
Time:                        19:12:12   Log-Likelihood:                         -1911.7
No. Observations:                 661   AIC:                                      3827.
Df Residuals:                     659   BIC:                                      3836.
Df Model:                           2                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

In [57]:
residuals = res.resid
sample_variance = np.var(residuals, ddof=1)
print(f'Выборочная дисперсия регрессионных остатков: {sample_variance}')

n_iterations = 200
mse_list = []

for _ in range(n_iterations):
    X_train, X_test, y_train, y_test = train_test_split(X3, right, test_size=0.2)

    model_cv = sm.OLS(y_train.astype(np.float64), X_train.astype(np.float64)).fit()
    predictions = model_cv.predict(X_test)

    mse = mean_squared_error(y_test, predictions)
    mse_list.append(mse)

mean_mse = np.mean(mse_list)
print(f'Среднее значение квадрата отклонения по контрольной группе: {mean_mse}')
print(f'Отношение MSE к выборочной дисперсии остатков: {mean_mse / sample_variance}')

Выборочная дисперсия регрессионных остатков: 19.06430341200613
Среднее значение квадрата отклонения по контрольной группе: 19.337736029180782
Отношение MSE к выборочной дисперсии остатков: 1.0143426492573788
