In [8]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.stats.diagnostic import linear_reset
import seaborn as sns
import matplotlib.pyplot as plt

# Загрузка данных
D = pd.read_csv("Cottage.csv")

# Описательные статистики
print("Описательные статистики:")
print(D.describe())

# Матрица корреляций
print("\nМатрица корреляций:")
print(D.corr())

# Модель 1
model_1 = smf.ols('price ~ living_area + total_area + land + dist', data=D).fit()
print("\nМодель 1:")
print(model_1.summary())

# Проверка мультиколлинеарности (VIF)
X = D[['living_area', 'land', 'dist']]
X = sm.add_constant(X)
vif = pd.DataFrame()
vif["Variable"] = X.columns
vif["VIF"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
print("\nVIF для модели 0:")
print(vif)

# Модель 2
model_2 = smf.ols('price ~ total_area + land + dist', data=D).fit()
print("\nМодель 2:")
print(model_2.summary())

# Модель 3
model_3 = smf.ols('np.log(price) ~ np.log(total_area) + np.log(land) + np.log(dist)', data=D).fit()
print("\nМодель 3:")
print(model_3.summary())

# Модель 4
model_4 = smf.ols('np.log(price) ~ np.log(total_area) + np.log(land) + np.log(dist) + lake', data=D).fit()
print("\nМодель 4:")
print(model_4.summary())

# Модель 5 (с взаимодействием)
model_5 = smf.ols('np.log(price) ~ np.log(total_area) + np.log(land) + np.log(dist) + lake:np.log(total_area)', data=D).fit()
print("\nМодель 5:")
print(model_5.summary())

# Сводная таблица моделей
from statsmodels.iolib.summary2 import summary_col
print("\nСводная таблица моделей:")
print(summary_col([model_1, model_2, model_3, model_4, model_5]))

# Тест Рамсея для модели 5
reset_result = linear_reset(model_5, power=3, test_type='fitted')
print("\nТест Рамсея для модели 5:")
print(reset_result.summary())



Описательные статистики:
       living_area  total_area        land        dist        lake       price
count   200.000000   200.00000  200.000000  200.000000  200.000000  200.000000
mean     89.750000   113.24000   24.600000   60.910000    0.055000   16.570000
std      28.656824    29.73522    8.963354   27.885118    0.228552   14.173551
min      41.000000    54.00000   10.000000   10.000000    0.000000    2.000000
25%      65.500000    88.00000   17.000000   39.000000    0.000000    7.000000
50%      92.000000   114.50000   24.000000   58.500000    0.000000   13.000000
75%     113.000000   136.00000   32.000000   86.250000    0.000000   21.250000
max     140.000000   175.00000   40.000000  109.000000    1.000000   99.000000

Матрица корреляций:
             living_area  total_area      land      dist      lake     price
living_area     1.000000    0.962987 -0.068922 -0.192299 -0.005563  0.379072
total_area      0.962987    1.000000 -0.083369 -0.186556 -0.018219  0.379730
land        