In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier, export_text, plot_tree
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression

# Загрузка данных
dataset = pd.read_csv('Mall_Customers.csv')
# 3. Подготовка данных
# Удаляем пропущенные значения
dataset = dataset.dropna()

# Определяем матрицу признаков (X) и целевую переменную (y)
# Признаки: 'Age', 'Spending Score (1-100)'
# Целевая переменная: 'Annual Income (k$)'
X = dataset[['Age', 'Spending Score (1-100)']].values
y = dataset['Annual Income (k$)'].values

# 4. Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 5. Обучение линейной регрессии
regressor = LinearRegression()
regressor.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = regressor.predict(X_test)

# Вывод первых 5 предсказаний
print("Предсказания:")
print(y_pred[:5])

# Оценка модели
print("\nОценка модели:")
print(f"Среднеквадратичная ошибка (MSE): {mean_squared_error(y_test, y_pred):.2f}")
print(f"Коэффициент детерминации (R^2): {regressor.score(X_test, y_test):.2f}")


Предсказания:
[60.71280553 61.59595372 60.16645648 60.49663773 60.51049548]

Оценка модели:
Среднеквадратичная ошибка (MSE): 677.33
Коэффициент детерминации (R^2): -0.01


In [4]:
import numpy as np
import statsmodels.api as sm

# Добавляем столбец единиц для константы (обязательный шаг для OLS)
X = np.append(arr=np.ones((X.shape[0], 1)).astype(int), values=X, axis=1)

# 6. Оптимизация модели с помощью backward elimination
# Начальная модель со всеми признаками
X_opt = X[:, [0, 1, 2]]  # Индексы признаков: 0 (константа), 1 ('Age'), 2 ('Spending Score (1-100)')
regressor_OLS = sm.OLS(endog=y, exog=X_opt).fit()
print("Модель с полным набором признаков:")
print(regressor_OLS.summary())

# Удаление признаков с наибольшим p-значением (если p > 0.05)
X_opt = X[:, [0, 1]]  # Пример: Удален 'Spending Score (1-100)'
regressor_OLS = sm.OLS(endog=y, exog=X_opt).fit()
print("Модель после удаления одного признака:")
print(regressor_OLS.summary())


Модель с полным набором признаков:
                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.000
Model:                            OLS   Adj. R-squared:                 -0.010
Method:                 Least Squares   F-statistic:                   0.01891
Date:                Wed, 18 Dec 2024   Prob (F-statistic):              0.981
Time:                        13:41:40   Log-Likelihood:                -936.91
No. Observations:                 200   AIC:                             1880.
Df Residuals:                     197   BIC:                             1890.
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         60.