**Лабораторная работа №4** Вариант 9

**Цель лабораторной работы:** изучение принципов решения задачи многомерной регрессии с использованием методов машинного обучения.

Набор данных служит хорошим введением в реализацию алгоритмов машинного обучения, поскольку требует элементарной очистки данных, имеет легко понимаемый список переменных и оптимальный размер между слишком игрушечным и слишком громоздким. Данные содержат информацию по экономике и безработице.

Атрибуты:


*   **Number** - индекс;
*   **A1** - процент дефляции цен;
*   **A2** - ВНП в миллионах долларов;
*   **A3** - число безработных в тысячах;
*   **A4** - количество людей, занятый в вооруженных силах;
*   **A5** - количество людей, старше 14 лет;
*   **A6** - год;
*   **B** - количество занятых людей.

**1. Импортируем библиотеки и загружаем данные.**

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv('x21.csv')
df.head()

**2. Получим информацию о датасете.**

In [None]:
df.info()

**3. Проверяем наличие пропущенных значений и выбросов.**

In [None]:
print(df.isnull().sum())

**4. Разделяем данные на признаки и целевую переменную.**

In [None]:
y = df['B']
X = df.drop(['B', 'Number'], axis=1)

X.head()

**5. Разделяем данные на обучающую и тестовую выборку.**

In [48]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

**6. Применяем операцию нормализации для численной устойчивости.**

In [49]:
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression

scaler = StandardScaler()

**7. Масштабируем признаки обучающей выборки.**

In [None]:
X_train_scaled = scaler.fit_transform(X_train)

print(scaler.mean_)
print(scaler.scale_)

**8. Обучаем модель линейной регрессии.**

In [None]:
model = LinearRegression().fit(X_train_scaled, y_train)
model

**9. Делаем прогноз на основе данных тестирования.**

In [None]:
X_test_scaled = scaler.transform(X_test)
y_pred = model.predict(X_test_scaled)

print(y_pred[:5])

In [None]:
from sklearn.metrics import root_mean_squared_error
from sklearn.metrics import r2_score

print('Root Mean Squared Error (RMSE):', root_mean_squared_error(y_test, y_pred))

In [None]:
print('R2:', np.round(r2_score(y_test, y_pred), 2))

In [None]:
print('R2 score:', model.score(X_test_scaled, y_test))

**10. Итоговое уравнение.**

In [None]:
print('Coefficients:', model.coef_)

In [None]:
print('Intercept:', model.intercept_)

**11. Оценим влияние признаков на целевую переменную.**

In [None]:
print("Коэффициенты модели (влияние признаков на занятость):")
for i, feature in enumerate(X.columns):
    print(f"{feature}: {model.coef_[i]:.2f}")

print(f"Свободный член (intercept): {model.intercept_:.2f}")

In [None]:
df.corr()

**12. Визуализация результатов регрессии.**

In [None]:
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
plt.xlabel("Фактические значения")
plt.ylabel("Предсказанные значения")
plt.title("Фактические vs Предсказанные значения (Занятость)")
plt.grid()
plt.show()

**13. Остатки регрессии.**

In [None]:
residuals = y_test - y_pred
plt.figure(figsize=(10, 6))
plt.scatter(y_pred, residuals, alpha=0.7)
plt.axhline(y=0, color='red', linestyle='--', linewidth=2, label='Нет ошибки')
plt.xlabel('Предсказанные значения (Predicted)')
plt.ylabel('Остатки (Residuals)')
plt.title('Диаграмма остатков (Residuals Plot)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

**Результат:**



*   Хорошо: Остатки беспорядочно разбросаны вокруг горизонтальной красной линии (нуля), нет никаких явных дуг, форм или конусов.
*   Плохо: Остатки образуют форму 'воронки' (гетероскедастичность) или кривую линию (нелинейность), что говорит о неадекватности модели.

