In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

# 1. Загрузка данных
df = pd.read_csv('/content/boston.csv')

# 2. Проверка типов данных
df = df.apply(pd.to_numeric, errors='coerce')

# 3. Проверка и заполнение пропусков
if df.isnull().sum().sum() > 0:
    df = df.fillna(df.median())
    print("Обнаружены пропущенные значения. Пропуски заполнены медианными значениями.")
else:
    print("Пропущенные значения в данных отсутствуют.")

# 4. Корреляционная матрица
corr_matrix = df.corr()

# 5. Тепловая карта корреляций
plt.figure(figsize=(12, 10))
sns.heatmap(corr_matrix, cmap='coolwarm', annot=False)
plt.title('Корреляционная матрица признаков')
plt.show()

# 6. Выбор признаков по корреляции с MEDV
corr_target = corr_matrix['MEDV'].drop('MEDV').sort_values(key=abs, ascending=False)
selected_features = corr_target.head(5).index.tolist()

print("\nЗадание 6. Выбор признаков:")
print("Для анализа выбраны признаки с наибольшим по модулю коэффициентом корреляции с целевой переменной MEDV.")
print("Это обосновано тем, что коэффициент корреляции отражает силу линейной зависимости,")
print("а линейная регрессия наиболее эффективно работает именно с линейными связями.")
print("Выбранные признаки:", selected_features)
print("Значения корреляции:")
print(corr_target.head(5))

# 7. Диаграммы рассеяния
for feature in selected_features:
    plt.figure()
    sns.scatterplot(x=df[feature], y=df['MEDV'])
    plt.title(f'MEDV vs {feature}')
    plt.show()

# 8. Итоговый визуальный выбор признаков
final_features = ['LSTAT', 'RM', 'INDUS']

print("\nЗадание 8. Итоговый выбор признаков:")
print("На основе визуального анализа диаграмм рассеяния было принято решение оставить признаки:")
print(final_features)
print("Для признаков LSTAT, RM и INDUS наблюдается выраженная зависимость с MEDV.")
print("Признак LSTAT демонстрирует сильную обратную зависимость,")
print("RM — прямую зависимость,")
print("INDUS — умеренную обратную зависимость.")
print("Данные признаки были оставлены для построения регрессионной модели.")

# Формирование X и y
X = df[final_features]
y = df['MEDV']

# 9. Разделение данных
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# 10. Обучение линейной регрессии
model = LinearRegression()
model.fit(X_train, y_train)

# 11. Прогнозы
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

# 12. Метрики качества
r2_train = r2_score(y_train, y_train_pred)
r2_test = r2_score(y_test, y_test_pred)

rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))
rmse_test = np.sqrt(mean_squared_error(y_test, y_test_pred))

print("\nЗадание 13. Оценка качества модели:")
print(f"R2 на обучающей выборке: {r2_train:.3f}")
print(f"R2 на тестовой выборке: {r2_test:.3f}")
print(f"RMSE на обучающей выборке: {rmse_train:.3f}")
print(f"RMSE на тестовой выборке: {rmse_test:.3f}")

print("\nАнализ результатов:")
print("Значения R2 показывают, какую долю дисперсии целевой переменной объясняет модель.")
print("Близкие значения R2 на обучающей и тестовой выборках указывают на отсутствие переобучения.")
print("RMSE характеризует среднюю ошибку прогноза в тысячах долларов.")
print("Полученные значения RMSE являются приемлемыми, что говорит о корректной работе модели.")
print("В целом модель линейной регрессии можно считать адекватной для поставленной задачи.")

<class 'ModuleNotFoundError'>: No module named 'seaborn'