**РК №2 Григорян Александр ИУ5-64Б**

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score, confusion_matrix

# Загрузка данных
df = pd.read_csv('sample_data/HousingData.csv')

# Предварительная обработка
# Заполнение пропущенных значений средним значением
df.fillna(df.mean(), inplace=True)

# Кодирование категориальных признаков не требуется, так как все столбцы числовые


In [None]:
X = df.drop('AGE', axis=1)
y = df['AGE']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:
lr = LinearRegression()
lr.fit(X_train, y_train)

In [None]:
gbr = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=1, random_state=42)
gbr.fit(X_train, y_train)

In [None]:
y_pred_lr = lr.predict(X_test)
mse_lr = mean_squared_error(y_test, y_pred_lr)
r2_lr = r2_score(y_test, y_pred_lr)
print(f"Модель линейной регрессии:\nMSE: {mse_lr}\nR^2: {r2_lr}")


Модель линейной регрессии:
MSE: 291.226258747568
R^2: 0.6306411103071266


In [None]:
y_pred_gbr = gbr.predict(X_test)
mse_gbr = mean_squared_error(y_test, y_pred_gbr)
r2_gbr = r2_score(y_test, y_pred_gbr)
print(f"Модель градиентного бустинга:\nMSE: {mse_gbr}\nR^2: {r2_gbr}")

Модель градиентного бустинга:
MSE: 217.51060249864284
R^2: 0.7241338230253334


# Выводы
Из представленного исследования были использованы две метрики качества для оценки моделей: среднеквадратичная ошибка (MSE - Mean Squared Error) и коэффициент детерминации (R^2 - R-squared). Эти метрики выбраны по следующим причинам:


*   MSE измеряет среднее квадрат отклонения прогнозных значений от фактических значений. Это позволяет количественно оценить "размер" ошибки, делая большие ошибки более заметными благодаря возведению в квадрат. MSE особенно полезен, когда важны точные прогнозы, например, в финансовых прогнозах или медицинских диагностических системах.
*   R^2 показывает долю дисперсии зависимной переменной, объясненную независимыми переменными. Этот показатель варьируется от 0 до 1, где 1 означает идеальное соответствие между прогнозными и фактическими значениями. R^2 помогает понять, насколько хорошо модель может объяснить вариации в данных, и является популярным индикатором эффективности модели.

После оценки моделей с использованием этих метрик можно сделать следующие выводы:

*   Если MSE близко к нулю, это указывает на то, что модель делает очень точные прогнозы, минимизируя разницу между прогнозными и фактическими значениями.
*   Значение R^2 близкое к 1 говорит о том, что модель способна объяснить большую часть вариативности в данных, что делает ее эффективной для прогнозирования.
*   Сравнение этих метрик между различными моделями поможет определить, какая модель лучше всего подходит для данной задачи. Например, если одна модель имеет значительно меньшее MSE и высокое значение R^2, это может указывать на ее превосходство над другими моделями.

Важно помнить, что выбор метрик зависит от контекста задачи и целей анализа. В некоторых случаях могут быть полезны другие метрики, такие как MAE (Mean Absolute Error) для более мягкой оценки ошибок или AUC-ROC для задач классификации.