In [125]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
import pandas as pd


In [126]:
df = pd.read_csv('data.csv')

In [127]:
df.head()

Unnamed: 0,Площа,Кімнати,Відстань до центру,Ціна
0,77.421052,4,16.771884,677.389182
1,182.115751,3,1.007327,1885.943577
2,187.313677,1,16.7109,1797.885572
3,153.485365,3,5.578008,1491.770811
4,86.24927,1,10.750272,717.524728


In [128]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Площа               1000 non-null   float64
 1   Кімнати             1000 non-null   int64  
 2   Відстань до центру  1000 non-null   float64
 3   Ціна                1000 non-null   float64
dtypes: float64(3), int64(1)
memory usage: 31.4 KB


In [129]:
df.describe()

Unnamed: 0,Площа,Кімнати,Відстань до центру,Ціна
count,1000.0,1000.0,1000.0,1000.0
mean,126.047972,3.001,10.342186,1255.279226
std,42.992305,1.415982,5.543682,442.747914
min,50.150057,1.0,1.007327,333.719824
25%,88.733213,2.0,5.279044,881.312868
50%,126.951726,3.0,10.362972,1251.201444
75%,162.917435,4.0,15.203398,1623.499084
max,199.962678,5.0,19.998625,2120.421603


In [130]:
X = df[['Площа', 'Кімнати', 'Відстань до центру']]
y = df['Ціна']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = LinearRegression()
model.fit(X_train, y_train)

# Оцінка моделі на тестових даних
y_pred = model.predict(X_test)

In [131]:

# Обчислення середньо-квадратичної помилки (MSE)
mse = mean_squared_error(y_test, y_pred)
rmse = mse ** 0.5
# RMSE значно менший за стандартне відхилення, це свідчить про те, що ваша модель здатна значущо поліпшити прогнози порівняно з базовою моделлю.
print(f'Root Mean Squared Error: {rmse}')

# Обчислення R-squared
r2 = r2_score(y_test, y_pred)
print(f'R-squared: {r2}')


Root Mean Squared Error: 101.55534232781181
R-squared: 0.9488020764498162


In [132]:

plt.scatter(y_test, y_pred)
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='red', linestyle='--')
plt.xlabel('Реальні дані')
plt.ylabel('Прогнозовані дані')
plt.title('Реальні дані vs. Прогнозовані дані')
plt.savefig('my_plot.png')
plt.close()


## Звіт щодо якості моделі лінійної регресії

Модель лінійної регресії була побудована для прогнозування ціни житла на основі ознак: "Площа", "Кімнати", та "Відстань до центру".

### Основні результати:

- **Root Mean Squared Error (RMSE):**
  Наша модель показала RMSE рівний 101.56. Цей показник відображає середнє відхилення прогнозованих значень від реальних. Для контексту, стандартне відхилення ціни в датасеті становить 442.75. Це свідчить про те, що прогнози моделі значно точніші, ніж якби ми використовували простий середній прогноз.

- **R-squared:**
  Значення R-squared для моделі становить 0.9488, що означає, що приблизно 94.88% варіативності ціни може бути пояснено нашою моделлю. Це високий показник, який вказує на високу якість прогнозів моделі.

### Візуалізація результатів:

![Оцінка моделі](my_plot.png)

Точки на графіку відображають відношення реальних (ось x) до прогнозованих (ось y) значень. Ідеальний прогноз був би представлений червоною пунктирною лінією y = x. Точки, які знаходяться близько до цієї лінії, вказують на точні прогнози, тоді як ті, що далеко від лінії, вказують на менш точні прогнози.
