<a href="https://colab.research.google.com/github/MariiaSam/data_science/blob/main/Linear_regression_step_by_step_example.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [37]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [38]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [39]:
df = pd.read_csv("/content/drive/My Drive/Housing.csv")

df

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished
2,12250000,9960,3,2,2,yes,no,yes,no,no,2,yes,semi-furnished
3,12215000,7500,4,2,2,yes,no,yes,no,yes,3,yes,furnished
4,11410000,7420,4,1,2,yes,yes,yes,no,yes,2,no,furnished
...,...,...,...,...,...,...,...,...,...,...,...,...,...
540,1820000,3000,2,1,1,yes,no,yes,no,no,2,no,unfurnished
541,1767150,2400,3,1,1,no,no,no,no,no,0,no,semi-furnished
542,1750000,3620,2,1,1,yes,no,no,no,no,0,no,unfurnished
543,1750000,2910,3,1,1,no,no,no,no,no,0,no,furnished


In [56]:
X = df[['area', 'bedrooms', 'bathrooms']].values
y = df['price'].values

# Це об'єкт масштабувальника (скалера) в Python, який використовується для стандартизації або нормалізації числових даних

# fit: Обчислює необхідні параметри для масштабування даних X. Наприклад, для StandardScaler це будуть середнє значення та стандартне відхилення кожного ознаки.
# transform: Застосовує обчислені параметри до даних X і повертає новий набір даних, де кожен ознака буде стандартизований або нормалізований.
scaler_X = StandardScaler()
X_scaled = scaler_X.fit_transform(X)

scaler_y = StandardScaler()
y_scaled = scaler_y.fit_transform(y.reshape(-1, 1)).ravel()


In [55]:
X_scaled

array([[ 1.04672629,  1.40341936,  1.42181174],
       [ 1.75700953,  1.40341936,  5.40580863],
       [ 2.21823241,  0.04727831,  1.42181174],
       ...,
       [-0.70592066, -1.30886273, -0.57018671],
       [-1.03338891,  0.04727831, -0.57018671],
       [-0.5998394 ,  0.04727831, -0.57018671]])

In [57]:
y_scaled

array([ 4.56636513e+00,  4.00448405e+00,  4.00448405e+00,  3.98575468e+00,
        3.55497918e+00,  3.25530927e+00,  2.88072189e+00,  2.88072189e+00,
        2.73088693e+00,  2.69342819e+00,  2.69342819e+00,  2.62974834e+00,
        2.43121702e+00,  2.39375829e+00,  2.39375829e+00,  2.31884081e+00,
        2.31884081e+00,  2.24392333e+00,  2.20646459e+00,  2.18773522e+00,
        2.13154711e+00,  2.09408838e+00,  2.07535901e+00,  2.07535901e+00,
        2.03790027e+00,  2.01917090e+00,  1.97796629e+00,  1.94425342e+00,
        1.94425342e+00,  1.94425342e+00,  1.94425342e+00,  1.94425342e+00,
        1.88806531e+00,  1.83187721e+00,  1.79441847e+00,  1.77351649e+00,
        1.75321385e+00,  1.71950099e+00,  1.71013630e+00,  1.68204225e+00,
        1.66331288e+00,  1.64458351e+00,  1.56966604e+00,  1.56966604e+00,
        1.49474856e+00,  1.49474856e+00,  1.47601919e+00,  1.45728982e+00,
        1.43856045e+00,  1.41983108e+00,  1.41983108e+00,  1.41983108e+00,
        1.38237234e+00,  

In [41]:
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_scaled, test_size=0.2, random_state=42)

lin_reg_model = LinearRegression()
lin_reg_model.fit(X_train, y_train)

y_pred_scaled = lin_reg_model.predict(X_test)


In [48]:
mae = mean_absolute_error(y_test, y_pred_scaled)
mse = mean_squared_error(y_test, y_pred_scaled)
r2 = r2_score(y_test, y_pred_scaled)

# Виведення метрик
print(f"Test MAE (масштабовані дані): {mae:.4f}")
print(f"Test MSE (масштабовані дані): {mse:.4f}")
print(f"Test R² (масштабовані дані): {r2:.4f}")

# Виведення коефіцієнтів моделі
coefficients = lin_reg_model.coef_
intercept = lin_reg_model.intercept_

# Виведення коефіцієнтів
print(f"Коефіцієнти: {coefficients.round(4)}")
print(f"Вільний член (інтерсепт): {intercept.round(4)}")

Test MAE (масштабовані дані): 0.6771
Test MSE (масштабовані дані): 0.7875
Test R² (масштабовані дані): 0.4559
Коефіцієнти: [0.4008 0.1421 0.3821]
Вільний член (інтерсепт): -0.0163


In [43]:
# Зворотнє масштабування
y_pred_original = scaler_y.inverse_transform(y_pred_scaled.reshape(-1, 1)).ravel()

# Обчислення метрик на оригінальній шкалі
mae = mean_absolute_error(scaler_y.inverse_transform(y_test.reshape(-1, 1)), y_pred_original)
mse = mean_squared_error(scaler_y.inverse_transform(y_test.reshape(-1, 1)), y_pred_original)
r2 = r2_score(scaler_y.inverse_transform(y_test.reshape(-1, 1)), y_pred_original)

print(f"Test MAE: {mae:.4f}, Test MSE: {mse:.4f}, Test R²: {r2:.4f}")

Test MAE: 1265275.6699, Test MSE: 2750040479309.0522, Test R²: 0.4559


In [44]:
coefficients = lin_reg_model.coef_
intercept = lin_reg_model.intercept_

print(f"Коефіцієнти: {coefficients.round(4)}")
print(f"Вільний член (intersept): {intercept.round(4)}")

Коефіцієнти: [0.4008 0.1421 0.3821]
Вільний член (intersept): -0.0163


In [45]:
results = pd.DataFrame({
    'Справжні значення': scaler_y.inverse_transform(y_test.reshape(-1, 1)).ravel(),
    'Прогнозовані значення': y_pred_original
})

print("\nСправжні та прогнозовані значення:")
results.head()


Справжні та прогнозовані значення:


Unnamed: 0,Справжні значення,Прогнозовані значення
0,4060000.0,6383168.0
1,6650000.0,6230250.0
2,3710000.0,3597885.0
3,6440000.0,4289731.0
4,2800000.0,3930446.0
