# Projekt analizy cen mieszkań

W tym projekcie będę analizować ceny mieszkań na podstawie różnych cech, takich jak powierzchnia, liczba pokoi, piętro oraz lokalizacja. Celem jest stworzenie modelu, który pozwoli przewidzieć cenę mieszkania na podstawie tych cech. 

In [1]:
# Importowanie niezbędnych bibliotek
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.preprocessing import MinMaxScaler
import seaborn as sns


In [2]:
# Wczytanie danych
df = pd.read_csv('mieszkania_otodom_cleaned.csv', delimiter=';')
df.head()

In [3]:
# Przygotowanie zmiennych objaśniających (X) i zmiennej docelowej (y)
X = df[['Price per m2', 'Area', 'Rooms', 'Floor', 'City_or_District', 'Province']]

# Kodowanie zmiennych kategorycznych (miasto, województwo)
X = pd.get_dummies(X, drop_first=True)

y = df['Price']  # Zmienna docelowa (cena)

# Podział na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [4]:
# Tworzenie model regresyjny Random Forest
model = RandomForestRegressor(n_estimators=100, random_state=42)

# Trenowanie modelu
model.fit(X_train, y_train)


In [5]:
# Predykcja na zbiorze testowym
y_pred = model.predict(X_test)

# Obliczanie metryki błędu
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)  # Obliczanie pierwiastka z MSE ręcznie
r2 = r2_score(y_test, y_pred)

# Wyświetlanie wyników
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Mean Squared Error (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"R-squared: {r2:.2f}")

In [6]:
# Wizualizacja porównania rzeczywistej ceny i prognozowanej ceny
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.7)
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='red', linestyle='--')
plt.xlabel('Rzeczywista cena')
plt.ylabel('Prognozowana cena')
plt.title('Porównanie rzeczywistej ceny z prognozowaną ceną')
plt.show()

### Podsumowanie

Po przeprowadzeniu analizy modelu regresyjnego Random Forest można zauważyć, że model radzi sobie bardzo dobrze w przewidywaniu cen mieszkań. Otrzymane metryki błędu (MAE, MSE, RMSE) wskazują na dużą dokładność prognoz, a współczynnik determinacji (R²) wynosi 0.99, co sugeruje, że model wyjaśnia praktycznie całą zmienność cen mieszkań w danych.

Wizualizacja pokazuje, że przewidywane ceny są bardzo bliskie rzeczywistym wartościom, co jest pozytywnym wynikiem i świadczy o skuteczności zastosowanego modelu.