## Problem Beskrivelse

I dette projekt er vores mål at **udvikle en maskinlæringsmodel**, der kan forudsige huspriser baseret på forskellige karakteristika som områdets gennemsnitsindkomst, husets alder, antallet af værelser, og befolkningstætheden. Dette er vigtigt for ejendomsmæglere, købere, sælgere og investorer, da det giver dem mulighed for at træffe **velinformerede beslutninger** baseret på ejendomsvurderinger og investeringer. Ved at opnå en model med lav forudsigelsesfejl, kan vi forbedre tilliden til dens anvendelse i reelle vurderinger af husværdier, hvilket gør dette til et spørgsmål af både **praktisk og akademisk betydning**.

## Datasæt Kilde og Detaljer

Datasættet, som vi bruger i dette projekt, er hentet fra Kaggle og kan findes under følgende link: [Kaggle: House Price Prediction Dataset](https://www.kaggle.com/datasets/marjuk/house-price-prediction-dataset-csv/data). Datasættet indeholder en række **vigtige træk**, der er relevante for boligmarkedet. Disse omfatter gennemsnitsindkomsten i området, husets alder, antallet af værelser, befolkningstætheden og mange andre faktorer. Disse træk bruges som input til at **træne vores maskinlæringsmodel**, med det mål at forudsige huspriser med høj nøjagtighed. Forståelse af disse data og deres indflydelse på huspriser er **afgørende** for udviklingen af en effektiv og pålidelig model.


In [74]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, MinMaxScaler
import numpy as np
from sklearn.ensemble import RandomForestRegressor


In [75]:
# Load dataset
data = pd.read_csv('house_price_prediction.csv')

In [76]:
# Exclude the 'address' column
data = data.drop(['address'], axis=1)


In [77]:
# Handle missing values
imputer = SimpleImputer(strategy='mean')
data = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)

In [78]:
# Feature Engineering
data['rooms_per_house'] = data['avg_area_num_rooms'] / data['avg_bedrooms']

In [79]:
# Outlier Detection and Removal
# For simplicity, using Z-score here. Any value over 3 or below -3 is considered an outlier.
from scipy import stats
data = data[(np.abs(stats.zscore(data)) < 3).all(axis=1)]

In [80]:
# Data Normalization
scaler = MinMaxScaler()
data_scaled = pd.DataFrame(scaler.fit_transform(data), columns=data.columns)

In [81]:
# Calculate and print statistical measures for the 'price' column
mean_price = data['price'].mean()
std_price = data['price'].std()
min_price = data['price'].min()
max_price = data['price'].max()

In [82]:
# Define features and target variable
X = data.drop('price', axis=1)
y = data['price']

In [83]:
# Splitting the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [84]:
# Initialize and train a more complex model: Random Forest Regressor
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

In [85]:
# Predict and evaluate
predictions = model.predict(X_test)
mae = mean_absolute_error(y_test, predictions)
rmse = np.sqrt(mean_squared_error(y_test, predictions))

In [86]:
print(f"Gennemsnitlig pris (mean): {y.mean():,.2f}")
print(f"Standardafvigelse (std): {y.std():,.2f}")
print(f"Minimum pris (min): {y.min():,.2f}")
print(f"Maksimum pris (max): {y.max():,.2f}")
print("Mean Absolute Error:", mae)
print("Root Mean Squared Error:", rmse)

Gennemsnitlig pris (mean): 1,231,129.24
Standardafvigelse (std): 346,031.48
Minimum pris (min): 201,898.09
Maksimum pris (max): 2,275,455.31
Mean Absolute Error: 88420.02367353729
Root Mean Squared Error: 113556.72784567559


### Statistik Over Huspriser

**Gennemsnitlig pris (mean): 1.231.129,24**  
Dette repræsenterer den gennemsnitlige pris for et hus i datasættet.

**Standardafvigelse (std): 346.031,48**  
Dette tal indikerer spredningen af huspriserne omkring den gennemsnitlige værdi, hvilket reflekterer variationen i priserne.

**Minimum pris (min): 201.898,09**  
Dette er den laveste pris for et hus i datasættet.

**Maksimum pris (max): 2.275.455,31**  
Dette er den højeste pris for et hus i datasættet.

### Model Evaluering

**Gennemsnitlig Absolut Fejl (Mean Absolute Error, MAE): 88.420,02**  
Dette tal indikerer, hvor meget modellens forudsigelser i gennemsnit afviger fra de faktiske huspriser. I gennemsnit er hver prisforudsigelse fra modellen omkring 88.420,02 enheder væk fra den faktiske pris.

**Rodmiddelkvadratfejl (Root Mean Squared Error, RMSE): 113.556,73** 
Dette tal giver et mål for størrelsen af fejlene i modellens forudsigelser. RMSE giver mere vægt til større fejl, så store afvigelser i forudsigelserne vil øge RMSE betydeligt. En RMSE på 113.556,73 indikerer, at fejlene i modellens forudsigelser i gennemsnit ligger i denne størrelsesorden.
