In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split

# All price data is kr. pr. m2

In [2]:
data = pd.read_csv('./Data/Data_cleaned/Cleaned_All.csv', sep=';', encoding='latin1')
data_ejer = pd.read_csv('./Data/Data_cleaned/Cleaned_Ejerlejlighed.csv', sep=';', encoding='latin1')
data_fritid = pd.read_csv('./Data/Data_cleaned/Cleaned_Fritidshus.csv', sep=';', encoding='latin1')
data_parcel = pd.read_csv('./Data/Data_cleaned/Cleaned_Parcel.csv', sep=';', encoding='latin1')

In [3]:
data.head()

Unnamed: 0,Pris,Kommune,Dato,Boligtype
0,20256,Region Hovedstaden,2004-01-01,Ejerlejlighed
1,20449,Region Hovedstaden,2004-02-01,Ejerlejlighed
2,20620,Region Hovedstaden,2004-03-01,Ejerlejlighed
3,21097,Region Hovedstaden,2004-04-01,Ejerlejlighed
4,21231,Region Hovedstaden,2004-05-01,Ejerlejlighed


In [4]:
data.describe()

Unnamed: 0,Pris
count,83448.0
mean,18155.865497
std,11069.771241
min,0.0
25%,11528.0
50%,16198.0
75%,22805.25
max,319800.0


In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 83448 entries, 0 to 83447
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Pris       83448 non-null  int64 
 1   Kommune    83448 non-null  object
 2   Dato       83448 non-null  object
 3   Boligtype  83448 non-null  object
dtypes: int64(1), object(3)
memory usage: 2.5+ MB


In [6]:
# Changing the Boligtype to one hot encoding
data = pd.get_dummies(data, columns = ['Boligtype'])

In [7]:
data.head()

Unnamed: 0,Pris,Kommune,Dato,Boligtype_Ejerlejlighed,Boligtype_Fritidshus,Boligtype_Parcel
0,20256,Region Hovedstaden,2004-01-01,True,False,False
1,20449,Region Hovedstaden,2004-02-01,True,False,False
2,20620,Region Hovedstaden,2004-03-01,True,False,False
3,21097,Region Hovedstaden,2004-04-01,True,False,False
4,21231,Region Hovedstaden,2004-05-01,True,False,False


# Finding zero's in the price data

In [8]:
# Finding 0's in the price data
zeros_in_price = (data['Pris'] == 0).sum()
print(zeros_in_price)

3928


In [9]:
data.loc[30742:30758]

Unnamed: 0,Pris,Kommune,Dato,Boligtype_Ejerlejlighed,Boligtype_Fritidshus,Boligtype_Parcel
30742,0,Lyngby-Taarbæk,2009-11-01,False,True,False
30743,0,Lyngby-Taarbæk,2009-12-01,False,True,False
30744,0,Lyngby-Taarbæk,2010-01-01,False,True,False
30745,0,Lyngby-Taarbæk,2010-02-01,False,True,False
30746,0,Lyngby-Taarbæk,2010-03-01,False,True,False
30747,0,Lyngby-Taarbæk,2010-04-01,False,True,False
30748,0,Lyngby-Taarbæk,2010-05-01,False,True,False
30749,0,Lyngby-Taarbæk,2010-06-01,False,True,False
30750,0,Lyngby-Taarbæk,2010-07-01,False,True,False
30751,0,Lyngby-Taarbæk,2010-08-01,False,True,False


In [10]:
# Finding the average price
avg_prices = data.groupby('Kommune')['Pris'].mean().astype(int)

print(avg_prices)

Kommune
Aabenraa           13152
Aalborg            15882
Albertslund        14489
Allerød            23958
Assens             12882
                   ...  
Vesthimmerlands    10415
Viborg             13915
Vordingborg        13711
Århus              30300
Ærø                 8085
Name: Pris, Length: 114, dtype: int32


In [11]:
print(avg_prices['Lyngby-Taarbæk'])

31587


In [12]:
# Replacing 0's with the average price in the Kommune
def replace_zero(row):
    if row['Pris'] == 0:
        return avg_prices[row['Kommune']]
    else:
        return row['Pris']

data['Pris'] = data.apply(replace_zero, axis=1)

In [13]:
data.loc[30742:30758]

Unnamed: 0,Pris,Kommune,Dato,Boligtype_Ejerlejlighed,Boligtype_Fritidshus,Boligtype_Parcel
30742,31587,Lyngby-Taarbæk,2009-11-01,False,True,False
30743,31587,Lyngby-Taarbæk,2009-12-01,False,True,False
30744,31587,Lyngby-Taarbæk,2010-01-01,False,True,False
30745,31587,Lyngby-Taarbæk,2010-02-01,False,True,False
30746,31587,Lyngby-Taarbæk,2010-03-01,False,True,False
30747,31587,Lyngby-Taarbæk,2010-04-01,False,True,False
30748,31587,Lyngby-Taarbæk,2010-05-01,False,True,False
30749,31587,Lyngby-Taarbæk,2010-06-01,False,True,False
30750,31587,Lyngby-Taarbæk,2010-07-01,False,True,False
30751,31587,Lyngby-Taarbæk,2010-08-01,False,True,False


# Using Z score to find outliers

In [14]:
# Calculate Z-scores separately for each group in Boligtype
data_copy = data.copy()

for boligtype in ['Boligtype_Ejerlejlighed', 'Boligtype_Fritidshus', 'Boligtype_Parcel']:
    boligtype_data = data[data[boligtype] == 1]['Pris']
    
    mean = boligtype_data.mean()
    std = boligtype_data.std()
    
    data_copy.loc[data[boligtype] == 1, 'z_score'] = (boligtype_data - mean) / std

outliers = data_copy[(data_copy['z_score'] > 3) | (data_copy['z_score'] < -3)]

In [15]:
# Removing outliers from the data
outliers.reset_index(drop=True, inplace=True)
data_z_score_removed = data.drop(outliers.index)

In [16]:
print('Length of data:', len(data))
print('Length of data without outliers:', len(data_z_score_removed))
print('Length of outliers:', len(outliers))
print('Checking that it is the same as the amount of outliers found:', len(data) - len(data_z_score_removed))

Length of data: 83448
Length of data without outliers: 82177
Length of outliers: 1271
Checking that it is the same as the amount of outliers found: 1271


In [17]:
data.head()

Unnamed: 0,Pris,Kommune,Dato,Boligtype_Ejerlejlighed,Boligtype_Fritidshus,Boligtype_Parcel
0,20256,Region Hovedstaden,2004-01-01,True,False,False
1,20449,Region Hovedstaden,2004-02-01,True,False,False
2,20620,Region Hovedstaden,2004-03-01,True,False,False
3,21097,Region Hovedstaden,2004-04-01,True,False,False
4,21231,Region Hovedstaden,2004-05-01,True,False,False


In [18]:
data = data_z_score_removed

# One hot encoding

In [19]:
# One hot encoding on the Kommune column
data = pd.get_dummies(data, columns = ['Kommune'])

In [20]:
data.head()

Unnamed: 0,Pris,Dato,Boligtype_Ejerlejlighed,Boligtype_Fritidshus,Boligtype_Parcel,Kommune_Aabenraa,Kommune_Aalborg,Kommune_Albertslund,Kommune_Allerød,Kommune_Assens,...,Kommune_Tønder,Kommune_Vallensbæk,Kommune_Varde,Kommune_Vejen,Kommune_Vejle,Kommune_Vesthimmerlands,Kommune_Viborg,Kommune_Vordingborg,Kommune_Århus,Kommune_Ærø
1271,14594,2011-12-01,True,False,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,False,False
1272,14733,2012-01-01,True,False,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,False,False
1273,15174,2012-02-01,True,False,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,False,False
1274,14591,2012-03-01,True,False,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,False,False
1275,15206,2012-04-01,True,False,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,False,False


# Splitting data into two columns month and year

In [21]:
data['Dato'] = pd.to_datetime(data['Dato'])
data['År'] = data['Dato'].dt.year
data['Måned'] = data['Dato'].dt.month

In [22]:
print(data['År'])

1271     2011
1272     2012
1273     2012
1274     2012
1275     2012
         ... 
83443    2023
83444    2024
83445    2024
83446    2024
83447    2024
Name: År, Length: 82177, dtype: int32


In [23]:
print(data['Måned'])

1271     12
1272      1
1273      2
1274      3
1275      4
         ..
83443    12
83444     1
83445     2
83446     3
83447     4
Name: Måned, Length: 82177, dtype: int32


In [24]:
data = data.drop(columns = ['Dato'])

In [25]:
data.head()

Unnamed: 0,Pris,Boligtype_Ejerlejlighed,Boligtype_Fritidshus,Boligtype_Parcel,Kommune_Aabenraa,Kommune_Aalborg,Kommune_Albertslund,Kommune_Allerød,Kommune_Assens,Kommune_Ballerup,...,Kommune_Varde,Kommune_Vejen,Kommune_Vejle,Kommune_Vesthimmerlands,Kommune_Viborg,Kommune_Vordingborg,Kommune_Århus,Kommune_Ærø,År,Måned
1271,14594,True,False,False,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,2011,12
1272,14733,True,False,False,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,2012,1
1273,15174,True,False,False,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,2012,2
1274,14591,True,False,False,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,2012,3
1275,15206,True,False,False,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,2012,4


In [26]:
# Saving the finished data to a csv file
data.to_csv('./Data/Data_processed/Processed_data.csv', index=False, sep=';', encoding='latin1')

# Splitting data into training and testing

In [27]:
X = data.drop(columns=['Pris'])
y = data['Pris']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [28]:
X_train.to_csv('./Data/Data_processed/X_train_data.csv', index=False, sep=';', encoding='latin1')

In [29]:
X_test.to_csv('./Data/Data_processed/X_test_data.csv', index=False, sep=';', encoding='latin1')

In [30]:
y_train.to_csv('./Data/Data_processed/y_train_data.csv', index=False, sep=';', encoding='latin1')

In [31]:
y_test.to_csv('./Data/Data_processed/y_test_data.csv', index=False, sep=';', encoding='latin1')