# ANALIZA SLOVENSKEGA TRGA NEPREMIČNIN
### Opis problema
Analiziram in primerjam podatke zadnjih 7 let (2016-2022) slovenskega trga nepremičnin. Za letošnje leto podatkov ne bom analiziral, saj jih je premalo, da bi iz njih lahko črpal kakšne bolj konkretne ugotovitve.

### Opis podatkov
Podatke črpam iz ETN (Evidenca trga nepremičnin), ki je javna,večnamenska zbirka podatkov o kupoprdajnih in najemnih pravnih poslih z nepremičninami. Vodi in vzdržuje jo Geodetska uprava Republike Slovenije. Podatke sem dobil na spletni strani e-Geodetski Podatki (dostopen preko OPSI).

Podatki se nahajajo v 3 različnih datotekah:

- posli.csv,
- delistavb.csv,
- zemljisca.csv

Za vsako leto je približno 35000 vrstic podatkov, razdeljenih v 65 stolpcev. Podatki so v različnih oblikah (numerični, kategorični...).

Do zdaj sem v analizi uporabil naslednje knjižnjice:
- pandas,
- numpy,
- matplotlib,
- sklearn,
- seaborn,...

### Branje in uvoz podatkov

Za branje .csv datotek sem uporabil metodo `read_csv` iz knjižnjice `Pandas`, s katero sem dobil spremenljivko tipa "DataFrame" (je podobne oblike kot npr. Excelov dokument). 

Primer:
```
posli2022 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2022_20230304/ETN_SLO_KUP_2022_posli_20230304.csv', delimiter=";")
```
Tako sem uvozil vse datoteke za vsa leta.

Kot že omenjeno, se podatki nahajajo v različnih datotekah, zato jih je bilo potrebno združiti v enoten DataFrame, da bi kasneje bilo lažje manipulirati s podatki.

```
skupni2022 = posli2022.merge(how="inner", right=delistavb2022, on="ID Posla")
skupni2022 = skupni2022.merge(how="inner", right=zemljisca2022, on="ID Posla")
```

V zgornjem primeru sem združil posli2022, delistavb2022 in zemljisca2022 v en skupen DataFrame. 

In [10]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

posli2022 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2022_20230304/ETN_SLO_KUP_2022_posli_20230304.csv', delimiter=";")
delistavb2022 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2022_20230304/ETN_SLO_KUP_2022_delistavb_20230304.csv', delimiter=";")
zemljisca2022 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2022_20230304/ETN_SLO_KUP_2022_zemljisca_20230304.csv', delimiter=";")

posli2021 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2021_20230304/ETN_SLO_KUP_2021_posli_20230304.csv', delimiter=";")
delistavb2021 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2021_20230304/ETN_SLO_KUP_2021_delistavb_20230304.csv', delimiter=";")
zemljisca2021 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2021_20230304/ETN_SLO_KUP_2021_zemljisca_20230304.csv', delimiter=";")

posli2020 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2020_20230304/ETN_SLO_KUP_2020_posli_20230304.csv', delimiter=";")
delistavb2020 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2020_20230304/ETN_SLO_KUP_2020_delistavb_20230304.csv', delimiter=";")
zemljisca2020 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2020_20230304/ETN_SLO_KUP_2020_zemljisca_20230304.csv', delimiter=";")

posli2019 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2019_20230304/ETN_SLO_KUP_2019_posli_20230304.csv', delimiter=";")
delistavb2019 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2019_20230304/ETN_SLO_KUP_2019_delistavb_20230304.csv', delimiter=";")
zemljisca2019 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2019_20230304/ETN_SLO_KUP_2019_zemljisca_20230304.csv', delimiter=";")

posli2018 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2018_20230304/ETN_SLO_KUP_2018_posli_20230304.csv', delimiter=";")
delistavb2018 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2018_20230304/ETN_SLO_KUP_2018_delistavb_20230304.csv', delimiter=";")
zemljisca2018 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2018_20230304/ETN_SLO_KUP_2018_zemljisca_20230304.csv', delimiter=";")

posli2017 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2017_20230304/ETN_SLO_KUP_2017_posli_20230304.csv', delimiter=";")
delistavb2017 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2017_20230304/ETN_SLO_KUP_2017_delistavb_20230304.csv', delimiter=";")
zemljisca2017 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2017_20230304/ETN_SLO_KUP_2017_zemljisca_20230304.csv', delimiter=";")

posli2016 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2016_20230304/ETN_SLO_KUP_2016_posli_20230304.csv', delimiter=";")
delistavb2016 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2016_20230304/ETN_SLO_KUP_2016_delistavb_20230304.csv', delimiter=";")
zemljisca2016 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2016_20230304/ETN_SLO_KUP_2016_zemljisca_20230304.csv', delimiter=";")

#merge all csv's 
skupni2022 = posli2022.merge(how="inner", right=delistavb2022, on="ID Posla")
skupni2022 = skupni2022.merge(how="inner", right=zemljisca2022, on="ID Posla")

skupni2021 = posli2021.merge(how="inner", right=delistavb2021, on="ID Posla")
skupni2021 = skupni2021.merge(how="inner", right=zemljisca2021, on="ID Posla")

skupni2020 = posli2020.merge(how="inner", right=delistavb2020, on="ID Posla")
skupni2020 = skupni2020.merge(how="inner", right=zemljisca2020, on="ID Posla")

skupni2019 = posli2019.merge(how="inner", right=delistavb2019, on="ID Posla")
skupni2019 = skupni2019.merge(how="inner", right=zemljisca2019, on="ID Posla")

skupni2018 = posli2018.merge(how="inner", right=delistavb2018, on="ID Posla")
skupni2018 = skupni2018.merge(how="inner", right=zemljisca2018, on="ID Posla")

skupni2017 = posli2017.merge(how="inner", right=delistavb2017, on="ID Posla")
skupni2017 = skupni2017.merge(how="inner", right=zemljisca2017, on="ID Posla")

skupni2016 = posli2016.merge(how="inner", right=delistavb2016, on="ID Posla")
skupni2016 = skupni2016.merge(how="inner", right=zemljisca2016, on="ID Posla")

#remove columns that have more than 20% of missing merged_df_dropped
for col in skupni2022.columns:
    if (skupni2022[col].isnull().mean() > 0.2):
        skupni2022 = skupni2022.drop(col, axis="columns")

for col in skupni2021.columns:
    if (skupni2021[col].isnull().mean() > 0.2):
        skupni2021 = skupni2021.drop(col, axis="columns")

for col in skupni2020.columns:
    if (skupni2020[col].isnull().mean() > 0.2):
        skupni2020 = skupni2020.drop(col, axis="columns")

for col in skupni2019.columns:
    if (skupni2019[col].isnull().mean() > 0.2):
        skupni2019 = skupni2019.drop(col, axis="columns")

for col in skupni2018.columns:
    if (skupni2018[col].isnull().mean() > 0.2):
        skupni2018 = skupni2018.drop(col, axis="columns")

for col in skupni2017.columns:
    if (skupni2017[col].isnull().mean() > 0.2):
        skupni2017 = skupni2017.drop(col, axis="columns")

for col in skupni2016.columns:
    if (skupni2016[col].isnull().mean() > 0.2):
        skupni2016 = skupni2016.drop(col, axis="columns")

# counts = skupni_filtered["Vrsta zemljišča"].value_counts()  #CHECK IF ONLY "Vrsta Zemljisca" = 1 (zazidljiva)
skupni_filtered2022 = skupni2022[(skupni2022["Vrsta zemljišča"] == 1) | (skupni2022["Vrsta zemljišča"] == 2) | (skupni2022["Vrsta zemljišča"] == 3)]
# skupni_filtered2022 = skupni2022
skupni_filtered2022["Pogodbena cena / Odškodnina"] = skupni_filtered2022["Pogodbena cena / Odškodnina"].str.replace(',', '.')
skupni_filtered2022["Prodana površina"] = skupni_filtered2022["Prodana površina"].str.replace(',', '.')
skupni_filtered2022["Pogodbena cena / Odškodnina"] = skupni_filtered2022["Pogodbena cena / Odškodnina"].astype(float)
skupni_filtered2022["Prodana površina"] = skupni_filtered2022["Prodana površina"].astype(float)
grouped2022 = skupni_filtered2022.groupby('Občina_x')

skupni_filtered2021 = skupni2021[(skupni2021["Vrsta zemljišča"] == 1) | (skupni2021["Vrsta zemljišča"] == 2) | (skupni2021["Vrsta zemljišča"] == 3)]
# skupni_filtered2021 = skupni2021
skupni_filtered2021["Pogodbena cena / Odškodnina"] = skupni_filtered2021["Pogodbena cena / Odškodnina"].str.replace(',', '.')
skupni_filtered2021["Prodana površina"] = skupni_filtered2021["Prodana površina"].str.replace(',', '.')
skupni_filtered2021["Pogodbena cena / Odškodnina"] = skupni_filtered2021["Pogodbena cena / Odškodnina"].astype(float)
skupni_filtered2021["Prodana površina"] = skupni_filtered2021["Prodana površina"].astype(float)
grouped2021 = skupni_filtered2021.groupby('Občina_x')

skupni_filtered2020 = skupni2020[(skupni2020["Vrsta zemljišča"] == 1) | (skupni2020["Vrsta zemljišča"] == 2) | (skupni2020["Vrsta zemljišča"] == 3)]
# skupni_filtered2020 = skupni2020
skupni_filtered2020["Pogodbena cena / Odškodnina"] = skupni_filtered2020["Pogodbena cena / Odškodnina"].str.replace(',', '.')
skupni_filtered2020["Prodana površina"] = skupni_filtered2020["Prodana površina"].str.replace(',', '.')
skupni_filtered2020["Pogodbena cena / Odškodnina"] = skupni_filtered2020["Pogodbena cena / Odškodnina"].astype(float)
skupni_filtered2020["Prodana površina"] = skupni_filtered2020["Prodana površina"].astype(float)
grouped2020 = skupni_filtered2020.groupby('Občina_x')

skupni_filtered2019 = skupni2019[(skupni2019["Vrsta zemljišča"] == 1) | (skupni2019["Vrsta zemljišča"] == 2) | (skupni2019["Vrsta zemljišča"] == 3)]
# skupni_filtered2019 = skupni2019
skupni_filtered2019["Pogodbena cena / Odškodnina"] = skupni_filtered2019["Pogodbena cena / Odškodnina"].str.replace(',', '.')
skupni_filtered2019["Prodana površina"] = skupni_filtered2019["Prodana površina"].str.replace(',', '.')
skupni_filtered2019["Pogodbena cena / Odškodnina"] = skupni_filtered2019["Pogodbena cena / Odškodnina"].astype(float)
skupni_filtered2019["Prodana površina"] = skupni_filtered2019["Prodana površina"].astype(float)
grouped2019 = skupni_filtered2019.groupby('Občina_x')

skupni_filtered2018 = skupni2018[(skupni2018["Vrsta zemljišča"] == 1) | (skupni2018["Vrsta zemljišča"] == 2) | (skupni2018["Vrsta zemljišča"] == 3)]
# skupni_filtered2018 = skupni2018
skupni_filtered2018["Pogodbena cena / Odškodnina"] = skupni_filtered2018["Pogodbena cena / Odškodnina"].str.replace(',', '.')
skupni_filtered2018["Prodana površina"] = skupni_filtered2018["Prodana površina"].str.replace(',', '.')
skupni_filtered2018["Pogodbena cena / Odškodnina"] = skupni_filtered2018["Pogodbena cena / Odškodnina"].astype(float)
skupni_filtered2018["Prodana površina"] = skupni_filtered2018["Prodana površina"].astype(float)
grouped2018 = skupni_filtered2018.groupby('Občina_x')

skupni_filtered2017 = skupni2017[(skupni2017["Vrsta zemljišča"] == 1) | (skupni2017["Vrsta zemljišča"] == 2) | (skupni2017["Vrsta zemljišča"] == 3)]
# skupni_filtered2017 = skupni2017
skupni_filtered2017["Pogodbena cena / Odškodnina"] = skupni_filtered2017["Pogodbena cena / Odškodnina"].str.replace(',', '.')
skupni_filtered2017["Prodana površina"] = skupni_filtered2017["Prodana površina"].str.replace(',', '.')
skupni_filtered2017["Pogodbena cena / Odškodnina"] = skupni_filtered2017["Pogodbena cena / Odškodnina"].astype(float)
skupni_filtered2017["Prodana površina"] = skupni_filtered2017["Prodana površina"].astype(float)
grouped2017 = skupni_filtered2017.groupby('Občina_x')

skupni_filtered2016 = skupni2016[(skupni2016["Vrsta zemljišča"] == 1) | (skupni2016["Vrsta zemljišča"] == 2) | (skupni2016["Vrsta zemljišča"] == 3)]
# skupni_filtered2016 = skupni2016
skupni_filtered2016["Pogodbena cena / Odškodnina"] = skupni_filtered2016["Pogodbena cena / Odškodnina"].str.replace(',', '.')
skupni_filtered2016["Prodana površina"] = skupni_filtered2016["Prodana površina"].str.replace(',', '.')
skupni_filtered2016["Pogodbena cena / Odškodnina"] = skupni_filtered2016["Pogodbena cena / Odškodnina"].astype(float)
skupni_filtered2016["Prodana površina"] = skupni_filtered2016["Prodana površina"].astype(float)
grouped2016 = skupni_filtered2016.groupby('Občina_x')


  delistavb2022 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2022_20230304/ETN_SLO_KUP_2022_delistavb_20230304.csv', delimiter=";")
  zemljisca2022 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2022_20230304/ETN_SLO_KUP_2022_zemljisca_20230304.csv', delimiter=";")
  delistavb2021 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2021_20230304/ETN_SLO_KUP_2021_delistavb_20230304.csv', delimiter=";")
  zemljisca2021 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2021_20230304/ETN_SLO_KUP_2021_zemljisca_20230304.csv', delimiter=";")
  delistavb2019 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2019_20230304/ETN_SLO_KUP_2019_delistavb_20230304.csv', delimiter=";")
  zemljisca2019 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2019_20230304/ETN_SLO_KUP_2019_zemljisca_20230304.csv', delimiter=";")
  delistavb2018 = pd.read_csv('./podatki/ETN_SLO_CSV_A_KUP/ETN_SLO_KUP_2018_20230304/ETN_SLO_KUP_2018_delistavb_20230304.csv', delimiter=";")
  deli

### Čiščenje podatkov

Na tej točki sem lahko začel s čiščenjem podatkov.

Odstranil sem vse stolpce, katerim manjka več kot 20% podatkov.

```
for col in skupni2022.columns:
    if (skupni2022[col].isnull().mean() > 0.2):
        skupni2022 = skupni2022.drop(col, axis="columns")
```

V nadaljevanju sem filtriral posle tako, da sem dobil samo zemljišča na katerih je ali bo mogoče graditi.

```
skupni2022[(skupni2022["Vrsta zemljišča"] == 1) | (skupni2022["Vrsta zemljišča"] == 2) | (skupni2022["Vrsta zemljišča"] == 3)]
```
Številke 1,2 in 3 so šifranti.

Cene nepremičninskih poslov je bilo potrebno zapisati z decimalno piko, da bi jih lahko pretvoril v tip `float` iz tipa `string`, saj so privzeto zapisane z decimalno vejico in brez tega to nebi bilo mogoče. 

```
skupni_filtered2021["Pogodbena cena / Odškodnina"] = skupni_filtered2021["Pogodbena cena / Odškodnina"].str.replace(',', '.')
skupni_filtered2021["Pogodbena cena / Odškodnina"] = skupni_filtered2021["Pogodbena cena / Odškodnina"].astype(float)
```
Z uporabo `One Hot Encode` metode sem želel kategorične podatke predelati v numerične. `One Hot Encode` deluje tako, da željene kategorične podatke spremeni v vektor, kjer vsak element (stolpec) v vektorju (vrstica) predstavlja kategorijo.
Torej določeni podatkovni množici se doda toliko stolpcev, kolikor je različnih kategorij. Vrednosti so lahko 0 ali 1, tisti stolpec, ki predstavlja kategorično vrednost, ki jo je določena vrstica imela, bo dobil vrednost 1 ostali pa vrednost 0.

Za začetek se mi je zdelo najbolje, da s pomočjo `One Hot Encode` metode razdelim občine na 14 občin z največjim številom poslov, dodal sem pa še občino DRUGO, ki je vsebovala vse ostale občine. To sem naredil zato, ker so občine kategorični podatki (Npr.: LJUBLJANA, MARIBOR, CELJE,...), število občin pa je 213. To bi pomenilo, da bo `One Hot Encode` metoda naredila 213 novih stolpcev, kar bi bilo popolnoma nepotrebno in bi predstavljalo problem zaradi performančnih razlogov.

```
top_counties = merged_df_dropped['Občina_x'].value_counts().nlargest(10).index
merged_df_dropped['Občina'] = merged_df_dropped['Občina_x'].where(merged_df_dropped['Občina_x'].isin(top_counties), 'DRUGO')
merged_df_dropped = merged_df_dropped.drop(['Občina_x'], axis=1)
merged_df_dropped = pd.get_dummies(merged_df_dropped, columns=['Vrsta dela stavbe'], prefix='Vrsta')
```
Ker v praksi vemo, da lokacija definitivno vpliva na ceno, sem želel za vsako občino posebej izdelati regresijski model. Torej skupaj bi bilo 15 modelov.

Zaradi velikega primanjkovanja podatkov v določenih stolpcih (npr. `Gradbena faza`, `Novogradnja`, ...) in domenskega poznavanja (npr. `ID Posla`, `Številka stavbe`, `Številka dela stavbe`, `Parcelna številka za geolokacijo`, `Evidentiranost dela stavbe`) sem takoj odstranil približno 90% atributov.

Seznam vseh odstranjenih atributov:
```
'ID Posla', 'Številka stavbe', 'Številka dela stavbe', 'Parcelna številka za geolokacijo', 'Evidentiranost dela stavbe',
'Hišna številka', 'Dodatek HŠ', 'Številka stanovanja ali poslovnega prostora',
'Prodana uporabna površina dela stavbe',
'Nadstropje dela stavbe', 'Število zunanjih parkirnih mest', 'Atrij', 'Površina atrija',
'Lega dela stavbe v stavbi', 'Število sob', 'Površina dela stavbe', 'Uporabna površina', 'Pogodbena cena dela stavbe',
'Stopnja DDV dela stavbe', 'Vrsta kupoprodajnega posla', 'Datum uveljavitve', 'Datum sklenitve pogodbe',
'Vključenost DDV', 'Stopnja DDV', 'Datum izteka lizinga', 'Datum prenehanja lizinga', 'Opombe o pravnem poslu',
'Posredovanje nepremičninske agencije', 'Datum zadnje spremembe posla', 'Datum zadnje uveljavitve posla',
'Vrsta akta', 'Tržnost posla', 'Parcelna številka', 'Vrsta trajnega nasada', 'Starost trajnega nasada',
'Prodani delež parcele', 'Opombe o nepremičnini_x', 'Opombe o nepremičnini_y', 'Površina parcele',
'Pogodbena cena parcele', 'Stopnja DDV parcele','Šifra KO_x','Šifra KO_y', 'Občina_y','Ime KO_y',
'Prostori dela stavbe', 'Interna oznaka dela stavbe', 'Ime KO_x', 'Prodani delež dela stavbe',
'Prodana površina dela stavbe', 'Ulica', 'Novogradnja', 'Gradbena faza', 'Naselje',
'Dejanska raba dela stavbe'
```

Sprva sem se želil osredotočiti na vrsto nepremičnine, torej podatek `Vrsta dela stavbe`. `Vrsta dela stavbe` predstavlja identifikacijsko številko (Npr.: 1 predstavlja hišo, 2 predstavlja stanovanje itd.). Izdelal sem korelacijsko matriko, da bi ugotovil korelacijo med ciljno spremenljivko (`Pogodbena cena / Odškodnina` oziroma prodajna cena nepremičnine) in ostalimi spremenljivkami.
Korelacijska matrika:

![Alt text](correlationmatrix.png)


In [11]:
merged_df = pd.concat([skupni_filtered2017, skupni_filtered2016, skupni_filtered2018, skupni_filtered2019, skupni_filtered2020, skupni_filtered2021, skupni_filtered2022], ignore_index=True)
merged_df_dropped = merged_df
merged_df_dropped = merged_df_dropped.dropna()

top_counties = merged_df_dropped['Občina_x'].value_counts().nlargest(10).index
merged_df_dropped['Občina_x'].where(merged_df_dropped['Občina_x'].isin(top_counties), 'DRUGO')
merged_df_dropped = merged_df_dropped.drop(['Občina_x'], axis=1)
merged_df_dropped = pd.get_dummies(merged_df_dropped, columns=['Vrsta dela stavbe'], prefix='Vrsta dela stavbe')
merged_df_dropped = pd.get_dummies(merged_df_dropped, columns=['Vrsta zemljišča'], prefix='Vrsta zemljišča')

subset = merged_df_dropped
subset = subset.drop(subset[subset['Pogodbena cena / Odškodnina'] > 1000000.0].index)
subset = subset.drop(subset[subset['Prodana površina'] < 0.5].index)

subset = subset.drop(["ID Posla", "Šifra KO_x", "Številka stavbe", "Leto izgradnje dela stavbe", "Šifra KO_y"], axis=1)

corr_matrix = subset.corrwith(subset['Pogodbena cena / Odškodnina'], numeric_only=True)
corr_matrix = corr_matrix.dropna()
values = corr_matrix[corr_matrix[abs(corr_matrix) > 0.1].index]
indexes = corr_matrix[abs(corr_matrix) > 0.1].index

selected_columns = subset.columns.intersection(indexes)
final_df = subset[selected_columns]

Zaradi zelo slabih rezultatov sem na koncu izdelal 2 regresivna modela (1x KNN in 1x Linearna regresija). Po primerjanju rezultatov sem ugotovil, da je KNN imel nekoliko višjo R2 vrednost, kar posledično pomeni, da je model nekoliko bolj primeren. 

Za razdelitev na testno in učno množico sem uporabil K-fold Cross Validation, kjer sem podatke razdelil na 5 kosov.
Končno povprečje sem izračunal tako, da sem vrednosti R2 in MSE vsake iteracije modela shranil v tabelo. Vrednosti sem nato seštel in delil, da sem dobil povprečja.

Ker so modeli očitno računali tudi napovedovali tudi negativne vrednosti je MSE ekstremno velik.

## KNN

In [14]:
from sklearn.model_selection import KFold
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import r2_score, mean_squared_error

model = KNeighborsRegressor(n_neighbors=5)

y = final_df['Pogodbena cena / Odškodnina']
X = final_df.drop('Pogodbena cena / Odškodnina', axis=1)
k = 5

kf = KFold(n_splits=k, shuffle=True)
mse_scores = []
r2_scores = []

for train_index, test_index in kf.split(X):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]

    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    mse_scores.append(mean_squared_error(y_test, y_pred))
    r2 = r2_score(y_test, y_pred)
    r2_scores.append(r2)

avg_mse = sum(mse_scores) / k
avg_r2 = sum(r2_scores) / k

print("Average R2 score:", avg_r2)
print("Average MSE:", avg_mse)


Average R2 score: 0.4950966898110357
Average MSE: 13924224463.523066


# Linearna regresija

In [15]:
from sklearn.linear_model import LinearRegression

final_df = final_df.dropna()
k = 5
kf = KFold(n_splits=k, shuffle=True)
regressor = LinearRegression()

y = final_df['Pogodbena cena / Odškodnina']
X = final_df.drop('Pogodbena cena / Odškodnina', axis=1)

r2_scores = []
mse_scores = []

for train_index, test_index in kf.split(X):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]
    regressor.fit(X_train, y_train)
    y_pred = regressor.predict(X_test)
    r2 = r2_score(y_test, y_pred)
    r2_scores.append(r2)
    mse = mean_squared_error(y_test, y_pred)
    mse_scores.append(mse)
avg_r2 = sum(r2_scores) / k
avg_mse = sum(mse_scores) / k
print("Average R2 score:", avg_r2)
print("Average MSE:", avg_mse)

Average R2 score: 0.2441091547769827
Average MSE: 20794722610.172306


### Ugotovitve
Po izrisu nekaj grafov sem lahko potrdil svoja pričakovanja - da je bilo najmanj poslov sklenjenih v letu 2020. Razlog za to je verjetno Covid. Največ jih je bilo sklenjenih v letu 2022.

Za vsako leto sem primerjal število poslov po najbolj aktivnih občinah, kjer me je presentilo dejstvo, da Ljubljana, Maribor in Koper velikokrat niso na prvih mestih po številu sklenjenih poslov.

Grafe lahko najdete v [tukaj](./priloga/posli_po_regijah/).

Ugotovil sem, da je veliko napak v podatkih, na primer podatek `Prodana površina` je v nekaterih primerih enak 0 itd. Poleg tega je bilo precej osamelcev pri, kar prikazuje naslednja slika:

![Alt text](osamelci.png)

Problema sem rešil na naslednji način:
```
subset = subset.drop(subset[subset['Pogodbena cena / Odškodnina'] > 1000000.0].index)
subset = subset.drop(subset[subset['Prodana površina'] < 0.5].index)
```

Kot že prej omenjeno, je precej podatkov tudi manjkalo, pri približno 90% atributih je manjkalo več kot 80% podatkov.
Od približno 60000 vrstic je po čiščenju ostalo le še okoli 10000 vrstic.