Betreut durch Dipl.-Biol. Ralf Darius  
WS2023 / 2024  
26. Feb 2024  
Hochschule Rhein-Waal

# Projektarbeit Data Mining and Machine Learning

## Analyse von Immobilienbewertungen

<p style="font-size: 2rem">
Till Wegener <a href="#fn1"><sup id="fn1-back">1</sup></a> und 
Dennis Adamczyk <a href="#fn2"><sup id="fn2-back">2</sup></a>
</p>

[<sup id="fn1">1</sup>](#fn1-back): Matrikelnummer: 28891, E-Mail-Adresse: till.wegener@hsrw.org  
[<sup id="fn2">2</sup>](#fn2-back): Matrikelnummer: 30545, E-Mail-Adresse: dennis.adamczyk@hsrw.org  


## Abstract

Die Analyse und Bewertung von Immobilien ist ein wichtiger Bestandteil des Immobilienmarktes. In dieser Arbeit wird ein Datensatz von Immobilienbewertungen aus Taiwan auf verschiedene Eigenschaften hin untersucht. Hierzu verwenden wir diverse Methoden aus den Bereichen des Data Mining und Machine Learning. Ziel ist es, die Bewertung von Immobilien, mithilfe einer linearen Regression, anhand verschiedener Eigenschaften vorherzusagen und zu analysieren.

Keywords:

*Data Mining, lineare Regression, Immobilienmarkt*
<p style="page-break-after:always;"></p>

<h1>Inhaltsverzeichnis</h1>

<ol ol style="list-style-type: decimal;">
  <li><a href="#eigenständig">Eigenständigkeitserklärung</a></li>
  <li>
    <a href="#einleitung">Einleitung</a>
    <ol ol style="list-style-type: decimal;">
      <li><a href="#data">Vorstellung der Daten</a></li>    
      <li><a href="#code">Vorbereitung Code</a></li>    
    </ol>
  </li>
  <li><a href="#literaturverzeichnis">Literaturverzeichnis</a></li>
</ol>


<h1 id="eigenständig">1 Eigenständigkeitserklärung</h2>


Hiermit erklären wir, dass wir die vorliegende Arbeit eigenständig und ohne fremde Hilfe angefertigt habe/n. Textpassagen, die wörtlich oder dem Sinn nach auf Publikationen oder Vorträgen anderer Autoren beruhen, sind als solche kenntlich gemacht.

<h1 id="einleitung">2 Einleitung</h2>

<h2 id="data">2.1 Vorstellung der Daten</h2>

In dieser Arbeit betrachten wir den Datensatz ``Real Estate Valuation``<a href="#refdata">[1]</a> aus dem UCI Machine Learning Repository. Dieser Datensatz enthält Informationen über Immobilienbewertungen in Taiwan. !TODO

<h2 id="code">2.2 Vorbereitung Code</h2>

Bevor wir damit beginnen können die Daten zu analysieren, müssen wir sicherstellen das wir alle nötigen Python-Pakete installiert haben. Hierzu liegt diesem Notebook eine ``requirements.txt`` Datei bei. Der Python Paket-Manager ``PiP``<a href="#refpip">[2]</a> kann anhand dieser Datei die Pakete installieren. Dafür muss in diesem Ordner der folgende Kommando-Zeilen Befehl ausgeführt werden:

```cmd
pip install -r requirements.txt
```


Der erste Schritt für die bearbeitung des Datensatzes ist das Importieren der benötigten Bibliotheken. In unserem Fall verwenden wir die folgenden Bibliotheken:
- `pandas`<a href="#refpandas">[3]</a>  zur allgemeinen Datenverarbeitung
- `numpy`<a href="#refnumpy">[4]</a> zur numerischen Berechnung
- `matplotlib`<a href="#refmpl">[5]</a> zur Visualisierung der Daten

Hierzu genügt es, die Biliotheken zu importieren. Des Weiteren können wir hier festlegen, dass die Plots direkt im Notebook angezeigt werden sollen.

In [25]:
%matplotlib inline

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

Der nächste Schritt ist das Einlesen des Datensatzes. Hierzu können wir die Funktion ``ExcelFile`` von Pandas verwende. Diese Funktion ermöglicht es uns, die Daten aus einer Excel-Datei in ein ``DataFrame`` zu laden. Ein ``DataFrame`` ist eine zweidimensionale Datenstruktur, die von Pandas bereitgestellt wird. Ein ``DataFrame`` ist vergleichbar mit einer Tabelle in Excel. 

In [26]:
data = pd.read_excel("./data.xlsx")
data

Unnamed: 0,No,X1 transaction date,X2 house age,X3 distance to the nearest MRT station,X4 number of convenience stores,X5 latitude,X6 longitude,Y house price of unit area
0,1,2012.916667,32.0,84.87882,10,24.98298,121.54024,37.9
1,2,2012.916667,19.5,306.59470,9,24.98034,121.53951,42.2
2,3,2013.583333,13.3,561.98450,5,24.98746,121.54391,47.3
3,4,2013.500000,13.3,561.98450,5,24.98746,121.54391,54.8
4,5,2012.833333,5.0,390.56840,5,24.97937,121.54245,43.1
...,...,...,...,...,...,...,...,...
409,410,2013.000000,13.7,4082.01500,0,24.94155,121.50381,15.4
410,411,2012.666667,5.6,90.45606,9,24.97433,121.54310,50.0
411,412,2013.250000,18.8,390.96960,7,24.97923,121.53986,40.6
412,413,2013.000000,8.1,104.81010,5,24.96674,121.54067,52.5


Als nächstes teilen wir den Datensatz in zwei Teile auf. Den großen Teil des Datensatzes (90%) verwenden wir für die weitere Arbeit in diesem Projekt. Die restlichen 10% des Datensatzes verwenden wir, um am Ende des Projektes die Genauigkeit des Modells zu überprüfen. Um sicherzustellen, dass die Aufteilung reproduzierbar ist, verwerden wir einen vordefinierten Seed. Für diese Aufgabe bietet und das `DataFrame` die Methode `sample`. Diese Methode gibt einen übergebenen Anteil des DataFrames zurück. Des Weiteren nimmt diese Methode einen Parameter ``random_state`` an, mit welchen wir die Pseudo-Zufällige Aufteilung reproduzierbar gestalten können.

In [27]:
seed = 1354
data_work = data.sample(frac=0.9, random_state=seed)
len(data_work)

373

Die Variable ``data_work`` beinhaltet nun die 90% der Daten welche wir für die weitere Arbeit verweden. Um nun den Test-Datensatz zu bestimmen können wir nun die Differenz aus ``data_work`` und ``data`` bilden.

In [28]:
data_test = data.drop(data_work.index)
len(data_test)

41

Wir können nun sicherstellen, dass wir keine Daten "veloren" haben, indem wir die Länge des ursprünglichen Datensatzes mit den beiden erstellen Datensätzen vergleichen.

In [29]:
assert(len(data_work) + len(data_test) == len(data))

Die beiden Teil-Datensätze können nun als `csv`-Dateien gespeichert. Hierzu können wir die Pandas-Funktion `to_csv` der `Dataframes` verwenden.

In [30]:
data_work.to_csv("data_work.csv", index=False)
data_test.to_csv("data_test.csv", index=False)

Nun sind wir bereit für die weitere Analyse der Daten.

<h1 id="literaturverzeichnis">Literaturverzeichnis</h2>

<p id="refdata">[1] Yeh,I-Cheng. (2018). Real Estate Valuation. UCI Machine Learning Repository. https://doi.org/10.24432/C5J30W.</p>

<p id="refpip">[2] Python Paket-Manager pip - https://pypi.org/project/pip/ </p>

<p id="refpandas">[3] Pandas Python Bibliothek - https://pandas.pydata.org/ </p>

<p id="refnumpy">[4] Numpy Python Bibliothek - https://numpy.org/ </p>

<p id="refmpl">[5] Matplotlib Python Bibliothek - https://matplotlib.org/ </p>


