# Introduction
---

# Vorgehensweise in dieser Arbeit

Die Arbeit orientiert sich am Data Science Lifecycle, welcher nachfolgend dargestellt wird.

Die blau markierte Phase der Planung wird zur Vollständigkeit auf dieser Seite in einem rudimentären Niveau durchgegangen.</br>

Das Feature Engineering wird gleichzeitig auf Test- und Trainingsdaten angewendet, wenn sichergestellt ist das keine Informationen des jeweils anderen Datasets in die Modelle einfließen. Beispielsweise kann eine Wurzel-Transformation sofort erfolgen, weil kein Mittelwert oder sonstiger Lagewert verwendet wird. Im Gegensatz dazu wird eine Standardisierung, welche den Mittelwert verwendet, bei Bedarf separat auf das jeweilige Datensets angewendet.

<img src="https://kirenz.github.io/ds-python/_images/lifecycle.png" alt="alt text" width="600" align="center">

(Kirenz, J. 2021: https://kirenz.github.io/ds-python/docs/lifecycle.html)

## Planing

Zur Bewertung von Immobilienpreisen in bestimmten Distrikten sollen mehrere Modelle erstellt werden.

Geschätzt werden soll der Median-Preis von Immobilien mit folgenden Modellen.

* OLS-Regression
* Lasso-Regression
* Regression mit Splines

Ferner wird klassifiziert, ob die Median-Preise in Distrikten über der Preisschwelle von 150T$ liegen.

* Logistische Regression

## Variablen

Der zur Verfügung gestellte Datensatz enthält folgende Werte.

---
__longitude und latidue__: Koordinaten zur Orientierung</br>
__housing_median_age:__ Median age of a house within a district; a lower number is a newer building</br>
__total_rooms:__ Total number of rooms within a district </br>
__total_bedrooms:__ Total number of bedrooms within a district</br>
__population:__ Total number of people residing within a district</br>
__households:__ Total number of households, a group of people residing within a home unit, for a district</br>
__median_income:__ Median income for households within a district of houses (measured in tens of thousands of US Dollars)</br>
__median_house_value:__ Median house value within a district (measured in US Dollars)</br>
__ocean_proximity:__ Location of the district</br>
__price_category:__ Indicator variable made from median_house_value (if median house value is below or above 150000)</br>

---

Mit Hilfe der nachfolgend dargestellten Variablen werden die Modelle trainiert und getestet.
In den Modellen werden die Variabelen *price_categorie* und *median_house_value* die Responsewerte darstellen.</br>
Ferner liegt mit *ocean_proximity* eine weitere Variable zur Strand- oder Ozean-Nähe vor.</br>
Die restlichen Variablen sind absolute oder Medianwerte.

In [1]:
import pandas as pd
df = pd.read_csv("project_data.csv")

In [9]:
df.groupby(by=["price_category","ocean_proximity"]).describe().T

Unnamed: 0_level_0,price_category,above,above,above,above,above,below,below,below,below
Unnamed: 0_level_1,ocean_proximity,<1H OCEAN,INLAND,ISLAND,NEAR BAY,NEAR OCEAN,<1H OCEAN,INLAND,NEAR BAY,NEAR OCEAN
longitude,count,7938.0,4517.0,5.0,1997.0,2219.0,1198.0,2034.0,293.0,439.0
longitude,mean,-118.868776,-119.744651,-118.354,-122.26345,-119.578427,-118.708556,-119.707094,-122.241911,-118.089749
longitude,std,1.586794,1.914385,0.070569,0.153829,2.31021,1.59638,1.870974,0.085101,1.993954
longitude,min,-124.14,-123.73,-118.48,-122.59,-124.35,-124.02,-123.17,-122.51,-124.3
longitude,25%,-118.53,-121.37,-118.33,-122.42,-122.2,-118.33,-121.32,-122.29,-118.19
longitude,50%,-118.29,-119.85,-118.32,-122.26,-119.12,-118.24,-120.34,-122.25,-117.11
longitude,75%,-117.99,-118.03,-118.32,-122.13,-117.25,-118.15,-117.65,-122.2,-117.07
longitude,max,-116.62,-114.31,-118.32,-122.01,-116.97,-116.84,-115.32,-122.01,-116.99
latitude,count,7938.0,4517.0,5.0,1997.0,2219.0,1198.0,2034.0,293.0,439.0
latitude,mean,34.578614,36.741508,33.358,37.7869,34.951257,34.44106,36.710334,37.897543,33.662711
