## Daten Analysieren - Lösung

Im ersten Teil der Übung möchten wird uns einen öffentlichen Datensatz zu Hauspreisen genauer anschauen. Hierfür nutzen wir den Datensatz __Housing Prices Dataset__ von https://www.kaggle.com/datasets/yasserh/housing-prices-dataset/data . Rufen Sie die Seite auf und lesen sich die Informationen über den Datensatz durch.

Wie viele Datenpunkte (Samples bzw. Zeilen) hat der Datensatz?

In [3]:
print("Der Datenatz hat 545 Hausverkäufe")

Der Datenatz hat 545 Hausverkäufe


### Download der Daten

Sie können die Daten von https://www.kaggle.com/ auf unterschiedlichste Weise downloaden (z.B. als .zip, per CLI, per API, etc.). Die einfachste Möglichkeit ist die Python Bibliothek [kagglehub](https://pypi.org/project/kagglehub/0.1.4/) zu nutzen, diese installieren wir mit ```pip```:

In [4]:
pip install kagglehub

Note: you may need to restart the kernel to use updated packages.


Nun können wir mit ```kagglehub``` den Datensatz herunterladen:

In [5]:
import kagglehub
import os

os.environ['KAGGLEHUB_CACHE'] = 'data'
path = kagglehub.dataset_download("yasserh/housing-prices-dataset")

print("Path to dataset files:", path)

  from .autonotebook import tqdm as notebook_tqdm


Path to dataset files: data/datasets/yasserh/housing-prices-dataset/versions/1


### Einlesen der Daten mit Pandas und Metadaten analysieren

Ein erster Schritt, um einen Datensatz zu verstehen, ist seine Metadaten anszuschauen. Das machen wir im folgenden.

Eine wichtige Bibliothek zur Analyse von Daten ist die Python Bibliothek [pandas](https://pypi.org/project/pandas/). Wir haben ja bereits etwas Übung in der Installation von Bibliotheken, installieren Sie pandas mit ```pip```:

In [6]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


Wir können nun den House Pricing Datensatz in Pandas öffnen:

In [20]:
import pandas as pd

df = pd.read_csv(os.path.join(path, 'housing.csv'))
df.head()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished
2,12250000,9960,3,2,2,yes,no,yes,no,no,2,yes,semi-furnished
3,12215000,7500,4,2,2,yes,no,yes,no,yes,3,yes,furnished
4,11410000,7420,4,1,2,yes,yes,yes,no,yes,2,no,furnished


Geben Sie die Anzahl der verkauften Häuser aus:

In [9]:
number_houses = len(df)
print(f"Im Datensatz befinden sich {number_houses} verkaufte Häuser")

Im Datensatz befinden sich 545 verkaufte Häuser


Für welchen Preis wurde das teuerste Haus verkauft?

In [10]:
max_price = df['price'].max()
print(f"Das teuerste Haus wurde für {max_price} verkauft")

Das teuerste Haus wurde für 13300000 verkauft


Wie ist die durchschnittliche Hausgröße (area) im Datensatz?

In [11]:
avg_area = df['area'].mean()
print(f"Die durchschnittliche Hausgröße beträgt {avg_area}")

Die durchschnittliche Hausgröße beträgt 5150.54128440367


Hilfreich ist meist auch sich eine gesamte Statistik über den Datensatz auszugeben:

In [12]:
df.describe()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,parking
count,545.0,545.0,545.0,545.0,545.0,545.0
mean,4766729.0,5150.541284,2.965138,1.286239,1.805505,0.693578
std,1870440.0,2170.141023,0.738064,0.50247,0.867492,0.861586
min,1750000.0,1650.0,1.0,1.0,1.0,0.0
25%,3430000.0,3600.0,2.0,1.0,1.0,0.0
50%,4340000.0,4600.0,3.0,1.0,2.0,0.0
75%,5740000.0,6360.0,3.0,2.0,2.0,1.0
max,13300000.0,16200.0,6.0,4.0,4.0,3.0


Fügen Sie nun ein neues Feature Räume hinzu. Räume soll sich definieren aus der Summe der Betträume (bedrooms), Bäder (bathrooms), Gästezimmer (guestroom) und zusätzlich pro Haus jeweils eine Küche und ein Wohnzimmer:

Anmerkung: eventuell hilft Ihnen folgender Artikel: https://stackoverflow.com/questions/40901770/is-there-a-simple-way-to-change-a-column-of-yes-no-to-1-0-in-a-pandas-dataframe

In [19]:
df['rooms'] = df['bedrooms'] + df['bathrooms'] + df['guestroom'].map(dict(yes=1, no=0)) + 2
df.head()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus,rooms
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished,8
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished,10
2,12250000,9960,3,2,2,yes,no,yes,no,no,2,yes,semi-furnished,7
3,12215000,7500,4,2,2,yes,no,yes,no,yes,3,yes,furnished,8
4,11410000,7420,4,1,2,yes,yes,yes,no,yes,2,no,furnished,8
