**Importiere die notwendigen Packages**

In [1]:
# Empfehlung für Colab: Installiere alles was Du brauchst
# %pip install pandas pivottablejs numpy altair matplotlib geopandas folium

In [2]:
import pandas as pd
import pivottablejs
from pivottablejs import pivot_ui
import numpy as np
import altair as alt
import matplotlib.pyplot as plt
from datetime import datetime
import geopandas as gpd
import folium 



Definiere Settings. Hier das Zahlenformat von Float-Werten (z.B. *'{:,.2f}'.format* mit Komma als Tausenderzeichen), 

In [3]:
pd.options.display.float_format = '{:.0f}'.format
pd.set_option('display.width', 100)
pd.set_option('display.max_columns', 15)

Importiere einen Datensatz von der **DWH_INT** Dropzone.

- Beachte dabei die Notation des Pfades...
- Definiere mal aktuell noch keine weiteren Parameter beim Import

**Dataset auf INTEG Datenkatalog**: https://data.integ.stadt-zuerich.ch/dataset/int_dwh_bau_whg_bestand_umbau_ea_zizahlkat_kreis_saldo_jahr_od5101

(int_dwh)

In [4]:
#Die Datasets sind nur zum Testen auf INT-DWH-Dropzone. Wenn der Test vorbei ist, sind sie auf PROD. 
# Über den Status kann man einfach switchen

status = "prod";
print(status)

prod


In [5]:
# Filepath
if status == "prod":
    fp = r"\\szh\ssz\applikationen\OGD_Dropzone\DWH\bau_whg_bestand_umbau_ea_zizahlkat_kreis_saldo_jahr_OD5101\BAU510OD5101.csv"
else:
    fp = r"\\szh\ssz\applikationen\OGD_Dropzone\INT_DWH\bau_whg_bestand_umbau_ea_zizahlkat_kreis_saldo_jahr_OD5101\BAU510OD5101.csv"
print(fp)

\\szh\ssz\applikationen\OGD_Dropzone\DWH\bau_whg_bestand_umbau_ea_zizahlkat_kreis_saldo_jahr_OD5101\BAU510OD5101.csv


In [6]:
# Read the data
data2betested = pd.read_csv(
    fp, 
    sep=',',
   #usecols=[0,1,2,3,4,6],
   #names=['stationid','year','month','avgtemp','latitude','longitude','elevation','station','countryid','country'],
   #skiprows=1,
   # parse_dates=[0],
    parse_dates=True,
    #date_parser=lambda x: pd.to_datetime(x, format="%Y"), 
    #index_col="date_time",
    low_memory=False    
    )
print('done')

done


In der Folge ein paar erste Tests:

In [7]:
type(data2betested)

pandas.core.frame.DataFrame

 - 1) Zeige eine kurze Vorschau der importierten Daten
 - 2) Weise die Datentypen aus
 - 3) Zeige die Shape (Umfang) des Datensatzes an

In [8]:
data2betested.head(30000)

Unnamed: 0,Jahr,KreisCd,KreisLang,EigentumsartCd,EigentumsartLang,Wohnungsgroesse,Wohnungssaldo
0,2015,1,Kreis 1,3,Übrige private Gesellschaften,AnzGbdWhgStatZim1_3_saldo,7
1,2015,1,Kreis 1,3,Übrige private Gesellschaften,AnzGbdWhgStatZim4plus_saldo,0
2,2015,1,Kreis 1,4,Natürliche Personen,AnzGbdWhgStatZim1_3_saldo,3
3,2015,1,Kreis 1,4,Natürliche Personen,AnzGbdWhgStatZim4plus_saldo,2
4,2015,10,Kreis 10,3,Übrige private Gesellschaften,AnzGbdWhgStatZim1_3_saldo,0
...,...,...,...,...,...,...,...
409,2020,9,Kreis 9,3,Übrige private Gesellschaften,AnzGbdWhgStatZim4plus_saldo,0
410,2020,9,Kreis 9,4,Natürliche Personen,AnzGbdWhgStatZim1_3_saldo,41
411,2020,9,Kreis 9,4,Natürliche Personen,AnzGbdWhgStatZim4plus_saldo,-10
412,2020,9,Kreis 9,5,Im Stockwerkeigentum,AnzGbdWhgStatZim1_3_saldo,-1


In [9]:
data2betested.dtypes

Jahr                 int64
KreisCd              int64
KreisLang           object
EigentumsartCd       int64
EigentumsartLang    object
Wohnungsgroesse     object
Wohnungssaldo        int64
dtype: object

In [10]:
data2betested.shape

(414, 7)

Beschreibe einzelne Attribute

In [11]:
data2betested.describe()

Unnamed: 0,Jahr,KreisCd,EigentumsartCd,Wohnungssaldo
count,414,414,414,414
mean,2018,6,3,4
std,2,3,1,14
min,2015,1,1,-69
25%,2016,3,3,-1
50%,2018,7,3,1
75%,2019,9,4,5
max,2020,12,5,85


Wie viele Nullwerte gibt es im Datensatz?

In [12]:
data2betested.isnull().sum()

Jahr                0
KreisCd             0
KreisLang           0
EigentumsartCd      0
EigentumsartLang    0
Wohnungsgroesse     0
Wohnungssaldo       0
dtype: int64

Wandle die Spalte Jahr von Int zu **Datetime** um. Dies wird in den meisten Grafiken so benötigt.

In [13]:
data2betested['Jahr']=pd.to_datetime(data2betested['Jahr'], format='%Y')
#data2betested['Jahr']=pd.to_datetime(data2betested['Jahr'], format='%Y')
#TO DO --> setze das Datum auf den 31.12. der Jahres.
#test=data2betested[['StichtagDatJahr']].date().replace(month=12, day=31)

data2betested


Unnamed: 0,Jahr,KreisCd,KreisLang,EigentumsartCd,EigentumsartLang,Wohnungsgroesse,Wohnungssaldo
0,2015-01-01,1,Kreis 1,3,Übrige private Gesellschaften,AnzGbdWhgStatZim1_3_saldo,7
1,2015-01-01,1,Kreis 1,3,Übrige private Gesellschaften,AnzGbdWhgStatZim4plus_saldo,0
2,2015-01-01,1,Kreis 1,4,Natürliche Personen,AnzGbdWhgStatZim1_3_saldo,3
3,2015-01-01,1,Kreis 1,4,Natürliche Personen,AnzGbdWhgStatZim4plus_saldo,2
4,2015-01-01,10,Kreis 10,3,Übrige private Gesellschaften,AnzGbdWhgStatZim1_3_saldo,0
...,...,...,...,...,...,...,...
409,2020-01-01,9,Kreis 9,3,Übrige private Gesellschaften,AnzGbdWhgStatZim4plus_saldo,0
410,2020-01-01,9,Kreis 9,4,Natürliche Personen,AnzGbdWhgStatZim1_3_saldo,41
411,2020-01-01,9,Kreis 9,4,Natürliche Personen,AnzGbdWhgStatZim4plus_saldo,-10
412,2020-01-01,9,Kreis 9,5,Im Stockwerkeigentum,AnzGbdWhgStatZim1_3_saldo,-1


Bereite die Daten für die Grafik unten vor

In [14]:
Jahre = data2betested.groupby("Jahr")
len(Jahre)

6

In [15]:
for key, group in Jahre:
    print(key, len(group))

2015-01-01 00:00:00 56
2016-01-01 00:00:00 74
2017-01-01 00:00:00 70
2018-01-01 00:00:00 74
2019-01-01 00:00:00 68
2020-01-01 00:00:00 72


In [16]:
myJahr = "2020-01-01"
aktuellesJahr=Jahre.get_group(myJahr)   
aktuellesJahr.head(3)


Unnamed: 0,Jahr,KreisCd,KreisLang,EigentumsartCd,EigentumsartLang,Wohnungsgroesse,Wohnungssaldo
342,2020-01-01,1,Kreis 1,3,Übrige private Gesellschaften,AnzGbdWhgStatZim1_3_saldo,-8
343,2020-01-01,1,Kreis 1,3,Übrige private Gesellschaften,AnzGbdWhgStatZim4plus_saldo,4
344,2020-01-01,1,Kreis 1,4,Natürliche Personen,AnzGbdWhgStatZim1_3_saldo,12


**Selektionen und Aggregationen**

Check this [Doku](https://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/)

In [17]:
   
test = data2betested.groupby(
   ['Jahr', 'Wohnungsgroesse']
).agg(
    {
         'Wohnungssaldo':(sum),     # Sum --> (sum)
         #'AnzPers': (sum),   
         #'Wohnungsfl': 'max'  
    }
)
test.head(10)


Unnamed: 0_level_0,Unnamed: 1_level_0,Wohnungssaldo
Jahr,Wohnungsgroesse,Unnamed: 2_level_1
2015-01-01,AnzGbdWhgStatZim1_3_saldo,199
2015-01-01,AnzGbdWhgStatZim4plus_saldo,25
2016-01-01,AnzGbdWhgStatZim1_3_saldo,254
2016-01-01,AnzGbdWhgStatZim4plus_saldo,61
2017-01-01,AnzGbdWhgStatZim1_3_saldo,302
2017-01-01,AnzGbdWhgStatZim4plus_saldo,44
2018-01-01,AnzGbdWhgStatZim1_3_saldo,267
2018-01-01,AnzGbdWhgStatZim4plus_saldo,-4
2019-01-01,AnzGbdWhgStatZim1_3_saldo,160
2019-01-01,AnzGbdWhgStatZim4plus_saldo,15


**Einfache Visualisierungen zur Plausi**

Exploriere die Daten mit Pivottable.JS

In [18]:
from pivottablejs import pivot_ui

pivot_ui(data2betested)

Liniendiagramm 
[Link zur Doku](https://altair-viz.github.io/gallery/multiline_highlight.html)

In [19]:
mySelection = aktuellesJahr[['Jahr', 'KreisCd', 'KreisLang', 'EigentumsartCd', 'EigentumsartLang', 'Wohnungssaldo']]
mySelection

Unnamed: 0,Jahr,KreisCd,KreisLang,EigentumsartCd,EigentumsartLang,Wohnungssaldo
342,2020-01-01,1,Kreis 1,3,Übrige private Gesellschaften,-8
343,2020-01-01,1,Kreis 1,3,Übrige private Gesellschaften,4
344,2020-01-01,1,Kreis 1,4,Natürliche Personen,12
345,2020-01-01,1,Kreis 1,4,Natürliche Personen,0
346,2020-01-01,10,Kreis 10,2,Wohnbaugenossenschaften,-4
...,...,...,...,...,...,...
409,2020-01-01,9,Kreis 9,3,Übrige private Gesellschaften,0
410,2020-01-01,9,Kreis 9,4,Natürliche Personen,41
411,2020-01-01,9,Kreis 9,4,Natürliche Personen,-10
412,2020-01-01,9,Kreis 9,5,Im Stockwerkeigentum,-1


In [20]:
agg_mySelection = mySelection.groupby(
   ['Jahr', 'KreisCd', 'KreisLang', 'EigentumsartCd', 'EigentumsartLang']
).agg(
    {
         'Wohnungssaldo':(sum,min, max)     #, 'AnzPers': (sum, min, max)
    }
)
agg_mySelection.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Wohnungssaldo,Wohnungssaldo,Wohnungssaldo
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,sum,min,max
Jahr,KreisCd,KreisLang,EigentumsartCd,EigentumsartLang,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2020-01-01,1,Kreis 1,3,Übrige private Gesellschaften,-4,-8,4
2020-01-01,1,Kreis 1,4,Natürliche Personen,12,0,12
2020-01-01,2,Kreis 2,3,Übrige private Gesellschaften,30,-4,34
2020-01-01,2,Kreis 2,4,Natürliche Personen,10,-1,11
2020-01-01,3,Kreis 3,2,Wohnbaugenossenschaften,0,0,0


In [21]:
mySelection = aktuellesJahr[(aktuellesJahr.EigentumsartCd == 2) | (aktuellesJahr.EigentumsartCd == 4)]

mySelection.head()

Unnamed: 0,Jahr,KreisCd,KreisLang,EigentumsartCd,EigentumsartLang,Wohnungsgroesse,Wohnungssaldo
344,2020-01-01,1,Kreis 1,4,Natürliche Personen,AnzGbdWhgStatZim1_3_saldo,12
345,2020-01-01,1,Kreis 1,4,Natürliche Personen,AnzGbdWhgStatZim4plus_saldo,0
346,2020-01-01,10,Kreis 10,2,Wohnbaugenossenschaften,AnzGbdWhgStatZim1_3_saldo,-4
347,2020-01-01,10,Kreis 10,2,Wohnbaugenossenschaften,AnzGbdWhgStatZim4plus_saldo,3
350,2020-01-01,10,Kreis 10,4,Natürliche Personen,AnzGbdWhgStatZim1_3_saldo,9


In [22]:
# df_statzonen = df_statzonen[(df_statzonen.knr>0) & (df_statzonen.qname!="Hirslanden")]

highlight = alt.selection(type='single', on='mouseover',
                          fields=['Wohnungsgroesse'], nearest=True)
#x='date:StichtagDatJahr',
base = alt.Chart(mySelection).encode(
    x='KreisLang',
    y='Wohnungssaldo',
    color='Wohnungsgroesse'
)

points = base.mark_circle().encode(
    opacity=alt.value(0)
).add_selection(
    highlight
).properties(
    width=700 , height=300
)
lines = base.mark_line().encode(
    size=alt.condition(~highlight, alt.value(1.5), alt.value(4))
).interactive()

points + lines

In [23]:
alt.Chart(mySelection).mark_circle(size=60).encode(
    x='Wohnungssaldo',
    y='KreisLang',
    #color='AnzWhg',
    #color=alt.Color('EigentumsartLang', scale=alt.Scale(scheme='dark2')),
    color=alt.Color('Wohnungssaldo', scale=alt.Scale(scheme='greens')),
    tooltip=['Jahr', 'KreisCd', 'KreisLang', 'EigentumsartCd', 'EigentumsartLang', 'Wohnungsgroesse']
).interactive() # this makes the axes interactive: now you can zoom & pan


