# Test Open Data Zürich

Dieses Notebook verwendet als Vorlage die Webseite «[Kitas in Berlin - Jupyter Notebook](https://juanitorduz.github.io/kitas_berlin/)»

Mit Colab kann **dieses Jupyter-Notebook interaktiv im Browser** gestartet werden:
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/DonGoginho/myPy_RIS_API/blob/main/RIS_API_AL_Geschaefte.ipynb)


**Inhaltsverzeichnis:**

1. [Daten importieren](#Mitglieder-der-AL)
2. [Daten prüfen](#Gemeinderats-Geschäfte)
3. [Daten analysieren](#Gemeinderats-Geschäfte)



## Importiere notwendige Packages:

In [2]:
import numpy as np
import pandas as pd
import geopandas as gpd
import mplleaflet
import matplotlib.pyplot as plt
import matplotlib.ticker as mtick
import seaborn as sns
sns.set_style(
    style='darkgrid', 
    rc={'axes.facecolor': '.9', 'grid.color': '.8'}
)
sns.set_palette(palette='deep')
sns_c = sns.color_palette(palette='deep')
%matplotlib inline
from pandas.plotting import register_matplotlib_converters
register_matplotlib_converters()

plt.rcParams['figure.figsize'] = [10, 6]
plt.rcParams['figure.dpi'] = 100

pd.options.display.float_format = '{:.0f}'.format
#pd.set_option('display.width', 100)
#pd.set_option('display.max_columns', 15)

## Lies Daten ein


In [14]:
"""
Versuch:
Import Daten via Datastore

Missing:
Korrektes Einlesen des JSON-Outputs

------------
import requests
SSL_VERIFY = True
# evtl. SSL_VERIFY auf False setzen wenn die Verbindung zu https://www.gemeinderat-zuerich.ch nicht klappt (z.B. wegen Proxy)
# Um die SSL Verifikation auszustellen, bitte die nächste Zeile einkommentieren ("#" entfernen)
# SSL_VERIFY = False

---------------
if not SSL_VERIFY:
    import urllib3
    urllib3.disable_warnings()
-------------    

-----------------------------------------------------
#https://data.stadt-zuerich.ch/api/3/action/datastore_search?resource_id=a90b0184-c809-48b4-87ca-91e5811da885

query = {'resource_id': 'a90b0184-c809-48b4-87ca-91e5811da885'} #, 'records':'StichtagDatJahr' }
headers = {'Accept': 'application/json'}
r = requests.get('https://data.stadt-zuerich.ch/api/3/action/datastore_search', 
                 params=query, 
                 headers=headers, 
                 verify=SSL_VERIFY)
data = r.json()
print('done')
#data
-----------------------------------------------------
"""



### Importiere die Monatsbevölkerung

Dataset auf INTEG Datenkatalog: https://data.integ.stadt-zuerich.ch/dataset/int_dwh_bev_monat_bestand_quartier_geschl_ag_herkunft_od3250

(int_dwh)

In [106]:
# Filepath
fp = r"//szh.loc/ssz/applikationen/OGD_Dropzone/INT_DWH/bev_monat_bestand_quartier_geschl_ag_herkunft_od3250/BEV325OD3250.csv"

# Read the data
imp_data2betested = pd.read_csv(
    fp, 
    sep=',',
   #usecols=[0,1,2,3,4,6],
   #names=['stationid','year','month','avgtemp','latitude','longitude','elevation','station','countryid','country'],
   #skiprows=1,
   # parse_dates=[0],
    parse_dates=True,
    date_parser=lambda x: pd.to_datetime(x, format="%Y"), 
    #index_col="date_time",
    low_memory=False    
    )

In [107]:
imp_data2betested.info()
# Find the number of null values for all columns
#data2betested.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 190680 entries, 0 to 190679
Data columns (total 17 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   StichtagDatJahr   190680 non-null  int64 
 1   StichtagDatMM     190680 non-null  int64 
 2   StichtagDatMonat  190680 non-null  object
 3   StichtagDat       190680 non-null  int64 
 4   SexCd             190680 non-null  int64 
 5   SexLang           190680 non-null  object
 6   AlterV20Sort      190680 non-null  int64 
 7   AlterV20Kurz      190680 non-null  object
 8   HerkunftCd        190680 non-null  int64 
 9   HerkunftLang      190680 non-null  object
 10  KreisCd           190680 non-null  int64 
 11  KreisLang         190680 non-null  object
 12  QuarCd            190680 non-null  int64 
 13  QuarLang          190680 non-null  object
 14  DatenstandCd      190680 non-null  object
 15  DatenstandLang    190680 non-null  object
 16  AnzBestWir        190680 non-null  int

Checke welche Quartiere vorkommen

In [101]:
imp_data2betested['QuarLang'].unique()

array(['Rathaus', 'Hochschulen', 'Lindenhof', 'City', 'Wollishofen',
       'Leimbach', 'Enge', 'Alt-Wiedikon', 'Friesenberg', 'Sihlfeld',
       'Werd', 'Langstrasse', 'Hard', 'Gewerbeschule', 'Escher Wyss',
       'Unterstrass', 'Oberstrass', 'Fluntern', 'Hottingen', 'Hirslanden',
       'Witikon', 'Seefeld', 'Mühlebach', 'Weinegg', 'Albisrieden',
       'Altstetten', 'Höngg', 'Wipkingen', 'Affoltern', 'Oerlikon',
       'Seebach', 'Saatlen', 'Schwamendingen-Mitte', 'Hirzenbach',
       'Unbekannt'], dtype=object)

In [194]:
# Ist da eine 1-1 Verbindung zwischen 'QuarCd', 'QuarLang'?
#------------------
#imp_data2betested[['QuarCd', 'QuarLang']].drop_duplicates()
#imp_data2betested

Folgend wird gezeigt, wie columns neu bennant, weggelassen oder neu berechnet werden können. 

In [103]:
data2betested = imp_data2betested \
    .copy() \
    .drop(columns_to_drop, axis=1) \
    .rename(columns=rename_cols) \
    .assign(
        #num_AnzBestWir_quart=lambda x: x.groupby(['QuarCd','QuarLang','StichtagDatJahr','StichtagDatMonat'])['QuarCd'].transform('sum'),
        #spots_plz=lambda x: x.groupby(['district', 'plz'])['spots'].transform(np.sum)
    )
    
data2betested

Unnamed: 0,StichtagDatJahr,StichtagDatMM,StichtagDatMonat,StichtagDat,GeschlechtCd,GeschlechtLang,AlterV20Sort,AlterV20Kurz,HerkunftCd,HerkunftLang,KreisCd,KreisLang,QuarCd,QuarLang,AnzBestWir
0,1998,1,Januar,13910,1,männlich,1,0-19,1,Schweizer/in,1,Kreis 1,11,Rathaus,114
1,1998,1,Januar,13910,1,männlich,1,0-19,1,Schweizer/in,1,Kreis 1,12,Hochschulen,24
2,1998,1,Januar,13910,1,männlich,1,0-19,1,Schweizer/in,1,Kreis 1,13,Lindenhof,37
3,1998,1,Januar,13910,1,männlich,1,0-19,1,Schweizer/in,1,Kreis 1,14,City,48
4,1998,1,Januar,13910,1,männlich,1,0-19,1,Schweizer/in,2,Kreis 2,21,Wollishofen,950
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
190675,2021,5,Mai,22431,2,weiblich,5,80 u. älter,2,Ausländer/in,11,Kreis 11,119,Seebach,89
190676,2021,5,Mai,22431,2,weiblich,5,80 u. älter,2,Ausländer/in,12,Kreis 12,121,Saatlen,17
190677,2021,5,Mai,22431,2,weiblich,5,80 u. älter,2,Ausländer/in,12,Kreis 12,122,Schwamendingen-Mitte,40
190678,2021,5,Mai,22431,2,weiblich,5,80 u. älter,2,Ausländer/in,12,Kreis 12,123,Hirzenbach,60


### Kitas
Importiere die Daten «[Kennzahlen zu Kitas (Kindertagesstätten) der Stadt Zürich nach Stadtquartier, seit 2014](https://data.stadt-zuerich.ch/dataset/sd_zv_kitas_stadtquartier)»

In [120]:
# Filepath
#fp = r"//szh.loc/ssz/applikationen/OGD_Dropzone/DWH/sd_zv_kitas_stadtquartier/sd_zv_kitas_stadtquartier.csv"
url =r"https://data.stadt-zuerich.ch/dataset/sd_zv_kitas_stadtquartier/download/sd_zv_kitas_stadtquartier.csv"
# Read the data
imp_kitas_stadtquartier = pd.read_csv(
    url, 
    sep=',',
   #usecols=[0,1,2,3,4,6],
   #names=['stationid','year','month','avgtemp','latitude','longitude','elevation','station','countryid','country'],
   #skiprows=1,
   # parse_dates=[0],
    #parse_dates=True,
    #date_parser=lambda x: pd.to_datetime(x, format="%Y"), 
    #index_col="date_time",
    low_memory=False    
    )

In [129]:
imp_kitas_stadtquartier.head()
#imp_kitas_stadtquartier['Qname'].unique()
#imp_data2betested[['QNr', 'Qname']].drop_duplicates()
#imp_data2betested.shape



QNr                  34
Qname                34
Skname                7
Jahr                  7
Anz_BP_SQ           190
Anz_Kinder_VA       233
Belegungsfaktor       4
Versorgungsquote    229
dtype: int64

In [166]:
# Rename columns bei Bedarf
rename_cols = {
    #'Anz_BP_SQ': 'Betreuungsplaetze_in_Stadtquartieren',
    #'Anz_Kinder_VA': 'Anzahl_Kinder_Vorschulalter',
}

columns_to_drop = []

# Format data: remove redundant columns, rename columns and add new features.

kitas_stadtquartier = imp_kitas_stadtquartier \
    .copy() \
    .drop(columns_to_drop, axis=1) \
    .rename(columns=rename_cols) \
    .assign(
        #num_AnzBestWir_quart=lambda x: x.groupby(['QuarCd','QuarLang','StichtagDatJahr','StichtagDatMonat'])['QuarCd'].transform('sum'),
        #spots_plz=lambda x: x.groupby(['district', 'plz'])['spots'].transform(np.sum)
    )

kitas_stadtquartier.head(500)

Unnamed: 0,QNr,Qname,Skname,Jahr,Anz_BP_SQ,Anz_Kinder_VA,Belegungsfaktor,Versorgungsquote
0,11,Rathaus,Zürichberg,2014,12.5,93.9,1.72,0.2290
1,11,Rathaus,Zürichberg,2015,12.5,85.8,1.75,0.2550
2,11,Rathaus,Zürichberg,2016,12.5,75.6,1.75,0.2894
3,11,Rathaus,Zürichberg,2017,47,75.7,1.77,1.0989
4,11,Rathaus,Zürichberg,2018,0,86.7,1.79,0.0000
...,...,...,...,...,...,...,...,...
233,123,Hirzenbach,Schwamendingen,2016,136.5,763.7,1.75,0.3128
234,123,Hirzenbach,Schwamendingen,2017,189,813.2,1.77,0.4114
235,123,Hirzenbach,Schwamendingen,2018,202,870.1,1.79,0.4156
236,123,Hirzenbach,Schwamendingen,2019,226.5,879.2,1.75,0.4508


## Explorative Analyse
One of the main objectives of this notebook is to do an exploratory data analysis to understand which questions this data set can answer. In addition, also determine its limitations. 

To begin, let us get the number of unique values per feature.


In [137]:
data2betested.apply(lambda x: x.unique().size, axis=0)

StichtagDatJahr       24
StichtagDatMM         12
StichtagDatMonat      12
StichtagDat          281
GeschlechtCd           2
GeschlechtLang         2
AlterV20Sort           5
AlterV20Kurz           5
HerkunftCd             2
HerkunftLang           2
KreisCd               13
KreisLang             13
QuarCd                35
QuarLang              35
AnzBestWir          3243
dtype: int64

In [195]:
kitas_stadtquartier.apply(lambda x: x.unique().size, axis=0)
kitas_stadtquartier.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 238 entries, 0 to 237
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   QNr               238 non-null    int64  
 1   Qname             238 non-null    object 
 2   Skname            238 non-null    object 
 3   Jahr              238 non-null    int64  
 4   Anz_BP_SQ         238 non-null    object 
 5   Anz_Kinder_VA     238 non-null    float64
 6   Belegungsfaktor   238 non-null    float64
 7   Versorgungsquote  238 non-null    float64
dtypes: float64(3), int64(2), object(3)
memory usage: 15.0+ KB


In [200]:
kitas_stadtquartier \
    .groupby(['Jahr','Skname' ]) \
    .agg(anz_betreungsplaetze_sk=('Jahr', 'sum'), anz_kinder_va_sk=('Anz_Kinder_VA', 'sum')) \
    .query('Jahr > 2016') \
    .sort_values('anz_kinder_va_sk', ascending=False) \
    .head(500)

Unnamed: 0_level_0,Unnamed: 1_level_0,anz_betreungsplaetze_sk,anz_kinder_va_sk
Jahr,Skname,Unnamed: 2_level_1,Unnamed: 3_level_1
2018,Glattal,6054,4540.7
2017,Glattal,6051,4523.8
2019,Glattal,6057,4380.9
2020,Glattal,6060,4294.5
2019,Waidberg,8076,4258.5
2020,Waidberg,8080,4252.0
2018,Waidberg,8072,4250.0
2017,Waidberg,8068,4123.4
2018,Uto,10090,4116.8
2019,Uto,10095,4026.0
