# Open Government Data, Canton Zurich

### **Dataset**: Kontaktpersonen des Volksschulamts des Kantons Zürich nach Schulgemeinde und Themen

### **Description**: Für Schulbehörden, Schulleitungen, Schulverwaltungen und Lehrpersonen zusammengestellte Kontaktpersonen des Volksschulamts zu Primar- und Sekundarschulen und den Themen 'Personal', 'Lohn', 'Beratung' und 'Sonderpädagogik'.

*Autogenerated Jupyter Notebook and basic Python code for data set* **735@volksschulamt-kanton-zuerich**.

## Dataset profile
- **Issued** `2021-09-06T00:00:00`
- **Modified** `2021-09-20T15:55:00`
- **Startdate** `None`
- **Enddate** `None`
- **Theme** `['Bildung, Wissenschaft']`
- **Keyword** `['bildung', 'primarschule', 'schulen', 'schulgemeinden', 'sekundarschule', 'volksschule', 'ogd']`
- **Publisher** `['Volksschulamt des Kantons Zürich']`
- **Landingpage** `https://www.zh.ch/de/bildung/informationen-fuer-schulen/informationen-volksschule.html#-536456471`


## Import Python modules

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

params = {
    'text.color': (0.25, 0.25, 0.25),
    'figure.figsize': [18, 6],
   }

plt.rcParams.update(params)

import pandas as pd 

## Load data

- The dataset has **`1` distribution(s)** in CSV format.
- All available CSV distributions are listed below and can be read into a pandas dataframe.

In [2]:
# Distribution 0
# Ktzhdistid               : 1875
# Title                    : Tabelle der Kontaktpersonen des Volksschulamts des Kantons Zürich nach Schulgemeinde und Themen
# Description              : Variabeln: 'Code_P' = Primarstufe, 'Name_P' = Name der Primarschulgemeinde, 'Personal_P' = Name der Kontaktperson für das Thema 'Personal', 'Lohn_P' = Name der Kontaktperson für das Thema 'Lohn', 'Beratung_P' = Name der Kontaktperson für das Thema 'Beratung', 'Sonderpädagogik_P' = Name der Kontaktperson für das Thema 'Sonderpädagogik', 'Code_O' = Oberstufe, 'Name_O' = Name der Oberstufenschulgemeinde, 'Personal_O' = Name der Kontaktperson für das Thema 'Personal', 'Lohn_O' = Name der Kontaktperson für das Thema 'Lohn', 'Beratung_O' = Name der Kontaktperson für das Thema 'Beratung', 'Sonderpädagogik_O' = Name der Kontaktperson für das Thema 'Sonderpädagogik'
# Issued                   : 2021-09-06T12:58:32
# Modified                 : 2021-09-20T15:55:28
# Rights                   : NonCommercialAllowed-CommercialAllowed-ReferenceRequired

df = pd.read_csv('https://raw.githubusercontent.com/statistikZH/Visualisierung_VSAKarte/main/Data/VSA_Kantonskarte.csv', on_bad_lines='warn', encoding_errors='ignore')
if df.shape[1] <= 1:
    df = pd.read_csv('https://raw.githubusercontent.com/statistikZH/Visualisierung_VSAKarte/main/Data/VSA_Kantonskarte.csv', sep=';', on_bad_lines='warn', encoding_errors='ignore')

## Analyze data

In [3]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [4]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

The dataset has 474 rows (observations) and 14 columns (variables).
There seem to be 0 exact duplicates in the data.


In [5]:
df.info(memory_usage='deep', verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 474 entries, 0 to 473
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Code_P             474 non-null    object
 1   Feld_P             474 non-null    object
 2   Name_P             474 non-null    object
 3   Personal_P         474 non-null    object
 4   Lohn_P             474 non-null    object
 5   Beratung_P         474 non-null    object
 6   Sonderpädagogik_P  474 non-null    object
 7   Code_O             234 non-null    object
 8   Feld_O             234 non-null    object
 9   Name_O             234 non-null    object
 10  Personal_O         234 non-null    object
 11  Lohn_O             234 non-null    object
 12  Beratung_O         234 non-null    object
 13  Sonderpädagogik_O  230 non-null    object
dtypes: object(14)
memory usage: 402.8 KB


In [6]:
df.head()

Unnamed: 0,Code_P,Feld_P,Name_P,Personal_P,Lohn_P,Beratung_P,Sonderpädagogik_P,Code_O,Feld_O,Name_O,Personal_O,Lohn_O,Beratung_O,Sonderpädagogik_O
0,A01,Name,KSB / Zürich-Uto,Ramona Oertli,Gülcan Akgül,Heidi Schweizer,Myriam Autengruber,,,,,,,
1,A01,Email,KSB / Zürich-Uto,ramona.oertli@vsa.zh.ch,guelcan.akguel@vsa.zh.ch,heidi.schweizer@vsa.zh.ch,myriam.autengruber@vsa.zh.ch,,,,,,,
2,A01,Tel,KSB / Zürich-Uto,043 259 22 81,043 259 53 03,043 259 22 74,043 259 53 73,,,,,,,
3,A02,Name,KSB / Zürich-Limmattal,Jasmin Näf,Sarina Kilchsperger,Heidi Schweizer,Myriam Autengruber,,,,,,,
4,A02,Email,KSB / Zürich-Limmattal,jasmin.naef@vsa.zh.ch,sarina.kilchsperger@vsa.zh.ch,heidi.schweizer@vsa.zh.ch,myriam.autengruber@vsa.zh.ch,,,,,,,


In [7]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

Unnamed: 0,284,35,308
Code_P,I24,B05,J03
Feld_P,Tel,Tel,Tel
Name_P,PSP / Rickenbach,GSP / Oberengstringen,KSP / Winterthur-Seen-Mattenbach
Personal_P,043 259 22 52,043 259 53 01,043 259 53 75
Lohn_P,043 259 53 87,043 259 53 03,043 259 53 87
Beratung_P,043 259 22 55,043 259 22 74,043 259 22 55
Sonderpädagogik_P,043 259 22 91,043 259 22 93,043 259 22 91
Code_O,I25,,
Feld_O,Tel,,
Name_O,SSP / Rickenbach,,


In [8]:
# describe non-numerical features
with pd.option_context('display.float_format', '{:,.2f}'.format):
    display(df.describe(exclude='number'))

Unnamed: 0,Code_P,Feld_P,Name_P,Personal_P,Lohn_P,Beratung_P,Sonderpädagogik_P,Code_O,Feld_O,Name_O,Personal_O,Lohn_O,Beratung_O,Sonderpädagogik_O
count,474,474,474,474,474,474,474,234,234,234,234,234,234,230
unique,158,3,158,51,37,6,20,30,3,30,35,35,8,15
top,A01,Name,KSB / Zürich-Uto,043 259 22 52,rosita.richli@vsa.zh.ch,Sabine Meier,micha.bollag@vsa.zh.ch,K03,Name,SSP / Andelfingen,043 259 22 69,Sarah Bräm,sabine.meier@vsa.zh.ch,yvonne.ehrensperger@vsa.zh.ch
freq,3,158,3,19,26,87,42,15,78,15,18,24,44,31


In [9]:
# describe numerical features
with pd.option_context('display.float_format', '{:,.2f}'.format):
    display(df.describe(include='number'))

ValueError: No objects to concatenate

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
df.hist(bins=25, layout=(-1, 5), edgecolor='black');

In [None]:
# continue your code here...

**Contact**: Volksschulamt des Kantons Zürich |  | info@vsa.zh.ch