## Open Government Data, provided by **OpenDataZurich**
*Autogenerated Python starter code for data set with identifier* **prd_sar_schauspielhaus_repertoire**

## Dataset
# **Repertoire des Schauspielhaus Zürich, 1938-1968**

## Description


 Das Repertoire des Schauspielhauses Zürich umfasst sämtliche Premieren, die in den Jahren 1938 - 1968 aufgeführt wurden. 

Die dem Repertoire zugrunde liegenden Informationen werden dem Archivbestand «Schauspielhaus Zürich AG, VII.200.» entnommen. Dieser umfasst unter anderem die Rollenbücher, Spielpläne sowie Programmhefte und Besetzungslisten des Schauspielhauses, aus denen die Spielzeiten, die Autoren, Regisseure, die mitwirkenden Schauspielerinnen und Schauspieler, deren jeweilige Rolle sowie die Bühnenbildner eruiert werden können.



**Geschichte**

 
Das Archiv des Schauspielhauses Zürich fällt zusammen mit der Gründung der «Neuen Schauspiel AG» und der Wahl des Basler Theatermanns Oskar Wälterlin zum neuen Direktor derselben im Jahr 1938. In diese frühe Zeit des Schauspielhauses fielen auch wichtige **Uraufführungen** wie **Brechts «Mutter Courage» (1941)**, **Wilders «Eine kleine Stadt» (erste deutschsprachige Aufführung 1939) ** und **Zuckmayers «Des Teufels General» (1946)**. Auch Autoren wie **Max Frisch** und **Friedrich Dürrenmatt** wurden im Schauspielhaus uraufgeführt und zu eigentlichen «Schauspiehaus-Institutionen».

Der Archivbestand des Schauspielhauses Zürich wird im Stadtarchiv Zürich aufbewahrt. Weiterführende Informationen können der Beschreibung des Bestandes entnommen werden: 
- [VII.200. Schauspielhaus Zürich AG. Archiv, 1938-2000](https://amsquery.stadt-zuerich.ch/query/detail.aspx?id=11586)


[]()

**Erläuterungen zur Liste**

Jede Zeile entspricht einer Rolle und ihrer Besetzung im entsprechenden Theaterstück. Dabei sind die beschreibenden Angaben des jeweiligen Theaterstücks (Spielzeit, Stücktitel, Aufführungsort, Regisseur usw.) pro Zeile redundant. 
Wurde eine Aufgabe (z.B. Regie, Musik, Kostüme usw.)  von mehreren Personen wahrgenommen, werden sämtliche Namen aufgelistet und durch Semikolon getrennt.

[]()



## Data set links

[Direct link by OpenDataZurich for dataset](https://data.stadt-zuerich.ch/dataset/prd_sar_schauspielhaus_repertoire)

https://data.stadt-zuerich.ch/dataset/prd_sar_schauspielhaus_repertoire/download/schauspielhaus_repertoire_1938-1968.csv<br>


## Metadata
- **Publisher** `Stadtarchiv Zürich, Präsidialdepartement`
- **Maintainer** `Open Data Zürich`
- **Maintainer_email** `opendata@zuerich.ch`
- **Keywords** `Bildung,Kultur`
- **Tags** `['archivdaten', 'glam', 'openglam', 'schauspielerinnen', 'schauspielhaus-zurich', 'theater', 'zack']`
- **Metadata_created** `2019-07-29T13:36:53.660921`
- **Metadata_modified** `2025-07-19T21:11:26.246722`


## Imports and helper functions

In [None]:
import matplotlib.pyplot as plt
import pandas as pd 

In [None]:
# helper function for reading datasets with proper separator
def get_dataset(url):
    """
    Return pandas df if url is parquet or csv file. Return None if not.
    """
    extension = url.rsplit(".",1)[-1]
    if extension == 'parquet':
        data = pd.read_parquet(url)
    elif extension == 'csv':
        data = pd.read_csv(url, sep=",", on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
        # if dataframe only has one column or less the data is not comma separated, use ";" instead
        if data.shape[1] <= 1:
            data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
            if data.shape[1] <= 1:
                print("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
    else:
        print("Cannot load data! Please provide an url with csv or parquet extension.")
        data = None
    return data

## Load the data

In [None]:
df = get_dataset('https://data.stadt-zuerich.ch/dataset/prd_sar_schauspielhaus_repertoire/download/schauspielhaus_repertoire_1938-1968.csv')

## Analyze the data

In [None]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numercial data to plot.") 

In [None]:
# continue your code here...

**Contact**: opendata@zuerich.ch