# Open Government Data, Canton Zurich

## Dataset: **Eintragungen im Handelsregister des Kantons Zürich**

## Description

Quartalsweise aktualisierte Informationen zu den Neueintragungen, Konkursen, Löschungen und Sitzverlegungen der im Handelsregister eingetragenen Unternehmen und weiteren Rechtseinheiten mit Sitz im Kanton Zürich.

**[Direct data shop link for dataset](https://www.zh.ch/de/politik-staat/opendata.zhweb-noredirect.zhweb-cache.html?keywords=ogd#/datasets/1421@handelsregisteramt-kanton-zuerich)**

*Autogenerated Python starter code for data set with identifier* **1421@handelsregisteramt-kanton-zuerich**

## Metadata
- **Issued** `2022-10-11T14:15:13`
- **Modified** `2022-10-13T10:14:46`
- **Startdate** `2018-01-01`
- **Enddate** `2022-09-30`
- **Theme** `['Volkswirtschaft', 'Arbeit, Erwerb']`
- **Keyword** `['branchen', 'firmen', 'genossenschaften', 'handelsregister', 'konkurse', 'unternehmen', 'wirtschaft', 'vereine', 'unternehmensdaten', 'loeschungen', 'sitzverlegungen', 'ogd']`
- **Publisher** `['Handelsregisteramt des Kantons Zürich']`
- **Landingpage** `https://zh.chregister.ch/cr-portal/suche/suche.xhtml`


## Imports and helper functions

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

params = {
    'text.color': (0.25, 0.25, 0.25),
    'figure.figsize': [18, 6],
   }

plt.rcParams.update(params)

import pandas as pd 

In [None]:
# helper function for properly reading datasets
def get_dataset(url):
    data = pd.read_csv(url, on_bad_lines='warn', encoding_errors='ignore')
    # if dataframe only has one column or less the "," separator was wrong, use ";" instead
    if data.shape[1] <= 1:
        data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore')
    return data

## Load data

- The dataset has **`4` distribution(s)** in CSV format.
- All available CSV distributions are listed below and can be read into a pandas dataframe.

In [None]:
# Distribution 0
# Ktzhdistid               : 2778
# Title                    : Neueintragungen pro Quartal und Branchen ab 2018
# Description              : Als Neueintragung versteht man die erstmalige Erfassung von Unternehmen und weiteren Rechtseinheiten im Handelsregister. Variablen: 'quartal' = bezeichnet mit Q1 bis Q4; Stichtag ist jeweils der letzten Tag im Quartal; 'branchen' = Zuteilung der Rechtseinheiten nach der 'Allgemeinen Systematik der Wirtschaftszweige' (NOGA) auf Stufe Abschnitt (1 Grossbuchstabe); Branche 'Diverse' ist eine Sammelkategorie, in welcher alle Branchen mit weniger als 10 Fällen zusammengefasst werden; die Zusammensetzung kann von Quartal zu Quartal ändern; Branche 'Total' entspricht dem gesamten Kanton Zürich; 'n' = Anzahl Neueintragungen für das Quartal im Erhebungsjahr; 'kumsum' = Teilsumme für das Erhebungsjahr (die Summe wird jeweils aktualisiert, indem der Wert des neuen Quartals im Erhebungsjahr addiert wird); 'vj_abs_n' /  'vj_rel_n' = Veränderung im Vergleich zum selben Quartal des Vorjahres auf Basis der Anzahl Neueintragungen 'A' (berechnet durch Division der Differenz zwischen der Gesamtzahl für ein Quartal im Erhebungsjahr 'B' und der Gesamtzahl aus demselben Quartal im Vorjahr 'C' durch die Gesamtzahl für das Quartal im Vorjahr 'C'; Formel: A = (B-C) / C; ein positiver Wert bedeutet eine Zunahme, ein negativer Wert eine Abnahme). Ausgegeben als absoluter und relativer Wert.
# Issued                   : 2022-10-11T14:15:13
# Modified                 : 2022-10-11T14:15:13
# Rights                   : NonCommercialAllowed-CommercialAllowed-ReferenceRequired

df = get_dataset('https://www.web.statistik.zh.ch/ogd/data/KANTON_ZUERICH_HRA_Neueintragungen.csv')

# Distribution 1
# Ktzhdistid               : 2779
# Title                    : Löschungen pro Quartal und Branchen ab 2018
# Description              : Als Löschungen werden Schliessungen von Unternehmen und weiteren Rechtseinheiten erfasst. Darunter fallen auch Löschungen von Amtes wegen sowie  aufgrund eines Fusionsverfahrens. Variablen: 'quartal' = bezeichnet mit Q1 bis Q4; Stichtag ist jeweils der letzten Tag im Quartal; 'branchen' = Zuteilung der Rechtseinheiten nach der 'Allgemeinen Systematik der Wirtschaftszweige' (NOGA) auf Stufe Abschnitt (1 Grossbuchstabe); Branche 'Diverse' ist eine Sammelkategorie, in welcher alle Branchen mit weniger als 10 Fällen zusammengefasst werden; die Zusammensetzung kann von Quartal zu Quartal ändern; Branche 'Total' entspricht dem gesamten Kanton Zürich; 'n' = Anzahl Neueintragungen für das Quartal im Erhebungsjahr; 'kumsum' = Teilsumme für das Erhebungsjahr (die Summe wird jeweils aktualisiert, indem der Wert des neuen Quartals im Erhebungsjahr addiert wird); 'vj_abs_n' /  'vj_rel_n' = Veränderung im Vergleich zum selben Quartal des Vorjahres auf Basis der Anzahl Löschungen 'A' (berechnet durch Division der Differenz zwischen der Gesamtzahl für ein Quartal im Erhebungsjahr 'B' und der Gesamtzahl aus demselben Quartal im Vorjahr 'C' durch die Gesamtzahl für das Quartal im Vorjahr 'C'; Formel: A = (B-C) / C; ein positiver Wert bedeutet eine Zunahme, ein negativer Wert eine Abnahme); als absoluter und relativer Wert.
# Issued                   : 2022-10-11T14:15:13
# Modified                 : 2022-10-11T14:15:13
# Rights                   : NonCommercialAllowed-CommercialAllowed-ReferenceRequired

df = get_dataset('https://www.web.statistik.zh.ch/ogd/data/KANTON_ZUERICH_HRA_Loeschungen.csv')

# Distribution 2
# Ktzhdistid               : 2780
# Title                    : Konkurse pro Quartal und Branchen ab 2018
# Description              : Sobald das Konkursgericht über eine Firma den Konkurs eröffnet hat, wird ein Konkursfall registriert. Wird das Verfahren eingestellt und zu einem späteren Zeitpunkt ein neues Konkursverfahren eröffnet, wird diese  Konkurseröffnung erneut gezählt. Nachträgliche Konkurseröffnungen infolge eines amtlichen Verfahrens  werden ebenfalls als Konkurse ausgewiesen. Variablen: 'quartal' = bezeichnet mit Q1 bis Q4; Stichtag ist jeweils der letzten Tag im Quartal; 'branchen' = Zuteilung der Rechtseinheiten nach der 'Allgemeinen Systematik der Wirtschaftszweige' (NOGA) auf Stufe Abschnitt (1 Grossbuchstabe); Branche 'Diverse' ist eine Sammelkategorie, in welcher alle Branchen mit weniger als 10 Fällen zusammengefasst werden; die Zusammensetzung kann von Quartal zu Quartal ändern; Branche 'Total' entspricht dem gesamten Kanton Zürich; 'n' = Anzahl Neueintragungen für das Quartal im Erhebungsjahr; 'kumsum' = Teilsumme für das Erhebungsjahr (die Summe wird jeweils aktualisiert, indem der Wert des neuen Quartals im Erhebungsjahr addiert wird); 'vj_abs_n' /  'vj_rel_n' = Veränderung im Vergleich zum selben Quartal des Vorjahres auf Basis der Anzahl Konkurse 'A' (berechnet durch Division der Differenz zwischen der Gesamtzahl für ein Quartal im Erhebungsjahr 'B' und der Gesamtzahl aus demselben Quartal im Vorjahr 'C' durch die Gesamtzahl für das Quartal im Vorjahr 'C'; Formel: A = (B-C) / C; ein positiver Wert bedeutet eine Zunahme, ein negativer Wert eine Abnahme); ausgegeben als absoluter und relativer Wert.
# Issued                   : 2022-10-11T14:15:13
# Modified                 : 2022-10-11T14:15:13
# Rights                   : NonCommercialAllowed-CommercialAllowed-ReferenceRequired

df = get_dataset('https://www.web.statistik.zh.ch/ogd/data/KANTON_ZUERICH_HRA_Konkurse.csv')

# Distribution 3
# Ktzhdistid               : 2781
# Title                    : Sitzverlegungen pro Quartal und Branche ab 2018
# Description              : Unternehmen und weitere Rechtseinheiten können ihre Domiziladresse ändern. Sobald ein Wechsel über die Kantonsgrenzen erfolgt, wechselt die Zuständigkeit des kantonalen Handelsregisters. Verlegt ein im Zürcher Handelsregister eingetragenes Unternehmen sein Domizil in einen anderen Kanton, wird dies als Wegzug aus dem Kanton Zürich gezählt. Umgekehrt hat eine Domiziländerung in eine Zürcher Gemeinde einen Eintrag im Zürcher Handelsregister zur Folge, was als Zuzug in den Kanton Zürich ausgewiesen wird. Variablen: 'quartal' = bezeichnet mit Q1 bis Q4; Stichtag ist jeweils der letzten Tag im Quartal; 'branchen' = Zuteilung der Rechtseinheiten nach der 'Allgemeinen Systematik der Wirtschaftszweige' (NOGA) auf Stufe Abschnitt (1 Grossbuchstabe); Branche 'Diverse' ist eine Sammelkategorie, in welcher alle Branchen mit weniger als 10 Fällen zusammengefasst werden; die Zusammensetzung kann von Quartal zu Quartal ändern; Branche 'Total' entspricht dem gesamten Kanton Zürich; 'n' = Anzahl Neueintragungen für das Quartal im Erhebungsjahr; 'kumsum' = Teilsumme für das Erhebungsjahr (die Summe wird jeweils aktualisiert, indem der Wert des neuen Quartals im Erhebungsjahr addiert wird); 'vj_abs_n' /  'vj_rel_n' = Veränderung im Vergleich zum selben Quartal des Vorjahres auf Basis der Anzahl Zu- und Wegzüge (Saldo) 'A' (berechnet durch Division der Differenz zwischen der Gesamtzahl für ein Quartal im Erhebungsjahr 'B' und der Gesamtzahl aus demselben Quartal im Vorjahr 'C' durch die Gesamtzahl für das Quartal im Vorjahr 'C'; Formel: A = (B-C) / C; ein positiver Wert bedeutet eine Zunahme, ein negativer Wert eine Abnahme); ausgegeben als absoluter und relativer Wert. 'sitzverlegung' = Beschreibt, ob es sich um einen Zuzug, Wegzug oder das Saldo, also die Differenz aus Zu- und Wegzug, handelt.
# Issued                   : 2022-10-11T14:15:13
# Modified                 : 2022-10-11T14:15:13
# Rights                   : NonCommercialAllowed-CommercialAllowed-ReferenceRequired

df = get_dataset('https://www.web.statistik.zh.ch/ogd/data/KANTON_ZUERICH_HRA_Sitzverlegungen.csv')



## Analyze data

In [None]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numercial data to plot.") 

In [None]:
# continue your code here...

**Contact**: Handelsregisteramt des Kantons Zürich |  | kanzlei.hra@ji.zh.ch