## Open Government Data, provided by **Statistisches Amt des Kantons Basel-Stadt - Fachstelle OGD**
*Autogenerated Python starter code for data set with identifier* **100330**

## Dataset
# **Handelsregister: Firmen mit Rechtsform und Standort**

## Data set links

[Direct data shop link for dataset](https://data.bs.ch/explore/dataset/100330)

## Metadata
- **Dataset_identifier** `100330`
- **Title** `Handelsregister: Firmen mit Rechtsform und Standort`
- **Description** `<p>Dieser Datensatz umfasst die Firmen des Kantons Basel-Stadt, die im Handelsregister des Zefix (Zentraler Firmenindex) registriert sind. Das Zefix bildet das öffentlich zugängliche Angebot des Eidgenössischen Amtes für das Handelsregister (EHRA). Es stellt die Daten des Zentralregisters über verschiedene Zugänge wie die Zefix Webapplikation (<a href='https://www.zefix.admin.ch/' target='_blank'>https://www.zefix.admin.ch/</a>), die Zefix REST API (<a href='https://www.zefix.admin.ch/ZefixPublicREST/swagger-ui/index.html' target='_blank'>https://www.zefix.admin.ch/ZefixPublicREST/swagger-ui/index.html</a>), die Zefix Mobile App (<a href='https://www.zefixapp.ch' target='_blank'>https://www.zefixapp.ch</a>/) und als Linked Data in LINDAS (<a href='https://lindas.admin.ch/' target='_blank'>https://lindas.admin.ch/</a>, was hier verwendet wurde) über das Internet zur Verfügung. Über Zefix können die Daten sämtlicher im Handelsregister eingetragener Rechtseinheiten sowie die täglichen Handelsregisterpublikationen im SHAB (Schweizerischen Handelsamtsblatt, <a href='https://www.shab.ch/' target='_blank'>https://www.shab.ch/</a>) abgerufen werden. Der hier angebotene Datensatz beinhaltet tagesaktuelle Kerndaten der aktiven, im Handelsregister eingetragenen Rechtseinheiten, wie Firma/Name, Sitz und Domiziladresse.</p><p>LINDAS (Linked Data Service) fungiert in diesem Kontext als Plattform für die Vernetzung und den Zugriff auf diverse Datenquellen in der Schweiz, einschliesslich der Daten aus dem Zefix. Zur Gewinnung spezifischer Informationen über die im Kanton Basel-Stadt registrierten Unternehmen wird eine SPARQL-Abfrage verwendet. SPARQL, eine Abfragesprache für Daten im RDF-Format, ermöglicht den Zugriff auf detaillierte Datensätze über die Firmen aus dem LINDAS-Netzwerk. Die SPARQL-Abfrage kann unter einem bereitgestellten Link (<a href='https://s.zazuko.com/2WjT8iZ' target='_blank'>https://s.zazuko.com/2WjT8iZ</a>) aufgerufen werden. Die Abfrage wurde mithilfe der vorhandenen SPARQL-Abfrage von opendata.swiss (<a href='https://opendata.swiss/de/dataset/zefix-zentraler-firmenindex' target='_blank'>https://opendata.swiss/de/dataset/zefix-zentraler-firmenindex</a>) zum Zefix erweitert: <a href='https://github.com/opendatabs/data-processing/blob/master/zefix_handelsregister/etl.py' target='_blank'>https://github.com/opendatabs/data-processing/blob/master/zefix_handelsregister/etl.py</a></p><p>Diese Zefix-Daten und die der anderen Kantone werden von Open Data Basel-Stadt täglich aktualisiert und können unter folgendem HTTPS-Link heruntergeladen werden: <br><i>https://data-bs.ch/stata/zefix_handelsregister/all_cantons/companies_[Kantonskürzel].csv<br></i>Im Beispiel von Basel-Landschaft lautet der Link:<br><a href='https://data-bs.ch/stata/zefix_handelsregister/all_cantons/companies_BL.csv' target='_blank'>https://data-bs.ch/stata/zefix_handelsregister/all_cantons/companies_BL.csv </a><br></p><p>Der Datensatz enthält neben den Grundinformationen der Firmen auch erweiterte Spalten wie die Koordinaten der Unternehmen, die mithilfe der Betriebsadresse und von Nominatim (<a href='https://nominatim.org/' target='_blank'>https://nominatim.org/</a>) berechnet wurden. Nominatim ist ein Open-Source-Tool zur Geokodierung, das heisst, es wandelt Standortdaten wie Adressen oder Ortsnamen in geografische Koordinaten (Längen- und Breitengrade) um und umgekehrt.</p>`
- **Contact_name** `Open Data Basel-Stadt`
- **Issued** `2024-01-18`
- **Modified** `2025-05-12T00:08:07+00:00`
- **Rights** `NonCommercialAllowed-CommercialAllowed-ReferenceNotRequired`
- **Temporal_coverage_start_date** `None`
- **Temporal_coverage_end_date** `None`
- **Themes** `['Industrie, Dienstleistungen', 'Volkswirtschaft']`
- **Keywords** `['Handelsregister', 'Zefix', 'Unternehmen', 'Betrieb', 'Betriebe', 'Aktiengesellschaft', 'Einzelunternehmen', 'Genossenschaft', 'GMBH', 'Kollektivgesellschaft', 'Stiftung', 'Verein']`
- **Publisher** `Open Data Basel-Stadt`
- **Reference** `https://ld.admin.ch/`


## Imports and helper functions

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

params = {
    'text.color': (0.25, 0.25, 0.25),
    'figure.figsize': [18, 6],
   }

plt.rcParams.update(params)

import pandas as pd
import requests
import os

In [None]:
# helper function for reading datasets with proper separator
def get_dataset(url):
    r = requests.get(url, params={'format': 'csv', 'timezone': 'Europe%2FZurich'})
    data_path = os.path.join(os.getcwd(), '..', 'data')
    if not os.path.exists(data_path):
      os.makedirs(data_path)
    csv_path = os.path.join(data_path, '100330.csv')
    with open(csv_path, 'wb') as f:
        f.write(r.content)
    data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
    # if dataframe only has one column or less the data is not ";" separated
    if data.shape[1] <= 1:
        print("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
    return data

## Load data

The dataset is read into a dataframe

In [None]:
df = get_dataset('https://data.bs.ch/explore/dataset/100330/download')

## Analyze data

In [None]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numercial data to plot.") 

In [None]:
# continue your code here...

**Questions about the data?** Fachstelle für OGD Basel-Stadt | opendata@bs.ch