## Open Government Data, provided by **opendata.swiss**
*Autogenerated Python starter code for data set with identifier* **bar-09@schweizerisches-bundesarchiv-bar**

## Dataset
# **Dateninventar Bund**

## Description

Der Bundesrat will mit seiner Open-Government-Data-Strategie Schweiz 2014–2018 den Zugang zu Behördendaten erleichtern. Eine der Massnahmen aus der Strategie ist die Inventarisierung der Datenbestände des Bundes. Das Ziel dieser Inventarisierung ist es, eine möglichst umfassende Übersicht über jene Datensammlungen zu erhalten, die in der Verwaltung bereits vorhanden sind. Nur ein Teil der Datensätze im Inventar sind bereits auf opendata.swiss publiziert. Das Dateninventar soll als Grundlage, für die weitere systematische Publikation von geeigneten Daten als Open Government Data OGD, dienen. Es wird fortlaufend aktualisiert.

## Data set links

[Direct link by opendata.swiss for dataset](https://opendata.swiss/de/dataset/data-inventory-of-the-federal-administrationdata)<br>
[Direct link by Schweizerisches Bundesarchiv BAR for dataset](https://www.egovernment.ch/de/umsetzung/e-government-schweiz-2008-2015/open-government-data-schweiz/)

## Metadata
- **Publisher** `Schweizerisches Bundesarchiv`
- **Organization.display_name.de** `Schweizerisches Bundesarchiv BAR`
- **Organization.url** `https://www.bar.admin.ch`
- **Maintainer** `Schweizerisches Bundesarchiv`
- **Maintainer_email** `opendata@bar.admin.ch`
- **Keywords.de** `['bund', 'daten', 'dateninventar', 'datenkatalog', 'inventar', 'ogd', 'open-data', 'strategie']`
- **Issued** `2017-12-19T00:00:00`
- **Metadata_created** `2017-12-19T08:41:21.820711`
- **Metadata_modified** `2022-06-13T14:45:58.037570`


## Imports and helper functions

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

params = {
    'text.color': (0.25, 0.25, 0.25),
    'figure.figsize': [18, 6],
   }

plt.rcParams.update(params)

import pandas as pd 

In [None]:
# helper function for reading datasets with proper separator
def get_dataset(url):
    if url[-3:] != "csv":
        print("The data set URL has no proper 'csv' extension. Reading the dataset might not have worked as expected.\nPlease check the dataset link and adjust pandas' read_csv() parameters accordingly.")
    data = pd.read_csv(url, sep=",", on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
    # if dataframe only has one column or less the data is not comma separated, use ";" instead
    if data.shape[1] <= 1:
        data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
        if data.shape[1] <= 1:
            print("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
    return data

## Load data

- The dataset has **`1` distribution(s)** in CSV format.
- All available CSV distributions are listed below and can be read into a pandas dataframe.

In [None]:
# Distribution 0
# Package_id               : 1de5033f-a9b9-4f15-be7a-93f1b76a8ccb
# Description              : Im „Dateninventar Bund“ werden sämtliche Datensammlungen erfasst, die im Rahmen des gesetzlichen Auftrags erhoben, erstellt, verwaltet, verarbeitet und gespeichert werden. Unter dem Begriff „Datensammlung“ verstehen wir jede inhaltlich zusammenhängende und strukturierte Sammlung von Daten, beispielsweise in Form von Listen in Textdokumenten (Word, RTF), als Excel- und CSV-Tabellen oder als relationale Datenbanken (Oracle, mySQL). In unserem Verständnis entspricht der Begriff Datensammlung dem englischen Terminus „dataset“. So zählen Geschäftsdossiers oder Ordnungssysteme in diesem Kontext nicht als Datensammlungen. Es geht ebenfalls nicht um „Fachanwendungen“ oder „Applikationen“, da diese nur zur Bearbeitung oder Konsultation von Daten dienen, wohl aber um deren Inhalte. Ausgeschlossen sind Sammlungen die nach Art. 11a des Datenschutzgesetzes beim Eidgenössischen Datenschutz- und Öffentlichkeitsbeauftragten EDÖB angemeldet sind, Geo-Datensammlungen, die bereits im zentralen Katalog für Geoinformationen geocat.ch enthalten sind und Datensammlungen zu ausschliesslich persönlichem Gebrauch.
# Issued                   : 2017-12-19T00:00:00
# Modified                 : 
# Rights                   : NonCommercialAllowed-CommercialAllowed-ReferenceNotRequired

df = get_dataset('https://bar-files.opendata.swiss/owncloud/index.php/s/Ps6gJt4mfz2SiBx')



## Analyze data

In [None]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numercial data to plot.") 

In [None]:
# continue your code here...

**Contact**: Schweizerisches Bundesarchiv | info@bar.admin.ch