## Open Government Data, provided by **opendata.swiss**
*Autogenerated Python starter code for data set with identifier* **sammlung-europa-museum-der-kulturen-basel@openglam**

## Dataset
# **Sammlung Europa, Museum der Kulturen Basel**

## Description

Das Museum der Kulturen Basel (MKB) ist das grösste ethnologische Museum der Schweiz und eines der bedeutendsten seiner Art in Europa. Seine Sammlung geniesst Weltruf und zählt mehr als 340 000 Objekte. Rund 75 000 Objekte dieser Sammlung gehören zur Abteilung Europa. Sie wurden seit 1904 bis heute aus allen Teilen des Kontinents zusammengetragen. Die Tabelle zu den rund 75 000 Sammlungsstücken der Abteilung Europa enthält folgende Spalten:

 * «Inventarnummer» (Präfix plus Laufnummer. Unterschiedliche Präfixe deuten auf unterschiedliche Unter-Sammlungen hin. Standard ist VI, weil Europa die sechste Abteilung des Museums ist)
 * «Kurzbezeichnung und Titel» [Kurzbezeichnung: Titel] (Kurzbezeichnung ist die möglichst allgemeine Bezeichnung des Objekts, der Titel eine präzisere Bezeichnung, einheimische Bezeichnung oder Werktitel. Titel kann fehlen)
 * «Datierung» (geschätzte oder dokumentiertes Jahr der Herstellung des Objekts. In der Regel sehr ungenau, fehlt häufig)
 * «Material &Technik»
 * «Masse»
 * «Herkunft geografisch» (teilweise Land, Region, Ort)
 * «Einlauf-Info» [Einlaufnummer, Einlieferer*in, Erwerbungsart Jahr]
   * Einlaufnummer besteht aus Suffix-Underline-Laufnummer. Sie nummeriert jeweils die Gruppe von Objekten, die zusammen ins Museum gekommen sind.
   * Der/die Einlieferer*in brachte die Objekte ins Museum bzw. bezahlte dafür.
   * Erwerbungsart ist in der Regel Kauf (dann bezahlte das Museum und als Einlieferer erscheint der aktuelle Kurator) oder Geschenk, teils auch Legat oder Tausch. Leider teilweise auch «unbekannt, alter Bestand»
   * Jahr der Einlieferung

Die publizierten Daten sind mehrheitlich unbereinigt. Sowohl bei der erstmaligen Katalogisierung der Objekte, wie auch bei der Abschrift in die Datenbank gab es Inkonsistenzen, Fehler und Auslassungen. Darin enthaltene Terminologien können inzwischen unzutreffend, veraltet oder rassistisch beleidigend sein. 

## Data set links

[Direct link by opendata.swiss for dataset](https://opendata.swiss/de/dataset/sammlung-europa)<br>
[Direct link by OpenGLAM CH Working Group for dataset]()

## Metadata
- **Publisher** `Museum der Kulturen Basel`
- **Organization.display_name.de** `OpenGLAM CH Working Group`
- **Organization.url** `https://glam.opendata.ch/hackathons/`
- **Maintainer** `Tabea Buri`
- **Maintainer_email** `tabea.buri@bs.ch`
- **Keywords.de** `['glam', 'openglam']`
- **Issued** `2021-04-13T00:00:00`
- **Metadata_created** `2021-04-13T15:00:51.161206`
- **Metadata_modified** `2022-09-29T14:13:18.448660`


## Imports and helper functions

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

params = {
    'text.color': (0.25, 0.25, 0.25),
    'figure.figsize': [18, 6],
   }

plt.rcParams.update(params)

import pandas as pd 

In [None]:
# helper function for reading datasets with proper separator
def get_dataset(url):
    if url[-3:] != "csv":
        print("The data set URL has no proper 'csv' extension. Reading the dataset might not have worked as expected.\nPlease check the dataset link and adjust pandas' read_csv() parameters accordingly.")
    data = pd.read_csv(url, sep=",", on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
    # if dataframe only has one column or less the data is not comma separated, use ";" instead
    if data.shape[1] <= 1:
        data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
        if data.shape[1] <= 1:
            print("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
    return data

## Load data

- The dataset has **`1` distribution(s)** in CSV format.
- All available CSV distributions are listed below and can be read into a pandas dataframe.

In [None]:
# Distribution 0
# Package_id               : 9b87769a-bb08-4de1-87fa-d11beb61eeb5
# Description              : 
# Issued                   : 2021-04-13T00:00:00
# Modified                 : 
# Rights                   : NonCommercialAllowed-CommercialAllowed-ReferenceRequired

df = get_dataset('https://data.bs.ch/explore/dataset/100148/information/?sort=inventarnummer')



## Analyze data

In [None]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numercial data to plot.") 

In [None]:
# continue your code here...

**Contact**: tabea.buri@bs.ch | Tabea Buri