## Open Government Data, provided by **Statistisches Amt des Kantons Basel-Stadt - Fachstelle OGD**
*Autogenerated Python starter code for data set with identifier* **100111**

## Dataset
# **Coronavirus (COVID-19): In Basel-Stadt verabreichte Impfungen**

## Data set links

[Direct data shop link for dataset](https://data.bs.ch/explore/dataset/100111)

## Metadata
- **Dataset_identifier** `100111`
- **Title** `Coronavirus (COVID-19): In Basel-Stadt verabreichte Impfungen`
- **Description** `<p>Der Datensatz zeigt die Anzahl im Kanton Basel-Stadt gegen SARS-CoV-2 geimpfter Personen auf täglicher Basis. Zusätzlich wird angegeben, wie viele Personen im kantonalen Impfzentrum geimpft wurden und wie viele Impfungen durch baselstädtische Spitäler an ihr Gesundheitspersonal verabreicht wurden. Ebenso sind die Impfungen in Arzpraxen und Apotheken separat aufgeführt. Impfungen im Impfbus werden nicht separat ausgewiesen, sondern sind in der Anzahl im Impfzentrum verabreichten Impfungen integriert. Weiter finden Sie Angaben darüber, wie viele Personen mit einer ersten resp. einer zweiten Dosis geimpft wurden.  </p><p>Die im Kanton Basel-Stadt geimpften Personen müssen nicht zwingend im Kanton Basel-Stadt wohnen. Angaben zu den geimpften Personen mit Wohnsitz im Kanton Basel-Stadt finden Sie in diesem Datensatz: <a href='https://data.bs.ch/explore/dataset/100135' target='_blank'>https://data.bs.ch/explore/dataset/100135</a></p><p>Die an dieser Stelle publizierten Zahlen können von jenen Zahlen abweichen, welche über Kanäle von Bundesstellen für den Kanton Basel-Stadt publiziert sind. Begründen lassen sich die Differenzen mit unterschiedlichen Aktualisierungszyklen. Es wird ab Montag, 10.5.2021 dieselbe Quelle (Vaccination Monitoring Data Lake, VMDL BAG) verwendet. </p><p>Leider können aufgrund der Quellenänderung die Impfungen der mobilen Equipen nicht mehr separat ausgewiesen werden. Sie werden zu den im Impfzentrum verabreichten Impfungen hinzugezählt. Da die VMDL-Werte auch rückwirkend übernommen werden, kommt es zu Abweichungen bei den täglich publizierten Werten gegenüber früher in diesem Datensatz veröffentlichten Werten. </p>
<p>
Ab 5. August 2021 können dritte Impfungen in den Daten enthalten sein. Initial sind ausschliesslich immundefiziente Personen oder Personen mit Stammzellentransplantation zu einer dritten Impfung berechtigt. Genauere Informationen werden zu gegebener Zeit auf <a href='https://coronavirus.bs.ch'>https://coronavirus.bs.ch</a> veröffentlicht.</p><p>Die Meldepflicht der COVID-Impfungen via VMDL Plattform des Bundes wurde per 1. Juli 2023 aufgehoben. Nach diesem Datum wurden Impfungen deshalb nicht mehr systematisch erfasst. Der vorliegende Datensatz zeigt deshalb Impfungen nur bis 1. Juli 2023.<br/></p><p> 
</p>`
- **Contact_name** `Fachstelle für OGD Basel-Stadt`
- **Issued** `2021-01-05`
- **Modified** `2024-01-04T08:38:16+00:00`
- **Rights** `NonCommercialAllowed-CommercialAllowed-ReferenceRequired`
- **Temporal_coverage_start_date** `2020-12-27T23:00:00+00:00`
- **Temporal_coverage_end_date** `2023-06-30T22:00:00+00:00`
- **Themes** `['Gesundheit']`
- **Keywords** `['Corona', 'impfen', 'Prophylaxe', 'Vakzin', 'COVID-19', 'Coronavirus', 'Krankheit', 'Lungenentzündung']`
- **Publisher** `Medizinische Dienste`
- **Reference** `https://www.coronaimpfzentrumbasel.ch/`


## Imports and helper functions

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

params = {
    'text.color': (0.25, 0.25, 0.25),
    'figure.figsize': [18, 6],
   }

plt.rcParams.update(params)

import pandas as pd
import requests
import os

In [None]:
# helper function for reading datasets with proper separator
def get_dataset(url):
    r = requests.get(url, params={'format': 'csv', 'timezone': 'Europe%2FZurich'})
    data_path = os.path.join(os.getcwd(), '..', 'data')
    if not os.path.exists(data_path):
      os.makedirs(data_path)
    csv_path = os.path.join(data_path, '100111.csv')
    with open(csv_path, 'wb') as f:
        f.write(r.content)
    data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
    # if dataframe only has one column or less the data is not ";" separated
    if data.shape[1] <= 1:
        print("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
    return data

## Load data

The dataset is read into a dataframe

In [None]:
df = get_dataset('https://data.bs.ch/explore/dataset/100111/download')

## Analyze data

In [None]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numercial data to plot.") 

In [None]:
# continue your code here...

**Questions about the data?** Fachstelle für OGD Basel-Stadt | opendata@bs.ch