## Open Government Data, provided by **Statistisches Amt des Kantons Basel-Stadt - Fachstelle OGD**
*Autogenerated Python starter code for data set with identifier* **100137**

## Dataset
# **Coronavirus (Covid-19): Erweiterte Daten zu Impfungen nach Altersgruppe**

## Data set links

[Direct data shop link for dataset](https://data.bs.ch/explore/dataset/100137)

## Metadata
- **Dataset_identifier** `100137`
- **Title** `Coronavirus (Covid-19): Erweiterte Daten zu Impfungen nach Altersgruppe`
- **Description** `<p>Dieser Datensatz zeigt die SARS-CoV-2-Impfungen, welche an Personen mit Wohnsitz im Kanton Basel-Stadt verabreicht wurden nach Altersklasse. </p><p>Anmerkung: Die geimpften Personen wohnen im Kanton Basel-Stadt, müssen aber nicht zwingend auch im Kanton Basel-Stadt geimpft worden sein. Aus diesem Grund unterscheiden sich die hier publizierten Zahlen auch von jenen im <a href='https://data.bs.ch/explore/dataset/100111' target='_blank'>Datensatz mit den im Kanton Basel-Stadt verabreichten Impfungen</a>. </p><p>Dieser Datensatz wurde mit verschiedenen Variablen aus diesem Datensatz (<a href='https://data.bs.ch/explore/dataset/100128' target='_blank'>https://data.bs.ch/explore/dataset/100128</a>) ergänzt, um die Anteile der geimpften Personen nach Altersklasse für die Visualisierungen berechnen zu können. Die rohen Werte zu den geimpften Personen nach Altersklasse finden Sie in diesem Datensatz: <a href='https://data.bs.ch/explore/dataset/100135' target='_blank'>https://data.bs.ch/explore/dataset/100135</a><a href='https://data.bs.ch/explore/dataset/100135' target='_blank'></a></p><p>Ab 2. Juli 2021 werden auch geimpfte Personen in der Altersklasse von 12 bis 15 Jahren gezeigt. 12- bis 15-Jährige konnten sich ab 28. Juni 2021 impfen lassen. Die impfberechtigte Bevölkerung wurde entsprechend ab dem 28. Juni um die 12- bis 15-jährigen Personen ergänzt. </p><p>
Ab 5. August 2021 können dritte Impfungen in den Daten enthalten sein. Initial sind ausschliesslich immundefiziente Personen oder Personen mit Stammzellentransplantation zu einer dritten Impfung berechtigt. Genauere Informationen werden zu gegebener Zeit auf <a href='https://coronavirus.bs.ch'>https://coronavirus.bs.ch</a> veröffentlicht.</p><p>Die Meldepflicht der COVID-Impfungen via VMDL Plattform des Bundes wurde per 1. Juli 2023 aufgehoben. Nach diesem Datum wurden Impfungen deshalb nicht mehr systematisch erfasst. Der vorliegende Datensatz zeigt deshalb Impfungen nur bis 1. Juli 2023.<br/></p><p> 
</p>`
- **Contact_name** `Fachstelle für OGD Basel-Stadt`
- **Issued** `2021-06-11`
- **Modified** `2024-01-04T08:34:41+00:00`
- **Rights** `NonCommercialAllowed-CommercialAllowed-ReferenceRequired`
- **Temporal_coverage_start_date** `2020-12-27T23:00:00+00:00`
- **Temporal_coverage_end_date** `2023-06-30T22:00:00+00:00`
- **Themes** `['Gesundheit']`
- **Keywords** `['Impfung', 'SARS-CoV-2', 'Coronavirus', 'Corona', 'Vaccination', 'impfen', 'geimpft']`
- **Publisher** `Medizinische Dienste`
- **Reference** `https://www.gesundheit.bs.ch/`


## Imports and helper functions

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

params = {
    'text.color': (0.25, 0.25, 0.25),
    'figure.figsize': [18, 6],
   }

plt.rcParams.update(params)

import pandas as pd
import requests
import os

In [None]:
# helper function for reading datasets with proper separator
def get_dataset(url):
    r = requests.get(url, params={'format': 'csv', 'timezone': 'Europe%2FZurich'})
    data_path = os.path.join(os.getcwd(), '..', 'data')
    if not os.path.exists(data_path):
      os.makedirs(data_path)
    csv_path = os.path.join(data_path, '100137.csv')
    with open(csv_path, 'wb') as f:
        f.write(r.content)
    data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
    # if dataframe only has one column or less the data is not ";" separated
    if data.shape[1] <= 1:
        print("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
    return data

## Load data

The dataset is read into a dataframe

In [None]:
df = get_dataset('https://data.bs.ch/explore/dataset/100137/download')

## Analyze data

In [None]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numercial data to plot.") 

In [None]:
# continue your code here...

**Questions about the data?** Fachstelle für OGD Basel-Stadt | opendata@bs.ch