In [1]:
%matplotlib inline

from matplotlib import pyplot as plt

import numpy as np
import pandas as pd

# Dataset: Produktion und Versorgung mit Getreide in Deutschland

Source: Statistisches Bundesamt 

License: [Data licence Germany – zero – Version 2.0](https://www.govdata.de/dl-de/zero-2-0)

URL: https://open-data.ble.de/dataset/250a37d1-3ee1-4092-9f28-c54693fa4284/resource/4ccaf3b1-6eae-44eb-9455-de8679e7770c/download/versorgungsbilanz_getreide.csv

URI: https://www.govdata.de/web/guest/daten/-/details/produktion-und-versorgung-mit-getreide-in-deutschland

## Information

### What is contained in the dataset?

The data contains information on supply balances of cereals and cereal products.

### Encoding

The file is encoded in *ISO-8859-1* (sometimes referred to as *Latin 1*). Refer to this [list of Python standard encoding](https://docs.python.org/3/library/codecs.html#standard-encodings).

### Format

From the URL we infer that the dataset is provided as a CSV file.

### File header

This is the header of the CSV file:

```
Sektor;Sektorsumme;Produktgruppe;Produkt;Gehört zu;Bilanz;Jahr;Wirtschaftsjahr;Fußnote Jahr;Fußnote Vorläufig;Bilanzoberbegriff;Fußnote Bilanzoberbegriff;Erzeugung/Herstellung;Bilanzposition;Reihenfolge Bilanzposition;Wert;Zahlenwert;Fußnote Bilanzposition;Fußnote Produkt;Einheit;Ergänzung Einheit;;

```

### Columns and their meaning

we only present the meaning for an excerpt of the columns

|                  column name                  |          Meaning         |
|:-----:|:------------------------:|
| Produkt | type of grain                      |
| Jahr  | year  |
| Bilanzoberbegriff | general category of use |
| Bilanzposition | exact type of usage |
| Wert | value |
| Einheit | unit of measurement |

In [2]:
FILE_URL = (
    "https://open-data.ble.de/dataset/250a37d1-3ee1-4092-9f28-c54693fa4284/resource/"
    "4ccaf3b1-6eae-44eb-9455-de8679e7770c/download/versorgungsbilanz_getreide.csv"
)

### `(A)` Import the file

Download the data from the given URL and import it in a `DataFrame`. Make sure to only import columns you consider meaningful. 

There will be *missing values* (NaN values) in some rows. For the moment, leave them in the `DataFrame` as we will need them in the next task.

In [4]:
df = pd.read_csv(FILE_URL, sep=";", 
                 decimal=",", thousands=".", 
                 usecols= ["Produkt", "Jahr", "Bilanzoberbegriff", "Bilanzposition", "Wert", "Einheit"],
                 encoding="latin-1") 

df 

Unnamed: 0,Produkt,Jahr,Bilanzoberbegriff,Bilanzposition,Wert,Einheit
0,Weichweizen,1991,Produktion,Verwendbare Erzeugung,16531,1 000 t
1,Hartweizen,1991,Produktion,Verwendbare Erzeugung,80,1 000 t
2,Roggen,1991,Produktion,Verwendbare Erzeugung,3370,1 000 t
3,Gerste,1991,Produktion,Verwendbare Erzeugung,14494,1 000 t
4,Hafer,1991,Produktion,Verwendbare Erzeugung,2139,1 000 t
...,...,...,...,...,...,...
4945,Gerste,2020,Detailposition,Industrielle Verwertung für Braumalz,,1 000 t
4946,Hafer,2020,Detailposition,Industrielle Verwertung für Braumalz,,1 000 t
4947,Triticale,2020,Detailposition,Industrielle Verwertung für Braumalz,,1 000 t
4948,Mais,2020,Detailposition,Industrielle Verwertung für Braumalz,,1 000 t


In [5]:
df.head()
df.tail()
df.info()
df.sample(10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4950 entries, 0 to 4949
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Produkt            4950 non-null   object
 1   Jahr               4950 non-null   int64 
 2   Bilanzoberbegriff  4950 non-null   object
 3   Bilanzposition     4950 non-null   object
 4   Wert               4055 non-null   object
 5   Einheit            4944 non-null   object
dtypes: int64(1), object(5)
memory usage: 232.2+ KB


Unnamed: 0,Produkt,Jahr,Bilanzoberbegriff,Bilanzposition,Wert,Einheit
4537,Gerste,2018,Verbrauch,Nahrungsverbrauch in Produktgewicht,13493655.0,1 000 t
3067,Triticale,2007,Detailposition,Saatgut,558325866.0,1 000 t
1574,Mais,2001,Ausfuhr,Ausfuhr,1441.0,1 000 t
239,Hartweizen,1992,Detailposition,Nahrungsverbrauch Nahrungsverbrauch Ausbeute in %,7162162162.0,%
2119,Triticale,2004,Detailposition,Futter aus Inlandserzeugung,,1 000 t
2990,Weichweizen,2008,Detailposition,Industrielle Verwertung für Alkohol,564782.0,1 000 t
126,Weichweizen,1991,Detailposition,Industrielle Verwertung,476.0,1 000 t
2606,Weichweizen,2010,Selbstversorgungsgrad,Selbstversorgungsgrad in %,1269995214.0,%
1232,Weichweizen,1999,Produktion,Verwendbare Erzeugung,19258.0,1 000 t
501,Hafer,1994,Detailposition,Inlandsverwendung insgesamt,1826.0,1 000 t


### `(A)` Missing values

* Determine the number of missing values (`NaN`s) for each column.

In [None]:
...

* How many missing values are there in each year? Make a suitable visualisation.

In [None]:
...

### `(A)` Grain exports

What is the amount of *exported* grain per year? Obtain this information for all types of grains. Make a suitable visualisation of the data.

In [None]:
...

### `(A)` Grain Usage

Consider the following different categories for grain usage (these are all entries of the `Bilanzposition` column in the dataframe):

* `'Nahrungsverbrauch in Produktgewicht'`
* `'Futter'`
* `'Industrielle Verwertung'`
* `'Saatgut'`
* `'Ausfuhr'`

What is the amount (in tons) for each usage type per year? Make a suitable visualisation.

In [None]:
categories = [
    'Nahrungsverbrauch in Produktgewicht',
    'Futter',
    'Industrielle Verwertung',
    'Saatgut',
    'Ausfuhr',
]

In [None]:
...