In [4]:
from frictionless import Schema, Resource, Layout

The file is downloaded from https://region.statistik-nord.de/detail_timeline/12/1101/31/1/346/556/

In [5]:
!cat 2022-05-05-13-25-Zeitreihe_fuer_Lauenburg_Elbe__Stadt.csv

﻿Zeitreihe für Lauenburg/Elbe, Stadt
""
Siedlungs- und Verkehrsflächen nach Nutzungsartengruppen in Lauenburg/Elbe, Stadt
""
;Wohnen<sup>1)</sup>;;Industrie und Gewerbe<sup>1)</sup>;;Sport, Freizeit, Erholungsfläche<sup>1)</sup>;;Friedhof<sup>1)</sup>;;Sonstige Siedlungsflächen<sup>1)</sup>;;Verkehr<sup>1)</sup>;;Siedlungs- und Verkehrsflächen insgesamt
Zeit;%;ha;%;ha;%;ha;%;ha;%;ha;%;ha;%;ha
31.12.2016;46,6 ;208,13 ;17,4 ;77,66 ;6,7 ;29,87 ;1,4 ;6,03 ;6,9 ;30,90 ;21,1 ;94,24 ;100,0 ;446,84 
31.12.2017;46,2 ;208,16 ;17,4 ;78,26 ;7,7 ;34,52 ;1,3 ;6,03 ;6,7 ;30,33 ;20,7 ;93,27 ;100,0 ;450,57 
31.12.2018;46,2 ;208,57 ;17,4 ;78,62 ;7,6 ;34,50 ;1,3 ;6,03 ;6,7 ;30,33 ;20,6 ;93,10 ;100,0 ;451,14 
31.12.2019;46,3 ;211,30 ;17,5 ;79,99 ;7,6 ;34,89 ;1,3 ;6,03 ;6,6 ;30,02 ;20,6 ;94,11 ;100,0 ;456,34 
31.12.2020;46,6 ;214,70 ;17,4 ;80,40 ;7,6 ;35,16 ;1,3 ;6,03 ;6,4 ;29,66 ;20,6 ;94,94 ;100,0 ;460,90 
"";""
Anmerkungen zu den Daten
1);aufgrund systematischer Änderungen ab 2016 ist ein V

# Understanding the format above

It is a bit hard to understand the file format above without looking at the link above where the table in HTML is much easier to read:

![table](table.png)

I don't know a way to parse the header as it is written above. We could just read the line with "Zeit", "%", "ha", etc but we would lost the column names information "Wohnen", "Industrie...", etc

A simple way to describing this data is generating a table schema following [Frictionless Table Schema format](https://specs.frictionlessdata.io/table-schema/#language) and saving it to a file, like schema.json:

In [None]:
{
  "fields": [
    {
      "type": "date",
      "name": "Zeit",
      "format": "%d.%m.%Y"
    },
    {
      "name": "Wohnen.percent",
      "type": "number",
      "decimalChar": ","
    },
    {
      "name": "Wohnen.ha",
      "type": "number",
      "decimalChar": ","
    },
    {
      "type": "number",
      "decimalChar": ",",
      "name": "Industrie_und_Gewerbe.percent"
    },
    {
      "type": "number",
      "decimalChar": ",",
      "name": "Industrie_und_Gewerbe.ha"
    },
    {
      "type": "number",
      "decimalChar": ",",
      "name": "Sport_Freizeit_Erholungsfläche.percent"
    },
    {
      "type": "number",
      "decimalChar": ",",
      "name": "Sport_Freizeit_Erholungsfläche.ha"
    },
    {
      "type": "number",
      "decimalChar": ",",
      "name": "Friedhof.percent"
    },
    {
      "type": "number",
      "decimalChar": ",",
      "name": "Friedhof.ha"
    },
    {
      "type": "number",
      "decimalChar": ",",
      "name": "Sonstige_Siedlungsflächen.percent"
    },
    {
      "type": "number",
      "decimalChar": ",",
      "name": "Sonstige_Siedlungsflächen.ha"
    },
    {
      "type": "number",
      "decimalChar": ",",
      "name": "Verkehr.percent"
    },
    {
      "type": "number",
      "decimalChar": ",",
      "name": "Verkehr.ha"
    },
    {
      "type": "number",
      "decimalChar": ",",
      "name": "Siedlungs_und_Verkehrsflächen_insgesamt.percent"
    },
    {
      "type": "number",
      "decimalChar": ",",
      "name": "Siedlungs_und_Verkehrsflächen_insgesamt.ha"
    }
  ]
}


In [10]:
from frictionless import Resource, Layout, Schema
from frictionless.plugins.csv import CsvDialect

# Specify the column separator as ';'
dialect = CsvDialect(delimiter=';')

# Ignore the first 6 rows and the last rows
# You could also explicitly ignore the last rows from the file, giving their line numbers with `skip_rows=list(range(12,21))`
layout =  Layout(offset_rows=5, limit_rows=5)

# Load the schema above
schema = Schema('schema.json')

resource = Resource('2022-05-05-13-25-Zeitreihe_fuer_Lauenburg_Elbe__Stadt.csv', layout=layout, schema=schema, dialect=dialect)


In [17]:
from pprint import pprint

pprint(resource.read_rows())

[{'Friedhof.ha': Decimal('6.03'),
  'Friedhof.percent': Decimal('1.4'),
  'Industrie_und_Gewerbe.ha': Decimal('77.66'),
  'Industrie_und_Gewerbe.percent': Decimal('17.4'),
  'Siedlungs_und_Verkehrsflächen_insgesamt.ha': Decimal('446.84'),
  'Siedlungs_und_Verkehrsflächen_insgesamt.percent': Decimal('100.0'),
  'Sonstige_Siedlungsflächen.ha': Decimal('30.90'),
  'Sonstige_Siedlungsflächen.percent': Decimal('6.9'),
  'Sport_Freizeit_Erholungsfläche.ha': Decimal('29.87'),
  'Sport_Freizeit_Erholungsfläche.percent': Decimal('6.7'),
  'Verkehr.ha': Decimal('94.24'),
  'Verkehr.percent': Decimal('21.1'),
  'Wohnen.ha': Decimal('208.13'),
  'Wohnen.percent': Decimal('46.6'),
  'Zeit': datetime.date(2016, 12, 31)},
 {'Friedhof.ha': Decimal('6.03'),
  'Friedhof.percent': Decimal('1.3'),
  'Industrie_und_Gewerbe.ha': Decimal('78.26'),
  'Industrie_und_Gewerbe.percent': Decimal('17.4'),
  'Siedlungs_und_Verkehrsflächen_insgesamt.ha': Decimal('450.57'),
  'Siedlungs_und_Verkehrsflächen_insgesamt.p