# Gestructureerde gegevens

In een database werk je met *gestructureerde gegevens:* elk afzonderlijk gegeven heeft een *naam* en een *type*.

Een formulier is een voorbeeld van een document met gestructureerde gegevens. Elk *veld* van het formulier heeft een *naam*, waarbij je een *waarde* kunt invullen. Meestal zijn de velden *getypeerd*: als geboortedatum mag je alleen een datum invullen, als e-mailadres alleen een tekenreeks die aan de eisen van een e-mailadres voldoet, enz.. Een ingevuld formulier kun je zien als  een reeks *(naam, waarde)-paren:*

```{figure} ./images/formulier-waarden-fig.png
:name: formulier met velden en waarden
:width: 500px

Formulier met velden en waarden
```

Een document met gestructureerde gegevens, zoals een formulier, lijkt sterk op een *dictionary* in Python, een *object* in JavaScript, op een *record* in Pascal, of op een *struct* in C: ook in die gevallen heb je te maken met een reeks (naam, waarde)-paren. De velden noem je in dat geval ook wel items (Python), properties (JavaScript) of members (in C). In het geval van ERD-ontwerp spreken we over *attributen*.

**Structuur vergemakkelijkt zoeken en bewerken.** Door de afzonderlijke gegevens te benoemen, kun je deze opvragen en bewerken, zoals we in het gedeelte over zoeken en samenvatten zullen zien. 

Naast de naam-waarde paren zoals in een formulier zijn er nog meer manieren om structuur in gegevens aan te brengen. We zullen daar later meer voorbeelden van behandelen. In programmeertalen heb je daarvoor allerlei mogelijkheden ("datastructuren"), maar ook voor persistente data zoals in databases.

**Structuur en betekenis**. De structuur van gegevens maakt het ook gemakkelijker om de betekenis van de gegevens vast te leggen.

```{margin}
Dit kun je vergelijken met het kiezen van betekenisvolle namen in programma's: essentieel voor de menselijke lezer, niet van belang voor computers.

```

Door eem betekenisvolle naam voor een veld te kiezen, zoals "voornaam" of "woonplaats", maak je het voor de menselijke gebruiker duidelijk wat de betekenis van dat veld is.
Voor de computer maakt het niet uit welke naam je kiest voor een veld, als je die naam maar op een consistente manier gebruikt.

```{margin}
Als je een veldnaam als "voornaam" of "woonplaats" ook betekenis kunt geven voor computers, nemen de mogelijkheden van databases nog sterk toe. Maar dergelijke *semantische databases* vormen nog onderwerp van onderzoek, en vallen buiten het bestek van dit materiaal.
```

## Eén waarde per veld

Een veld in een formulier kan maar één waarde bevatten: je kunt niet zomaar twee e-mailadressen of twee telefoonnummers invullen. Om zoiets mogelijk te maken moet je extra velden gebruiken.
Ook spreadsheets en relationele databases hebben deze beperking, van één waarde per veld.

```{margin}
Programma's als Notion en Airtable hebben een paar uitzonderingen op deze regel. In de gebruikersinterface zijn dan meervoudige waarden per cel mogelijk.
```

## Typering

Het *type* van een veld bepaalt welke waarden toegestaan zijn, en welke bewerkingen op die waarden mogelijk zijn.
Voorbeelden van types zijn: tekst, getal, datum, telefoonnummer, e-mail.adres

Bij het invullen van een formulier wordt soms gecontroleerd of de ingevulde waarden voldoen aan deze type-eisen (*validatie* van de invoer). 

Soms zijn er nog aanvullende eisen aan de waarden; bijvoorbeeld de postcode moet overeenkomen met de straat en de plaats; of, een geboortedatum moet (niet al te ver) in het verleden liggen. Dit zijn eigenschappen die te maken hebben met de "wereld" die je in het formulier probeert vast te leggen: daar gelden dergelijke "business rules". (Zie later bij data-modellering.)

## Lege velden en verplichte velden

Een veld dat niet ingevuld is heeft de eigenschap *leeg* (*empty*). Een veld waarvoor de waarde 0 ingevuld is, is niet leeg: 0 is een normale waarde (net als 1, enz.)  Bij formulieren en bij andere gestructureerde documenten mogen sommige velden niet leeg zijn: deze moeten altijd ingevuld worden. Bij een formulier heet dat dan een *verplicht veld*. Voor het bovenstaande voorbeeld-formulier zijn waarschijnlijk de naam en het e-mailadres verplicht: deze heb je nodig voor de identificatie.

Soms spreken we over *leeg* als *eigenschap van een veld,* en soms als *waarde.* Dit hangt af van de omgeving: eigenlijk is het beter om over leeg als *eigenschap* van een veld te spreken, maar in sommige talen of omgevingen wordt daarvoor een aparte waarde gebruikt, die verschilt van alle andere waarden, bijvoorbeeld `None` in Python, of `NULL` in SQL. In het laatste geval is dit een speciale waarde, die je alleen maar kunt gebruiken in de expressies `IS NULL` of `IS NOT NULL`.

### Default-waarden

Een andere manier om met een niet-ingevuld veld om te gaan is om een *default-waarde* daarvoor op te geven: als de waarde van het veld niet ingevuld wordt, heeft dit veld deze default-waarde. In het algemeen zul je voorzichtig moeten zijn met dergelijke default-waarden, omdat je niet kunt zien of iemand nagelaten heeft een waarde in te vullen, of dat deze waarde expliciet ingevuld is.

## Ongestructureerde gegevens en meta-data

**Ongestructureerde gegevens**. Tekst zoals in deze alinea noemen we *ongestructureerde data*: er zijn geen benoemde velden waaraan je houvast hebt voor organiseren, opbergen en terugzoeken. Ook foto-, video- en audio-bestanden zijn voorbeelden van ongestructureerd data.

**Opdracht**. Geef voorbeelden van ongestructureerde data.

### Meta-data

Een document met ongestructureerde data, zoals een tekst-, foto-, of video-bestand, kan wel *gestructureerde meta-data* bevatten: data over het document, zoals de titel, de maker(s), de datum, tijd en plaats van creatie, enzovoorts. Met behulp van deze gestructureerde meta-data kun je dergelijke ongestructureerde documenten dan opbergen en terugzoeken.

Meta-data is "data over data", data die andere data beschrijft. Maar meta-data kan ook betrekking hebben op dingen die geen data zijn, denk bijvoorbeeld aan de beschrijving van een fysiek object in een webwinkel of in een museum.

**Opdracht**: metadata. Welke meta-data heb je gewoonlijk bij:

- een foto?
- een boek? (Denk bijvoorbeeld aan de beschrijving van een boek op een bibliotheekkaartje)
- een schilderij? (Bijvoorbeeld voor een museum)
- een koelkast? (Bijvoorbeeld voor een webwinkel)

## Vervolg

**Data in een tabel**. Een volgende stap is het structuren van data in een tabel, bijvoorbeeld een tabel met de data van ingevulde formulieren. Via de structuur kun je de gegevens die voor een bepaald doel relevant zijn, opzoeken en weergeven op een manier die bij het doel past.

Werken met een tabel kun je met spreadsheet-software, met toepassingen als Notion of Coda, of met een relationele database.

**Data in meerdere tabellen**. Als de data complexer worden, heb je meerdere tabellen nodig om de structuur weer te geven. Deze tabellen kunnen over en weer naar elkaar verwijzen. Bij het zoeken kun je dan de gegevens van meerdere tabellen combineren, voor een weergave ("view") die bij het doel past.

**Beschrijven van de structuur in een schema**. Vaak is het nodig om de structuur van de gegevens te beschrijven - voor je eigen documentatie, maar ook voor het database systeem dat daarmee de juiste tabellen e.d. kan aanmaken. De beschrijving van de structuur van een document of van een database noemen we een *schema*.

**Gebruik van gestandaardiseerde schema's.** Je kunt altijd je eigen schema's gebruiken, maar vaak is het handig om daarbij te putten uit de gestandaardiseerde schema's die voor bepaalde domeinen gedefinieerd zijn: bijvoorbeeld, personen en plaatsen en de eigenschappen daarvan komen in veel contexten voor.

**Modelleren: het ontwerpen van een structuur**. Nadat je een aantal voorbeelden gezien hebt van bestaande databases, komt de vraag: hoe ontwerp je een database? Hoe bepaal je de structuur van de data van een bepaald domein, bijvoorbeeld de administratie van een fietsverhuurbedrijf? Deze vraag wordt meestal in twee stappen beantwoord: eerst bepaal je de conceptuele of logische structuur van de data, en daarna vertaal je deze naar de "fysieke" structuren die in een bepaald database-systeem beschikbaar zijn, zoals tabellen in het geval van relationele databases (RDBMS).


## Toetsvragen en opdrachten

* onderscheid gestructureerde vs. ongestructureerde data
    * voorbeelden van beide
* geef voorbeelden van gestructureerde en ongestructureerde data
* data en meta-data; voorbeelden van meta-data
* voorbeelden van default-waarden vs. lege velden? verplichte velden?
* uitspraken over "leeg" cq. "NULL"
* ontwerpen van een formulier (met welk doel?) - bijv. met Google Forms
    * favoriete muziek
    * favoriete serie
    * favoriete boek (of, boek dat je leest voor nederlands/...)
    * (paar verschillende soorten vragen, multiple choice, open vragen, )
    * aanmelden voor een activiteit
* voorbeeld van een formulier uit je omgeving
    * welke velden verplicht? waarom?
    * welke velden optioneel? (NULL waarden mogelijk...)
    * typering van velden? Hoe kun je velden detecteren?
    * welke eisen worden aan de betreffende velden gesteld? Kun je die controleren?
