# Het `JSON` bestandsformaat

## Complexe gestructureerde data

De libraries `pandas` en `numpy` zijn ontzettend goed in het efficïent verwerken van data in een rectilinear formaat, zoals een driedimensionale `numpy` array van shape `(4,3,2)` daarin alleen `int` waarden, of een tweedimensionale `pandas` dataframe met daarin een paar kolommen van verschillende datatypes.

Veel data is echter wél gestructureerd, maar past niet makkelijk in bovenstaande jasjes. Stel je de volgende situatie voor: je werkt met DNA sequenties van genen. Voor elke sequentie verzamel je de volgende data:

- De sequentie zelf
- De GENBANK identifier 
- Alle mogelijke Gene Ontology klassen, waarbij voor elke GO klasse de volgende data wordt verzameld:
    - GO term ID, bijvoorbeeld `GO:0001221`
    - GO ontology, bijvoorbeeld `molecular_function`
    - Naam van de GO term, bijvoorbeeld `transcription coregulator binding`
- Alle mogelijke KEGG pathways, waarbij voor elke pathway de volgende data wordt verzameld::
    - KEGG ID, bijvoorbeeld `map03022`
    - KEGG naam, bijvoorbeeld `Basal transcription factors`
    - lijst met alle aanwezige genproducten in deze pathway, zoals `TFIIA1,TFIIA2,TFIIB,...,MAT1`

Dit is een typisch voorbeeld van complexe gestructureerde data. Je weet vantevoren wel hoe de data er ongeveer uitziet, maar niet precies. Het is bijvoorbeeld goed mogelijk dat `gen_1` een annotatie heeft met 6 GO klassen, terwijl `gen_2` er 37 heeft. Het is ook mogelijk dat er geen GO annotatie beschikbaar is. Iets vergelijkbaars geldt de lijst met genproducten voor een KEGG pathway. 


Enig idee hoe je dit in `numpy` of `pandas` zou kunnen implementeren? Zo ja, dan hoor ik dat graag 🤔 🧐 ...

## Complexe gestructureerde data in Python

Als je het bovenstaande complexe datavoorbeeld in Python zou moeten implementeren, denk je waarschijnlijk al gauw in de richting van een zelfgeschreven Python klasse of een nested datastructuur gebaseerd op dictionaries. In beide gevallen spreken we feitelijk van een custom data **object**. 

Een voorbeelduitwerking van dit complexe datatype in standaard Python datatypes staat in het codeblok hieronder. Zoals je ziet heeft `gen_1` hier drie GO annotaties, en één KEGG annotatie. 


In [3]:

gen_1 = {
    "sequentie" : "ATGTAATCGTTAAGCAATCTAT",
    "genbank_id" : 1293613,
    "GO" : [
        {
            "id" : "GO:0001221",
            "ontology" : "molecular_function",
            "name" : "transcription coregulator binding"
        },
        {
            "id" : "GO:0001222",
            "ontology" : "molecular_function",
            "name" : "transcription corepressor binding"
        },
        {
            "id" : "GO:0008134",
            "ontology" : "molecular_function",
            "name" : "transcription factor binding"
        }
    ],
    "KEGG" : [
        {
            "id" : "map03022",
            "name" : "Basal transcription factors",
            "gene_products" : ["TFIIA1", "TFIIA2", "MAT1"]
        }
    ]
}

print(gen_1)
print(f"Aantal GO klassen: {len(gen_1['GO'])}")
print(f"Aantal KEGG klassen: {len(gen_1['KEGG'])}")


{'sequentie': 'ATGTAATCGTTAAGCAATCTAT', 'genbank_id': 1293613, 'GO': [{'id': 'GO:0001221', 'ontology': 'molecular_function', 'name': 'transcription coregulator binding'}, {'id': 'GO:0001222', 'ontology': 'molecular_function', 'name': 'transcription corepressor binding'}, {'id': 'GO:0008134', 'ontology': 'molecular_function', 'name': 'transcription factor binding'}], 'KEGG': [{'id': 'map03022', 'name': 'Basal transcription factors', 'gene_products': ['TFIIA1', 'TFIIA2', 'MAT1']}]}
Aantal GO klassen: 3
Aantal KEGG klassen: 1


## `JSON`: de *de facto* standaard voor het uitwisselen van complexe data 

Het [JSON](https://en.wikipedia.org/wiki/JSON) format is een open standard bestandsformaat die het mogelijk maakt complexe datastructuren op te slaan en te delen. JSON staat voor **J**ava**S**cript **O**bject **N**otation, en is sinds zijn ontstaan uitgegroeid tot dé standaard voor het delen van complexe datastructuren, en wordt zeer veel gebruikt in het delen van data via webservers zoals APIs (hierover later meer). Het JSON format wordt ondersteund door alle grote programmeertalen.

Een voorbeeld van een `json` data-object staat hieronder:

```json
{
  "first_name": "John",
  "last_name": "Smith",
  "is_alive": true,
  "age": 27,
  "address": {
    "street_address": "21 2nd Street",
    "city": "New York",
    "state": "NY",
    "postal_code": "10021-3100"
  },
  "phone_numbers": [
    {
      "type": "home",
      "number": "212 555-1234"
    },
    {
      "type": "office",
      "number": "646 555-4567"
    }
  ],
  "children": [
    "Catherine",
    "Thomas",
    "Trevor"
  ],
  "spouse": null
}
```

Dat lijkt verdacht veel op een Python dictionary, nietwaar?



## Werken met `json` in Python

### De standaard `json` library

Support voor het werken met `json` data zit in [de standaard `json` library](https://docs.python.org/3/library/json.html). Zoek uit hoe je `json` bestanden in kan lezen en kan maken, en hoe je van Python objecten naar `json` strings kan gaan en vice-versa.

 Voor een overzicht van de mappings van Python datatypes naar JSON datatypes, en vice-versa, zie [deze tutorial op TowardsDataScience.com](https://towardsdatascience.com/working-with-json-data-in-python-45e25ff958ce). Let op: in `JSON` zijn alle keys strings.

### Opdracht 1

Maak een lijst van 100 studenten. Gebruik daarvoor de reeds gegeven functie `maak_student()`. Sla deze lijst met studenten op als een `json` bestand met de naam `100_studenten.json`.


In [4]:
def maak_student():
    """
    Simuleer studiegegevens van een student
    """
    from random import randint, choice
    student = {'studentnummer' : f"s{randint(10000000,19999999)}"}
    cijferlijst = [randint(10,100)/10 for _ in range(randint(0,10))]
    student['geslaagd'] = choice([True, False])
    
    if cijferlijst: # Er is minimaal 1 cijfer bekend
        student['cijferlijst'] = cijferlijst
    else:
        student['geslaagd'] = False
    return student

# maak vanaf hier de opdracht

### Opdracht 2

Laad het `json` bestand `100_studenten.json` in. Analyseer de resultaten van de studenten en maak een lijst met het studentnummer en het gemiddelde cijfer van alle studenten die nog niet geslaagd zijn. Bijvoorbeeld:

```python
[ 
    ('s11709801', 7.3),
    ('s17231126', 4.733333333333333),
    ('s10968660', 4.5625)
 ]
 ```

Schrijf deze lijst weg als `json` bestand genaamd `voortgang_rapportage.json`.



### `json` support in `pandas`

De `pandas` library heeft een aantal methoden om `json` data te kunnen verwerken en produceren. Bijvoorbeeld [`pandas.read_json()`](https://pandas.pydata.org/docs/reference/api/pandas.read_json.html) of [`pandas.Dataframe.to_json`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_json.html). Let echter wel op: niet alle `json` data kan je zomaar inladen in een Dataframe! Immers, `json` data is niet altijd "plat" te slaan tot een 2D tabelvorm. Een zeer handige methode om controle uit te oefenen op hoe de `json` conversie naar `pandas.Dataframe` wordt uitgevoerd, is [`pandas.json_normalize()`](https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html). Onderzoek hoe deze methode werkt.


### Opdracht 3

Laad het `json` bestand `100_studenten.json` in een Pandas dataframe. Herhaal opdracht 2 zonder gebruik te maken van de standaard `json` library. Gebruik de `Dataframe.to_json()` methode om de resultaten weg te schrijven naar het bestand `voortgang_rapportage_pandas.json`. Wat is het verschil tussen de resultaatbestanden uit Opdracht 2 en Opdracht 3? Kan je de uitvoer van `Dataframe.to_json()` zo instellen, dat de resultaten tussen Opdracht 2 en 3 gelijk zijn?



### `awkward` arrays 

**Let op: pittig onderwerp! wordt niet getoetst, voor de liefhebbers**

Een zeer krachtig library is de [Awkward Array](https://awkward-array.org/doc/main/index.html). Deze library staat het toe te werken met ragged arrays. Je kan dan `numpy`-achtige bewerkingen uitvoeren op data die niet netjes in een N-dimensionale array past. Awkward arrays ondersteunt het lezen en schrijven van `json` objecten: zie [deze pagina](https://awkward-array.org/doc/main/user-guide/how-to-convert-json.html).