### 3. Corpus samenstellen

Om in Gensim met Topic Modeling aan de slag te kunnen, moeten de docx-bestanden en/of pdf-bestanden worden samengevoegd in een json-bestand. Dit json-bestand vormt het corpus voor het Topic Model. Met behulp van dit script kunnen de bestandsnamen van de docx- en/of pdf-bestanden en de inhoud van txt-versies worden samengevoegd in een json-bestand. Voor dit script hoeft niets geïnstalleerd te worden. 

Het json-bestand moet uiteindelijk bestaan uit: 

1. lijst met alle bestandsnamen (.pdf en .docx)
2. lijst met alle de inhoud van alle txt-bestanden (.txt) 

#### Stap 1: Twee lijsten maken voor de pdf-bestanden

In het onderstaande celblokje maken we twee aparte lijsten, een met de namen van de pdf-bestanden en een met de inhoud van de txt-bestanden Let op: dit script verwacht dat de pdf-bestanden en de .txt versies in dezelfde map staan.

os.listdir is gevoelig voor hoofdletters. Daarom wordt zowel op .pdf als .PDF gezocht. Mochten er een andere spellingsvariant van .pdf tussen je bestanden zitten, voeg dan de volgende twee lijnen toe aan het celblokje met de andere spellingsvariant:
```python
elif pdf.endswith('[.PdF]'): #voeg tussen de vierkante haakjes de variant toe en haal de [] weg
    index.append(pdf)
```

In [None]:
import glob
import os 

path_pdf = '' + '/' #VUL IN: plaats tussen de eerste aanhalingstekens het pad naar de map met de pdf-bestanden
                                            
os.chdir(path_pdf) 

pdfs = [] #lijst met de pdf bestandsnamen 
   
for pdf in os.listdir(path_pdf): #hier voegen we elke bestandsnaam toe aan de lijst pdfs
    if pdf.endswith('.pdf'):
        pdfs.append(pdf)
    #elif pdf.endswith('.PDF'):
        #pdfs.append(pdf)

pdf_texts = [] #lijst met alle teksten

for text in os.listdir(path_pdf): #hier voegen we de inhoud van elk txt-bestand toe aan de lijst pdf_txts
    if text.endswith('.txt'):
        with open(f"{text.title()}", 'r') as f:
            pdf_contents = f.read()
            pdf_texts.append(pdf_contents) 

#### Stap 2: Twee lijsten maken voor de docx-bestanden

In het onderstaande celblokje maken we twee aparte lijsten, een lijst met de namen van de docx-bestanden en een lijst met de inhoud van de txt-bestanden Let op: dit script verwacht dat de docx-bestanden en de .txt versies in dezelfde map staan. 

In [None]:
import os
import docx2txt

path_docx = '' + '/' #VUL IN: plaats tussen de eerste aanhalingstekens het pad naar de map met de docx-bestanden
                                            
os.chdir(path_docx) 

docxs = [] #lijst met de docx bestandsnamen 

for docx in os.listdir(path_docx): #hier voegen we elke bestandsnaam toe aan de lijst docxs
    if docx.endswith('.docx'):
        docxs.append(docx)

docx_texts = [] #lijst met alle teksten
        
for text in os.listdir(path_docx): #hier voegen we de inhoud van elk txt-bestand toe aan de lijst docx_txts
    if text.endswith('.txt'):
        with open(f"{text.title()}", 'r') as f:
            docx_contents = f.read()
            docx_texts.append(docx_contents)

#### Stap 3: pdf en docx lijsten samenvoegen

In de onderstaande celblokjes worden de twee lijsten met de bestandsnamen (.pdf en .docx) samengevoegd en worden de twee lijsten met de inhoud van de txt-bestanden samengevoegd.


In [None]:
doc_id = [] #nieuwe lijst met alle bestandsnamen (.pdf en .docxs)
doc_id.extend(pdfs)
doc_id.extend(docxs)

In [None]:
texts = [] #nieuwe lijst met alle teksten
texts.extend(pdf_texts)
texts.extend(docx_texts)

Controleer of de twee lijsten even lang zijn: 

In [None]:
print(len(doc_id)) #lengte van lijst met bestandsnamen
print(len(texts)) #lengte van lijst met teksten 

#### Stap 4: lijsten samenvoegen in een json

Ten slotte worden in het onderstaande celblokje de twee lijsten 'doc_id' en 'texts' samengevoegd en omgezet in een json-bestand. Nu is het corpus in de juiste vorm gegoten om verder te gaan met het vijfde script Topic Modeling met Gensim.

In [None]:
import json

path = '' + '/' #VUL IN: plaats tussen de eerste aanhalingstekens het pad naar de map waar je het json-bestand wilt bewaren
filename = '' + '.json' #VUL IN: plaats tussen de eerste aanhalingstekens de bestandsnaam die je aan het json-bestand wilt geven

lists = ['doc_id', 'texts']

data = {listname: globals()[listname] for listname in lists}
with open(path + filename, 'w') as outfile: 
    json.dump(data, outfile, indent=4)                            


#### Bonus: Twee jsons samenvoegen

Met de onderstaande code blokjes kunnen twee jsons (i.e. twee corpora) worden samengevoegd. 

In [None]:
#hier definiëren we een stukje code waarmee de afzonderlijke lijsten uit de json-bestanden gehaald kunnen worden. 
def load_data(file):
    with open (file, "r", encoding="utf-8") as f:
        data = json.load(f)
    return (data)

In [None]:
#laad de bestandsnamen en teksten uit json1
doc_id1 = load_data("json1.json")["doc_id"] 
text1 = load_data("json1.json")["texts"]


In [None]:
#laad de bestandsnamen en teksten uit json2
doc_id2 = load_data("json2.json")["doc_id"]
texts2 = load_data("json2.json")["texts"]

In [None]:
#voeg de twee lijsten met bestandsnamen samen
document_id = []
document_id.extend(doc_id1)
document_id.extend(doc_id2)

In [None]:
#voeg de twee lijsten met de tekst samen 
texts = []
texts.extend(texts1)
texts.extend(texts2)

In [None]:
#maak een nieuw json-bestand
path = '' + '/' #VUL IN: plaats tussen de eerste aanhalingstekens het pad naar de map waar je het json-bestand wilt bewaren
filename2 = '' + '.json' #VUL IN: plaats tussen de eerste aanhalingstekens de bestandsnaam die je aan het json-bestand wilt geven

lists = ['document_id', 'texts'] 

data = {listname: globals()[listname] for listname in lists}
with open(path + filename2, 'w') as outfile: 
    json.dump(data, outfile, indent=4)                            
