In [11]:
import os
import json
from typing import Any
from unstructured.partition.pdf import partition_pdf
from unstructured.partition.docx import partition_docx
from unstructured.partition.doc import partition_doc
from unstructured.partition.xlsx import partition_xlsx
from unstructured.partition.image import partition_image
from pydantic import BaseModel
from logging_config import get_logger

In [12]:
class Element(BaseModel):
    type: str
    text: Any
    source: str

    def to_dict(self):
        return {
            "type": self.type,
            "text": self.text,
            "source": self.source 
        }

In [17]:
def convertToJson(array, filepath):
  elem_dict = []
  for elem in array:
    elem_dict.append(elem.to_dict())
  # Write the JSON output to a file
  with open(filepath, 'w') as json_file:
    json.dump(elem_dict, json_file, indent=4)

In [18]:
excelfilepath = 'Data/Guidelines/Ergebnis_des_IT-Grundschutz-Checks.xlsx'
elements = []
elements.extend([Element(type='xlsx', text=str(el), source='excel') for el in partition_xlsx(excelfilepath)])

[Element(type='xlsx', text='\n\n\nErfassungsdatum\nStandort\nName des Erfassers\nAnsprechpartner\nZielobjekt\nBaustein\nAnforderung\nAnforderungs-Typ\nUmsetzungsgrad\nUmsetzung bis\nUmsetzung\nRichtlinie\nDefizite/Kostenschätzung\nVerantwortlicher\n\n\n\n\n\n\nA001 Textverarbeitung, Präsentation, Tabellenkalkulation\nAPP.1.1 Office-Produkte\nAPP.1.1.A1 Sicherstellen der Integrität von Office-Produkten\nBasis\nJa\n\nEs werden nur offizielle Office-Produkte installiert. Die Updates werden aus sicheren Quellen bezogen. Falls vorhanden, werden digitale Signaturen oder Prüfsummen zur Sicherstellung der Integrität genutzt.\n\n\nIT-Betrieb\n\n\n\n\n\n\nA001 Textverarbeitung, Präsentation, Tabellenkalkulation\nAPP.1.1 Office-Produkte\nAPP.1.1.A2 Einschränken von Aktiven Inhalten\nBasis\nJa\n\nDas automatische Ausführen von aktiven Inhalten ist standardmäßig deaktiviert. Die Mitarbeiter werden regelmäßig auf die Gefahr von aktiven Inhalten hingewiesen.\n\n\nBenutzer\n\n\n\n\n\n\nA001 Textverarb

In [19]:
convertToJson(elements, 'output.json')

In [24]:
pdffilepath = 'Data/Guidelines/Beschreibung_Recplast.pdf'
pdf_elements = []
pdf_elements.extend([Element(type='pdf', text=str(el), source='pdf') for el in partition_pdf(pdffilepath, languages=["eng", "deu"], strategy="hi_res", hi_res_model_name="yolox", pdf_infer_table_structure=True)])

In [25]:
pdf_elements

[Element(type='pdf', text='FR Bundesamt u für Sicherheit in der Informationstechnik', source='pdf'),
 Element(type='pdf', text='Beschreibung des Beispielunternehmens RECPLAST GmbH', source='pdf'),
 Element(type='pdf', text='Bundesamt für Sicherheit in der Informationstechnik Postfach 20 03 63 53133 Bonn Tel.: +49 22899 9582-5369 E-Mail: grundschutz@bsi.bund.de Internet: https://www.bsi.bund.de © Bundesamt für Sicherheit in der Informationstechnik 2020', source='pdf'),
 Element(type='pdf', text='Inhaltsverzeichnis', source='pdf'),
 Element(type='pdf', text='Verzeichnis der Abbildungen ........................................................................................................................................................ 3 Tabellenverzeichnis ........................................................................................................................................................................... 4 Einleitung zu diesem Dokument...............................

In [26]:
convertToJson(pdf_elements, 'pdfoutput.json')