In [2]:
import os
from get_medical_report import extract_text_from_image, extract_text_from_pdf_image

folder_path = '../data'

file_paths = []
extracted_texts = []

for filename in os.listdir(folder_path):
    file_path = os.path.join(folder_path, filename)
    file_paths.append(file_path)
    print(f"Processing file: {file_path}")
    if filename.lower().endswith(('.png', '.jpg', '.jpeg')):
        text = extract_text_from_image(file_path)
        extracted_texts.append(text)
    elif filename.lower().endswith('.pdf'):
        text = extract_text_from_pdf_image(file_path)
        extracted_texts.append(text)

Processing file: ../data\AB1.jpg
Processing file: ../data\AB2.png
Processing file: ../data\AB3.pdf
Processing file: ../data\AB4.png


In [3]:
from GPT_categorize_medical_report import GPT_extract_text_and_categorize, convert_categorization_to_dataframe

categorized_medical_reports = []  # Eine leere Liste, um die Ergebnisse zu speichern

for text in extracted_texts:
    try:
        # Kategorisierten Text von der GPT-Funktion abrufen
        categorized_text = GPT_extract_text_and_categorize(text)
        
        # Den kategorisierten Text in einen strukturierten DataFrame umwandeln
        structured_categorized_text = convert_categorization_to_dataframe(categorized_text)
        
        # Füge das Ergebnis zur Liste hinzu
        categorized_medical_reports.append(structured_categorized_text)
        
    except ValueError as ve:
        # Füge einen Fehlerhinweis zur Liste hinzu, wenn ein Fehler auftritt
        categorized_medical_reports.append(f"Fehler: {ve}")
        
        # Optional: Ausgabe der Fehlermeldung
        print(ve)

In [3]:
categorized_medical_reports[0]

Unnamed: 0,Stichwort,Textstelle
0,Adressat,Herrn Prof. Dr. G
1,Versanddatum des Arztbriefes,
2,Vorstellungsdatum Patient,26.10.€8B
3,Aufenthaltsdauer Patient,
4,Patientenname,
5,Überweisungsgrund,
6,Krankengeschichte,Der auffälligste Befund war das Schwirren über...
7,Körperliche Untersuchung,Wir fanden nach medianer Sternotomie ein hochg...
8,Klinische Untersuchung,Der auffälligste Befund war das Schwirren über...
9,Diagnostik,Diagnose: Hochgradig kombiniertes Aortenvitium...


In [4]:
# Funktion, die überprüft ob die Textstellen wörtlich im medical report zu finden sind
# ...

In [4]:
from GPT_outcomes_medical_report import GPT_derive_outcomes, convert_outcomes_to_dataframe

outcomes_of_medical_reports = []  # Eine leere Liste, um die Ergebnisse zu speichern

for text in extracted_texts:
    try:
        # Kategorisierten Text von der GPT-Funktion abrufen
        outcomes_of_text = GPT_derive_outcomes(text)
        
        # Den kategorisierten Text in einen strukturierten DataFrame umwandeln
        structured_outcomes_of_text = convert_outcomes_to_dataframe(outcomes_of_text)
        
        # Füge das Ergebnis zur Liste hinzu
        outcomes_of_medical_reports.append(structured_outcomes_of_text)
        
    except ValueError as ve:
        # Füge einen Fehlerhinweis zur Liste hinzu, wenn ein Fehler auftritt
        outcomes_of_medical_reports.append(f"Fehler: {ve}")
        
        # Optional: Ausgabe der Fehlermeldung
        print(ve)

In [6]:
outcomes_of_medical_reports[0]

Unnamed: 0,Stichwort,Modellvorhersage
0,Weitere Behandlung notwendig,unklar
1,Komplikationen aufgetreten,nein
2,Gesamtzustand des Patienten,Der Gesamtzustand des Patienten scheint sich s...


In [5]:
from GPT_summarize_simplify_medical_report import GPT_summarize_and_simplify

summarized_simplified_medical_reports = [] 

for text in extracted_texts:
    simple_summary = GPT_summarize_and_simplify(text)
    summarized_simplified_medical_reports.append(simple_summary)


In [8]:
print(summarized_simplified_medical_reports[1])

Patient*in erleidet vermutlich zerebralen Infarkt mit Schwäche und Koordinationsstörungen links. Keine früheren Infarkte. Behandlung und detaillierte Diagnose nach weiteren Untersuchungen.


In [11]:
import json

with open('results/file_paths.json', 'w') as file:
    json.dump(file_paths, file, indent=4)

for i, df in enumerate(categorized_medical_reports):
    df.to_pickle(f'results/categorized_medical_reports/categorized_report_{i}.pkl')

for i, df in enumerate(outcomes_of_medical_reports):
    df.to_pickle(f'results/outcomes_of_medical_reports/outcomes_report_{i}.pkl')

with open('results/extracted_texts.json', 'w') as file:
    json.dump(extracted_texts, file, indent=4)

with open('results/summarized_simplified_medical_reports.json', 'w') as file:
    json.dump(summarized_simplified_medical_reports, file, indent=4)

In [12]:
# import dash
# from dash.dependencies import Input, Output
# from dash import dcc, html, dash_table
# import base64
# import threading
# import webbrowser


# app = dash.Dash(__name__)

# app.layout = html.Div([
#     # Dropdown zur Auswahl der Datei
#     dcc.Dropdown(
#         id='file-dropdown',
#         options=[{'label': filepath, 'value': i} for i, filepath in enumerate(file_paths)],
#         value=0  # Standardmäßig wird das erste Element ausgewählt
#     ),
#     html.Div(id='display-outcomes-report'),
#     html.Div(id='display-summarized-report'),
#     html.Div(id='display-categorized-report'),
#     html.Div(id='display-extracted-text'),
#     html.Div(id='file-display'),
# ])

# @app.callback(
#     Output('file-display', 'children'),
#     [Input('file-dropdown', 'value')]
# )
# def update_file_display(selected_index):
#     return display_file(selected_index)

# @app.callback(
#     [
#         Output('display-extracted-text', 'children'),
#         Output('display-categorized-report', 'children'),
#         Output('display-outcomes-report', 'children'),
#         Output('display-summarized-report', 'children'),
#     ],
#     [Input('file-dropdown', 'value')]
# )
# def update_text_outputs(selected_index):
#     if selected_index is not None:
#         # Extrahierter Text (String)
#         extracted_text = html.Pre(extracted_texts[selected_index])
        
#         # Kategorisierter Bericht (DataFrame)
#         categorized_report_df = categorized_medical_reports[selected_index]
#         categorized_report = dash_table.DataTable(
#             data=categorized_report_df.to_dict('records'),
#             columns=[{'name': i, 'id': i} for i in categorized_report_df.columns]
#         )
        
#         # Outcomes Bericht (DataFrame)
#         outcomes_report_df = outcomes_of_medical_reports[selected_index]
#         outcomes_report = dash_table.DataTable(
#             data=outcomes_report_df.to_dict('records'),
#             columns=[{'name': i, 'id': i} for i in outcomes_report_df.columns]
#         )
        
#         # Zusammengefasster Bericht (String)
#         summarized_report = html.Pre(summarized_simplified_medical_reports[selected_index])

#         return extracted_text, categorized_report, outcomes_report, summarized_report

#     # Wenn kein Index ausgewählt ist, leere Komponenten zurückgeben
#     return html.Div(), html.Div(), html.Div(), html.Div()

# def update_text_outputs(selected_index):
#     if selected_index is not None:
#         # Die restlichen Ergebnisse darstellen
#         extracted_text = extracted_texts[selected_index]
#         categorized_report = categorized_medical_reports[selected_index]
#         outcomes_report = outcomes_of_medical_reports[selected_index]
#         summarized_report = summarized_simplified_medical_reports[selected_index]

#         return (
#             html.Pre(extracted_text),  # Beispiel mit Pre-Formatierung
#             html.Pre(categorized_report),  # Beispiel mit Pre-Formatierung
#             html.Pre(outcomes_report),  # Beispiel mit Pre-Formatierung
#             html.Pre(summarized_report),  # Beispiel mit Pre-Formatierung
#         )
#     return (html.Div(), html.Div(), html.Div(), html.Div())

# def display_file(selected_index):
#     file_path = file_paths[selected_index]
#     if file_path.lower().endswith(('.png', '.jpg', '.jpeg')):
#         encoded_image = encode_image(file_path)
#         return html.Img(src=encoded_image)
#     elif file_path.lower().endswith('.pdf'):
#         encoded_pdf = encode_pdf(file_path)
#         return html.Iframe(src=encoded_pdf, style={'height': '500px', 'width': '100%'})
#     return "Dateiformat wird nicht unterstützt."

# def encode_image(image_path):
#     with open(image_path, 'rb') as image_file:
#         encoded = base64.b64encode(image_file.read()).decode('utf-8')
#     return f'data:image/png;base64,{encoded}'

# def encode_pdf(pdf_path):
#     with open(pdf_path, 'rb') as pdf_file:
#         encoded = base64.b64encode(pdf_file.read()).decode('utf-8')
#     return f'data:application/pdf;base64,{encoded}'

# def open_browser():
#     webbrowser.open('http://127.0.0.1:8050/')

# if __name__ == '__main__':
#     # Threading, um den Browser zu öffnen, während der Server läuft
#     threading.Timer(1.5, open_browser).start()
#     app.run_server(debug=True)