# Lecture Preprocessing

## Imports

In [1]:
from pdf2image import convert_from_path
from PIL import Image
import matplotlib.pyplot as plt
import openai
import fitz  # PyMuPDF
import io

import base64
import requests
from io import BytesIO

from langdetect import detect
import PyPDF2
from tqdm import tqdm
import configparser
from openai import OpenAI

## Key and path variables



In [4]:
# OpenAI API Key
config = configparser.ConfigParser()
config.read('../Edu_Llama/config.ini')
api_key = config['openai']['api_key']

In [17]:

# Pfad zur PDF-Datei
pdf = '2020 11 Kapitel 01 UF Grundlagen.pdf'
pdf_path = f'C:/Users/a829727/OneDrive - Atos/Dokumente/Uni/Semester 5/Unternehmensführung/{pdf}'



# Picture control

In [6]:
def extract_and_plot_images(pdf_path):
    # PDF-Dokument öffnen
    doc = fitz.open(pdf_path)
    # Ermittle die Anzahl der Seiten
    num_pages = len(doc)
    images=[]
    pages=[]
    # Durch jede Seite des PDFs gehen
    for i in range(428,len(doc)):
        page = doc.load_page(i)

        # Bilder auf der Seite extrahieren
        for img in page.get_images(full=True):
            xref = img[0]
            base_image = doc.extract_image(xref)
            image_bytes = base_image["image"]

            # Bild mit PIL verarbeiten
            image = Image.open(io.BytesIO(image_bytes))
            images.append(image)
            # Bild anzeigen
            plt.imshow(image)
            print(f"Seite: {i+1}")
            pages.append(i+1)
            plt.axis('off')
            plt.show()
    pages = list(set(pages))
    doc.close()
    return images,pages,num_pages
    	
images,pages,num_pages = extract_and_plot_images(pdf_path)

## Funktions

In [None]:
pages.sort()

### convert to base64

In [10]:
# Funktion, um das PIL-Bild zu kodieren
def encode_pil_image(pil_image):
    buffered = BytesIO()
    pil_image.save(buffered, format="JPEG")
    return base64.b64encode(buffered.getvalue()).decode('utf-8')

### Extracting the text

In [11]:
def extract_text_from_range(file_path, start_page, end_page):
    with open(file_path, 'rb') as file:
        pdf_reader = PyPDF2.PdfReader(file)
        extracted_text = ''

        # Anzahl der Seiten in der PDF-Datei bestimmen
        num_pages = len(pdf_reader.pages)

        # Überprüfung, ob die Seitenzahlen im gültigen Bereich liegen
        if start_page < 0 or end_page > num_pages or start_page > end_page:
            return "Ungültiger Seitenbereich."

        for page_number in tqdm(range(start_page, end_page), desc='Texextraktion'):
            page = pdf_reader.pages[page_number]
            page_text = page.extract_text()
            if page_text:
                extracted_text += page_text + '\n'
            else:
                extracted_text += f'Kein Text auf Seite {page_number + 1}\n'
        
    return extracted_text

### Extracting Images

In [12]:

def extract_images_from_pdf(file_path, page_number):
    print("Extrahiere Bilder...")
    images = convert_from_path(file_path, first_page=page_number, last_page=page_number)
    
    bild=images[0]
    if bild.size[0]>=600:
        skale=600
    else:
        skale=bild.size[0]
    # Neue Größe definieren 
    neue_groesse = (skale, int((bild.size[1]/bild.size[0])*skale))

    # Bild skalieren
    skaliertes_bild = bild.resize(neue_groesse)

    return skaliertes_bild

### Picture to text

In [13]:
# Getting the base64 string
def image_to_text(pil_image):
  print("Image to text")
  base64_image = encode_pil_image(pil_image)
  headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {api_key}"
  }

  payload = {
    "model": "gpt-4-vision-preview",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "Beschreibe den inhalt des Bildes?"
          },
          {
            "type": "image_url",
            "image_url": {
              "url": f"data:image/jpeg;base64,{base64_image}"
            }
          }
        ]
      }
    ],
    "max_tokens": 300
  }

  response = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=payload)

  return response.json()['choices'][0]['message']['content']

### Final pipeline

In [14]:
def pre_process_pipeline(file_path, pages, num_pages):
    final_text = ''
    page_old = 0

    if len(pages) == 0:
        final_text = extract_text_from_range(file_path, 0, num_pages)
    else:
        for page in tqdm(pages, desc='Processing Pages'):
            liste = list(range(num_pages))[page_old:page]
            if page_old != page + 1:
                text = extract_text_from_range(file_path, liste[0], liste[-1])
                final_text += text
            image = extract_images_from_pdf(file_path, page)
            img_text = image_to_text(image)
            final_text += f'Bild:{img_text}'
            page_old = page
            if page == pages[-1] and page != num_pages:
                text = extract_text_from_range(file_path, page+1, num_pages)
                final_text += text
    
    return final_text

## Final Preprocessing

In [15]:
text = pre_process_pipeline(pdf_path,pages,num_pages)

Texextraktion: 100%|██████████| 19/19 [00:00<00:00, 96.45it/s]


In [16]:
text

'1. Grundlagen der Unternehmensführung\n1.1 Definition der Betriebswirtschaftslehre\nDie Betriebswirtschaftslehre istdie Lehre vom Wirtschaften in \nUnternehmen .\nEs istdie Aufgabe der Betriebswirtschaftslehre\n- das wirtschaftliche Denken und Handeln der Menschen im\nBetrieb zubeschreiben und zuerklären\n- Gesetzmäßigkeiten und Zusammenhänge aufzuzeigen\n- einSystem von Entscheidungssituationen , Verfahren und \nMethoden zuentwickeln\num eine optimale Durchsetzung der betrieblichen Zielsetzungen zu\nermöglichen . \nDefinition:\nUnternehmensführung als Aufgabe, den Prozess der betrieblichen \nLeistungserstellung so zu gestalten und auszuführen, dass die \nUnternehmensziele auf optimalem / höchstmöglichen Niveau erreicht \nwerden können.\n=> Koordinationsfunktion und Steuerungsfunktion1. Grundlagen der Unternehmensführung\n1.2 Definition der Unternehmensführung\nUnternehmensführung alsManagement der Wertschöpfungskette\nEingangs -\nlogistikM&V Produktion Ausgangs -\nlogistikService\nUn

# Save data

In [None]:
# save the preprocessed lecture text
with open('./Betriebsysteme.txt', 'w') as file:
    file.write(text)

## Translation to English

In [None]:
# Öffnen der Datei im Lesemodus
with open(f'./{pdf}', 'r') as file:
    # Lesen des gesamten Inhalts der Datei
    content = file.read()

# Anzeigen des Inhalts
print(content)


In [None]:
def chat_with_gpt(prompt):
    client = OpenAI(api_key=api_key,)

    chat_completion = client.chat.completions.create(
        messages=[
            {
                "role": "user",
                "content": prompt,
            }
        ],
        model="gpt-3.5-turbo",
    )
    return chat_completion.choices[0].message.content
# Beispielverwendung
prompt = "Überstze den folgenden Text Sinngemäß ins Englische:"+"Hallo wie gehts dir?"
response = chat_with_gpt(prompt)
print(response)

In [None]:
with open('./VL_en.txt', 'w') as file:
    file.write(response)