In [1]:
import re
from nltk.tokenize import sent_tokenize
import PyPDF2
from openai import OpenAI
from dotenv import load_dotenv
import os

In [2]:
def extract_text_from_pdf(pdf_path):
  """
  Extracts text from a PDF file using PyPDF2

  Args:
      pdf_path (str): Path to the PDF file

  Returns:
      str: Extracted text from the PDF
  """

  with open(pdf_path, 'rb') as pdf_file:  # Open in binary mode
    pdf_reader = PyPDF2.PdfReader(pdf_file)
    text = ""
    for page_num in range(len(pdf_reader.pages)):  # Iterate through pages
      page = pdf_reader.pages[page_num]
      text += page.extract_text()  # Extract text from each page
  return text

# Example Usage
pdf_text = extract_text_from_pdf("Abschnitt 1.pdf")

In [3]:
def extract_text_from_pdf(pdf_path):
  """
  Extracts text from a PDF file using PyPDF2 and saves it to a .txt file

  Args:
      pdf_path (str): Path to the PDF file
      output_filename (str, optional): Name of the output .txt file. Defaults to "extracted_text.txt".

  Returns:
      str: Extracted text from the PDF (for potential further processing)
  """

  with open(pdf_path, 'rb') as pdf_file:
    pdf_reader = PyPDF2.PdfReader(pdf_file)
    text = ""
    for page_num in range(len(pdf_reader.pages)):
      page = pdf_reader.pages[page_num]
      text += page.extract_text()
    output_filename=f"{pdf_path}_extracted_text.txt"
  # Save text to .txt file
  with open(output_filename, "w", encoding="utf-8") as text_file:
    text_file.write(text)

  return text



In [4]:
# Example Usage
pdf_text = extract_text_from_pdf("Abschnitt 1.pdf")  

In [5]:
len(pdf_text)

63153

In [6]:
def clean_text(text):
    # text = re.sub(r"(?m)^KAPITEL\s.*", "", text, flags=re.IGNORECASE)  
    
    # Remove special characters and multiple spaces, keeping alphanumeric and basic punctuation
    # text = re.sub(r"[^a-zA-Z0-9.,!?;:\s]+|\bKAPITEL \b", "", text, flags=re.IGNORECASE)
    text = re.sub(r"[^a-zA-Z0-9öäüß.,!?;:\s]+|\bKAPITEL\b", "", text, flags=re.IGNORECASE)
    text = re.sub(r"\s+", " ", text)
    output_filename="Abschnitt1_extracted_text2.txt"
  # Save text to .txt file
    with open(output_filename, "w", encoding="utf-8") as text_file:
      text_file.write(text)

    return text

In [7]:
pdf_text2 = clean_text(pdf_text)

In [8]:
pdf_text2

' 1 Die Beschreibung von Gasen Viele chemische Reaktionen finden in der Gasphase statt. Ein Verständnis der Eigenschaften von Gasen ist daher Grundlage für ein tieferes Verständnis chemischer Reaktionen. Dank der Leichtigkeit mit der wir am idealen Gas grundlegende Vorhersagen über thermodynamische Prozesse machen können, spielt es hier eine zentrale Rolle als Einstiegspunkt. Insbesondere die Frage, wie der Druck von Gasen von deren Temperatur, Volumen und von intermolekularen Wechselwirkungen abhängt, soll geklärt werden. 1141.Das ideale Gas Das ideale Gas stellt das einfachste physikalische System dar, anhand dessen sich die Grundlagen und Aussagen der Thermodynamik anschaulich diskutieren lassen. Als erstes werden daher wir die sog. Zustandsgleichung des idealen Gases kennenlernen. Dieses Gasgesetz eignet sich ideal sic, um wichtige Zusammenhänge zwischen elementaren Zustandsgrößen der Thermodynamik herzustellen und zu verstehen. Am Ende dieses Kapitels diskutieren wir die Grundlage

In [9]:
def clean_text2(input_file):
    # text = re.sub(r"(?m)^KAPITEL\s.*", "", text, flags=re.IGNORECASE)  
    # Read text from input file
  with open(input_file, 'r') as f:
    text = f.read()
    # Remove special characters and multiple spaces, keeping alphanumeric and basic punctuation
    # text = re.sub(r"[^a-zA-Z0-9.,!?;:\s]+|\bKAPITEL \b", "", text, flags=re.IGNORECASE)
    text = re.sub(r'\b(?:g|grams?)\b', 'gram', text)
    text = re.sub(r'\b(?:m|mol|moles?)\b', 'mol', text)

    # Handle common chemical formula issues
    text = re.sub(r'([A-Z][a-z]?)(\d+)', r'\1_\2', text)  # C2H6 to C_2H_6

  

    text = re.sub(r"[^a-zA-Z0-9öäüß.,!?;:\s]+|\bKAPITEL\b", "", text, flags=re.IGNORECASE)
    text = re.sub(r"Gl\.\s+\w+\)", "", text, flags=re.IGNORECASE)
    text = re.sub(r"\Abbildung\.\s+\w+\)", "", text, flags=re.IGNORECASE)
    text = re.sub(r"\s+", " ", text)
    output_filename=f"{input_file}_extracted_text2.txt"
  # Save text to .txt file
    with open(output_filename, "w", encoding="utf-8") as text_file:
      text_file.write(text)

    return text



In [10]:
def clean_text3(input_file):
  """
  Cleans text from a file by removing lines containing "(Gl." (case-sensitive)

  Args:
      input_file (str): Path to the text file to be cleaned
  """

  # Read text from input file
  with open(input_file, 'r') as f:
    text = f.read()

  # Clean text
  cleaned_text = "\n".join([line for line in text.splitlines() if not "(Gl." in line]).strip()
  cleaned_text = "\n".join([line for line in text.splitlines() if not "Abbildung" in line]).strip()
  output_filename=f"{input_file}_extracted_text.txt"
  # Write cleaned text to output file
  with open(output_filename, 'w') as f:
    f.write(cleaned_text)



In [11]:
clean_text2("chapter_1.txt")

'1. Das ideale Gas Das ideale Gas stellt das einfachste physikalische System dar, anhand dessen sich die Grundlagen und Aussagen der Thermodynamik anschaulich diskutieren lassen. Als erstes werden daher wir die sog. Zustandsgleichung des idealen Gases kennenlernen. Dieses Gasgesetz eignet sich ideal sic, um wichtige Zusammenhänge zwischen elementaren Zustandsgrößen der Thermodynamik herzustellen und zu verstehen. Am Ende dieses Kapitels diskutieren wir die Grundlagen der kinetischen Gastheorie. Sie erlaubt die Herleitung des idealen Gasgesetzes aus sehr einfachen mikroskopischen Modellvorstellungen. In diesem Abschnitt Was sind Zustandsgrößen und wozu dienen sie? Was besagt die Zustandsgleichung? Der Nullte Hauptsatz der Thermodynamik Was ist ein ideales Gas? Die kinetische Gastheorie Das Wichtigste in Kürze Das ideale Gas entspricht einer Modellvorstellung von Gasen, der zufolge deren Teilchen kein Eigenvolumen haben, nicht miteinander wechselwirken und nur elastisch miteinander stoße

In [12]:
clean_text3("chapter_1.txt")

In [13]:
def remove_chapter_headings(input_file):
    # Regular expression to find and remove chapter titles
    # This regex assumes chapter titles are numbered like '1.1.1. Chapter Name'
    with open(input_file, 'r') as f:
        text = f.read()
    pattern = r'\s*,[^\.\?!]*[\.\?!]'
    pattern2 = r'\s*. [^\.\?!]*[\.\?!]'
    
    # Substituting the identified patterns with an empty string
    text = re.sub(pattern, '.', text)
    text = re.sub(pattern2, '.', text)
    text = re.sub(r'\d+(\.\d+)*\.\s+([A-ZÄÖÜ][a-zäöüß]+(?:\s+[A-ZÄÖÜa-zäöüß]+)*)', '', text)
    output_filename=f"{input_file}_header_removed_extracted_text.txt"
  # Write cleaned text to output file
    with open(output_filename, 'w') as f:
        f.write(text)
    return text



In [14]:
def remove_unwanted_sentences(input_file):
    with open(input_file, 'r') as f:
        text = f.read()
    
    # Improved pattern to remove sentences starting with commas or periods
    # Captures potential leading whitespace, then a comma or period, and removes up to the next end-of-sentence punctuation
    pattern = r'\s*[,\.][^\.\?!]*[\.\?!]'
    
    # Substituting the identified patterns with a space or appropriate punctuation to avoid abrupt stops
    text = re.sub(pattern, '.', text)  # Replace with a period to close any open sentences properly
    
    # Refined regex to remove chapter titles more accurately
    # This assumes titles start with numbers and include an initial capital letter following the numbers
    chapter_pattern = r'\s*\d+(\.\d+)*\.\s+[A-ZÄÖÜ][^\.\?!]*[\.\?!]'
    text = re.sub(chapter_pattern, '', text)
    text = re.sub(r'\bGl\.\b', '', text)
    # Writing the cleaned text to a new file
    output_filename = f"{input_file}_remove_unwanted_sentences_cleaned.txt"
    with open(output_filename, 'w') as f:
        f.write(text)
    
    return text



In [15]:
remove_chapter_headings("chapter_1.txt_extracted_text2.txt")

'. Zustandsgleichun. Diese. A. Si. I. Wa. De. Di. Be. Hierfü. Di. Ausse. Besteh. De. Di. Hierz. De. I. Wi. System. . Z. weiter. Di. . Si. Di. Di. Dies. Di. Wa. Di. Intensiv. All. Di. De. Würd. Auc. Di. Di. Si. . Fü. Zu. Z. Da. Di. Wi. Di. un. Di. I. Kein. Si. Ode. Größ. Dan. Di. . Si. Merk. 1.. Dami. Dies. Si. Wen. E. Wi. 1.. Wi. Zu. . Dabe. Wa. Unte. Verdreifachun. Forma. Gl.. Gl.. Gl.. Tatsächlic. Da. al. Sobal. Wi. 1.. Da. Gl.. Die. Gl.. Richtun. Nehme. Gl.. Wen. Abbildun.. Prozesstechnisc. Zusätzlic. Gl.. Besonder. . Wa. 1.2.1.. Da. E. 1.. E. Mathematisc. Gl.1. . 1.. Abbildun.. Abbildun.. De. Di. Si. Wi. Au. 1.. Gl.1. E. Amonton. Dabe. Durc. Interessanterweis. h. Dies.. Unte. Forma. Gl.. E. Gl.. Gl.1.. ... Wi. 1.. Gl... Dies. Wi. Gl.1. 1.. Merk. .. Wen. 1.2. . Wen. Wen.. Die. 1.. I. I. Abbildun.. Di. 1.. I. 1.. Nebe. Abbildun.. Di. Isentrope. Adiabatisch. I. . Druc. Druc. Gl.. Standarddruc. äquivalen. Bi. Di. Au. 1.. Be. Aufgrun. Abbildun.. Diese. E. Exkur. Dies. Si. Di. Dies. Gl..

In [16]:
remove_unwanted_sentences("chapter_1.txt_extracted_text2.txt")

' Dieses Gasgesetz eignet sich ideal sic. Am Ende dieses Kapitels diskutieren wir die Grundlagen der kinetischen Gastheorie. In diesem Abschnitt Was sind Zustandsgrößen und wozu dienen sie? Was besagt die Zustandsgleichung? Der Nullte Hauptsatz der Thermodynamik Was ist ein ideales Gas? Die kinetische Gastheorie Das Wichtigste in Kürze Das ideale Gas entspricht einer Modellvorstellung von Gasen. Bei gegebener Stoffmenge kann der Zustand reiner idealer und realer Gase mit Hilfe einer Zustandsgleichung durch zwei sogenannte Zustandsgrößen eindeutig beschrieben werden. Die Zustandsgleichung des idealen Gases lautet pVnRT. Besteht ein ideales Gas aus mehreren Komponenten. Der Partialdruck der Komponente J ergibt sich aus dem Produkt von Stoffmengenanteil und Gesamtdruck pJxJcdot p. Hierzu gehört die Annahme. Der Nullte Hauptsatz besagt. Im Gleichgewicht fließt keine Wärme zwischen den Systemen. Systeme die miteinander im thermischen Gleichgewicht sind haben dieselbe Temperatur. weitere Grö

In [17]:
load_dotenv()

# Set API key from environment
openai.api_key = os.getenv('OPENAI_API_KEY')


NameError: name 'openai' is not defined

In [None]:
try:
    # Assuming the new API still uses a method similar but might have renamed or restructured it
    response = openai.Completion.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "user", "content": "Say this is a test"}
        ],
        max_tokens=150
    )
    # Accessing the message content might differ; check the documentation
    print(response['choices'][0]['message']['content'])
except Exception as e:
    print(f"An error occurred: {e}")

An error occurred: 

You tried to access openai.Completion, but this is no longer supported in openai>=1.0.0 - see the README at https://github.com/openai/openai-python for the API.

You can run `openai migrate` to automatically upgrade your codebase to use the 1.0.0 interface. 

Alternatively, you can pin your installation to the old version, e.g. `pip install openai==0.28`

A detailed migration guide is available here: https://github.com/openai/openai-python/discussions/742



In [None]:
def translate_document(input_file):
    # Read the cleaned text
    with open(input_file, 'r', encoding='utf-8') as f:
        text = f.read()

    # Split the text into manageable parts
    # This example simply splits by sentences; adjust based on the size of the text and API limits
    sentences = text.split('.')
    translated_text = []

    for sentence in sentences:
        # Skip empty sentences or those that might have been overly stripped of context
        if sentence.strip() == '':
            continue

        try:
            # Translate the sentence
            # Assuming `openai` has been configured with your API key and translation capabilities
            response = openai.Completion.create(
                engine="text-davinci-002",  # Or whichever engine is appropriate
                prompt=f"Translate to English: {sentence.strip()}",
                max_tokens=100  # Adjust based on the length of the text you expect
            )
            translated_sentence = response.choices[0].text.strip()
            translated_text.append(translated_sentence)
        except Exception as e:
            print(f"Skipping a problematic sentence. Error: {str(e)}")
            continue
    output_filename = f"{input_file}_cleaned_translated_eng.txt"
    # Write the translated text to a new file
    with open(output_filename, 'w', encoding='utf-8') as f:
        f.write('. '.join(translated_text))

    print("Translation complete. Output file created.")
    
    return text



In [None]:
# Example usage
translate_document("chapter_1.txt_extracted_text2.txt_remove_unwanted_sentences_cleaned.txt")

Skipping a problematic sentence. Error: 

You tried to access openai.Completion, but this is no longer supported in openai>=1.0.0 - see the README at https://github.com/openai/openai-python for the API.

You can run `openai migrate` to automatically upgrade your codebase to use the 1.0.0 interface. 

Alternatively, you can pin your installation to the old version, e.g. `pip install openai==0.28`

A detailed migration guide is available here: https://github.com/openai/openai-python/discussions/742

Skipping a problematic sentence. Error: 

You tried to access openai.Completion, but this is no longer supported in openai>=1.0.0 - see the README at https://github.com/openai/openai-python for the API.

You can run `openai migrate` to automatically upgrade your codebase to use the 1.0.0 interface. 

Alternatively, you can pin your installation to the old version, e.g. `pip install openai==0.28`

A detailed migration guide is available here: https://github.com/openai/openai-python/discussions

' Dieses Gasgesetz eignet sich ideal sic. Am Ende dieses Kapitels diskutieren wir die Grundlagen der kinetischen Gastheorie. In diesem Abschnitt Was sind Zustandsgrößen und wozu dienen sie? Was besagt die Zustandsgleichung? Der Nullte Hauptsatz der Thermodynamik Was ist ein ideales Gas? Die kinetische Gastheorie Das Wichtigste in Kürze Das ideale Gas entspricht einer Modellvorstellung von Gasen. Bei gegebener Stoffmenge kann der Zustand reiner idealer und realer Gase mit Hilfe einer Zustandsgleichung durch zwei sogenannte Zustandsgrößen eindeutig beschrieben werden. Die Zustandsgleichung des idealen Gases lautet pVnRT. Besteht ein ideales Gas aus mehreren Komponenten. Der Partialdruck der Komponente J ergibt sich aus dem Produkt von Stoffmengenanteil und Gesamtdruck pJxJcdot p. Hierzu gehört die Annahme. Der Nullte Hauptsatz besagt. Im Gleichgewicht fließt keine Wärme zwischen den Systemen. Systeme die miteinander im thermischen Gleichgewicht sind haben dieselbe Temperatur. weitere Grö