# **Dataset for Finetuning LLaMA 2**

## **PDF to Text Conversion (with PyPDF):**

In [2]:
!pip install pdfplumber



In [3]:
import pdfplumber

def extract_pages(file_path):
    pages = []
    with pdfplumber.open(file_path) as pdf:
        for page in pdf.pages:
            pages.append(page.extract_text())
    return pages

file_path = "Strahlungsphysik_merged_removed.pdf"
pages = extract_pages(file_path)
print(pages[2])

6 1 Codierung:Bits,BytesundBananen
Beispiel(UmrechnungDezimal→BinärII)
Essoll75 indasBinär-Systemumgerechnetwerden.
10
75:2=37 Rest 1
37:2=18 Rest 1
18:2=9 Rest 0
9:2=4 Rest 1
4:2=2 Rest 0
2:2=1 Rest 0
1:2=0 Rest 1
(cid:2)
DieUmrechnungvomDezimalsystemindasHexadezimalsystemfunktioniertanalog.Das
siehtdannbeispielsweisefürdieDivisionsmethodewiefolgtaus:
Beispiel(UmrechnungDezimal→Hex)
Essoll75 indasHexadezimalsystemumgerechnetwerden.
10
75:16=4 RestB (=11 )
16 10
4:16=0 Rest4
(cid:2)
WieerwähntlassensichZahleninBinär-undHexadezimalsystem einfachineinander
umrechnen. Und es ist kein Zufall, dass 16 (=24) eine Zweierpotenz ist. Hieraus folgt,
dass jede Ziffer im Hexadezimalsystem durch vier Ziffern im Binär-System dargestellt
wird. Damit lassen sich Zahlen aus dem Hexadezimalsystem einfach ziffernweise bzw.
ZahlenausdemBinär-SysteminVierergruppenumrechnen.Daskannwiefolgtaussehen:
Beispiel(UmrechnungBinär→Hex)
Essoll1001011 indasHexadezimalsystemumgerechnetwerden.
2
(0)100 1011
(cid:4) (ci

## **Sentence Segmentation**

In [9]:
import re

def extract_sentences(text):
    # Entfernen von Bindestrichen am Ende von Zeilen und Ersetzen von Zeilenumbrüchen durch Leerzeichen
    text = re.sub(r'\-\n', '', text)
    text = text.replace('\n', ' ')

    # Aufteilen des Textes in Sätze anhand von Satzzeichen
    sentences = re.split(r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?|\!)\s', text)

     # Filtern der Sätze nach Länge und zusätzlichen Bedingungen
    filtered_sentences = []
    for sentence in sentences:
        sentence = sentence.strip()
        if (30 <= len(sentence) <= 300 and
            not re.search(r'\d', sentence) and
            not re.search(r'\S{20,}', sentence) and
            '†' not in sentence and
            (sentence.endswith('.') or sentence.endswith('!') or sentence.endswith('?'))):
            filtered_sentences.append(sentence)

    return filtered_sentences

def group_sentences(sentences, group_size=5):
    grouped_sentences = []
    for i in range(0, len(sentences), group_size):
        group = sentences[i:i + group_size]
        grouped_sentences.append(' '.join(group))
    return grouped_sentences

sentences = []
for page in pages:
    sentences += extract_sentences(page)

grouped_sentences = group_sentences(sentences)

# Ausgabe der ausgewählten 100 Einträge zum Testen
for i, sätze in enumerate(grouped_sentences):
     print(f"Selected Sentence Group {i+1}: {sätze}")


Selected Sentence Group 1: Das bedeutet, dass Informationen oft im Dezimalsystem dargestellt werden, wenn sie für Menschen aufbereitet werden. Zahlen im Binär-System werden allerdings recht schnell sehr unübersichtlich, sodass Menschen mit diesen Zahlen nicht besonders gut klarkommen. Ganz allgemein kann festgehalten werden, dass eine höherwertige Basis die Anzahl benötigter Ziffern tendenziell immer verringert. Hieraus folgt, dass jede Ziffer im Hexadezimalsystem durch vier Ziffern im Binär-System dargestellt wird. Damit lassen sich Zahlen aus dem Hexadezimalsystem einfach ziffernweise bzw.
Selected Sentence Group 2: Da die umzurechnende Zahl nur sieben Ziffern benötigt kann hier eine führende Null eingefügt werden, um tatsächlich eine Vierergruppe zu erhalten. Zum Rechnen braucht man im Allgemeinen Zahlen, deshalb sollte ein Computer damit gut umgehen können. Daher ist es vergleichsweise einfach positive, ganze Zahlen in digitaler Form zu speichern. Üblicherweise gibt es immer eine f

## **Generate Inputs with GPT-API**

In [10]:
!pip install openai

Collecting openai
  Downloading openai-1.35.7-py3-none-any.whl (327 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/327.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m327.5/327.5 kB[0m [31m10.6 MB/s[0m eta [36m0:00:00[0m
Collecting httpx<1,>=0.23.0 (from openai)
  Downloading httpx-0.27.0-py3-none-any.whl (75 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.6/75.6 kB[0m [31m10.6 MB/s[0m eta [36m0:00:00[0m
Collecting httpcore==1.* (from httpx<1,>=0.23.0->openai)
  Downloading httpcore-1.0.5-py3-none-any.whl (77 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m77.9/77.9 kB[0m [31m11.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting h11<0.15,>=0.13 (from httpcore==1.*->httpx<1,>=0.23.0->openai)
  Downloading h11-0.14.0-py3-none-any.whl (58 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m8.6 MB/s[0m eta [36m0:00:

In [11]:
from openai import OpenAI

# Erstelle einen OpenAI-Client und setze den API-Schlüssel
client = OpenAI(api_key="enter your API key here!") #aller höchste Geheimstufe!

def simplify_text(text):
    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "system", "content": "Bitte schreibe den gegebenen Text in sehr einfache Umgangssprache um und verwende keine Fachsprache"},
            {"role": "user", "content": text},
        ]
    )
    print(type(response.choices[0].message.content))
    return response.choices[0].message.content

dataset = {}

for entry in grouped_sentences:
    simplified_text = simplify_text(entry)
    dataset[simplified_text] = entry

# Drucke jedes Wertepaar
for simplified, original in dataset.items():
    print(f"Original: {original}")
    print(f"Umgangssprachlich: {simplified}")
    print()

<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class

## **Parsing into LLaMA 2 Form**

In [12]:
def toLLaMA2(input_text, output_text):
  B_INST, E_INST = "<s>[INST]", "[/INST]"
  B_SYS, E_SYS = "<<SYS>>\n", "\n<</SYS>>\n\n"
  sys_prompt = "Bitte formuliere den folgenden Text in eine wissenschaftliche Schreibweise um:"

  return f"{B_INST} {B_SYS} {sys_prompt} {E_SYS} {input_text} {E_INST} {output_text} </s>"


In [13]:
final_dataset = []

for key, value in dataset.items():
    final_dataset.append(toLLaMA2(key, value))

In [14]:
for item in final_dataset:
    print(item)

<s>[INST] <<SYS>>
 Bitte formuliere den folgenden Text in eine wissenschaftliche Schreibweise um: 
<</SYS>>

 Das hier bedeutet, dass Zahlen oft in normalem Zahlenformat angezeigt werden, weil das leicht verständlich ist für Menschen. Aber Zahlen im Binär-System sind schwierig zu verstehen, weil sie nicht so übersichtlich sind. Wenn wir also zum Beispiel im Dezimalsystem arbeiten, brauchen wir generell weniger Zahlen als im Binär-System. Im Hexadezimalsystem wird jede Zahl durch vier Ziffern im Binär-System dargestellt. Das macht es einfacher, Zahlen im Hexadezimalsystem zu lesen. [/INST] Das bedeutet, dass Informationen oft im Dezimalsystem dargestellt werden, wenn sie für Menschen aufbereitet werden. Zahlen im Binär-System werden allerdings recht schnell sehr unübersichtlich, sodass Menschen mit diesen Zahlen nicht besonders gut klarkommen. Ganz allgemein kann festgehalten werden, dass eine höherwertige Basis die Anzahl benötigter Ziffern tendenziell immer verringert. Hieraus folgt, 

## **Dictionary to Dataset on HF**

In [15]:
!pip install datasets pandas

from datasets import Dataset

import pandas as pd

Collecting datasets
  Downloading datasets-2.20.0-py3-none-any.whl (547 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m547.8/547.8 kB[0m [31m12.8 MB/s[0m eta [36m0:00:00[0m
Collecting pyarrow>=15.0.0 (from datasets)
  Downloading pyarrow-16.1.0-cp310-cp310-manylinux_2_28_x86_64.whl (40.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m40.8/40.8 MB[0m [31m20.7 MB/s[0m eta [36m0:00:00[0m
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m15.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting requests>=2.32.2 (from datasets)
  Downloading requests-2.32.3-py3-none-any.whl (64 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m64.9/64.9 kB[0m [31m8.5 MB/s[0m eta [36m0:00:00[0m
Collecting xxhash (from datasets)
  Downloading xxhash-3.4.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64

In [16]:
#Liste in DataFrame umwandeln
df = pd.DataFrame(final_dataset)

# DataFrame in Dataset umwandeln
dataset_hf = Dataset.from_pandas(df.rename(columns={0: "test"}), split="train")

# Die ersten paar Zeilen des Datasets anzeigen
print(dataset_hf[:3])

{'test': ['<s>[INST] <<SYS>>\n Bitte formuliere den folgenden Text in eine wissenschaftliche Schreibweise um: \n<</SYS>>\n\n Das hier bedeutet, dass Zahlen oft in normalem Zahlenformat angezeigt werden, weil das leicht verständlich ist für Menschen. Aber Zahlen im Binär-System sind schwierig zu verstehen, weil sie nicht so übersichtlich sind. Wenn wir also zum Beispiel im Dezimalsystem arbeiten, brauchen wir generell weniger Zahlen als im Binär-System. Im Hexadezimalsystem wird jede Zahl durch vier Ziffern im Binär-System dargestellt. Das macht es einfacher, Zahlen im Hexadezimalsystem zu lesen. [/INST] Das bedeutet, dass Informationen oft im Dezimalsystem dargestellt werden, wenn sie für Menschen aufbereitet werden. Zahlen im Binär-System werden allerdings recht schnell sehr unübersichtlich, sodass Menschen mit diesen Zahlen nicht besonders gut klarkommen. Ganz allgemein kann festgehalten werden, dass eine höherwertige Basis die Anzahl benötigter Ziffern tendenziell immer verringert. 

In [17]:
import os

In [18]:
os.environ['HUGGINGFACE_TOKEN'] = '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'

!huggingface-cli login --token $HUGGINGFACE_TOKEN

!huggingface-cli whoami


The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /root/.cache/huggingface/token
Login successful
JannesKl


In [19]:
dataset_hf.push_to_hub("RewriteScientificallyDataset_German_LLaMA2_Format")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

CommitInfo(commit_url='https://huggingface.co/datasets/JannesKl/RewriteScientificallyDataset_German_LLaMA2_Format/commit/6b111feb5d70b7584d26d3fc9d4802a111ff8a00', commit_message='Upload dataset', commit_description='', oid='6b111feb5d70b7584d26d3fc9d4802a111ff8a00', pr_url=None, pr_revision=None, pr_num=None)