In [2]:
import os
from openai import AzureOpenAI

In [3]:
client = AzureOpenAI(
    azure_endpoint=os.getenv("AZURE_ENDPOINT"),
    api_key=os.getenv("AZURE_OPENAI_KEY"),  
    api_version="2024-02-15-preview"
)


message_text = [
    {
        "role": "system",
        "content": "You are an AI assistant that helps people find information."
    },
    {
        "role": "user",
        "content": "can you list me 10 potential use cases for large language models in the insurance business?"
    }
]

completion = client.chat.completions.create(
  model="chat_4", # model = "deployment_name"
  messages = message_text,
  temperature=0.7,
  max_tokens=800,
  top_p=0.95,
  frequency_penalty=0,
  presence_penalty=0,
  stop=None
)

In [4]:
print(completion.choices[0].message.content)

1. Claims Processing: Large language models can help automate the claims processing by reading and understanding the claim details, helping to speed up the process and reduce manual errors.

2. Customer Service: AI can be used to respond to customer queries or complaints in real-time, significantly improving the customer service experience.

3. Underwriting: Language models can assist underwriters by analyzing vast amounts of data, identifying patterns, and predicting risks to determine premiums.

4. Fraud Detection: By analyzing communication and transaction patterns, AI models can identify suspicious activities and help detect insurance fraud.

5. Policy Management: AI can assist in managing policies by automating the policy issuance and renewal process, providing reminders, and even suggesting policy changes based on customer behavior or market trends.

6. Risk Assessment: Large language models can analyze various data sources to assess risk levels for potential clients or to adjust

# Document Summarization

### Extract text for each Document 

In [4]:
import pdfplumber

In [5]:
os.getcwd()

'C:\\Users\\RDVN\\projects\\openai_tutorial'

In [5]:
directory = 'C:\\Users\\RDVN\\projects\\openai_tutorial\\documents\\P658_Ausschreibungsunterlagen'

In [7]:
for filename in os.listdir(directory):
    if filename.endswith('.pdf'):
        # get file and construct output path
        file_path = os.path.join(directory, filename)
        txt_path = os.path.join(directory, os.path.splitext(filename)[0] + '.txt')
        
        with pdfplumber.open(file_path) as pdf:
            full_text = ''
            
            # Loop through each page in the PDF
            for page in pdf.pages:
                # Extract text from the page
                page_text = page.extract_text()
                
                # Add the text to the full_text variable
                if page_text:  # Making sure there's text on the page
                    full_text += page_text + '\n'

            with open(txt_path, 'w', encoding='utf-8') as txt_file:
                txt_file.write(full_text)

In [8]:
# test result
with open(os.path.join(directory, '01_P658_Angebotsaufforderung.txt'), 'r', encoding='utf-8') as file:
    text = file.read()

In [9]:
print(text)

Bundesamt für Sicherheit in der Informationstechnik, 53175 Bonn Nicole Richter
Seite 1 von 1 Bundesamt für Sicherheit in der
An alle Bieter
Informationstechnik
Godesberger Allee 87
53175 Bonn
Postanschrift:
Postfach 20 03 63
53133 Bonn
vergabestelle@bsi.bund.de
- Versand des digitalen Schreibens über die E-Vergabe-Plattform des Bundes -
www.bsi.bund.de
Betreff: Projekt 658 „Detektion von Bildern multimodaler Modelle
(RealOrRender) DE-Mail-Adresse:
hier: Aufforderung zur Angebotsabgabe poststelle@bsi-bund.de-mail.de
Anlagen:
- Projektvertrag (Muster)
- Leistungsbeschreibung und Besondere Bewerbungsbedingungen (Version
1.0 vom 08.02.2024)
- Angebotsformular
- Abnahmeprotokoll
- Allgemeine Bewerbungsbedingungen E-Vergabe
- Formular: Bietergemeinschaftserklärung
- Formular: Unterauftragnehmerverpflichtungserklärung
- Rechnungseingangsplattformen des Bundes
- Vorlage Bieterfragen
Datum: 10.04.2024
Sehr geehrte Damen und Herren,
das BSI beabsichtigt auf Grundlage der Vergabeunterlagen die ob

### Summarize files

In [10]:
def create_prompt(context):
    prompt = [
        {
            "role": "system",
            "content": "Du bist ein KI Assistent im Vertrieb.\
            Hilf mir die wichtigsten Informationen aus Dokumenten zu einer Ausschreibung zu extrahieren."
        },
        {
            "role": "user",
            "content": f"Klassifiziere den Inhalt des Textes in maximal 2 Worten.\
            Fasse den Inhalt in maximal 3 Sätzen, maximal 50 Worten zusammen.\n\n{context}"
        }
    ]
    return prompt

In [11]:
files_to_analyze = [
    '01_P658_Angebotsaufforderung.txt',
    # '02_P658_ProjektvertragEntwicklung.txt',
    # '03_P658_Leistungsbeschreibung_V1.0.txt',
    '04_P658_Angebotsformular.txt',
    # '05_P658_Abnahmeprotokoll.txt',
    # '06_P658_Allgemeine Bewerbungsbedingungen.txt',
    '07_P658_Bietergemeinschaftserklärung.txt',
    '08_P658_Unterauftragnehmerverpflichtungserklärung.txt',
    '09_P658_Rechnungeingangsplattformen des Bundes.txt'
]

In [12]:
for filename in files_to_analyze:
    file_path = os.path.join(directory, filename)
    with open(file_path, 'r', encoding='utf-8') as file:
        context = file.read()

        # create prompt with context
        prompt = create_prompt(context=context)

        completion = client.chat.completions.create(
            model="chat_4", # model = "deployment_name"
            messages = prompt,
            temperature=0.7,
            max_tokens=800,
            top_p=0.95,
            frequency_penalty=0,
            presence_penalty=0,
            stop=None
        )
        print(completion.choices[0].message.content)
        print('\n\n\n\n')

Klassifikation: Ausschreibung

Zusammenfassung: Das Bundesamt für Sicherheit in der Informationstechnik (BSI) lädt zur Angebotsabgabe für das Projekt 658 "Detektion von Bildern multimodaler Modelle (RealOrRender)" ein. Dies soll im Rahmen eines offenen Verfahrens gemäß § 15 der Vergabeverordnung (VgV) geschehen. Die Durchführung des Vergabeverfahrens erfolgt vollständig über die E-Vergabe-Plattform des Bundes.





Klassifizierung: Ausschreibungsunterlagen

Zusammenfassung: Die Dokumente enthalten Ausschreibungsunterlagen, in denen Bieter aufgefordert werden, bestimmte Informationen bereitzustellen. Dazu gehören Angaben zum Bieter, wie Firmenname, Adresse, Umsatzsteuer-ID, Kontaktpersonen und mögliche Unterauftragnehmer. Die Unterlagen enthalten auch Anweisungen zur Einreichung von Angeboten, einschließlich der Preisgestaltung und der Erklärung von Ausschlussgründen.





Klassifizierung: Bietergemeinschaftserklärung

Zusammenfassung: Das Dokument ist eine Bietergemeinschaftserklärung,

### Chunking too large files

In [13]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [14]:
files_to_split = [
    '02_P658_ProjektvertragEntwicklung.txt',
    '03_P658_Leistungsbeschreibung_V1.0.txt',
    '05_P658_Abnahmeprotokoll.txt',
    '06_P658_Allgemeine Bewerbungsbedingungen.txt'
]

In [17]:
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    model_name='gpt-4',
    chunk_size=7_000,
    chunk_overlap=100,
)

In [18]:
for filename in files_to_split:
    file_path = os.path.join(directory, filename)
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()

        result = text_splitter.split_text(text)
        for chunk in result:
            prompt = create_prompt(context=result[0])

            completion = client.chat.completions.create(
                model="chat_4", # model = "deployment_name"
                messages = prompt,
                temperature=0.7,
                max_tokens=800,
                top_p=0.95,
                frequency_penalty=0,
                presence_penalty=0,
                stop=None
            )
            print(completion.choices[0].message.content)
            print('\n\n\n\n')
            break

Klassifikation: Vertragsdetails

Dieses Dokument ist ein Projektvertrag zwischen der Bundesrepublik Deutschland, vertreten durch das Bundesministerium des Innern und das Bundesamt für Sicherheit in der Informationstechnik, und einem nicht genannten Auftragnehmer. Der Vertrag legt die Aufgaben und Pflichten des Auftragnehmers sowie die Vergütung für bestimmte Arbeitspakete fest. Es enthält auch Abschnitte zur Vertraulichkeit, Datenschutz, Urheberrechten und Haftung. Das Projekt betrifft die "Detektion von Bildern multimodaler Modelle (RealOrRender)". Die Zahlungsbedingungen werden detailliert ausgeführt, einschließlich der Regelungen für den Fall von Mehraufwänden und Verzögerungen.





Klassifikation: Projektinformationen

Das Bundesamt für Sicherheit in der Informationstechnik (BSI) hat eine Ausschreibung für die Entwicklung von Detektionsmethoden und Erklärbarkeitsansätzen zur Erkennung von durch künstliche Intelligenz generierten Bildern (Image-Modellen) veröffentlicht. Ziel ist es

### RAG System

In [64]:
from langchain_openai import AzureOpenAIEmbeddings
from langchain_community.vectorstores import FAISS

In [69]:
context_files = [
    '01_P658_Angebotsaufforderung.txt',
    '02_P658_ProjektvertragEntwicklung.txt',
    '03_P658_Leistungsbeschreibung_V1.0.txt',
    '04_P658_Angebotsformular.txt',
    '05_P658_Abnahmeprotokoll.txt',
    '06_P658_Allgemeine Bewerbungsbedingungen.txt',
    '07_P658_Bietergemeinschaftserklärung.txt',
    '08_P658_Unterauftragnehmerverpflichtungserklärung.txt',
    '09_P658_Rechnungeingangsplattformen des Bundes.txt'
]

#### index creation

In [70]:
# to create embeddings
embeddings = AzureOpenAIEmbeddings(
    azure_deployment='embedding-ada-002',
    azure_endpoint=os.getenv("AZURE_ENDPOINT"),
    api_key=os.getenv("AZURE_OPENAI_KEY")
)

In [71]:
context_chunks = []

for filename in context_files:
    file_path = os.path.join(directory, filename)
    with open(file_path, 'r', encoding='utf-8') as file:
        context = file.read()

        # split document into chunks
        text_splitter = RecursiveCharacterTextSplitter(
            chunk_size=1_000,
            chunk_overlap=100,
        )
        docs = text_splitter.create_documents([context])

        # # add each chunk to list,
        # we want to have one clean list containing langchain documents
        # in the end to add to index
        for doc in docs:
            context_chunks.append(doc)

        # create local vector store
        vectorstore = FAISS.from_documents(
            context_chunks,
            embeddings
        )
        vectorstore.save_local(
            'faiss'
        )       

#### ask a question, retrieve context and answer'

In [98]:
class OpenAIFaissAssistant:
    def __init__(self, embeddings, index_store='faiss'):
        self.embeddings = embeddings
        self.index_store = index_store
        self.faiss_vectorstore = FAISS.load_local(
            self.index_store,
            self.embeddings,
            allow_dangerous_deserialization=True
        )

    def get_context_via_similarity_search(self, input: str, k: int):
        results = self.faiss_vectorstore.similarity_search(
            input,
            k
        )
        return results

    def create_prompt(self, content, context):
        prompt = [
            {
                "role": "system",
                "content": "Du bist ein KI Assistent im Vertrieb.\
                Hilf mir die wichtigsten Informationen aus Dokumenten zu einer Ausschreibung zu extrahieren."
            },
            {
                "role": "user",
                "content": f"{content}. \n\nDie notwendigen Informationen findest Du hier: \n{context}"
            }
        ]
        return prompt
        

    def get_completion(self, question: str):
        print('question retrieved, extracting context')
        # first retrieve context
        context = self.get_context_via_similarity_search(
            input=question,
            k=5
        )

        print('formulating prompt')
        # construct prompt based on question and context
        prompt = self.create_prompt(
            content=question,
            context=context
        )

        print('assistant retrieved request')
        # get completion of our OpenAI model
        completion = client.chat.completions.create(
            # model="chat_16k",
            model="chat_4",
            messages=prompt,
            temperature=0.7,
            max_tokens=800,
            top_p=0.95,
            frequency_penalty=0,
            presence_penalty=0,
            stop=None
        )
        return print(
            f'\n\n{completion.choices[0].message.content}'
        )

In [99]:
# initialize class
assistant = OpenAIFaissAssistant(
    embeddings=embeddings,
    index_store='faiss'
)

In [100]:
question = """Was sind die wichtigsten Anforderungen in der Ausschreibung, die wir laut Leistungsbeschreibung erfüllen müssen?
"""
assistant.get_completion(
    question=question
)

question retrieved, extracting context
formulating prompt
assistant retrieved request


Gemäß der Leistungsbeschreibung müssen wir die folgenden Anforderungen erfüllen:

- Es müssen mindestens 2 Personen (einschließlich Projektleitung und Beauftragte/r für das Qualitätsmanagement) eingesetzt werden.
- AG und AN müssen sicherstellen, dass die abgestellten Personen ausschließlich dem Direktionsrecht und der Disziplinargewalt unterliegen.
- Ein vollständiges Angebot besteht aus dem Angebotsformular, den Anlagen zum Angebotsformular und den Angebotsangaben gemäß den Besonderen Bewerbungsbedingungen.
- Es können zusätzliche Dokumente gefordert werden, die an den entsprechenden Stellen in die Anlage eingefügt werden sollen.
- Eine Inhaltsangabe (Abstract) des veröffentlichten Whitepapers oder der wissenschaftlichen Arbeit mit Bezug zum Projekt kann anstelle des vollständigen Dokuments angegeben werden.
- Bei der Nutzung von Unterauftragnehmern muss dem Angebot eine Verpflichtungserklärung be