In [79]:
import pandas as pd
import numpy as np
import os
import json
from langchain.chat_models import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain.schema import SystemMessage, HumanMessage
from langchain.chains import LLMChain
from typing import List, Optional
from pydantic import BaseModel, Field
from langchain import PromptTemplate, LLMChain
from langchain.llms import OpenAI
import spacy
import nltk
import re
from nltk.corpus import stopwords



### TODO:

Pipeline: 1.whether a product or service -> 2. name of the product or service -> 3. Information about the product

1. AI- based creawling approach can be used to optimize product and service selection pipeline

2. Extensive data cleaning and classical NLP pipeline is required to optimise service selection pipeline: such as finding most common words etc.

3. Prompt should be optimised

4. Trade off between increasing chain from 3 to more ??

5. BERT-Topic approach can be used to optimize service selection pipeline:

So 1. BERT-Topic selects main topic -> 2. BERT-Topic selects whether service or product(data can be filered) -> 3. summarize based on BertTopic selected products or service name 

### 1. Json data creation for the Langchain model:>

In [1]:
import os
import pandas as pd

# Define the main data path
data_path = "/Users/umutekingezer/Desktop/NLP/nlp-competitive-market-analysis/nlp-competitive-market-analysis-kedro-project/data/02_company_cleansed_data"

# Initialize lists for storing data
company_names = []
file_names = []
contents = []

# Get the list of company directories
companies = [d for d in os.listdir(data_path) if os.path.isdir(os.path.join(data_path, d))]

# Loop through each company folder
for company in companies:
    company_path = os.path.join(data_path, company)
    
    # Loop through all .md files in the company folder
    for file_name in os.listdir(company_path):
        if file_name.endswith(".md"):
            file_path = os.path.join(company_path, file_name)

            # Read the content of the .md file
            with open(file_path, 'r', encoding='utf-8') as file:
                content = file.read()

            # Append data to the respective lists
            company_names.append(company)
            file_names.append(file_name)
            contents.append(content)

# Create a DataFrame
df = pd.DataFrame({
    "company_name": company_names,
    "page_content": file_names,
    "content": contents
})

# Save DataFrame as Parquet file
output_path = "/Users/umutekingezer/Desktop/NLP/nlp-competitive-market-analysis/nlp-competitive-market-analysis-kedro-project/notebooks/structured_langchain_data.parquet"
df.to_parquet(output_path, index=False)


In [2]:
# Read the Parquet file
df = pd.read_parquet(output_path)

In [3]:
df

Unnamed: 0,company_name,page_content,content
0,generali,geschaeftskunden_rundum-schutz_immobiliensiche...,* Privatkunden \n * Geschäftskunden \n\n *...
1,generali,cookie-einstellungen_cleansed.md,* Privatkunden \n * Geschäftskunden \n\n *...
2,generali,impressum_cleansed.md,* Privatkunden \n * Geschäftskunden \n\n *...
3,generali,privatkunden_gesundheit-freizeit_wassersportve...,* Privatkunden \n * Geschäftskunden \n\n *...
4,generali,privatkunden_gesundheit-freizeit_krankenratgeb...,* Privatkunden \n * Geschäftskunden \n\n *...
...,...,...,...
528,huk-coburg,gesundheit-vorsorge-vermoegen_pflegeversicheru...,Zum Hauptinhalt überspringen\n\n * Auto & Mob...
529,huk-coburg,haus-haftung-recht_ratgeber_rechtsschutz-arbei...,Zum Hauptinhalt überspringen\n\n * Auto & Mob...
530,huk-coburg,service_kunden-werben-kunden_cleansed.md_clean...,Zum Hauptinhalt überspringen\n\n * Auto & Mob...
531,huk-coburg,gesundheit-vorsorge-vermoegen_pflegeversicheru...,Zum Hauptinhalt überspringen\n\n * Auto & Mob...


## 2. Preprocessing the Parquet file:

1.Text cleaning: Remove unwanted characters like special symbols, unnecessary spaces, and newline characters.

2.Tokenization: Split text into individual words.

3.Stopword removal: Remove common German stopwords (e.g., "und", "oder").

4.Lemmatization: Reduce words to their root form.

5.Optional: Remove very short words or any further irrelevant tokens.

In [19]:
# Load German stopwords from NLTK
nltk.download('stopwords')
stop_words = set(stopwords.words('german'))

# Load SpaCy German model
nlp = spacy.load('de_core_news_sm')

# Function to clean and preprocess the text
def preprocess_german_text(text):
    # Remove unwanted characters (e.g., special characters, newlines, etc.)
    text = re.sub(r'\n+', ' ', text)  # Remove newline characters
    text = re.sub(r'[^a-zA-ZäöüßÄÖÜ\s]', '', text)  # Remove non-alphabetic characters
    
    # Tokenization and lemmatization with SpaCy
    doc = nlp(text)
    lemmatized_tokens = [
        token.lemma_ for token in doc if token.text.lower() not in stop_words and len(token.text) > 2
    ]
    
    # Join tokens back into a single string
    return ' '.join(lemmatized_tokens)

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/umutekingezer/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [20]:
# Apply preprocessing to the 'content' column of the DataFrame
df['preprocessed_content'] = df['content'].apply(preprocess_german_text)

# Optionally, display the first few rows to check the results
print(df[['company_name', 'page_content', 'preprocessed_content']].head())

  company_name                                       page_content  \
0     generali  geschaeftskunden_rundum-schutz_immobiliensiche...   
1     generali                   cookie-einstellungen_cleansed.md   
2     generali                              impressum_cleansed.md   
3     generali  privatkunden_gesundheit-freizeit_wassersportve...   
4     generali  privatkunden_gesundheit-freizeit_krankenratgeb...   

                                preprocessed_content  
0      Privatkunde      Geschäftskunde      Journ...  
1      Privatkunde      Geschäftskunde      Journ...  
2      Privatkunde      Geschäftskunde      Journ...  
3      Privatkunde      Geschäftskunde      Journ...  
4      Privatkunde      Geschäftskunde      Journ...  


In [21]:
df.head(10)

Unnamed: 0,company_name,page_content,content,preprocessed_content
0,generali,geschaeftskunden_rundum-schutz_immobiliensiche...,* Privatkunden \n * Geschäftskunden \n\n *...,Privatkunde Geschäftskunde Journ...
1,generali,cookie-einstellungen_cleansed.md,* Privatkunden \n * Geschäftskunden \n\n *...,Privatkunde Geschäftskunde Journ...
2,generali,impressum_cleansed.md,* Privatkunden \n * Geschäftskunden \n\n *...,Privatkunde Geschäftskunde Journ...
3,generali,privatkunden_gesundheit-freizeit_wassersportve...,* Privatkunden \n * Geschäftskunden \n\n *...,Privatkunde Geschäftskunde Journ...
4,generali,privatkunden_gesundheit-freizeit_krankenratgeb...,* Privatkunden \n * Geschäftskunden \n\n *...,Privatkunde Geschäftskunde Journ...
5,generali,privatkunden_rundum-schutz_young-and-law_clean...,* Privatkunden \n * Geschäftskunden \n\n *...,Privatkunde Geschäftskunde Journ...
6,generali,privatkunden_vorsorge-finanzen_grundfaehigkeit...,* Privatkunden \n * Geschäftskunden \n\n *...,Privatkunde Geschäftskunde Journ...
7,generali,privatkunden_gesundheit-freizeit_krankenhausta...,* Privatkunden \n * Geschäftskunden \n\n *...,Privatkunde Geschäftskunde Journ...
8,generali,privatkunden_gesundheit-freizeit_gesundheitsse...,* Privatkunden \n * Geschäftskunden \n\n *...,Privatkunde Geschäftskunde Journ...
9,generali,privatkunden_fahrzeug-zuhause_kfz-versicherung...,* Privatkunden \n * Geschäftskunden \n\n *...,Privatkunde Geschäftskunde Journ...


In [23]:
# Convert the processed DataFrame to a dictionary format suitable for saving as JSON
processed_data = df[['company_name', 'page_content', 'preprocessed_content']].to_dict(orient='records')

# Define the output path for the JSON file
output_json_path = '/Users/umutekingezer/Desktop/NLP/nlp-competitive-market-analysis/nlp-competitive-market-analysis-kedro-project/notebooks/processed_langchain_data.json'

# Save the processed data as a JSON file
with open(output_json_path, 'w', encoding='utf-8') as json_file:
    json.dump(processed_data, json_file, ensure_ascii=False, indent=4)

print(f"Processed data has been saved to {output_json_path}")

Processed data has been saved to /Users/umutekingezer/Desktop/NLP/nlp-competitive-market-analysis/nlp-competitive-market-analysis-kedro-project/notebooks/processed_langchain_data.json


## 3. Langchain Approach:

In [24]:

#Get the OpenAI key:
os.environ["OPENAI_API_KEY"] = "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"

In [91]:
# Load the preprocessed data from the JSON file
input_json_path = '/Users/umutekingezer/Desktop/NLP/nlp-competitive-market-analysis/nlp-competitive-market-analysis-kedro-project/notebooks/processed_langchain_data.json'  # Update with your file path

with open(input_json_path, 'r', encoding='utf-8') as json_file:
    data = json.load(json_file)

In [92]:
data = data[:50]

In [93]:
data

[{'company_name': 'generali',
  'page_content': 'geschaeftskunden_rundum-schutz_immobiliensicherungspolice_cleansed.md',
  'preprocessed_content': '    Privatkunde      Geschäftskunde      Journal      Berater finden      Service Kontakt suchen     RundumSchutz     Gesundheit Vorsorge     Geschäft Gebäude     Transport RundumSchutz     Konzept FirmenSAFE      Unternehmenssicherungspolice      Immobiliensicherungspolice      Landwirtschaft Unternehmenssicherungspolice Gebündelte Vorteil Firma individuell Schutz fast Betriebsart größen mehr erfahren Gesundheit     Betriebliche Krankenversicherung      AuslandsGruppenversicherung      Betrieblich Gesundheitsmanagement Betriebliche Vorsorge     Direktversicherung      Pensionsfonds      Pensionszusage      Unterstützungskasse      bAV Kollektivplan      Betriebliche GruppenUnfallversicherung      Zeitwert Altersteilzeitkont      Aktuarielle Dienstleistung Betriebliche Krankenversicherung Inland KrankenGruppenversicherung Unternehmen mehr e

In [94]:
# Define the Pydantic model for the outputs
class DocumentInfo(BaseModel):
    company_name: str
    page_content: str
    is_product_page: bool = Field(..., description="Ob der Inhalt sich auf ein Versicherungsprodukt oder eine Dienstleistung bezieht.")
    product_service_name: Optional[str] = Field(None, description="Name des Versicherungsprodukts oder der Dienstleistung.")
    product_information: Optional[str] = Field(None, description="Relevante Informationen über das Produkt oder die Dienstleistung für Kunden.")

# Initialize the language model using ChatOpenAI
llm = ChatOpenAI(model_name='gpt-4o-mini', temperature=0)

# Define the prompt template for German text
prompt_template = """
Sie sind ein Experte für Versicherungsprodukte. Analysieren Sie den folgenden Text und beantworten Sie die Fragen:

Text:

{content}

Aufgaben:

1. **Handelt es sich bei diesem Text um eine Beschreibung eines Versicherungsprodukts oder einer Dienstleistung?** Antworten Sie mit "Ja" oder "Nein".
2. **Wenn Ja**, geben Sie Folgendes an:
   - **Produkt/Dienstleistungsname**: Der Name des Versicherungsprodukts oder der Dienstleistung.
   - **Produktinformationen**: Wichtige Informationen über das Produkt oder die Dienstleistung, die für Kunden relevant sind. Fassen Sie dies in 2-3 Sätzen zusammen.

Formatieren Sie Ihre Antwort wie folgt:

Ist Produktseite: <Ja/Nein>
Produkt/Dienstleistungsname: <Ihr Text hier oder 'Nicht zutreffend'>
Produktinformationen: <Ihr Text hier oder 'Nicht zutreffend'>
"""

prompt = PromptTemplate(
    input_variables=['content'],
    template=prompt_template,
)

# Initialize the LLM Chain with the prompt and language model
llm_chain = LLMChain(prompt=prompt, llm=llm, verbose=True)

# Initialize a list to store processed documents
processed_documents: List[DocumentInfo] = []

In [95]:
# Process each document in the data
for idx, doc in enumerate(data):
    company_name = doc['company_name']
    page_content = doc['page_content']
    content = doc['preprocessed_content']

    print(f"Processing document {idx + 1}/{len(data)}: {company_name} - {page_content}")

    try:
        # Generate the response using the LLM
        response = llm_chain.predict(content=content)

        # Initialize variables
        is_product_page = False
        product_service_name = None
        product_information = None

        # Parse the response
        lines = response.strip().split('\n')
        for line in lines:
            if line.startswith('Ist Produktseite:'):
                answer = line.replace('Ist Produktseite:', '').strip().lower()
                is_product_page = True if 'ja' in answer else False
            elif line.startswith('Produkt/Dienstleistungsname:'):
                product_service_name = line.replace('Produkt/Dienstleistungsname:', '').strip()
            elif line.startswith('Produktinformationen:'):
                product_information = line.replace('Produktinformationen:', '').strip()

        # Create a DocumentInfo instance
        processed_doc = DocumentInfo(
            company_name=company_name,
            page_content=page_content,
            is_product_page=is_product_page,
            product_service_name=product_service_name if is_product_page else None,
            product_information=product_information if is_product_page else None
        )

        # Append the processed document to the list
        processed_documents.append(processed_doc)

    except Exception as e:
        print(f"An error occurred while processing document {idx + 1}: {e}")
        # Optionally, handle the error (e.g., log it, continue to the next document)

# Convert the list of processed documents to a DataFrame
df_processed = pd.DataFrame([doc.dict() for doc in processed_documents])

Processing document 1/50: generali - geschaeftskunden_rundum-schutz_immobiliensicherungspolice_cleansed.md


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3m
Sie sind ein Experte für Versicherungsprodukte. Analysieren Sie den folgenden Text und beantworten Sie die Fragen:

Text:

    Privatkunde      Geschäftskunde      Journal      Berater finden      Service Kontakt suchen     RundumSchutz     Gesundheit Vorsorge     Geschäft Gebäude     Transport RundumSchutz     Konzept FirmenSAFE      Unternehmenssicherungspolice      Immobiliensicherungspolice      Landwirtschaft Unternehmenssicherungspolice Gebündelte Vorteil Firma individuell Schutz fast Betriebsart größen mehr erfahren Gesundheit     Betriebliche Krankenversicherung      AuslandsGruppenversicherung      Betrieblich Gesundheitsmanagement Betriebliche Vorsorge     Direktversicherung      Pensionsfonds      Pensionszusage      Unterstützungskasse      bAV Kollektivplan      Betriebliche GruppenUnfal

In [96]:
df_processed

Unnamed: 0,company_name,page_content,is_product_page,product_service_name,product_information
0,generali,geschaeftskunden_rundum-schutz_immobiliensiche...,True,Immobiliensicherungspolice,Die Immobiliensicherungspolice schützt Eigentü...
1,generali,cookie-einstellungen_cleansed.md,True,RundumSchutz,Der RundumSchutz bietet eine umfassende Absich...
2,generali,impressum_cleansed.md,True,RundumSchutz,Der RundumSchutz bietet eine umfassende Absich...
3,generali,privatkunden_gesundheit-freizeit_wassersportve...,True,RundumSchutz,Der RundumSchutz bietet umfassende Versicherun...
4,generali,privatkunden_gesundheit-freizeit_krankenratgeb...,True,RundumSchutz,Der RundumSchutz bietet eine umfassende Absich...
5,generali,privatkunden_rundum-schutz_young-and-law_clean...,True,RundumSchutz,Der RundumSchutz bietet eine umfassende Absich...
6,generali,privatkunden_vorsorge-finanzen_grundfaehigkeit...,True,RundumSchutz,Der RundumSchutz bietet eine umfassende Absich...
7,generali,privatkunden_gesundheit-freizeit_krankenhausta...,True,RundumSchutz,Der RundumSchutz bietet eine umfassende Absich...
8,generali,privatkunden_gesundheit-freizeit_gesundheitsse...,True,RundumSchutz,Der RundumSchutz bietet eine umfassende Absich...
9,generali,privatkunden_fahrzeug-zuhause_kfz-versicherung...,True,RundumSchutz,Der RundumSchutz bietet eine umfassende Absich...


In [98]:
df_processed.to_csv("langchain_final_data.csv", index=False, encoding='utf-8')


## 4. BERT-Topic Approach:

#### Why Use BERTopic?


1.Topic Modeling: BERTopic helps you uncover hidden topics within your documents, which is particularly useful for large datasets.

2.Clustering: It clusters documents based on their content, making it easier to identify groups of documents related to insurance products.

3.Flexibility: You can fine-tune the model to get more granular or broader topics by adjusting parameters

In [99]:
# Load the preprocessed data from the JSON file
input_json_path = '/Users/umutekingezer/Desktop/NLP/nlp-competitive-market-analysis/nlp-competitive-market-analysis-kedro-project/notebooks/processed_langchain_data.json'  # Update with your file path

with open(input_json_path, 'r', encoding='utf-8') as json_file:
    data = json.load(json_file)

In [100]:
data

[{'company_name': 'generali',
  'page_content': 'geschaeftskunden_rundum-schutz_immobiliensicherungspolice_cleansed.md',
  'preprocessed_content': '    Privatkunde      Geschäftskunde      Journal      Berater finden      Service Kontakt suchen     RundumSchutz     Gesundheit Vorsorge     Geschäft Gebäude     Transport RundumSchutz     Konzept FirmenSAFE      Unternehmenssicherungspolice      Immobiliensicherungspolice      Landwirtschaft Unternehmenssicherungspolice Gebündelte Vorteil Firma individuell Schutz fast Betriebsart größen mehr erfahren Gesundheit     Betriebliche Krankenversicherung      AuslandsGruppenversicherung      Betrieblich Gesundheitsmanagement Betriebliche Vorsorge     Direktversicherung      Pensionsfonds      Pensionszusage      Unterstützungskasse      bAV Kollektivplan      Betriebliche GruppenUnfallversicherung      Zeitwert Altersteilzeitkont      Aktuarielle Dienstleistung Betriebliche Krankenversicherung Inland KrankenGruppenversicherung Unternehmen mehr e

In [103]:
#Use a German sentence transformer model to generate embeddings for your documents:
from sentence_transformers import SentenceTransformer

# Load a German pre-trained model
model = SentenceTransformer('distiluse-base-multilingual-cased-v2')  # Supports multiple languages including German

# Generate embeddings
documents = df['preprocessed_content'].tolist()
embeddings = model.encode(documents, show_progress_bar=True)

modules.json:   0%|          | 0.00/341 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/2.69k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/610 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/539M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/531 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

2_Dense/config.json:   0%|          | 0.00/114 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.58M [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.58M [00:00<?, ?B/s]

Batches:   0%|          | 0/17 [00:00<?, ?it/s]

In [106]:
#Initialize and fit the BERTopic model using the embeddings:

from bertopic import BERTopic

# Initialize BERTopic with appropriate parameters
topic_model = BERTopic(language="german", embedding_model=model)

# Fit the model
topics, probabilities = topic_model.fit_transform(documents, embeddings)

OMP: Info #276: omp_set_nested routine deprecated, please use omp_set_max_active_levels instead.


In [107]:
df['topic'] = topics

In [108]:
df

Unnamed: 0,company_name,page_content,content,preprocessed_content,topic
0,generali,geschaeftskunden_rundum-schutz_immobiliensiche...,* Privatkunden \n * Geschäftskunden \n\n *...,Privatkunde Geschäftskunde Journ...,3
1,generali,cookie-einstellungen_cleansed.md,* Privatkunden \n * Geschäftskunden \n\n *...,Privatkunde Geschäftskunde Journ...,2
2,generali,impressum_cleansed.md,* Privatkunden \n * Geschäftskunden \n\n *...,Privatkunde Geschäftskunde Journ...,2
3,generali,privatkunden_gesundheit-freizeit_wassersportve...,* Privatkunden \n * Geschäftskunden \n\n *...,Privatkunde Geschäftskunde Journ...,2
4,generali,privatkunden_gesundheit-freizeit_krankenratgeb...,* Privatkunden \n * Geschäftskunden \n\n *...,Privatkunde Geschäftskunde Journ...,2
...,...,...,...,...,...
528,huk-coburg,gesundheit-vorsorge-vermoegen_pflegeversicheru...,Zum Hauptinhalt überspringen\n\n * Auto & Mob...,Hauptinhalt überspringen Auto Mobilität ...,1
529,huk-coburg,haus-haftung-recht_ratgeber_rechtsschutz-arbei...,Zum Hauptinhalt überspringen\n\n * Auto & Mob...,Hauptinhalt überspringen Auto Mobilität ...,1
530,huk-coburg,service_kunden-werben-kunden_cleansed.md_clean...,Zum Hauptinhalt überspringen\n\n * Auto & Mob...,Hauptinhalt überspringen Auto Mobilität ...,1
531,huk-coburg,gesundheit-vorsorge-vermoegen_pflegeversicheru...,Zum Hauptinhalt überspringen\n\n * Auto & Mob...,Hauptinhalt überspringen Auto Mobilität ...,1


Note: The -1 topic represents outliers or documents that didn't fit well into any topic.

If necessary, you can refine the topics by:

Merging similar topics.

Removing irrelevant topics.

Adjusting model parameters like nr_topics, min_topic_size, etc.




For example, suppose topics 1, 2, and 3 are related to insurance products, and topics 4 and 5 are not.

In [109]:
# Get topic information
topic_info = topic_model.get_topic_info()
print(topic_info.head())

# View the top words for each topic
for topic_num in topic_info['Topic']:
    if topic_num == -1:
        continue  # Skip outliers
    print(f"Topic {topic_num}:")
    print(topic_model.get_topic(topic_num))
    print("\n")

   Topic  Count                                     Name  \
0      0    191            0_axa_ratgeber_kontakt_ändern   
1      1    177        1_übersicht_hukcoburg_privat_haus   
2      2    127           2_generali_young_mehr_erfahren   
3      3     38  3_generali_betriebliche_berater_gebäude   

                                      Representation  \
0  [axa, ratgeber, kontakt, ändern, versicherung,...   
1  [übersicht, hukcoburg, privat, haus, auto, sch...   
2  [generali, young, mehr, erfahren, krankentageg...   
3  [generali, betriebliche, berater, gebäude, meh...   

                                 Representative_Docs  
0  [bitte aktivieren JavaScript BrowserEinstellun...  
1  [Hauptinhalt überspringen     Auto Mobilität  ...  
2  [    Privatkunde      Geschäftskunde      Jour...  
3  [    Privatkunde      Geschäftskunde      Jour...  
Topic 0:
[('axa', 0.08552441876642261), ('ratgeber', 0.034011404891040826), ('kontakt', 0.030822459567011025), ('ändern', 0.027271253733242056)

In [110]:
# Define product-related topics
product_topics = [1, 2, 3]  # Adjust based on your topic analysis

# Determine if a document is a product page
df['is_product_page'] = df['topic'].apply(lambda x: True if x in product_topics else False)

In [112]:
df[df["is_product_page"] == False] 

Unnamed: 0,company_name,page_content,content,preprocessed_content,topic,is_product_page
160,axa_germany,presse_mediathek_bilder_cleansed.md,Bitte aktivieren Sie JavaScript in den Browser...,bitte aktivieren JavaScript BrowserEinstellung...,0,False
161,axa_germany,pk_haus-wohnung_p_elementarversicherung_cleans...,Bitte aktivieren Sie JavaScript in den Browser...,bitte aktivieren JavaScript BrowserEinstellung...,0,False
162,axa_germany,kontakt_adressen_cleansed.md,Bitte aktivieren Sie JavaScript in den Browser...,bitte aktivieren JavaScript BrowserEinstellung...,0,False
163,axa_germany,impressum_cleansed.md,Bitte aktivieren Sie JavaScript in den Browser...,bitte aktivieren JavaScript BrowserEinstellung...,0,False
164,axa_germany,pk_haftpflicht_p_verkehrsrechtsschutz_cleansed.md,Bitte aktivieren Sie JavaScript in den Browser...,bitte aktivieren JavaScript BrowserEinstellung...,0,False
...,...,...,...,...,...,...
346,axa_germany,pk_gesundheit_s_online-arzt_cleansed.md,Bitte aktivieren Sie JavaScript in den Browser...,bitte aktivieren JavaScript BrowserEinstellung...,0,False
347,axa_germany,geschaeftskunden_betriebliche-gruppenunfallver...,Bitte aktivieren Sie JavaScript in den Browser...,bitte aktivieren JavaScript BrowserEinstellung...,0,False
348,axa_germany,pk_gesundheit_s_meine-gesundheit_cleansed.md,Bitte aktivieren Sie JavaScript in den Browser...,bitte aktivieren JavaScript BrowserEinstellung...,0,False
349,axa_germany,karriere_bewerbungstipps_cleansed.md,Bitte aktivieren Sie JavaScript in den Browser...,bitte aktivieren JavaScript BrowserEinstellung...,0,False


In [115]:
# Filter product pages
product_df = df[df['is_product_page']].reset_index(drop=True)

# Define the Pydantic model for the outputs
class ProductInfo(BaseModel):
    company_name: str
    page_content: str
    product_service_name: str = Field(..., description="Name des Versicherungsprodukts oder der Dienstleistung.")
    product_information: str = Field(..., description="Relevante Informationen über das Produkt oder die Dienstleistung für Kunden.")

# Initialize the language model using ChatOpenAI
llm = ChatOpenAI(model_name='gpt-4o-mini', temperature=0)

# Define the prompt template for extracting product information
prompt_template = """
Sie sind ein Experte für Versicherungsprodukte. Extrahieren Sie die folgenden Informationen aus dem Text:

Text:

{content}

Aufgaben:

1. **Produkt/Dienstleistungsname**: Der Name des Versicherungsprodukts oder der Dienstleistung.
2. **Produktinformationen**: Wichtige Informationen über das Produkt oder die Dienstleistung, die für Kunden relevant sind. Fassen Sie dies in 2-3 Sätzen zusammen.

Formatieren Sie Ihre Antwort wie folgt:

Produkt/Dienstleistungsname: <Ihr Text hier>
Produktinformationen: <Ihr Text hier>
"""

prompt = PromptTemplate(
    input_variables=['content'],
    template=prompt_template,
)

# Initialize the LLM Chain with the prompt and language model
llm_chain = LLMChain(prompt=prompt, llm=llm)

# Initialize a list to store processed documents
processed_products: List[ProductInfo] = []


In [117]:
# Process each product document
for idx, row in product_df.iterrows():
    company_name = row['company_name']
    page_content = row['page_content']
    content = row['preprocessed_content']

    print(f"Processing product document {idx + 1}/{len(product_df)}: {company_name} - {page_content}")

    try:
        # Generate the response using the LLM
        response = llm_chain.predict(content=content)

        # Parse the response
        product_service_name = None
        product_information = None

        lines = response.strip().split('\n')
        for line in lines:
            if line.startswith('Produkt/Dienstleistungsname:'):
                product_service_name = line.replace('Produkt/Dienstleistungsname:', '').strip()
            elif line.startswith('Produktinformationen:'):
                product_information = line.replace('Produktinformationen:', '').strip()

        # Create a ProductInfo instance
        processed_doc = ProductInfo(
            company_name=company_name,
            page_content=page_content,
            product_service_name=product_service_name,
            product_information=product_information
        )

        # Append the processed document to the list
        processed_products.append(processed_doc)

    except Exception as e:
        print(f"An error occurred while processing document {idx + 1}: {e}")
        # Optionally, handle the error (e.g., log it, continue to the next document)

# Convert the list of processed documents to a DataFrame
df_products = pd.DataFrame([doc.dict() for doc in processed_products])


# Non-product pages
non_product_df = df[~df['is_product_page']].reset_index(drop=True)
non_product_df['product_service_name'] = None
non_product_df['product_information'] = None

# Combine product information
df_final = pd.concat([
    df_products,
    non_product_df[['company_name', 'page_content', 'product_service_name', 'product_information']]
], ignore_index=True)

# Save the DataFrame to a CSV file
output_csv_path = 'BERT_final_data.csv'  # Update with your desired output path
df_final.to_csv(output_csv_path, index=False, encoding='utf-8')

print(f"Processed data has been saved to {output_csv_path}")

Processing product document 1/342: generali - geschaeftskunden_rundum-schutz_immobiliensicherungspolice_cleansed.md
Processing product document 2/342: generali - cookie-einstellungen_cleansed.md
Processing product document 3/342: generali - impressum_cleansed.md
Processing product document 4/342: generali - privatkunden_gesundheit-freizeit_wassersportversicherung_cleansed.md
Processing product document 5/342: generali - privatkunden_gesundheit-freizeit_krankenratgeber_cleansed.md
Processing product document 6/342: generali - privatkunden_rundum-schutz_young-and-law_cleansed.md
Processing product document 7/342: generali - privatkunden_vorsorge-finanzen_grundfaehigkeitsversicherung_cleansed.md
Processing product document 8/342: generali - privatkunden_gesundheit-freizeit_krankenhaustagegeld_cleansed.md
Processing product document 9/342: generali - privatkunden_gesundheit-freizeit_gesundheitsservices_kooperationen_mister-spex_cleansed.md
Processing product document 10/342: generali - pri