# Topic recognition
## 1. Preparing the dataset for fine-tuning with the base model

In [18]:
### for working on the BwCluster
from huggingface_hub import login

# Replace with your Hugging Face token
huggingface_token = "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"

# Log in
login(token=huggingface_token)


import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer, BitsAndBytesConfig, DataCollatorForLanguageModeling
from datasets import load_dataset
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from transformers import pipeline
from tqdm import tqdm 
import pandas as pd
import re

In [12]:
### Prepare a training set
# Load the dataset as a single split
#dataset = load_dataset("csv", data_files="/content/drive/MyDrive/Colab Notebooks/DSP/subratings_data.csv", split="train")
dataset = load_dataset("csv", data_files="subratings_data.csv", split="train")

# Shuffle and split the dataset
shuffled_dataset = dataset.shuffle(seed=42)
split_dataset = shuffled_dataset.train_test_split(train_size=0.012, seed=42)

# Access the training and testing subsets
train_dataset = split_dataset["train"]
train_dataset

Dataset({
    features: ['review_id', 'restaurant_id', 'review_date', 'scraping_date', 'stars', 'dining_stars_food', 'dining_stars_service', 'dining_stars_atmosphere', 'review_text'],
    num_rows: 285
})

In [6]:
### Load the LLama 3.1 70 B model (since it performed the best)
model_id = "meta-llama/Llama-3.1-70B-Instruct"
quantization_config = BitsAndBytesConfig(load_in_4bit=True,
                                         bnb_4bit_compute_dtype=torch.bfloat16,
                                         bnb_4bit_use_double_quant=True,
                                         bnb_4bit_quant_type= "nf4"
                                         )

quantized_model = AutoModelForCausalLM.from_pretrained(
    model_id, device_map="auto", torch_dtype=torch.bfloat16, quantization_config=quantization_config)
tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token = tokenizer.eos_token # setting padding token (Llama doesnt have a padding token by default)

Loading checkpoint shards:   0%|          | 0/30 [00:00<?, ?it/s]

In [16]:
review1 = train_dataset['review_text'][4]
print(review1)

Extrem überteuert in schönem Ambiente. Ich habe das Klassische Frühstück für 17 Euro bestellt. Auf der Karte steht Brot, Marmelade, Käse, Schinken, Obst, Ei. Und ein Kaffee inklusive. Für den Preis erwartet man eine schöne Platte der aufgeführten Sachen. Folgendes bekommt man:

Es kommt ein winziger Dessertteller mit ein bisschen aufgeschnittenem Obst und Gemüse. Ein hartgekochtes Ei, eine (!) Schinkenscheibe, bisschen Marmelade und drei kleine Stückchen Camembert. Und den Kaffee natürlich. Dazu kommt ein großer Brotkorb mit trockenem Brot. Aber man fragt sich, womit man das Brot essen soll, wenn die eine Scheibe Schinken schon verputzt ist. Mit dem Apfel und der Kiwi? Ich zahle 17 Euro für ein bisschen aufgeschnittenes Obst. Unter einem Frühstück für 17 Euro und der Beschreibung auf der Karte stelle ich mir etwas anderes vor.

Das Ambiente ist aber schön, das Personal freundlich und man kann gut draußen sitzen.


In [19]:
re.split(r'(?<=[.!?])\s+|\n+', review1)

['Extrem überteuert in schönem Ambiente.',
 'Ich habe das Klassische Frühstück für 17 Euro bestellt.',
 'Auf der Karte steht Brot, Marmelade, Käse, Schinken, Obst, Ei.',
 'Und ein Kaffee inklusive.',
 'Für den Preis erwartet man eine schöne Platte der aufgeführten Sachen.',
 'Folgendes bekommt man:',
 'Es kommt ein winziger Dessertteller mit ein bisschen aufgeschnittenem Obst und Gemüse.',
 'Ein hartgekochtes Ei, eine (!) Schinkenscheibe, bisschen Marmelade und drei kleine Stückchen Camembert.',
 'Und den Kaffee natürlich.',
 'Dazu kommt ein großer Brotkorb mit trockenem Brot.',
 'Aber man fragt sich, womit man das Brot essen soll, wenn die eine Scheibe Schinken schon verputzt ist.',
 'Mit dem Apfel und der Kiwi?',
 'Ich zahle 17 Euro für ein bisschen aufgeschnittenes Obst.',
 'Unter einem Frühstück für 17 Euro und der Beschreibung auf der Karte stelle ich mir etwas anderes vor.',
 'Das Ambiente ist aber schön, das Personal freundlich und man kann gut draußen sitzen.']

In [24]:
def categorize_sentences_multi_label(review_text: str) -> dict:
    """
    Categorize sentences from the review into 'food', 'service', 'atmosphere' and 'price'.
    Allow sentences to belong to multiple categories.
    """
    # Define the multi-label prompt
    prompt_template = ("""
        For the following sentence, identify all applicable categories:'food', 'service', 'atmosphere', 'price'
        If no category applies, respond 'none'. 
        "Separate multiple categories with commas.\n\n"
        "Sentence: {sentence}\n\n"
        "Categories:"
    """)
    
    # Split review into sentences with delimiters ('.', '!', '?') but remove '\n'
    sentences = re.split(r'(?<=[.!?])\s+|\n+', review_text)
    
    # Initialize result dictionary
    categorized_sentences = {'food': [], 'service': [], 'atmosphere': [], 'price': []}
    
    for sentence in sentences:
        prompt = prompt_template.format(sentence=sentence.strip())
        
        inputs = tokenizer(
            prompt,
            return_tensors="pt",
            padding=True,
            truncation=True,
            max_length=512
        ).to("cuda")

        # Generate category predictions
        outputs = quantized_model.generate(
            **inputs,
            temperature=0.1,
            pad_token_id=tokenizer.convert_tokens_to_ids(tokenizer.pad_token)
        )

        # Decode and parse the model's response
        generated_text = tokenizer.decode(outputs[0][inputs['input_ids'].shape[-1]:], skip_special_tokens=True).strip().lower()
        predicted_categories = [cat.strip() for cat in generated_text.split(',') if cat.strip() in categorized_sentences]

        # Add the sentence to all relevant categories
        for category in predicted_categories:
            categorized_sentences[category].append(sentence.strip())
    
    return categorized_sentences

In [27]:
### let the base model recognize the topics of each sentence

train_topic = []

batch_size = 64  # adjust based on GPU memory

# Process the reviews in batches
for i in tqdm(range(0, len(train_dataset['review_text']), batch_size), desc="Processing reviews in batches"):
    batch_reviews = train_dataset['review_text'][i:i+batch_size]

    # For each batch, categorize sentences for food, service, and atmosphere
    for review_text in batch_reviews:
        categorized = categorize_sentences_multi_label(review_text)
        train_topic.append({
            'original_review': review_text,
            'food_sentences': '. '.join(categorized['food']),
            'service_sentences': '. '.join(categorized['service']),
            'atmosphere_sentences': '. '.join(categorized['atmosphere']),
            'price_sentences': '. '.join(categorized['price'])
        })

Processing reviews in batches: 100%|██████████| 5/5 [1:18:48<00:00, 945.60s/it] 


In [28]:
### save the results
# Convert the list of dictionaries to a Pandas DataFrame
df_train_topic = pd.DataFrame(train_topic)
df_train_topic.to_excel("train_topic.xlsx", index=False)

## 2. Revision of data
2 group members have revised the data and changed what was wrong by the model.