# About

Examples on how to use the LuminarSequenceDetector on the basis of the LuminarSequenceClassifier.

In [None]:
%load_ext autoreload
%autoreload 2

In [2]:
import torch
import gc

from IPython.display import display, HTML
from luminar.detector import LuminarSequenceDetector
from luminar.utils.cuda import get_best_device
from luminar.sequence_classifier import LuminarSequence
from luminar.utils import LuminarSequenceTrainingConfig, ConvolutionalLayerSpec
from luminar.utils.visualization import visualize_detection

torch.cuda.empty_cache()
gc.collect()
if torch.cuda.is_available():
    with torch.cuda.device(torch.cuda.current_device()):
        torch.cuda.empty_cache()
        torch.cuda.ipc_collect()

In [3]:
class Config:
    # That's the only model path that is working... I stored the config files wrong ._.
    MODEL_PATH = "/storage/projects/boenisch/PrismAI/models/luminar_sequence/de___en/trvaaa3c"

In [4]:
detector = LuminarSequenceDetector(model_path=Config.MODEL_PATH, feature_agent="tiiuae/falcon-7b", device=get_best_device())

Loading LuminarSequenceDetector from /storage/projects/boenisch/PrismAI/models/luminar_sequence/de___en/trvaaa3c to device cuda:3
LuminarSequenceTrainingConfig(feature_len=512, num_intermediate_likelihoods=33, apply_delta_augmentation=False, apply_product_augmentation=True, conv_layer_shapes=[[128, 5, 1], [256, 5, 1]], projection_dim=128, lstm_hidden_dim=256, lstm_layers=1, stack_spans=3, hf_dataset='liberi-luminaris/Ghostbuster-encoded-gpt2', dataset_root_path='/storage/projects/stoeckel/prismai/encoded/fulltext/', models_root_path='/storage/projects/boenisch/PrismAI/models/luminar_sequence/', domain=None, agent='gpt_4o_mini_gemma2_9b', feature_agent='gpt2_512', max_epochs=115, batch_size=128, early_stopping_patience=8, rescale_features=False, kfold=3, learning_rate=0.00103, seed=42)


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Loaded.


[nltk_data] Downloading package punkt to
[nltk_data]     /home/staff_homes/kboenisc/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [5]:
document = """
Sehr geehrter Herr Präsident! Liebe Kolleginnen und Kollegen! Ich muss sagen: Ich bin ein wenig enttäuscht, –
Meine Damen und Herren, lassen Sie uns nicht vergessen, dass eine nachhaltige und zukunftsorientierte Industriepolitik eine der Grundlagen für den Wohlstand unseres Landes ist. Wir stehen vor großen Herausforderungen: der Digitalisierung, der Energiewende, der demografischen Entwicklung. All diese Faktoren verlangen nach einer klugen und weitsichtigen Politik, die den Industriestandort Deutschland stärkt und gleichzeitig zukunftsfähig macht.

Es ist unerlässlich, dass wir die Weichen richtig stellen. Dazu gehört auch, dass wir die Rahmenbedingungen für Innovationen verbessern und Forschung sowie Entwicklung stärken. Wir müssen sicherstellen, dass unsere Unternehmen im internationalen Wettbewerb bestehen können. Das bedeutet auch, dass wir effiziente und nachhaltige Produktionsmethoden fördern und unterstützen müssen, die sowohl ökologischen als auch ökonomischen Anforderungen gerecht werden.

Es ist ein Trugschluss zu glauben, dass eine starke Industriepolitik automatisch zu Lasten des Mittelstandes geht. Ganz im Gegenteil: Der Mittelstand ist das Rückgrat unserer Wirtschaft. Viele mittelständische Unternehmen sind Zulieferer für große Industriekonzerne oder sind selbst Innovationsführer in ihren Branchen. Eine gezielte Förderung der Schlüsseltechnologien, die auch den Mittelstand einbezieht, ist daher essentiell.

Ich möchte betonen, dass es nicht darum geht, einzelne Branchen zu bevorzugen. Vielmehr müssen wir ein Umfeld schaffen, in dem alle Unternehmen, groß und klein, die Möglichkeit haben, zu wachsen und zu prosperieren. Dazu gehört auch, dass wir bürokratische Hürden abbauen und digitale Infrastrukturen ausbauen.

In diesem Sinne müssen wir auch die Diskussion um den CO2-Zertifikatehandel führen. Es ist richtig, dass wir uns ambitionierte Ziele im Klimaschutz setzen, aber wir müssen auch die Realitäten der Wirtschaft berücksichtigen. Ein Mindestpreis für CO2 könnte zwar theoretisch zu mehr Investitionen in saubere Technologien führen, aber er würde auch zusätzliche Belastungen für die Industrie und insbesondere für den Mittelstand bedeuten, die wir uns in der aktuellen wirtschaftlichen Lage nicht leisten können. Wir müssen schauen, dass wir mit der steuerlichen Forschungsförderung auch die Innovationskraft der Unternehmen stärken. Deutsche und europäische Start-ups brauchen bessere Finanzierungsmöglichkeiten und einen digitalen Binnenmarkt, damit sie ihre Geschäftsmodelle ausrollen und schneller wachsen können.
Allen Kritikern einer Industriestrategie sei hier gesagt: Eine kluge Industriepolitik richtet sich nicht gegen den Mittelstand; sie ist im Interesse des Mittelstandes. Hier hat Peter Altmaier durchaus den einen oder anderen positiven Beitrag geleistet.
Ich sage das, auch wenn wir die Diskussion natürlich weiter führen werden.
Liebe Kolleginnen und Kollegen von den Grünen, ich bin mir nicht sicher, ob wir demnächst noch eine europäische Industrie hätten, wenn wir Ihren Antrag tatsächlich umsetzen würden. Es ist sicherlich nicht alles falsch, was in Ihrem Antrag steht. Aber nehmen wir einmal den CO 2 -Zertifikatehandel. Sie fordern jetzt die Einführung eines CO 2 -Mindestpreises, obwohl der Zertifikatehandel sehr gut funktioniert,
obwohl der Preis in zwei Jahren um 400 Prozent gestiegen ist.
Staatliche Eingriffe in ein funktionierendes marktwirtschaftliches Instrument sind aus Unionssicht der falsche Weg; da können Sie noch so meckern und jammern.
"""

In [6]:
print("Document length:", len(document))

result = detector.detect(document)
print(result)

You're using a PreTrainedTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Document length: 3533
{'avg': np.float32(0.6791362), 'probs': [np.float32(0.00041567066), np.float32(0.9844604), np.float32(0.93683887), np.float32(0.9793658), np.float32(0.9990368), np.float32(0.93683887), np.float32(0.99999905), np.float32(0.9999974), np.float32(0.9999994), np.float32(0.9999882), np.float32(0.99938905), np.float32(0.99999654), np.float32(0.99999714), np.float32(0.9999999), np.float32(0.99996495), np.float32(0.99999714), np.float32(0.99999976), np.float32(0.99999964), np.float32(0.9999989), np.float32(0.99999905), np.float32(0.7547952), np.float32(0.99980766), np.float32(0.80622876), np.float32(0.43815523), np.float32(0.10683258), np.float32(0.80622876), np.float32(0.012153896), np.float32(0.00590026), np.float32(0.00023579993), np.float32(0.015097922), np.float32(0.007888102), np.float32(0.9801374), np.float32(1.699618e-05), np.float32(3.765806e-06), np.float32(1.9124877e-06)], 'token_spans': [(0, 10), (10, 19), (19, 82), (82, 104), (104, 142), (142, 157), (157, 182)

In [7]:
html_output = visualize_detection(document, result)
HTML(html_output)