In [1]:
import pandas as pd

from src.spacy_models.spacy_pipe import SpacyPipeBuild, SpacyPipeProcess
from src.spacy_models.spacy_utils import SpacyExt, SpacyTask
from src.settings.enums import NaturalLanguage
from src.data.data_loader import DataLoader

In [2]:
nat_lang = NaturalLanguage.DE

In [3]:
coref = SpacyPipeProcess(natural_language=nat_lang, spacy_task=SpacyTask.COREF, use_gpu=True)

GPU is used: True
custom extensions "init_extensions" initialized
regex_entity_pattern for own_regex_search were compiled.
Function "own_regex_search" initialized
Function "own_coref_resolve" initialized


In [4]:
coref.nlp.pipe_names

['tok2vec', 'senter', 'own_regex_search', 'own_coref_resolve']

In [6]:
from src.settings.params import abbrevs_and_company_suffixes_with_dot_at_end
coref.set_custom_tokenizer(special_tokens=abbrevs_and_company_suffixes_with_dot_at_end)

In [7]:
dl = DataLoader()
year = 2023
month = 5
df = dl.load_monthly_df(year=year, month=month)

In [8]:
# without findings: 10, 11
index = 105
isin = df.loc[index, 'art_isin']
company = df.loc[index, 'art_company_name']
print('ISIN:', isin, '---', 'COMP:', company)
print('-----------------------------------')
text = df.loc[index, 'pp_art_text']
text

ISIN: DE0007571424 --- COMP: GK Software SE
-----------------------------------


'GK Software SE: Abschluss eines Delisting-Vertrages mit Fujitsu Delisting-Erwerbsangebot von Fujitsu zu EUR 190,00 je Aktie angekuendigt.  GK Software SE: Abschluss eines Delisting-Vertrages mit Fujitsu  Delisting-Erwerbsangebot von Fujitsu zu EUR 190,00 je Aktie angekuendigt.  Veroeffentlichung einer Insiderinformation nach Artikel 17 der Verordnung  Nr. 596 2014, uebermittelt durch EQS News - ein Service der EQS Group AG.  Die GK Software SE hat heute einen Delisting-Vertrag mit der Fujitsu Ltd. sowie mit deren 100%iger Tochtergesellschaft, der Fujitsu ND Solutions AG, abgeschlossen. Auf Grundlage dieses Vertrages soll die Stellung eines Antrags auf Widerruf der Zulassung der GK-Aktien am regulierten Markt erfolgen; zudem sollen wirtschaftlich angemessene Massnahmen getroffen werden, die erforderlich und fuer die Gesellschaft moeglich sind, um die Einbeziehung der GK-Aktien in den Handel im Freiverkehr zu beenden. Gemaess den Bestimmungen des Delisting-Vertrages wird die Bieterin he

In [9]:
%%time
doc = coref.nlp(text=text)

##### ->>>>>>>>>> COREF: PipeFunc.CUST_EXT_VAL_WAS_SET: True
cluster_dict: {'head': (0, 14, 'GK Software SE'), 1: (429, 447, 'Die GK Software SE'), 2: (823, 839, 'die Gesellschaft'), 3: (1054, 1060, 'der GK'), 4: (1160, 1166, 'der GK'), 5: (1731, 1737, 'der GK'), 6: (1895, 1897, 'GK'), 7: (2263, 2265, 'GK'), 8: (2411, 2427, 'des Unternehmens')}
cluster_dict: {'head': (0, 14, 'GK Software SE'), 1: (429, 447, 'Die GK Software SE'), 2: (823, 839, 'die Gesellschaft'), 3: (1054, 1060, 'der GK'), 4: (1160, 1166, 'der GK'), 5: (1731, 1737, 'der GK'), 6: (1895, 1897, 'GK'), 7: (2263, 2265, 'GK'), 8: (2411, 2427, 'des Unternehmens'), 9: (2415, 2427, 'Unternehmens'), 10: (2593, 2609, 'der Gesellschaft'), 11: (2811, 2817, 'der GK')}
cluster_dict: {'head': (26, 63, 'eines Delisting-Vertrages mit Fujitsu'), 1: (165, 202, 'eines Delisting-Vertrages mit Fujitsu')}
cluster_dict: {'head': (56, 63, 'Fujitsu'), 1: (93, 100, 'Fujitsu'), 2: (195, 202, 'Fujitsu'), 3: (233, 240, 'Fujitsu'), 4: (486, 502, 'de

In [11]:
coref.get_sentences_with_custom_extensions(processed_doc=doc)

[{'sentence': 'GK Software SE: Abschluss eines Delisting-Vertrages mit Fujitsu Delisting-Erwerbsangebot von Fujitsu zu EUR 190,00 je Aktie angekuendigt.  GK Software SE: Abschluss eines Delisting-Vertrages mit Fujitsu  Delisting-Erwerbsangebot von Fujitsu zu EUR 190,00 je Aktie angekuendigt.  ',
  'entities': [{'start_char': 0,
    'end_char': 11,
    'ent_text': 'GK Software',
    'comp_name': 'GK Software SE',
    'comp_symbol': 'GKS.HM',
    'set_in': 'own_regex_search'},
   {'start_char': 139,
    'end_char': 150,
    'ent_text': 'GK Software',
    'comp_name': 'GK Software SE',
    'comp_symbol': 'GKS.HM',
    'set_in': 'own_regex_search'}]},
 {'sentence': 'Die GK Software SE hat heute einen Delisting-Vertrag mit der Fujitsu Ltd. sowie mit deren 100%iger Tochtergesellschaft, der Fujitsu ND Solutions AG, abgeschlossen.',
  'entities': [{'start_char': 433,
    'end_char': 447,
    'ent_text': 'GK Software SE',
    'comp_name': 'GK Software SE',
    'comp_symbol': 'GKS.HM',
    'set_