# Legalis Data Set

Notebook used to edit the existing dataset for usage in the legalis project.

## Importing Libraries and Dataset

In [55]:
from datasets import load_dataset
import datasets
from bs4 import BeautifulSoup
import re
from datetime import date
import time
import openai
import tiktoken

In [131]:
raw_dataset=load_dataset("LennardZuendorf/openlegaldata-bulk-data", split='train')
print(raw_dataset)

Found cached dataset json (C:/Users/lenna/.cache/huggingface/datasets/LennardZuendorf___json/LennardZuendorf--openlegaldata-bulk-data-0d18a44c8ee5464a/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4)


Dataset({
    features: ['id', 'slug', 'court', 'file_number', 'date', 'created_date', 'updated_date', 'type', 'ecli', 'content'],
    num_rows: 251038
})


In [4]:
#train_dataset=load_dataset("LennardZuendorf/legalis", split='train')

Found cached dataset parquet (C:/Users/lenna/.cache/huggingface/datasets/LennardZuendorf___parquet/LennardZuendorf--legalis-0e5167afdeca78ef/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec)


## Creating the Dataset for Training and Testing
### Editing both Datasets

In [109]:
# renaming and removing columns
raw_dataset = raw_dataset.remove_columns(['slug','ecli', 'updated_date', 'created_date'])

#updating columns in nested dict ('court')
def cleaning_courts(data):
    del data['court']['slug']
    del data['court']['city']

    return data

raw_dataset = raw_dataset.map(cleaning_courts)



Loading cached processed dataset at C:\Users\lenna\.cache\huggingface\datasets\LennardZuendorf___json\LennardZuendorf--openlegaldata-bulk-data-0d18a44c8ee5464a\0.0.0\e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4\cache-63a24ec0a24af8bd.arrow


In [130]:
# cleaning date information into datetime.date object, throwing out data younger than 1 week
def clean_date(data):
    data['date'] = data['date'].date()

    return data

cleaned_dataset = raw_dataset.map(clean_date)
cleaned_dataset = cleaned_dataset.filter(lambda x: x['date'].date() < date.fromtimestamp(time.time()))

print(cleaned_dataset)

Loading cached processed dataset at C:\Users\lenna\.cache\huggingface\datasets\LennardZuendorf___json\LennardZuendorf--openlegaldata-bulk-data-0d18a44c8ee5464a\0.0.0\e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4\cache-286cf8a60b821d66.arrow
Loading cached processed dataset at C:\Users\lenna\.cache\huggingface\datasets\LennardZuendorf___json\LennardZuendorf--openlegaldata-bulk-data-0d18a44c8ee5464a\0.0.0\e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4\cache-80b0c9f66c8d2a02.arrow


Dataset({
    features: ['id', 'court', 'file_number', 'date', 'type', 'content'],
    num_rows: 251036
})


## Creating Training Dataset
#### splitting training dataset content into clean tenor and reasoning

In [None]:
#splitting content into tenor and reasoning
def splitting_content_training(data):

    #splitting content into tenor and reasoning
    split_content = data['content'].rsplit(sep="<h2>Gründe</h2>")

    #alternative splitting if first split was not possible
    if len(split_content)!=2:
        split_content=data['content'].rsplit(sep="<!--hlIgnoreOn-->Gründe<!--hlIgnoreOff-->")

    if len(split_content)!=2:
        split_content=data['content'].rsplit(sep="Gründe:")

    if len(split_content)!=2:

        #settting tenor and reasoning to None if no split was possible
        data['tenor']=None
        data['reasoning']=None

    if len(split_content)==2:

        #cleaning tenor of html, newlines and whitespaces
        tenor_soup=BeautifulSoup(split_content[0])
        tenor=tenor_soup.get_text().strip()
        tenor=re.sub('\n', ' ', tenor)#
        tenor=' '.join(tenor.split())
        data['tenor'] = tenor

        #cleaning reasoning of html, newlines and whitespaces
        reason_soup=BeautifulSoup(split_content[1])
        reason=reason_soup.get_text().strip()
        reason=re.sub('\n', ' ', reason)
        data['reasoning']=' '.join(reason.split())

    return data


#splitting content into tenor and reasoning, after filtering for content containing "Gründe"
train_dataset = raw_dataset.filter(lambda x: x['content'].find("Gründe")!=-1)
train_dataset = train_dataset.map(splitting_content_training)

Filter:   0%|          | 0/251038 [00:00<?, ? examples/s]

Map:   0%|          | 0/88177 [00:00<?, ? examples/s]

### Extracting facts from reasoning using ChatGPT API

In [135]:
reasoning = 'I. 1 Die Klägerin belieferte die S. GmbH (nachfolgend: Schuldnerin), eine Tochtergesellschaft der Beklagten, mit Gas. Im Blick auf Zahlungsrückstände der Schuldnerin erteilte die Beklagte der Klägerin am 12. Juni 2007 eine Patronatserklärung, die auszugsweise folgenden Inhalt hat: "Wir, die alleinige Gesellschafterin der S. GmbH verpflichten uns hiermit, der S. GmbH die notwendigen finanziellen Mittel zur Verfügung zu stellen, dass sie ihrerseits den vertraglichen Verpflichtungen gemäß mit ihrem Haus vereinbarten Zahlungsplan einhalten kann. Die vorliegende Patronatserklärung ist zeitlich bis zum 15. August 2007 befristet." 2 Die Klägerin stellte die Belieferung der Schuldnerin, die teilweise Zahlungen leistete, am 18. September 2007 ein. Nach Eröffnung eines Insolvenzverfahrens über das Vermögen der Schuldnerin und Anfechtung der von ihr bewirkten Zahlungen zahlte die Klägerin im Vergleichswege einen Betrag von 2 Mio. € an den Insolvenzverwalter. 3 Vorliegend nimmt die Klägerin die Beklagte auf Schadensersatz in Anspruch, weil sie die vereinbarte Patronatserklärung nicht erfüllt habe. Nach Stattgabe der Klage in Höhe von 2 Mio. € durch das Erstgericht hat das Berufungsgericht den Zahlungsbetrag auf 940.000 € vermindert. Mit ihrer Nichtzulassungsbeschwerde erstrebt die Beklagte die volle Abweisung der Klage. II. 4 Die Nichtzulassungsbeschwerde deckt keinen Zulassungsgrund auf. Die Klageforderung ist auf der Grundlage der höchstrichterlichen Rechtsprechung begründet. 5 1. Die Beklagte hat im Streitfall gegenüber der Klägerin eine harte externe Patronatserklärung übernommen. Da die Beklagte den daraus sich ergebenden Pflichten nicht genügt hat, kann die Klägerin Schadensersatz verlangen. 6 a) Eine harte Patronatserklärung statuiert eine rechtsgeschäftliche Einstandspflicht des Patrons gegenüber dem Adressaten der Erklärung (BGH, Urteil vom 19. Mai 2011 - IX ZR 9/10, WM 2011, 1085 Rn. 18). Der Patronatsgeber übernimmt durch eine harte, rechtsgeschäftliche Patronatserklärung entweder im Innenverhältnis zu seiner Tochtergesellschaft oder im Außenverhältnis zu deren Gläubiger die Verpflichtung, die Tochtergesellschaft in der Weise auszustatten, dass sie stets in der Lage ist, ihren finanziellen Verbindlichkeiten zu genügen (BGH, aaO Rn. 17). Handelt es sich - wie im Streitfall - um eine externe Patronatserklärung einer Muttergesellschaft für ihre Tochtergesellschaft, haftet die Muttergesellschaft dem Gläubiger neben der Tochtergesellschaft für dieselbe Leistung auf das Ganze. Eine solche Verpflichtung wird allgemein als ein der Bürgschaft oder Garantieerklärung vergleichbares Sicherungsmittel angesehen (BGH, Urteil vom 8. Mai 2003 - IX ZR 334/01, WM 2003, 1178, 1179 f). Der Patron haftet aus einer externen Patronatserklärung im Falle der Uneinbringlichkeit der gesicherten Forderung auf Schadensersatz (BGH, Urteil vom 30. Januar 1992 - IX ZR 112/91, BGHZ 117, 127, 130). 7 b) Im Streitfall hat die Beklagte gegenüber der Klägerin eine harte externe Patronatserklärung übernommen, die einen Direktanspruch der Klägerin gegen die Beklagte begründet. Der Verpflichtung, die Tochtergesellschaft in der Weise auszustatten, dass sie stets ihren finanziellen Verbindlichkeiten genügt (BGH, Urteil vom 19. Mai 2011, aaO), entspricht es nicht, wenn sich die von ihr durch eine interne Mittelzufuhr zugunsten der Klägerin veranlassten Zahlungen als anfechtbar erweisen. Vielmehr unterliegt die Beklagte einer Schadensersatzpflicht, weil sich die Forderung der Klägerin im Umfang der erfolgreichen Anfechtung als uneinbringlich erweist (BGH, Urteil vom 30. Januar 1992, aaO). Darum verwandelt sich die von der Muttergesellschaft dem Gläubiger ihrer Tochtergesellschaft erteilte externe Patronatserklärung nach einer Insolvenz der Tochtergesellschaft in eine Pflicht zur Direktzahlung an diesen (BGH, Urteil vom 19. Mai 2011, aaO Rn. 20). Dem Risiko, dass eine interne Mittelzufuhr an die Tochtergesellschaft nicht zur Befriedigung des Gläubigers führt, kann der Patron durch eine Direktzahlung an diesen begegnen (MünchKomm-BGB/Habersack, 6. Aufl., Rn. 50 vor § 765). Mithin kann die Klägerin in der Insolvenz der Schuldnerin den Klagebetrag als Schadensersatz beanspruchen, weil die Beklagte ihrer Ausstattungspflicht nicht genügt hat (vgl. BGH, Urteil vom 30. Januar 1992, aaO S. 133). 8 c) Ohne Erfolg beruft sich die Beklagte auf eine zeitliche Befristung der Patronatserklärung. 9 In der höchstrichterlichen Rechtsprechung ist anerkannt, dass eine zeitlich unbefristete Patronatserklärung für die Zukunft gekündigt werden kann, wenn die Parteien nach den Umständen des Einzelfalles ein entsprechendes Kündigungsrecht vereinbart haben (BGH, Urteil vom 20. September 2010 - II ZR 296/08, BGHZ 187, 69 Rn. 17 ff). Da eine solche Kündigung nur ex nunc wirkt, hat der Patron für die bis zum Wirksamwerden der Kündigung begründeten Verbindlichkeiten weiter einzustehen und wird nur im Blick auf künftige Verbindlichkeiten von seiner Haftung befreit (BGH, aaO Rn. 19, 41). Im Streitfall war die Patronatserklärung ausdrücklich auf bis zum 15. August 2007 entstandene Forderungen der Klägerin befristet. Gegenstand der vorliegenden Klage bilden ausschließlich derartige Forderungen. Die Befristung bedeutet entgegen der Auffassung der Beschwerde nicht, dass der Patron seiner Ausstattungspflicht nur während des Geltungszeitraums der Patronatserklärung zu genügen hat. Bei einem derartigen Verständnis könnte sich der Patron auf einfachste Weise seiner Verpflichtung entziehen, indem er während der Laufzeit keine Zahlung leistet. Dies wäre indessen nicht interessengerecht. Vielmehr hat er für sämtliche während der Laufzeit seiner Erklärung entstandene Verbindlichkeiten auch nachträglich aufzukommen. 10 2. Für diese rechtliche Bewertung streitet auch die Regelung des § 144 Abs. 1 InsO. Die Verpflichtung aus einer Patronatserklärung besteht nach Anfechtung einer zugunsten des patronierten Unternehmens erbrachten Zahlung fort, gleich ob eine Patronatserklärung als akzessorisches oder nichtakzessorisches Sicherungsrecht zu bewerten ist (vgl. die Nachweise pro und contra bei MünchKomm-BGB/Habersack, 6. Aufl., Rn. 51 Fn. 217 vor § 765). 11 a) Handelte es sich bei einer Patronatserklärung um ein akzessorisches Sicherungsrecht, bliebe die Beklagte nach der erfolgreichen Anfechtung der von der Schuldnerin bewirkten Zahlung aus ihrer Patronatserklärung gegenüber der Klägerin verpflichtet. Akzessorische Sicherheiten leben mit der erfolgreichen Anfechtung wieder auf, wie wenn die Forderung nie erloschen gewesen wäre. Dies gilt sowohl für akzessorische Sicherheiten des Schuldners als auch eines Drittsicherungsgebers (BGH, Urteil vom 24. Oktober 1973 - VIII ZR 82/72, NJW 1974, 57; vom 3. März 2009 - XI ZR 41/08, WM 2009, 790 Rn. 11; Beschluss vom 15. April 2010 - IX ZR 86/09, nv; MünchKomm-InsO/Kirchhof, 3. Aufl., § 144 Rn. 10c; HK-InsO/Thole, 8. Aufl., § 144 Rn. 3). Bei dieser Sachlage wäre die Beklagte aus ihrer infolge der wirksamen Anfechtung wieder aufgelebten Patronatserklärung verpflichtet. 12 b) Ebenso würde die Verpflichtung der Beklagten aus der Patronatserklärung nicht entfallen, wenn sie als nichtakzessorisches Sicherungsrecht zu bewerten wäre. 13 aa) Bestand ein nichtakzessorisches Sicherungsrecht eines Dritten - etwa eine Grundschuld - zur Zeit der Rückgewähr der angefochtenen Zahlung fort, sichert es die wieder aufgelebte Forderung (OLG Brandenburg, WM 2001, 626, 628; Ganter, WM 2011, 245, 249; Jaeger/Henckel, InsO, § 144 Rn. 18). Bei dieser Sachlage würde die weiterhin wirksame Patronatserklärung die infolge der Anfechtung wiederaufgelebte Forderung der Klägerin sichern. 14 bb) Wäre die Patronatserklärung mit den Zahlungen der Schuldnerin untergegangen, wäre die Beklagte zur Neubestellung der Drittsicherung verpflichtet. Durch die nur vorübergehende, nicht dauerhafte Tilgung der Hauptforderung wäre die Beklagte von ihrer Pflicht zur Stellung der Sicherheit nicht entbunden worden. Da der Sicherungsgeber kein schützenswertes Interesse daran hat, durch eine anfechtbare Leistung des Schuldners von seiner Sicherung befreit zu werden, wäre die Beklagte aufgrund der ursprünglichen Sicherungsabrede zur Wiederbestellung der ohne rechtlichen Grund untergegangenen Sicherung verpflichtet (vgl. OLG Brandenburg, ZInsO 2004, 504, 506; OLG Frankfurt, ZIP 2004, 271; OLG Naumburg, WM 2009, 982, 983; Ganter, aaO S. 250; MünchKomm-InsO/Kirchhof, aaO § 144 Rn. 10d; Jaeger/Henckel, aaO). Gegenüber einer Inanspruchnahme aus dem Sicherungsrecht könnte sich die Beklagte nach den Grundsätzen von Treu und Glauben (§ 242 BGB) nicht auf das Nichtbestehen des Sicherungsrechts berufen. Vielmehr müsste sie sich so behandeln lassen, wie wenn sie der Pflicht zur Neubestellung nachgekommen wäre (vgl. OLG Frankfurt, aaO; OLG Naumburg, aaO). 15 3. Die geltend gemachten Verletzungen von Verfahrensgrundrechten hat der Senat geprüft, aber nicht für durchgreifend erachtet. Von einer weiteren Begründung wird gemäß § 544 Abs. 4 Satz 2 Halbs. 2 ZPO abgesehen, weil sie nicht geeignet wäre, zur Klärung der Voraussetzungen beizutragen, unter denen eine Revision zuzulassen ist. Kayser Gehrlein Pape RiBGH Grupp ist im Erholungsurlaub und kann daher nicht unterschreiben. Kayser Möhring'

In [144]:
#checking amount of tokens in reasoning
enc = tiktoken.encoding_for_model("gpt-3.5-turbo")
token_nmb = len(enc.encode(reasoning))

print(token_nmb)

2913


In [145]:
openai.api_key = "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"
promt_content='Extrahiere aus dem folgenden Text den Sachverhalt des Falles sodass Jurastudenten auf Basis dessen den Fall lösen können. Exkludiere die Entscheidung des Gerichtes in deiner Antwort./n'+reasoning

completion = openai.ChatCompletion.create(
  model="gpt-3.5-turbo",
  messages=[
    {"role": "user", "content": str(promt_content)}
  ]
)
response = completion.choices[0].message

print(response)

{
  "content": "Die Kl\u00e4gerin belieferte die Tochtergesellschaft der Beklagten mit Gas. Die Beklagte erteilte der Kl\u00e4gerin eine Patronatserkl\u00e4rung, in der sie sich verpflichtete, der Tochtergesellschaft die notwendigen finanziellen Mittel zur Verf\u00fcgung zu stellen, um ihren Zahlungsverpflichtungen nachzukommen. Nachdem die Kl\u00e4gerin die Belieferung der Tochtergesellschaft einstellte und ein Insolvenzverfahren er\u00f6ffnet wurde, zahlte die Kl\u00e4gerin im Vergleichsweg einen Betrag an den Insolvenzverwalter. Die Kl\u00e4gerin verklagt die Beklagte auf Schadensersatz. Das Gericht entscheidet, dass die Beklagte aufgrund der Patronatserkl\u00e4rung zur Zahlung des Schadensersatzes verpflichtet ist, da sie ihre Verpflichtungen nicht erf\u00fcllt hat. Eine zeitliche Befristung der Patronatserkl\u00e4rung entlastet die Beklagte nicht von ihrer Verpflichtung.",
  "role": "assistant"
}


In [136]:
#checking amount of tokens in reasoning
def token_filter(data):
    enc = tiktoken.encoding_for_model("gpt-3.5-turbo")
    token_nmb = len(enc.encode(reasoning))

    if token_nmb > 2048:
        return False
    else:
        return True

train_dataset = train_dataset.filter(token_filter)


Filter:   0%|          | 0/88177 [00:00<?, ? examples/s]

KeyboardInterrupt: 

In [18]:
openai.api_key = "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"

def gpt_fact_extraction(data):
    reasoning = data['reasoning']
    promt_content='Extrahiere aus dem folgenden Text den Sachverhalt des Falles sodass Jurastudenten auf Basis dessen den Fall lösen können. Exkludiere die Entscheidung des Gerichtes in deiner Antwort./n'+reasoning

    completion = openai.ChatCompletion.create(
      model="gpt-3.5-turbo",
      messages=[
        {"role": "user", "content": str(promt_content)}
      ]
    )
    response = completion.choices[0].message
    data['facts']=response['content']

gpt_fact_extraction(train_dataset[10])

#train_dataset = train_dataset.map(gpt_fact_extraction)

InvalidRequestError: This model's maximum context length is 4097 tokens. However, your messages resulted in 5528 tokens. Please reduce the length of the messages.

## Creating Testing Dataset by Splitting into Tenor, Facts and Reasoning (from real data)

In [None]:
#splitting content into tenor and reasoning
def splitting_content_training(data):

    #splitting content into tenor and reasoning
    split_content = data['content'].rsplit(sep="Tatbestand:")

    if len(split_content)==2:
        tmp_split_content=split_content[1].rsplit(sep="Entscheidungsgründe:")
        if len(tmp_split_content)==2:
            split_content= split_content[0]+tmp_split_content[0]+tmp_split_content[1]

    if len(split_content)==3:

        #cleaning tenor of html, newlines and whitespaces
        tenor_soup=BeautifulSoup(split_content[0])
        tenor=tenor_soup.get_text().strip()
        tenor=re.sub('\n', ' ', tenor)#
        tenor=' '.join(tenor.split())
        data['tenor'] = tenor

        #cleaning reasoning of html, newlines and whitespaces
        fact_soup=BeautifulSoup(split_content[1])
        facts=fact_soup.get_text().strip()
        facts=re.sub('\n', ' ', facts)
        data['facts']=' '.join(facts.split())

        #cleaning reasoning of html, newlines and whitespaces
        reason_soup=BeautifulSoup(split_content[2])
        reason=reason_soup.get_text().strip()
        reason=re.sub('\n', ' ', reason)
        data['reasoning']=' '.join(reason.split())

    # setting tenor, facts and reasoning to none if no split was possible
    else:
        data['tenor']=None
        data['facts']=None
        data['reasoning']=None

    return data

#splitting content into tenor and reasoning, after filtering for content containing "Tatbestand"
test_dataset = raw_dataset.filter(lambda x: x['content'].find("Tatbestand")!=-1)
test_dataset = test_dataset.map(splitting_content_training)

In [4]:
#cleaning datasets from empty values for tenor, facts, reasoning
def empty_filter(data):
    if data['tenor'] is not None and data['reasoning'] is not None:
        if data['tenor'].isspace() or data['tenor'] == "":
            return False
        elif data['reasoning'].isspace() or data['reasoning'] == "":
            return False
        else:
            return True

train_dataset = train_dataset.filter(empty_filter)
test_dataset = test_dataset.filter(empty_filter)

Filter:   0%|          | 0/68881 [00:00<?, ? examples/s]

Filter:   0%|          | 0/7654 [00:00<?, ? examples/s]

## Creating Splits, Uploading the new Dataset to HuggingFace Datasets

In [None]:
dataset_dict = datasets.DatasetDict({"train":train_dataset,"test":test_dataset})
print(dataset_dict)

In [6]:
#uploading new dataset into different repository
dataset_dict.push_to_hub("LennardZuendorf/legalis")

Pushing split train to the Hub.


Pushing dataset shards to the dataset hub:   0%|          | 0/3 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/11 [00:00<?, ?ba/s]

Upload 1 LFS files:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/11 [00:00<?, ?ba/s]

Upload 1 LFS files:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/11 [00:00<?, ?ba/s]

Upload 1 LFS files:   0%|          | 0/1 [00:00<?, ?it/s]

Deleting unused files from dataset repository:   0%|          | 0/5 [00:00<?, ?it/s]

Pushing split test to the Hub.


Pushing dataset shards to the dataset hub:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/4 [00:00<?, ?ba/s]

Upload 1 LFS files:   0%|          | 0/1 [00:00<?, ?it/s]

Deleting unused files from dataset repository:   0%|          | 0/1 [00:00<?, ?it/s]