In [7]:
import json
import pandas as pd
from bs4 import BeautifulSoup
import functions as fct
from IPython.display import display, HTML

In [8]:
# Chemins vers les fichiers JSON d'entraînement et de développement
train_path = 'SCOTUS/train.json'
dev_path = 'SCOTUS/dev.json'

In [9]:
# Chargement des données d'entraînement à partir du fichier JSON
with open(train_path, 'r', encoding="utf-8") as f:
    train = json.load(f)

In [10]:
def html_processing(html_content):
    """
    Récupère le contenu intéressant du HTML en conservant les balises <a>, <em> et <blockquote>.
    
    Parameters:
    html_content (str): Le contenu HTML à traiter.

    Returns:
    list: Une liste de chaînes contenant le texte traité et les balises spécifiées.
    """
    soup = BeautifulSoup(html_content, 'html.parser')

    # On suppose que le contenu intéressant se trouve dans cette classe
    div_class = "-display-inline-block text-left"
    target_div = soup.find('div', class_=div_class)
    
    extract = []

    temp_result = []  # Liste pour stocker le texte traité
    if target_div:
        to_merge = False  # Indicateur pour savoir si on doit fusionner les textes
        for element in target_div.children:
            # Ignorer les sauts de ligne
            if element.getText() == '\n':
                continue
            
            extract.append(element.get_text())
            
            # Traiter les balises <a> et <em>
            if element.name in ["a", "em"]:
                # temp_result.append(f"<{element.name}> {element.get_text()} </{element.name}>")
                temp_result.append(f"{element.get_text()}")
                to_merge = True
            # Si l'élément est du texte à fusionner
            elif to_merge:
                if temp_result[-1].startswith("<em>"):
                    temp_result[-2] += temp_result[-1] + element.get_text()
                else:
                    temp_result[-2] += " " + temp_result[-1] + " " + element.get_text()
                temp_result.pop()  # Retirer le dernier élément
                to_merge = False
            # Traiter les balises <blockquote>
            elif element.name == "blockquote":
                # temp_result.append(f"<{element.name}>{element.get_text()}</{element.name}>")
                temp_result.append(f"{element.get_text()}")
            # Pour le texte normal
            else:
                temp_result.append(element.get_text())
    else:
        print(f"Aucun div trouvé avec la classe '{div_class}'.")

    result = []  # Liste finale pour le résultat

    # Nettoyer et fusionner le texte dans le résultat final
    for res in temp_result:
        # Remplacer les tabulations et les sauts de ligne
        if '\t' in res:
            string = res.replace('\t', '').replace('\n', ' ')
            result.append(string)
        else:
            if len(result) < 1:
                result.append(res.replace('\n', ''))
            else:
                result[-1] += " " + res.replace('\n', '')

    return result, extract

Commented so we don't overwrite the txt files by accident

In [15]:
# Traitement des données d'entraînement
for i in range(len(train)):
    html_content = train[i]["raw_source"]  # Récupérer le contenu HTML

    text, _ = html_processing(html_content)  # Traiter le contenu HTML

    name = f'data_txt_save/text/train_{i}.txt'  # Nom du fichier de sortie

    # Écrire le texte traité dans un fichier
    with open(name, 'w', encoding='utf-8') as f:
        for line in text:
            f.write(line + '\n')

In [18]:
for i in range(len(train)):
    tmp = train[i]["raw_target"]
    text = tmp["facts_of_the_case"] + " \n" + tmp["question"] + " \n" + tmp["conclusion"]

    soup = BeautifulSoup(text, 'html.parser')
    clean_text = soup.get_text()

    name = f'data_txt_save/summary/train_{i}.txt'  # Nom du fichier de sortie

    # Écrire le texte traité dans un fichier
    with open(name, 'w', encoding='utf-8') as f:
        for line in text:
            f.write(line + '\n')

In [None]:
def split_extract(extract_texts):
    to_display = [] 
    for extract_text in extract_texts:
        parts = extract_text.split('\n')
        to_display.extend(part.strip() for part in parts if part.strip()) 
        
    return to_display  

Display the cleaned text in the html to see if every thing is extracted (but find only 1 occurence)

In [None]:
html_content = train[0]["raw_source"]  # Récupérer le contenu HTML
text, extract_texts = html_processing(html_content)

to_display = split_extract(extract_texts)

# we skip the first lines because the highlighting doesn't work well with the first html tags 

skipped_lines = 240 # where the syllabus start
#skipped_lines = 375 # where the opinions start

lines = html_content.splitlines()

beginning = "\n".join(lines[:skipped_lines])
rest = "\n".join(lines[skipped_lines:])

highlighted_result = fct.highlight_html(rest, to_display)

display(HTML(beginning+highlighted_result))

The partially cleaned with cleaned is not working whelle because not handeling the \<a\> and \<em\> tags

In [None]:
not_cleaned = fct.open_file("data_txt_save/text/train_0.txt", 'txt')
cleaned = fct.open_file("clean_data_txt_save/text/train_0.txt", 'txt')

extracts = [phrase.strip() for phrase in cleaned.split('\n') if phrase.strip()]


highlighted_result_2 = fct.highlight_text(not_cleaned, extracts)

display(HTML(f"<p>{highlighted_result_2}</p>"))