In [None]:
import re


def clean_title(title):
    if "wyrok" in title.lower():
        cleaned = clean_court_ruling(title)
    else:
        cleaned = clean_regulation(title)
    return cleaned if len(cleaned) > 45 else title


def clean_court_ruling(title):
    """Handle court rulings specifically"""
    # Extract court name, date, and case number
    court_match = re.match(
        r"^Wyrok\s+(.*?)\s+z\s+dnia\s+(\d+\s+\w+\s+\d{4})\s*r\.\s*sygn\.*(.*?)$",
        title,
        re.IGNORECASE,
    )

    if court_match:
        court = court_match.group(1)
        date = court_match.group(2)
        case_number = court_match.group(3)
        # Format: "Court ruling - case_number (date)"
        cleaned = f"Wyrok {court} - {case_number}"
        return cleaned
    return title


def clean_regulation(title):

    # Extract the authority and the rest of the title
    match = re.match(
        r"^(?:Rozporządzenie|Obwieszczenie)\s+(.*?)\s+z\s+dnia.*?(?:w sprawie|zmieniające)",
        title,
        re.IGNORECASE,
    )
    authority = match.group(1) if match else ""

    # Remove the document type, date, and "w sprawie" phrases
    title = re.sub(r"^.*?(?:z dnia \d+\s+\w+\s+\d{4}\s*r\.\s*)", "", title)
    title = re.sub(
        r"(?:zmieniające\s+rozporządzenie\s+)?w\s+sprawie\s+", "dot. ", title
    )
    title = title.replace(
        "Rzeczypospolitej Polskiej ogłoszenia jednolitego tekstu ustawy", ""
    )

    # Combine authority with cleaned title
    cleaned_title = f"{authority} {title}".strip()

    # Remove code patterns like (PLH120079)
    cleaned_title = re.sub(r"\(\w+\d+\)", "", cleaned_title)

    # Remove extra whitespace
    cleaned_title = re.sub(r"\s+", " ", cleaned_title).strip()

    # Remove specific patterns - now excluding 'Ministra' and 'Marszałka'
    patterns_to_remove = [
        r"Prezesa Rady Ministrów",
        r"Rady Ministrów",
        r"ogłoszenia jednolitego tekstu",
        r"zmieniające rozporządzenie",
    ]
    for pattern in patterns_to_remove:
        cleaned_title = re.sub(pattern, "", cleaned_title)

    # Final cleanup
    cleaned_title = re.sub(r"\s+", " ", cleaned_title).strip()


    return cleaned_title


# Test cases including short titles
test_cases = [
    # Short titles that should be preserved
    "Postanowienie Prezydenta Rzeczypospolitej Polskiej nr 115.7.2023",
    "Ustawa z dnia 9 marca 2023 r. o cudzoziemcach",
    "Wyrok Sądu Najwyższego z dnia 15 marca 2023 r.",
    # Regular longer titles that should be cleaned
    "Obwieszczenie Marszałka Sejmu Rzeczypospolitej Polskiej z dnia 11 stycznia 2023 r. w sprawie ogłoszenia jednolitego tekstu ustawy o dodatku osłonowym",
    "Wyrok Trybunału Konstytucyjnego z dnia 11 stycznia 2024 r. sygn. akt K 23/23",
    "Rozporządzenie Ministra Zdrowia z dnia 15 lutego 2024 r. w sprawie standardów organizacyjnych (PLH120079)",
    "Obwieszczenie Marszałka Sejmu Rzeczypospolitej Polskiej z dnia 1 marca 2024 r. w sprawie ogłoszenia jednolitego tekstu ustawy o podatku dochodowym",
    "Rozporządzenie Ministra Infrastruktury z dnia 11 września 2024 r. w sprawie zaliczenia dróg do kategorii dróg krajowych",
    "Rozporządzenie Rady Ministrów z dnia 16 września 2024 r. w sprawie wprowadzenia stanu klęski żywiołowej na obszarze części województwa dolnośląskiego, opolskiego oraz śląskiego",
    'Obwieszczenie Ministra Rolnictwa i Rozwoju Wsi z dnia 20 sierpnia 2024 r. w sprawie ogłoszenia jednolitego tekstu rozporządzenia Ministra Rolnictwa i Rozwoju Wsi w sprawie szczegółowych warunków i trybu przyznawania oraz wypłaty pomocy finansowej na operacje typu "Modernizacja gospodarstw rolnych" w ramach poddziałania "Wsparcie inwestycji w gospodarstwach rolnych" objętego Programem Rozwoju Obszarów Wiejskich na lata 2014-2020',
]

# Run tests
for case in test_cases:
    print(f"\nInput  ({len(case)} chars): {case}")
    cleaned = clean_title(case)
    print(f"Output ({len(cleaned)} chars): {cleaned}")

In [None]:
clean_title("Rozporządzenie Rady Ministrów z dnia 7 sierpnia 2023 r. zmieniające rozporządzenie w sprawie Krajowej Tablicy Przeznaczeń Częstotliwości")

In [None]:
# load documents from `acts.csv` `
import pandas as pd

acts = pd.read_csv("acts.csv")
acts['title'] = acts['title'].apply(clean_title)

# to csv
acts.to_csv("acts_cleaned.csv", index=False)

# get only 40 rows
acts = pd.read_csv("acts_cleaned.csv", nrows=40)

titles = [
    "Uchwała Senatu Rzeczypospolitej Polskiej z dnia 4 lipca 2024 r. w 35. rocznicę pierwszego posiedzenia odrodzonego Senatu",
    "Uchwała nr 27/2023 Państwowej Komisji Wyborczej z dnia 29 maja 2023 r. zmieniająca uchwałę w sprawie wzorów urn wyborczych",
    "Postanowienie Prezydenta Rzeczypospolitej Polskiej z dnia 30 kwietnia 2024 r. nr 112.21.2024 w sprawie mianowania na stopień oficerski generała",
    "Rozporządzenie Ministra Infrastruktury z dnia 23 grudnia 2022 r. zmieniające rozporządzenie w sprawie warunków eksploatacji lotnisk",
    "Rozporządzenie Ministra Zdrowia z dnia 8 grudnia 2022 r. w sprawie programu pilotażowego badania stóp dzieci i młodzieży",
    "Obwieszczenie Marszałka Sejmu Rzeczypospolitej Polskiej z dnia 7 grudnia 2023 r. w sprawie ogłoszenia jednolitego tekstu ustawy - Prawo telekomunikacyjne",
    "Obwieszczenie Marszałka Sejmu Rzeczypospolitej Polskiej z dnia 1 grudnia 2022 r. w sprawie ogłoszenia jednolitego tekstu ustawy o Polskim Bonie Turystycznym",
    "Obwieszczenie Marszałka Sejmu Rzeczypospolitej Polskiej z dnia 11 października 2023 r. w sprawie ogłoszenia jednolitego tekstu ustawy o pracy na morzu",
    "Obwieszczenie Marszałka Sejmu Rzeczypospolitej Polskiej z dnia 4 listopada 2022 r. w sprawie ogłoszenia jednolitego tekstu ustawy o samorządzie gminnym",
    "Obwieszczenie Marszałka Sejmu Rzeczypospolitej Polskiej z dnia 14 grudnia 2022 r. w sprawie ogłoszenia jednolitego tekstu ustawy o specjalnych strefach ekonomicznych",
    "Obwieszczenie Marszałka Sejmu Rzeczypospolitej Polskiej z dnia 11 marca 2024 r. w sprawie ogłoszenia jednolitego tekstu ustawy o Inspekcji Ochrony Środowiska",
    "Obwieszczenie Marszałka Sejmu Rzeczypospolitej Polskiej z dnia 1 grudnia 2022 r. w sprawie ogłoszenia jednolitego tekstu ustawy o Funduszu Kolejowym",
    "Ustawa z dnia 8 lutego 2023 r. o Planie Strategicznym dla Wspólnej Polityki Rolnej na lata 2023-2027",
    "Obwieszczenie Marszałka Sejmu Rzeczypospolitej Polskiej z dnia 16 listopada 2022 r. w sprawie ogłoszenia jednolitego tekstu ustawy o partnerstwie publiczno-prywatnym",
    "Rozporządzenie Ministra Zdrowia z dnia 5 stycznia 2023 r. zmieniające rozporządzenie w sprawie świadczeń gwarantowanych z zakresu podstawowej opieki zdrowotnej",
    "Obwieszczenie Marszałka Sejmu Rzeczypospolitej Polskiej z dnia 11 marca 2024 r. w sprawie ogłoszenia jednolitego tekstu ustawy o przeciwdziałaniu przemocy domowej",
    "Rozporządzenie Ministra Infrastruktury z dnia 23 grudnia 2022 r. zmieniające rozporządzenie w sprawie klasyfikacji lotnisk i rejestru lotnisk",
    "Postanowienie Prezydenta Rzeczypospolitej Polskiej z dnia 27 kwietnia 2023 r. nr 110.36.2023 w sprawie odwołania Ambasadora Rzeczypospolitej Polskiej",
    "Postanowienie Prezydenta Rzeczypospolitej Polskiej z dnia 27 kwietnia 2023 r. nr 110.38.2023 w sprawie odwołania Ambasadora Rzeczypospolitej Polskiej",
    "Obwieszczenie Marszałka Sejmu Rzeczypospolitej Polskiej z dnia 16 stycznia 2024 r. w sprawie ogłoszenia jednolitego tekstu ustawy o nadzorze nad rynkiem finansowym"
]

cleaned_titles = [clean_title(t) for t in titles]
# there is only title column in the csv file
# documents = acts["title"].tolist() 
documents = cleaned_titles
print(len(documents))
print(documents[:5])

In [2]:
import pandas as pd
from collections import defaultdict
import re
from tqdm import tqdm

def find_common_substrings(df, min_length=20, min_occurrences=10):
    substring_counts = defaultdict(int)
    # Clean and prepare titles
    titles = df['title'].str.strip().tolist()
    total_titles = len(titles)
    
    # First, find all "Rozporządzenie/Obwieszczenie X z dnia" patterns
    skip_pattern = re.compile(r'^(?:Rozporządzenie|Obwieszczenie)\s+.*?\s+z\s+dnia')
    
    print(f"Analyzing substrings in {total_titles} documents...")
    for title in tqdm(titles):
        # Skip administrative part of the title
        skip_match = skip_pattern.match(title)
        if skip_match:
            start_idx = skip_match.end()
            title = title[start_idx:]
        
        # Get all possible substrings of meaningful length
        words = title.split()
        for i in range(len(words)):
            for j in range(i + 1, len(words) + 1):
                substring = ' '.join(words[i:j])
                if len(substring) >= min_length:
                    substring_counts[substring] += 1

    # Filter by minimum occurrences and create DataFrame
    common_substrings = [
        (substr, count, len(substr), round(count/total_titles * 100, 2))
        for substr, count in substring_counts.items()
        if count >= min_occurrences
    ]
    
    # Create DataFrame and sort primarily by occurrences
    result_df = pd.DataFrame(
        common_substrings,
        columns=['substring', 'occurrences', 'length', 'percentage']
    )
    
    # Sort by occurrences (descending) and then by length (descending)
    result_df = result_df.sort_values(
        by=['occurrences', 'length'],
        ascending=[False, False]
    ).reset_index(drop=True)
    
    return result_df, total_titles

def analyze_titles(csv_path, min_length=20, min_occurrences=5):
    # Read the CSV file
    df = pd.read_csv(csv_path)
    
    # Find common substrings
    common_substrings_df, total_docs = find_common_substrings(
        df,
        min_length=min_length,
        min_occurrences=min_occurrences
    )
    
    pd.set_option('display.max_colwidth', None)
    print(f"\nAnalyzed {total_docs} documents")
    print(f"Found {len(common_substrings_df)} common substrings")
    print("\nMost common substrings (sorted by number of occurrences):")
    
    # Format the output for better readability
    for idx, row in common_substrings_df.head(20).iterrows():
        print("\n" + "="*80)
        print(f"#{idx + 1}: Occurs in {row['occurrences']} documents ({row['percentage']}%)")
        print(f"Length: {row['length']} characters")
        print(f"Substring: {row['substring']}")
    
    # Summary statistics
    print("\n" + "="*80)
    print("\nOccurrence Statistics:")
    print(f"Most frequent: {common_substrings_df['occurrences'].max()} occurrences")
    print(f"Median occurrences: {common_substrings_df['occurrences'].median()}")
    print(f"Mean occurrences: {common_substrings_df['occurrences'].mean():.2f}")
    
    return common_substrings_df

# Usage:
# results_df = analyze_titles('Acts.csv', min_length=20, min_occurrences=5)

In [None]:
analyze_titles('acts_cleaned.csv')

In [30]:
from __future__ import annotations
import os
from pathlib import Path
from vertexai.language_models import TextEmbeddingInput, TextEmbeddingModel
import vertexai

credentials_path = Path().cwd().parent / "sejm-stats-439117-39efc9d2f8b8.json"
print(credentials_path)
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = str(credentials_path)


vertexai.init(project="sejm-stats-439117")



def embed_text(texts: list) -> list[list[float]]:
    dimensionality = 512
    task = "RETRIEVAL_DOCUMENT"


    model = TextEmbeddingModel.from_pretrained("text-multilingual-embedding-002")


    inputs = [TextEmbeddingInput(text, task) for text in texts]


    kwargs = dict(output_dimensionality=dimensionality) if dimensionality else {}


    embeddings = model.get_embeddings(inputs, **kwargs)

    return [embedding.values for embedding in embeddings]

c:\Users\miskibin\Desktop\sejm-stats\sejm-stats-439117-39efc9d2f8b8.json


In [None]:
import numpy as np
embeddings = embed_text(documents)
print(len(embeddings[0]))
embeddings = np.array(embeddings)

In [8]:
import requests
import ast
import pdfplumber


def string_to_array(embedding_str):
    # Convert string representation of list to actual list
    try:
        # Remove any whitespace and convert to list
        embedding_list = ast.literal_eval(embedding_str)
        return np.array(embedding_list)
    except:
        return None


def downloadAndParsePdf(eli: str) -> str:
    url = f"https://api.sejm.gov.pl/eli/acts/{eli}/text.pdf"
    print(f"downloading {url}")
    response = requests.get(url)
    print("downloaded")
    with open("temp.pdf", "wb") as f:
        f.write(response.content)
    text = ""
    with pdfplumber.open("temp.pdf") as pdf:
        for page in pdf.pages[:40]:
            print("new_page")
            text += page.extract_text()

    return text

In [9]:
from pprint import pprint
import pandas as pd

em_df =pd.read_csv("embeded.csv")
em_df
ELIS  = em_df["ELI"].tolist()
print(em_df['title'].tolist()[0])
pprint(downloadAndParsePdf("DU/2024/1568"))

Obwieszczenie Ministra Sprawiedliwości z dnia 11 października 2024 r. w sprawie ogłoszenia jednolitego tekstu rozporządzenia Ministra Sprawiedliwości w sprawie organizacji i przebiegu aplikacji notarialnej
downloading https://api.sejm.gov.pl/eli/acts/DU/2024/1568/text.pdf
downloaded
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
new_page
('DZIENNIK USTAW\n'
 'RZECZYPOSPOLITEJ POLSKIEJ\n'
 'Warszawa, dnia 23 października 2024 r.\n'
 'Poz. 1568\n'
 'OBWIESZCZENIE\n'
 'MARSZAŁKA SEJMU RZECZYPOSPOLITEJ POLSKIEJ\n'
 'z dnia 10 października 2024 r.\n'
 'w sprawie ogłoszenia jednolitego tekstu ustawy – Kodeks postępowania '
 'cywilnego\n'
 '1. Na podstawie art. 16 ust. 1 zdanie pierwsze ustawy 

In [39]:
import base64
import vertexai
from vertexai.generative_models import GenerativeModel, Part, SafetySetting
from vertexai.preview.prompts import Prompt
import pandas as pd
import csv
from time import sleep

def initialize_vertex_ai():
    """Initialize Vertex AI with project settings"""
    vertexai.init(project="sejm-stats-439117", location="us-central1")

def create_prompt(title, act_content):
    """Create a prompt for the AI model"""
    prompt_template = """Jesteś asystentem prawnym tworzącym semantyczne streszczenia aktów prawnych na potrzeby modeli wektorowych. Stwórz zwięzłe streszczenie skupiające się wyłącznie na głównych przepisach i ich znaczeniu. Unikaj słów proceduralnych/formalnych. Streszczenie musi byc tresciwe. Postaraj się zawrzeć maksymalną ilość istotnych informacji prawnych w 2-3 krótkich zdaniach. 
    NIE POWTARZAJ INFORMACJI DOSTEPNYCH W TYTULE:
    {tytul}

    Akt prawny do streszczenia:
    {akt_prawny}"""
    
    variables = [{
        "akt_prawny": [act_content],
        "tytul": [title],
    }]
    
    return Prompt(
        prompt_data=[prompt_template],
        model_name="gemini-1.5-flash-001",
        variables=variables,
        generation_config={
            "max_output_tokens": 1024,
            "temperature": 1,
            "top_p": 0.95,
        },
        safety_settings=[
            SafetySetting(category=cat, threshold=SafetySetting.HarmBlockThreshold.OFF)
            for cat in [
                SafetySetting.HarmCategory.HARM_CATEGORY_HATE_SPEECH,
                SafetySetting.HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT,
                SafetySetting.HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT,
                SafetySetting.HarmCategory.HARM_CATEGORY_HARASSMENT,
            ]
        ],
    )

def generate_summary(prompt):
    """Generate summary using the provided prompt"""
    responses = prompt.generate_content(
        contents=prompt.assemble_contents(**prompt.variables[0]),
        stream=True,
    )
    
    return "".join(response.text for response in responses)

def process_legal_acts(input_csv_path, output_csv_path):
    """Process legal acts from input CSV and save summaries to output CSV"""
    # Initialize Vertex AI
    initialize_vertex_ai()
    
    # Read input CSV in chunks to save memory
    chunk_size = 1  # Process one row at a time
    
    # Create output CSV file with headers
    with open(output_csv_path, 'w', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(['ELI', 'title', 'summary'])
    
    # Process chunks
    for chunk in pd.read_csv(input_csv_path, chunksize=chunk_size):
        for _, row in chunk.iterrows():
            try:
                # Download and parse PDF content (assuming this function exists)
                act_content = downloadAndParsePdf(row['ELI'])
                
                # Create prompt and generate summary
                prompt = create_prompt(row['title'], act_content)
                summary = generate_summary(prompt)
                
                # Append result to output CSV
                with open(output_csv_path, 'a', newline='', encoding='utf-8') as f:
                    writer = csv.writer(f)
                    writer.writerow([row['ELI'], row['title'], summary])
                
                print(f"Processed: {row['title']}")
                
                # Add a small delay to avoid rate limiting
                sleep(1)
                
            except Exception as e:
                print(f"Error processing {row['ELI']}: {e}")
                # Log error and continue with next item
                with open('error_log.txt', 'a', encoding='utf-8') as f:
                    f.write(f"Error processing {row['ELI']}: {e}\n")
                continue

if __name__ == "__main__":
    input_csv = "embeded.csv"
    output_csv = "legal_acts_summaries2.csv"
    process_legal_acts(input_csv, output_csv)

downloading https://api.sejm.gov.pl/eli/acts/DU/2024/1545/text.pdf
Assembled prompt replacing: 1 instances of variable tytul, 1 instances of variable akt_prawny
Processed: Obwieszczenie Ministra Sprawiedliwości z dnia 11 października 2024 r. w sprawie ogłoszenia jednolitego tekstu rozporządzenia Ministra Sprawiedliwości w sprawie organizacji i przebiegu aplikacji notarialnej
downloading https://api.sejm.gov.pl/eli/acts/DU/2024/1546/text.pdf
Assembled prompt replacing: 1 instances of variable tytul, 1 instances of variable akt_prawny
Error processing DU/2024/1546: 429 Quota exceeded for aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model with base model: gemini-1.5-flash. Please submit a quota increase request. https://cloud.google.com/vertex-ai/docs/generative-ai/quotas-genai.
downloading https://api.sejm.gov.pl/eli/acts/DU/2024/1547/text.pdf
Assembled prompt replacing: 1 instances of variable tytul, 1 instances of variable akt_prawny
Processed: Ro

In [None]:
import base64
import vertexai
from vertexai.generative_models import GenerativeModel, Part, SafetySetting


def generate():
    vertexai.init(project="sejm-stats-439117", location="us-central1")
    model = GenerativeModel(
        "gemini-1.5-flash-002",
    )
    responses = model.generate_content(
        [],
        generation_config=generation_config,
        safety_settings=safety_settings,
        stream=True,
    )

    for response in responses:
        print(response.text, end="")


generation_config = {
    "max_output_tokens": 474,
    "temperature": 0.5,
    "top_p": 0.95,
}

safety_settings = [
    SafetySetting(
        category=SafetySetting.HarmCategory.HARM_CATEGORY_HATE_SPEECH,
        threshold=SafetySetting.HarmBlockThreshold.OFF
    ),
    SafetySetting(
        category=SafetySetting.HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT,
        threshold=SafetySetting.HarmBlockThreshold.OFF
    ),
    SafetySetting(
        category=SafetySetting.HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT,
        threshold=SafetySetting.HarmBlockThreshold.OFF
    ),
    SafetySetting(
        category=SafetySetting.HarmCategory.HARM_CATEGORY_HARASSMENT,
        threshold=SafetySetting.HarmBlockThreshold.OFF
    ),
]

generate()

In [34]:
summaries = pd.read_csv("legal_acts_summaries.csv")
summaries["summary"]

0     Akt prawny określa zasady aplikacji notarialne...
1     Rozporządzenie określa formę, treść i sposób w...
2     Rozporządzenie określa maksymalne ilości świad...
3     Rozporządzenie zmienia zakres terytorialny dzi...
4     Rozporządzenie określa wzory pełnomocnictwa sz...
                            ...                        
57    Rozporządzenie wprowadza zmiany w klasyfikacji...
58    Rozporządzenie określa szczegółowy tryb przyzn...
59    Prezydent RP odwołuje ambasadora Rzeczypospoli...
60    Rozporządzenie określa szczegółowy sposób klas...
61    Rozporządzenie wprowadza zmiany w zakresie udz...
Name: summary, Length: 62, dtype: object

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

similarities = cosine_similarity(phrase_embedding, embeddings)

# Get the indices of the top 5 most similar documents
top_5_indices = similarities[0].argsort()[-5:][::-1]

# Print the top 5 most similar documents and their similarity scores
for index in top_5_indices:
    print(titles[index])
    print(similarities[0][index])