# <span style="color: #4daafc">Legal Case Similarity Detection - Summarize translated documents</span>
- [Load data](#load-data)
- [Summarize translated documents](#summarize-translated-documents)
- [Save data](#save-data)

# Prepare python environment

In [None]:
from utils.file_utils import load_file, save_file
from utils.df import df_shape, concat_df_cols, split_df_col
import tiktoken
from langchain.schema import Document
import numpy as np
import pandas as pd
from langchain_community.document_loaders import DataFrameLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
import faiss
from langchain_community.vectorstores import FAISS 
from langchain_community.docstore.in_memory import InMemoryDocstore
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from sklearn.preprocessing import MultiLabelBinarizer
import ast
import re
from dotenv import load_dotenv
import os
import boto3
from botocore.config import Config
from langchain_aws.chat_models import ChatBedrock

# Load data

In [4]:
f_path = 'data/translated_data_ar_ap_100.xlsx'
df = load_file(file_name=f_path)

Successfully loaded DataFrame from data/translated_data_ar_ap_100.xlsx


In [5]:
df_shape(df)
display(df.head(10))

Data shape: 100 rows x 7 columns


Unnamed: 0,case_number,procedure_name,case_date,case_link,document_body,document_body_english_1,document_body_english_2
0,1108/97,"ע""א 1108/97 מרחיב אביב נ. מדינת ישראל",1997-05-11,https://supremedecisions.court.gov.il/Verdicts...,"בבית המשפט העליון בש""פ 97 / 1108 בפני: כבוד הר...",In the Supreme Court of Israel Case No. 97/110...,
1,4477/00,"ע""א 4477/00 לודמילה וורוביוב נ. היועצ המשפטי ל...",2000-07-06,https://supremedecisions.court.gov.il/Verdicts...,"בבית המשפט העליון בה""נ 4477/00 בפני כבוד נשיא ...","In the Supreme Court of Israel, HCJ 4477/00 Be...",
2,1890/16,"ע""פ 1890/16",2017-03-09,https://supremedecisions.court.gov.il/Verdicts...,"פסק דין בתיק ע""פ 1890/16 בבית המשפט העליון בשב...","In this case, the Hebrew text is a translation...",
3,7176/04,"ע""פ 7176/04 ירונ תלמי נ. מדינת ישראל",2006-02-02,https://supremedecisions.court.gov.il/Verdicts...,"פסק-דין בתיק ע""פ 7176/04 בבית המשפט העליון בשב...",In the case of Appellant Yaron Telmi v. State ...,
4,3766/12,"ע""א 3766/12",2012-06-17,https://supremedecisions.court.gov.il/Verdicts...,"החלטה בתיק ע""א 3766/12 בבית המשפט העליון בירוש...",The decision in Case A3766/12 at the Supreme C...,
5,8178/12,"ע""א 8178/12 עו""ד צבי סלנט נ. יונתנ גוטליב",2014-11-12,https://supremedecisions.court.gov.il/Verdicts...,"החלטה בתיק ע""א 8178/12 בבית המשפט העליון בשבתו...",In the case of Appeal No. 8178/12 at the Supre...,
6,3015/09,"ע""פ 3015/09 מדינת ישראל נ. פואד קדיח",2010-07-20,https://supremedecisions.court.gov.il/Verdicts...,"פסק דין בתיק ע""פ 3015/09 בבית המשפט העליון בשב...",The State of Israel appeals the sentence issue...,
7,4272/05,"ע""פ 4272/05 אמיר חג'וג' נ. מדינת ישראל",2006-01-04,https://supremedecisions.court.gov.il/Verdicts...,"פסק-דין בתיק ע""פ 4272/05 בבית המשפט העליון בשב...",In the case of Appeal No. 4272/05 at the Supre...,
8,10467/08,"ע""א 10467/08 עומר חג'אזי נ. אדיב עיסא דיאב",2010-11-03,https://supremedecisions.court.gov.il/Verdicts...,"פסק דין בתיק ע""א 10467/08 בבית המשפט העליון בש...",The case of Appeal No. 10467/08 at the Supreme...,he registered a cautionary note or completed ...
9,3330/11,"ע""א 3330/11 אגד אגודה שיתופית לתחבורה בישראל ב...",2011-11-17,https://supremedecisions.court.gov.il/Verdicts...,"פסק דין בתיק ע""א 3330/11 בבית המשפט העליון בשב...",In the case of Appeal No. 3330/11 at the Supre...,


Concatenate document body, translated to engilish columns. <br>
**Reminder**: Excel file has a limit of 32K chars per cell. When we store the data in Excel file, we split the translated english text into multiple columns in order to avoid text truncation above 32K chars. <br>
When we load the the data from excel, we join back the the splitted columns into a single DataFrame column.

In [8]:
df_concat = concat_df_cols(df, col_prefix='document_body_english')

In [9]:
df_concat

Unnamed: 0,case_number,procedure_name,case_date,case_link,document_body,document_body_english
0,1108/97,"ע""א 1108/97 מרחיב אביב נ. מדינת ישראל",1997-05-11,https://supremedecisions.court.gov.il/Verdicts...,"בבית המשפט העליון בש""פ 97 / 1108 בפני: כבוד הר...",In the Supreme Court of Israel Case No. 97/110...
1,4477/00,"ע""א 4477/00 לודמילה וורוביוב נ. היועצ המשפטי ל...",2000-07-06,https://supremedecisions.court.gov.il/Verdicts...,"בבית המשפט העליון בה""נ 4477/00 בפני כבוד נשיא ...","In the Supreme Court of Israel, HCJ 4477/00 Be..."
2,1890/16,"ע""פ 1890/16",2017-03-09,https://supremedecisions.court.gov.il/Verdicts...,"פסק דין בתיק ע""פ 1890/16 בבית המשפט העליון בשב...","In this case, the Hebrew text is a translation..."
3,7176/04,"ע""פ 7176/04 ירונ תלמי נ. מדינת ישראל",2006-02-02,https://supremedecisions.court.gov.il/Verdicts...,"פסק-דין בתיק ע""פ 7176/04 בבית המשפט העליון בשב...",In the case of Appellant Yaron Telmi v. State ...
4,3766/12,"ע""א 3766/12",2012-06-17,https://supremedecisions.court.gov.il/Verdicts...,"החלטה בתיק ע""א 3766/12 בבית המשפט העליון בירוש...",The decision in Case A3766/12 at the Supreme C...
...,...,...,...,...,...,...
95,774/03,"ע""פ 774/03 אסתר כהנ נ. מדינת ישראל",2003-02-04,https://supremedecisions.court.gov.il/Verdicts...,"החלטה בתיק ע""פ 774/03 בבית המשפט העליון ע""פ 77...",In the case of Appeal No. 774/03 at the Suprem...
96,6873/19,"ע""א 6873/19 אגודת המימ השיתופית בעמק חרוד בע""מ...",2020-11-30,https://supremedecisions.court.gov.il/Verdicts...,"פסק דין בתיק ע""א 6873/19 בבית המשפט העליון בשב...",The Supreme Court of Israel has issued a judgm...
97,3238/16,"ע""פ 3238/16 אלינה מלר נ. מדינת ישראל",2017-06-19,https://supremedecisions.court.gov.il/Verdicts...,"החלטה בתיק ע""פ 3238/16 בבית המשפט העליון בשבתו...",In the case of Appellant Elina Meller v. State...
98,4446/20,"ע""פ 4446/20 עדי קוכמנ נ. מדינת ישראל",2020-07-14,https://supremedecisions.court.gov.il/Verdicts...,"פסק דין בתיק ע""פ 4446/20 בבית המשפט העליון ע""פ...",The appeal is against the decision of the Jeru...


# Summarize translated documents

### Init langchain AWS Bedrock chat model

In [None]:
# load environment variables from the .env file
load_dotenv()

In [None]:
# define params - model id, region, keys, etc.
region_name = 'us-west-2'
model_id = 'anthropic.claude-3-5-sonnet-20241022-v2:0'
endpoint_url = 'https://bedrock-runtime.us-west-2.amazonaws.com'

# get secret keys from environment variables
aws_access_key_id = os.getenv('AWS_ACCESS_KEY_ID')
aws_secret_access_key = os.getenv('AWS_SECRET_ACCESS_KEY')

# timeout configuration
timeout_config = Config(connect_timeout=30, read_timeout=120)

# initialize Bedrock client
bedrock_client = boto3.client('bedrock-runtime', region_name=region_name, aws_access_key_id=aws_access_key_id, aws_secret_access_key=aws_secret_access_key, endpoint_url=endpoint_url, config=timeout_config)

# initialize the LangChain LLM Chat Bedrock
summarization_llm = ChatBedrock(
    client=bedrock_client,
    model_id=model_id,
    model_kwargs={
        "max_tokens": 64*1024,
        "temperature": 0.3
    }
)

### Define summarization prompt for LLM

In [20]:
summarization_prompt = PromptTemplate(
    input_variables=["text"],
    template="""
    You are an expert legal analyst. Analyze the following legal document and provide a structured short summary focusing on key elements:
    
    1. Case Type: Specify whether it is a civil, criminal, administrative, or other type of case.
    2. Legal Issues: Highlight the primary legal issues or questions addressed in the case.
    3. Summary of Facts: Summarize the main facts and key points of the case in less than 10 bullet points.
    4. Court Decision: Clearly state the outcome of the case.
    5. Relevant Laws and Precedents: List any significant laws, statutes, or past court decisions referenced.

    Important Instructions:
    - Do not include specific dates or places in the summary.
    - If information for a specific bullet point is not present in the document, exlcude that section from the summary.
    - **Do not include any notes, disclaimers, or meta-comments** such as "No information available" or "Section excluded."
    - Focus on legal concepts, case type, legal issues, facts, and the court's decision.
   
    Document:
    {text}   
    """
)

### Define summarization chain

In [21]:
summarization_chain = summarization_prompt | summarization_llm

In [22]:
def summarize_text(i_text):
    """
    Summarizes the input text by invoking the summarization chain.
    """
    res = summarization_chain.invoke({"text": i_text})
    return res.content

### Summarize documents

Example:

In [23]:
res = summarize_text(df_concat.iloc[94]['document_body_english'])
print(res)

Case Type: Criminal

Legal Issues:
- Financial fraud through a Ponzi scheme
- Sentencing considerations under Amendment 113 of Israeli Penal Law
- Appropriateness of fines and imprisonment terms
- Classification of multiple offenses as single or separate events

Summary of Facts:
- Licensed stockbroker defrauded investors through a Ponzi scheme
- Collected approximately 57 million NIS from 84 investors
- Promised high returns but used funds for personal luxury lifestyle
- Created false documents showing fake investments and returns
- Operated scheme for approximately 5 years
- Made partial payments to early investors using new investors' money
- No legitimate investments were made with collected funds

Court Decision:
- Convicted on multiple counts including theft, fraud, forgery, and money laundering
- Sentenced to:
  - 12 years imprisonment
  - 18 months probation
  - 300,000 NIS fine or 9 months additional imprisonment
  - Ordered to pay compensation to victims

Relevant Laws and Pr

Apply summarization to the whole DataFrame:

In [24]:
# apply the summarization function to 'document_body_english' column
df_summarized = df_concat.copy()
df_summarized['document_body_eng_sum'] = df_summarized['document_body_english'].apply(summarize_text)

In [25]:
df_summarized

Unnamed: 0,case_number,procedure_name,case_date,case_link,document_body,document_body_english,document_body_eng_sum
0,1108/97,"ע""א 1108/97 מרחיב אביב נ. מדינת ישראל",1997-05-11,https://supremedecisions.court.gov.il/Verdicts...,"בבית המשפט העליון בש""פ 97 / 1108 בפני: כבוד הר...",In the Supreme Court of Israel Case No. 97/110...,Case Type:\n- Administrative/Procedural Case\n...
1,4477/00,"ע""א 4477/00 לודמילה וורוביוב נ. היועצ המשפטי ל...",2000-07-06,https://supremedecisions.court.gov.il/Verdicts...,"בבית המשפט העליון בה""נ 4477/00 בפני כבוד נשיא ...","In the Supreme Court of Israel, HCJ 4477/00 Be...",\nCase Type:\n- Administrative/Family Law\n\nL...
2,1890/16,"ע""פ 1890/16",2017-03-09,https://supremedecisions.court.gov.il/Verdicts...,"פסק דין בתיק ע""פ 1890/16 בבית המשפט העליון בשב...","In this case, the Hebrew text is a translation...",Case Type: Criminal Appeal\n\nLegal Issues:\n-...
3,7176/04,"ע""פ 7176/04 ירונ תלמי נ. מדינת ישראל",2006-02-02,https://supremedecisions.court.gov.il/Verdicts...,"פסק-דין בתיק ע""פ 7176/04 בבית המשפט העליון בשב...",In the case of Appellant Yaron Telmi v. State ...,Case Type: Criminal\n\nLegal Issues:\n- Revoca...
4,3766/12,"ע""א 3766/12",2012-06-17,https://supremedecisions.court.gov.il/Verdicts...,"החלטה בתיק ע""א 3766/12 בבית המשפט העליון בירוש...",The decision in Case A3766/12 at the Supreme C...,Case Type: Civil - Family Court Appeal\n\nLega...
...,...,...,...,...,...,...,...
95,774/03,"ע""פ 774/03 אסתר כהנ נ. מדינת ישראל",2003-02-04,https://supremedecisions.court.gov.il/Verdicts...,"החלטה בתיק ע""פ 774/03 בבית המשפט העליון ע""פ 77...",In the case of Appeal No. 774/03 at the Suprem...,Case Type:\n- Administrative Appeal Case\n\nLe...
96,6873/19,"ע""א 6873/19 אגודת המימ השיתופית בעמק חרוד בע""מ...",2020-11-30,https://supremedecisions.court.gov.il/Verdicts...,"פסק דין בתיק ע""א 6873/19 בבית המשפט העליון בשב...",The Supreme Court of Israel has issued a judgm...,1. Case Type:\n- Civil Appeal\n\n2. Legal Issu...
97,3238/16,"ע""פ 3238/16 אלינה מלר נ. מדינת ישראל",2017-06-19,https://supremedecisions.court.gov.il/Verdicts...,"החלטה בתיק ע""פ 3238/16 בבית המשפט העליון בשבתו...",In the case of Appellant Elina Meller v. State...,Case Type:\n- Criminal Appeals Case\n\nLegal I...
98,4446/20,"ע""פ 4446/20 עדי קוכמנ נ. מדינת ישראל",2020-07-14,https://supremedecisions.court.gov.il/Verdicts...,"פסק דין בתיק ע""פ 4446/20 בבית המשפט העליון ע""פ...",The appeal is against the decision of the Jeru...,1. Case Type:\n- Criminal appeal regarding jud...


Split column *document_body_english*:

In [47]:
df_sum_split = split_df_col(df_summarized, col='document_body_english')
df_sum_split = df_sum_split.drop(columns=['document_body_english'])

In [48]:
df_sum_split

Unnamed: 0,case_number,procedure_name,case_date,case_link,document_body,document_body_eng_sum,document_body_english_1,document_body_english_2
0,1108/97,"ע""א 1108/97 מרחיב אביב נ. מדינת ישראל",1997-05-11,https://supremedecisions.court.gov.il/Verdicts...,"בבית המשפט העליון בש""פ 97 / 1108 בפני: כבוד הר...",Case Type:\n- Administrative/Procedural Case\n...,In the Supreme Court of Israel Case No. 97/110...,
1,4477/00,"ע""א 4477/00 לודמילה וורוביוב נ. היועצ המשפטי ל...",2000-07-06,https://supremedecisions.court.gov.il/Verdicts...,"בבית המשפט העליון בה""נ 4477/00 בפני כבוד נשיא ...",\nCase Type:\n- Administrative/Family Law\n\nL...,"In the Supreme Court of Israel, HCJ 4477/00 Be...",
2,1890/16,"ע""פ 1890/16",2017-03-09,https://supremedecisions.court.gov.il/Verdicts...,"פסק דין בתיק ע""פ 1890/16 בבית המשפט העליון בשב...",Case Type: Criminal Appeal\n\nLegal Issues:\n-...,"In this case, the Hebrew text is a translation...",
3,7176/04,"ע""פ 7176/04 ירונ תלמי נ. מדינת ישראל",2006-02-02,https://supremedecisions.court.gov.il/Verdicts...,"פסק-דין בתיק ע""פ 7176/04 בבית המשפט העליון בשב...",Case Type: Criminal\n\nLegal Issues:\n- Revoca...,In the case of Appellant Yaron Telmi v. State ...,
4,3766/12,"ע""א 3766/12",2012-06-17,https://supremedecisions.court.gov.il/Verdicts...,"החלטה בתיק ע""א 3766/12 בבית המשפט העליון בירוש...",Case Type: Civil - Family Court Appeal\n\nLega...,The decision in Case A3766/12 at the Supreme C...,
...,...,...,...,...,...,...,...,...
95,774/03,"ע""פ 774/03 אסתר כהנ נ. מדינת ישראל",2003-02-04,https://supremedecisions.court.gov.il/Verdicts...,"החלטה בתיק ע""פ 774/03 בבית המשפט העליון ע""פ 77...",Case Type:\n- Administrative Appeal Case\n\nLe...,In the case of Appeal No. 774/03 at the Suprem...,
96,6873/19,"ע""א 6873/19 אגודת המימ השיתופית בעמק חרוד בע""מ...",2020-11-30,https://supremedecisions.court.gov.il/Verdicts...,"פסק דין בתיק ע""א 6873/19 בבית המשפט העליון בשב...",1. Case Type:\n- Civil Appeal\n\n2. Legal Issu...,The Supreme Court of Israel has issued a judgm...,
97,3238/16,"ע""פ 3238/16 אלינה מלר נ. מדינת ישראל",2017-06-19,https://supremedecisions.court.gov.il/Verdicts...,"החלטה בתיק ע""פ 3238/16 בבית המשפט העליון בשבתו...",Case Type:\n- Criminal Appeals Case\n\nLegal I...,In the case of Appellant Elina Meller v. State...,
98,4446/20,"ע""פ 4446/20 עדי קוכמנ נ. מדינת ישראל",2020-07-14,https://supremedecisions.court.gov.il/Verdicts...,"פסק דין בתיק ע""פ 4446/20 בבית המשפט העליון ע""פ...",1. Case Type:\n- Criminal appeal regarding jud...,The appeal is against the decision of the Jeru...,


# Save data

In [49]:
# save to file
f_path_summarized = f_path.replace("translated", "sum_trans")
save_file(df_sum_split, f_path_summarized)

DataFrame successfully saved to data/sum_trans_data_ar_ap_100.xlsx
