### extract indictment facts with API gpt-VERDICTS

In [1]:
import pandas as pd
import os
import re
from openai import OpenAI
import gc
from tqdm import tqdm
import csv
import time

# ========== API Setup ==========
os.environ["OPENAI_API_KEY"] = "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"  
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

# ========== File Paths ==========
csv_directory ="/home/liorkob/M.Sc/thesis/data/drugs_3k/verdict_csv"
out_dir = "/home/liorkob/M.Sc/thesis/data/drugs_3k/gpt"

output_file = os.path.join(out_dir, "processed_verdicts_with_gpt.csv")
failed_file = os.path.join(out_dir, "failed_verdicts.csv")

# ========== Pattern Definitions ==========
START_PARTS = ["עובדותם", "כללי", "כתב האישום","כתב", "האישום", "אישום", "רקע", "גזר", "דין", "פסק","מבוא","הרשעת" ,"בעניינו","עבירות","הורשע","עובדות","השתלשלות", "ג ז ר",  "ד י ן","פתח דבר","פתח"]
END_PARTS = ["טענות", "עמדת", "תסקיר","תסקירי", "שירות", "מבחן", "דיון", "התסקיר","טיעוני", "הצדדים", "צדדים", "והכרעה",  "ראיות","החלטה"]

# ========== Helper Functions ==========
def extract_indictment_facts(df):
    if df.empty or "part" not in df.columns or "text" not in df.columns:
        return "❌ No indictment facts found", None, None

    df["part"] = df["part"].astype(str).str.strip()
    start_row = df[df["part"].str.contains('|'.join(START_PARTS), case=False, na=False, regex=True)]
    if start_row.empty:
        start_idx = 0
        start_part_name = "❌ No start found (use index 0)"
    else:
        start_idx = start_row.index.min()
        start_part_name = df.loc[start_idx, "part"]

    end_row = df[df.index > start_idx][df["part"].str.contains('|'.join(END_PARTS), case=False, na=False, regex=True)]
    if not end_row.empty and end_row.index.min() == start_idx:
        end_row = df[df.index > start_idx + 1][df["part"].str.contains('|'.join(END_PARTS), case=False, na=False, regex=True)]

    end_idx = end_row.index.min() if not end_row.empty else len(df)
    end_part_name = df.loc[end_idx, "part"] if not end_row.empty else "❌ No end found (used full text)"
    extracted_text = "\n".join(df.loc[start_idx:end_idx - 1, "text"].dropna().astype(str))
    return extracted_text.strip() if extracted_text else "❌ No indictment facts found", start_part_name, end_part_name


def extract_facts_with_gpt(text):
    """
    Sends extracted text to GPT API and extracts specific facts.
    """
    if text == "❌ No indictment facts found" :
        return "GPT extraction error"

    prompt = f"""
הוראות: עליך לחלץ מהטקסט המשפטי את פסקת כתב האישום, ואם יש – גם את פירוט העובדות.  
החילוץ ייחשב מוצלח **רק אם קיימת פסקת כתב אישום**. אם פסקת כתב האישום אינה מופיעה בטקסט – אל תחזיר כלום.

    הנחיות:
    - תחילה, החזר את פסקת כתב האישום, הכוללת את סעיפי החוק, ההודאה, הסדר הטיעון וכל פרט פורמלי המצוי בפתח כתב האישום.
    - לאחר מכן, אם יש פירוט עובדתי של האירועים, העתק אותו כפי שמופיע בטקסט.
    - אל תסכם, תפרש או תנסח מחדש. החזר את הטקסט המקורי בלבד.
    - אין לכלול חלקים שאינם רלוונטיים לעובדות המיוחסות לעבירה.
    - אל תכלול כותרות כמו "כתב האישום" או "עובדות כתב האישום".
    - אם לא קיימת פסקת כתב אישום – החזר מחרוזת ריקה בלבד. אין להחזיר תירוצים, הסברים, או טקסט אחר.



    **Example:**
    
    **Input:**
    הנאשם הורשע על פי הודאתו בעבירות של החזקת חלק של נשק או תחמושת, לפי סעיף 144 (א) לחוק העונשין, תשל"ז 1977 (להלן: "חוק העונשין") ונשיאה/הובלת חלק של נשק או תחמושת, לפי סעיף 144(ב) לחוק העונשין. על פי הנטען בכתב האישום ביום 28.8.2022, בשעה 00:20 לערך, נהג הנאשם ברכב מסוג קיה ספורטג' נושא לוחית רישוי מספר 13-608-201 אל עבר מעבר הל"ה בדרכו לשטחי האזור, כל זאת כאשר הוא נושא מתחת למושב הנהג ברכב שקית ובה 6 מכלולים של נשק מסוג M16. בנוסף בתא המטען של הרכב נשא הנאשם שבעה ארגזי תחמושת וארגז קרטון אשר הכילו יחדיו כ-9000 כדורים בקוטר 5.56 מ"מ אשר היו מכוסים ומוסתרים.

    **Output:**
    הנאשם הורשע על פי הודאתו בעבירות של החזקת חלק של נשק או תחמושת, לפי סעיף 144 (א) לחוק העונשין, תשל"ז 1977 ונשיאה/הובלת חלק של נשק או תחמושת, לפי סעיף 144(ב) לחוק העונשין. על פי הנטען בכתב האישום, ביום 28.8.2022 בשעה 00:20 לערך, נהג הנאשם ברכב מסוג קיה ספורטג' עם לוחית רישוי מספר 13-608-201 לכיוון מעבר הל"ה בדרכו לשטחי האזור, כאשר מתחת למושב הנהג ברכב הייתה שקית ובה 6 מכלולים של נשק מסוג M16. בנוסף, בתא המטען של הרכב נשא שבעה ארגזי תחמושת וארגז קרטון שהכילו יחדיו כ-9000 כדורים בקוטר 5.56 מ"מ, שהיו מכוסים ומוסתרים.

    טקסט המקור:
    {text}

    החזר את הפלט בפורמט הבא בלבד:
    <פסקת כתב האישום>

    <פסקת עובדות כתב האישום>

    """

    response = client.chat.completions.create(
        model="gpt-4.1-mini", 
        messages=[
            {"role": "system", "content": "אתה מודל בינה מלאכותית שתפקידו לחלץ עובדות מכתבי אישום בטקסטים משפטיים בעברית, מבלי לפרש, לסכם או לשנות את הנוסח המקורי."},
            {"role": "user", "content": prompt}
        ]
    )

    return response.choices[0].message.content.strip()
     
# בדיקה האם יש פסקת כתב אישום
def is_valid_indictment(text):
    if not text or len(text.strip().split("\n")) < 1:
        return False
    first_paragraph = text.strip().split("\n")[0]
    keywords = [
        "הנאשם הורשע","הנאשם הודה","הנאשם הורשע על פי הודאתו","על פי הודאתו","על פי הודאת הנאשם","הודה בעובדות כתב האישום","הורשע בעובדות כתב האישום","כתב אישום","בעבירות לפי סעיף","במסגרת הסדר טיעון","בגזר הדין","הורשע על פי הסדר",
        "הנאשם הובא לדין","נגד הנאשם הוגש כתב אישום", "הורשע במסגרת","הורשע בעבירות של","בהתאם לכתב האישום","מכתב האישום עולה כי", "הנאשם יוחסו עבירות של","הורשע לאחר שהודה",'הודייתו',"הורשע","הודיתו","בכתב האישום","הודה","כפר","אישום"
    ]
    return any(kw in first_paragraph for kw in keywords)



# ========== Load Existing Data ==========
if os.path.exists(output_file):
    processed_df = pd.read_csv(output_file)
else:
    processed_df = pd.DataFrame(columns=["verdict", "extracted_facts", "extracted_gpt_facts","start_part","end_part"])

# ========== Process Files ==========
file_list = [f for f in os.listdir(csv_directory) if f.endswith(".csv")]
processed_df["verdict"] = processed_df["verdict"].astype(str).str.strip()
failed_verdicts = []

for filename in tqdm(file_list, desc="Processing verdicts"):
    file_path = os.path.join(csv_directory, filename)
    try:
        df = pd.read_csv(file_path)
        verdict_id = str(df["verdict"].iloc[0]).strip()
        
        # Skip if already successfully processed
        if verdict_id in processed_df["verdict"].values:
            continue
        
        # Extract
        extracted_facts,start_part,end_part = extract_indictment_facts(df)
        extracted_gpt_facts = extract_facts_with_gpt(extracted_facts)
        
        if not is_valid_indictment(extracted_gpt_facts):
            failed_verdicts.append({
                "verdict": verdict_id,
                "reason": "Invalid or missing indictment",
                "first_chars": extracted_facts[:300]
            })
            continue

        # Save
        new_row = pd.DataFrame([{
            "verdict": verdict_id,
            "extracted_facts": extracted_facts,
            "extracted_gpt_facts": extracted_gpt_facts,
            "start_part": start_part,
            "end_part": end_part

        }])
        processed_df = pd.concat([processed_df, new_row], ignore_index=True)
        processed_df.to_csv(output_file, index=False, encoding="utf-8-sig")
        
        time.sleep(1)  # avoid rate limits

    except Exception as e:
        failed_verdicts.append({"verdict": filename, "reason": str(e)})

    gc.collect()

# ========== Save Failures ==========
if failed_verdicts:
    pd.DataFrame(failed_verdicts).to_csv(failed_file, index=False, encoding="utf-8-sig")



  end_row = df[df.index > start_idx][df["part"].str.contains('|'.join(END_PARTS), case=False, na=False, regex=True)]
  end_row = df[df.index > start_idx][df["part"].str.contains('|'.join(END_PARTS), case=False, na=False, regex=True)]
  end_row = df[df.index > start_idx][df["part"].str.contains('|'.join(END_PARTS), case=False, na=False, regex=True)]
  end_row = df[df.index > start_idx][df["part"].str.contains('|'.join(END_PARTS), case=False, na=False, regex=True)]
  end_row = df[df.index > start_idx][df["part"].str.contains('|'.join(END_PARTS), case=False, na=False, regex=True)]
  end_row = df[df.index > start_idx][df["part"].str.contains('|'.join(END_PARTS), case=False, na=False, regex=True)]
  end_row = df[df.index > start_idx][df["part"].str.contains('|'.join(END_PARTS), case=False, na=False, regex=True)]
  end_row = df[df.index > start_idx][df["part"].str.contains('|'.join(END_PARTS), case=False, na=False, regex=True)]
  end_row = df[df.index > start_idx][df["part"].str.contains('|'

## GPT verification

In [None]:
import pandas as pd
import os
import json
from openai import OpenAI
import gc
from tqdm import tqdm
import time
os.environ["OPENAI_API_KEY"] = "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"  

class GPTVerifier:
    def __init__(self, verification_model="gpt-4.1"):
        # Only OpenAI client needed
        self.openai_client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
        self.verification_model = verification_model
        print(f"Using {verification_model} for verification")
    
    def verify_with_different_gpt(self, original_text, gpt_extraction):
        """Verify extraction using a different GPT model for cross-validation"""
        prompt = f"""
אתה מערכת ביקורת לחילוץ עובדות משפטיות מכתבי אישום. 
המטרה שלך היא לבדוק אם החילוץ שמתקבל ממערכת אחרת אחר מדויק, שלם, ורלוונטי.


הטקסט המקורי:
{original_text}

החילוץ:
{gpt_extraction}

אנא דרג את החילוץ על פי הקריטריונים הבאים:
1. האם החילוץ כולל את פסקת כתב האישום? (true/false)
2. עד כמה מדויק המידע שהופיע בחילוץ? (0–10)
3. עד כמה החילוץ שלם – האם חסר מידע משמעותי? (0–10)
4. האם יש מידע שאינו רלוונטי לחלק של העובדות? (0–10, ציון גבוה = רלוונטיות טובה)

חוות דעת:
- תן הערות ספציפיות על בעיות בחילוץ, אם יש.

החזר תשובה בפורמט JSON הבא (בלי הסברים נוספים):
{{
  "is_valid": true/false,
  "has_indictment": true/false,
  "accuracy_score": int,
  "completeness_score": int,
  "relevance_score": int,
  "issues": ["problem1", "problem2"],
  "feedback": "..."
}}
"""
        try:
            response = self.openai_client.chat.completions.create(
                model=self.verification_model,
                messages=[
                    {"role": "system", "content": "אתה בודק איכות משפטי מקצועי. תפקידך להעריך את איכות החילוץ של עובדות מכתבי אישום, על פי קריטריונים ברורים. עליך לספק תשובה אובייקטיבית, מדויקת, תמציתית ובפורמט JSON בלבד. אל תחרוג מהפורמט."},
                    {"role": "user", "content": prompt}
                ],
                temperature=0  # For consistency
            )
            return json.loads(response.choices[0].message.content)
        except Exception as e:
            return {"error": str(e)}
    
    def rule_based_verification(self, original_text, gpt_extraction):
        """Rule-based verification using patterns"""
        issues = []
        
        # Check for indictment keywords
        indictment_keywords = [
            "הנאשם הורשע", "הנאשם הודה", "על פי הודאתו", 
            "כתב אישום", "בעבירות לפי סעיף", "הורשע על פי הודאתו"
        ]
        
        has_indictment = any(kw in gpt_extraction for kw in indictment_keywords)
        if not has_indictment:
            issues.append("לא נמצאה פסקת כתב אישום")
        
        # Check length ratio
        extraction_length = len(gpt_extraction.split())
        original_length = len(original_text.split())
        
        if extraction_length > original_length * 0.8:
            issues.append("החילוץ ארוך מדי יחסית לטקסט המקורי")
        elif extraction_length < 20:
            issues.append("החילוץ קצר מדי")
        
        # Check for unwanted content
        unwanted_patterns = ["טענות", "דיון", "החלטה", "תסקיר", "עמדת"]
        if any(pattern in gpt_extraction for pattern in unwanted_patterns):
            issues.append("החילוץ כולל תוכן לא רלוונטי")
        
        return {
            "has_indictment": has_indictment,
            "issues": issues,
            "length_ratio": extraction_length / original_length if original_length > 0 else 0,
            "rule_score": max(0, 10 - len(issues) * 2)  # Simple scoring
        }
    
    def comprehensive_verify(self, original_text, gpt_extraction):
        """Run verification using different GPT model + rules"""
        results = {}
        
        # GPT verification
        results["gpt_verification"] = self.verify_with_different_gpt(original_text, gpt_extraction)
        
        # Rule-based verification
        results["rule_based"] = self.rule_based_verification(original_text, gpt_extraction)
        
        # Calculate average score
        gpt_score = results["gpt_verification"].get("accuracy_score", 0)
        rule_score = results["rule_based"].get("rule_score", 0)
        
        results["average_score"] = (gpt_score + rule_score) / 2
        results["is_valid"] = (
            results["gpt_verification"].get("is_valid", False) and 
            results["rule_based"].get("has_indictment", False)
        )
        
        return results


def run_verification(input_csv, output_csv, verification_model="gpt-4o"):
    """Main function to run verification on extracted facts"""
    verifier = GPTVerifier(verification_model=verification_model)
    
    # Load existing extractions
    df = pd.read_csv(input_csv)
    
    # Prepare output columns
    verification_columns = [
        'verification_score', 'rule_score', 'average_score', 
        'is_valid', 'issues', 'verification_status', 'verification_model'
    ]
    
    for col in verification_columns:
        if col not in df.columns:
            df[col] = None
    
    # Process each row
    for idx, row in tqdm(df.iterrows(), total=len(df), desc=f"Verifying with {verification_model}"):
        if pd.notna(row.get('verification_status')):
            continue  # Skip already verified
        
        try:
            # Run verification
            verification_results = verifier.comprehensive_verify(
                row['extracted_facts'], 
                row['extracted_gpt_facts']
            )
            
            # Update DataFrame
            df.at[idx, 'verification_score'] = verification_results.get("gpt_verification", {}).get("accuracy_score", 0)
            df.at[idx, 'rule_score'] = verification_results.get("rule_based", {}).get("rule_score", 0)
            df.at[idx, 'average_score'] = verification_results.get("average_score", 0)
            df.at[idx, 'is_valid'] = verification_results.get("is_valid", False)
            df.at[idx, 'issues'] = json.dumps(verification_results.get("rule_based", {}).get("issues", []), ensure_ascii=False)
            df.at[idx, 'verification_status'] = 'completed'
            df.at[idx, 'verification_model'] = verification_model
            
            # Save progress every 10 rows
            if idx % 10 == 0:
                df.to_csv(output_csv, index=False, encoding="utf-8-sig")
            
            time.sleep(1)  # Rate limiting
            
        except Exception as e:
            df.at[idx, 'verification_status'] = f'error: {str(e)}'
            print(f"Error processing row {idx}: {e}")
    
    # Final save
    df.to_csv(output_csv, index=False, encoding="utf-8-sig")
    
    # Generate summary report
    generate_verification_report(df, output_csv.replace('.csv', '_report.txt'))


def generate_verification_report(df, report_path):
    """Generate a summary report of verification results"""
    with open(report_path, 'w', encoding='utf-8') as f:
        f.write("=== GPT Verification Report ===\n\n")
        
        total_verified = len(df[df['verification_status'] == 'completed'])
        f.write(f"Total extractions verified: {total_verified}\n")
        
        if total_verified > 0:
            avg_verification_score = df['verification_score'].mean()
            avg_rule_score = df['rule_score'].mean()
            avg_overall_score = df['average_score'].mean()
            valid_extractions = len(df[df['is_valid'] == True])
            
            f.write(f"Average verification score: {avg_verification_score:.2f}\n")
            f.write(f"Average rule-based score: {avg_rule_score:.2f}\n")
            f.write(f"Average overall score: {avg_overall_score:.2f}\n")
            f.write(f"Valid extractions: {valid_extractions}/{total_verified} ({valid_extractions/total_verified*100:.1f}%)\n\n")
            
            # Quality distribution
            high_quality = len(df[df['average_score'] >= 8])
            medium_quality = len(df[(df['average_score'] >= 5) & (df['average_score'] < 8)])
            low_quality = len(df[df['average_score'] < 5])
            
            f.write(f"High quality extractions (8-10): {high_quality}\n")
            f.write(f"Medium quality extractions (5-7): {medium_quality}\n")
            f.write(f"Low quality extractions (0-4): {low_quality}\n\n")
            
            # Common issues
            all_issues = []
            for issues_str in df['issues'].dropna():
                try:
                    issues = json.loads(issues_str)
                    all_issues.extend(issues)
                except:
                    continue
            
            from collections import Counter
            issue_counts = Counter(all_issues)
            f.write("Most common issues:\n")
            for issue, count in issue_counts.most_common(5):
                f.write(f"  {issue}: {count} times\n")


# Usage examples - MUCH SIMPLER!
if __name__ == "__main__":
    input_file = "/home/liorkob/M.Sc/thesis/data/drugs_3k/gpt/processed_verdicts_with_gpt.csv"
    
    run_verification(input_file, "verified_with_gpt35.csv", "gpt-4.1")
    
    # Option 2: Premium verification with GPT-4o
    # run_verification(input_file, "verified_with_gpt4o.csv", "gpt-4o")
    
    # Option 3: Balanced with GPT-4 Turbo
    # run_verification(input_file, "verified_with_gpt4turbo.csv", "gpt-4-turbo")

Using gpt-4.1 for verification


Verifying with gpt-4.1: 100%|██████████| 2987/2987 [4:50:23<00:00,  5.83s/it]  


### extract indictment facts with API gpt-APPEALS

In [None]:
import pandas as pd
import os
import re
from openai import OpenAI
import gc
from tqdm import tqdm
import csv
import time

# ========== API Setup ==========
os.environ["OPENAI_API_KEY"] = "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"  # Replace with actual key
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

# ========== Pattern Definitions ==========
START_PARTS = ["עובדותם", "כללי", "כתב האישום", "האישום", "אישום", "רקע", "גזר", "דין", "פסק","מבוא","הרשעת" ,"בעניינו","עבירות","הורשע","עובדות","השתלשלות", "ג ז ר",  "ד י ן", "פ ס ק","העובדות","עובדות","השופט","שופט","השופטת","שופטת","הערעור","ערעור"]
END_PARTS = ["אני מסכים" ,"טענות", "עמדת", "תסקיר", "תסקירי","שירות", "מבחן", "דיון", "התסקיר","טיעוני", "הצדדים", "צדדים", "והכרעה", "ראיות","הכרעה"]

# ========== File Paths ==========
csv_directory = "/home/liorkob/M.Sc/thesis/data/5k/appeals_csv"
out_dir = "/home/liorkob/M.Sc/thesis/data/5k/gpt"
output_file = os.path.join(out_dir, "processed_appeals_with_gpt_2.csv")
failed_file = os.path.join(out_dir, "failed_verdicts.csv")

# ========== Helper Functions ==========
def extract_indictment_facts(df):
    if df.empty or "part" not in df.columns or "text" not in df.columns:
        return "❌ No indictment facts found", None, None

    df["part"] = df["part"].astype(str).str.strip()

    start_row = df[df["part"].str.contains('|'.join(START_PARTS), case=False, na=False, regex=True)]

    df["word_count"] = df["text"].astype(str).str.split().apply(len)
    mask = df["part"].str.contains("חקיקה שאוזכרה", na=False) | (df["part"].str.len() < 3)
    df.loc[mask, "word_count"] = 0

    total_words = df["word_count"].sum()

    if start_row.empty:
        start_idx = 0
        start_part_name = "❌ No start found (used full text)"
    else:
        start_idx = start_row.index.min()

        words_until_start = df.loc[:start_idx, "word_count"].sum()

        if words_until_start > total_words / 3:
            start_idx = 0
            start_part_name = "❌ No start found (used full text)"
        else:
            start_part_name = df.loc[start_idx, "part"]

    # ===== Find end part =====
    end_row = df[
        (df.index > start_idx) &
        (df["part"].str.contains('|'.join(END_PARTS), case=False, na=False, regex=True))
    ]
    if not end_row.empty and end_row.index.min() == start_idx:
        end_row = df[
            (df.index > start_idx + 1) &
            (df["part"].str.contains('|'.join(END_PARTS), case=False, na=False, regex=True))
        ]

    end_idx = end_row.index.min() if not end_row.empty else len(df)
    end_part_name = df.loc[end_idx, "part"] if not end_row.empty else "❌ No end found (used full text)"

    extracted_text = "\n".join(df.loc[start_idx:end_idx - 1, "text"].dropna().astype(str))
    
    return extracted_text.strip() if extracted_text else "❌ No indictment facts found", start_part_name, end_part_name

def extract_facts_with_gpt(text):
    if text == "❌ No indictment facts found":
        return "GPT extraction error"

    prompt = f"""
הוראות: הטקסט שלפניך הוא מתוך פסק דין בערעור. עליך לחלץ ממנו את פסקת כתב האישום והעובדות **כפי שתוארו בפסק הדין המקורי** (לא את נימוקי הערעור).  
יש לחלץ את הטקסט **בדיוק כפי שהוא**, ללא ניסוח מחדש וללא סיכום.

 **החזרה שלך צריכה לכלול שתי פסקאות בלבד, ובסדר הבא**:
1. פסקת כתב האישום – הכוללת את סעיפי החוק, ההודאה, ההרשעה וכל פרט פורמלי.
2. פסקת העובדות – תיאור רצף האירועים: מי, מה, מתי, איפה, איך.

 הנחיות:
- אין להוסיף כותרות, אין לשנות ניסוחים, אין להוסיף פרשנות.
- כלול רק טקסט המתאר את האישום והעובדות המקוריות – כפי שמתואר בערעור.
- אל תכלול עדויות, טענות הערעור או תיאורי הכרעה משפטית.
- אם אין מידע על כתב האישום – אל תחזיר דבר.

טקסט המקור:
{text}

החזר את הפלט בפורמט הבא בלבד:
<פסקת כתב האישום>

<פסקת עובדות כתב האישום>
    """

    response = client.chat.completions.create(
        model="gpt-4.1-mini", 
        messages=[
            {"role": "system", "content": "You extract indictment and factual paragraphs from appellate decisions, copying the original wording without interpretation or summarization."},
            {"role": "user", "content": prompt}
        ]
    )

    return response.choices[0].message.content.strip()

# ========== Load Existing Output ==========
if os.path.exists(output_file):
    processed_df = pd.read_csv(output_file)
else:
    processed_df = pd.DataFrame(columns=["verdict", "extracted_facts", "extracted_gpt_facts", "start_part", "end_part"])

processed_df["verdict"] = processed_df["verdict"].astype(str).str.strip()

# ========== Processing Loop ==========
total_files = 0
successful_extractions = 0
failed_extractions = 0
failed_verdicts = []
def is_english(text):
    return bool(re.fullmatch(r'[A-Za-z0-9\s.,;:!?\'\"()\[\]{}\-_=+*&^%$#@/\\]+', text))

file_list = [f for f in os.listdir(csv_directory) if f.endswith(".csv")]

for filename in tqdm(file_list, desc="Processing verdicts"):
    total_files += 1
    file_path = os.path.join(csv_directory, filename)

    try:
        df = pd.read_csv(file_path)
        verdict_id = str(df["verdict"].iloc[0]).strip()

        # # Check if already processed successfully
        existing = processed_df[processed_df["verdict"] == verdict_id]
        if not existing.empty and pd.notna(existing["extracted_gpt_facts"].iloc[0]) and existing["extracted_gpt_facts"].iloc[0].strip() != "":
            print(f"⏭️ Skipping GPT for verdict (already processed): {verdict_id}")
            continue

        print(f"📨 Calling GPT for verdict: {verdict_id}")
        extracted_facts, start_part, end_part = extract_indictment_facts(df)
        extracted_gpt_facts = extract_facts_with_gpt(extracted_facts)
        print(extracted_gpt_facts)
        time.sleep(1)

        failure_message = "לא נמצא טקסט המתאר את כתב האישום או העובדות כפי שתוארו בפסק הדין המקורי בטקסט שניתן."

        if extracted_facts.startswith("❌") or is_english(extracted_gpt_facts) or failure_message in extracted_gpt_facts:
            failed_extractions += 1
            failed_verdicts.append({"verdict": verdict_id, "all_parts": "; ".join(df["part"].dropna().astype(str))})
            print(f"❌ GPT failed for verdict: {verdict_id}")

            continue

        successful_extractions += 1
        processed_df = processed_df[processed_df["verdict"] != verdict_id]

        new_row = {
            "verdict": verdict_id,
            "extracted_facts": extracted_facts,
            "extracted_gpt_facts": extracted_gpt_facts,
            "start_part": start_part,
            "end_part": end_part
        }
#         new_row = {
#     "verdict": verdict_id,
#     "extracted_facts": existing["extracted_facts"].iloc[0] if not existing.empty else extracted_facts,
#     "extracted_gpt_facts": existing["extracted_gpt_facts"].iloc[0] if not existing.empty else "GPT extraction error",
#     "new_extracted_gpt_facts": extracted_gpt_facts,
#     "start_part": start_part,
#     "end_part": end_part
# }

        processed_df = pd.concat([processed_df, pd.DataFrame([new_row])], ignore_index=True)
        # ✅ Save immediately after each verdict
        processed_df.to_csv(output_file, index=False, encoding="utf-8-sig")

    except Exception as e:
        print(f"💥 Error processing {filename}: {e}")

    del df
    gc.collect()

# ========== Final Save ==========
processed_df.to_csv(output_file, index=False, encoding="utf-8-sig")

failed_df = pd.DataFrame(failed_verdicts)
failed_df.to_csv(failed_file, index=False, encoding="utf-8-sig")

print("\n=== Statistics ===")
print(pd.DataFrame([{ "Total CSV Files Processed": total_files, "Successful Extractions": successful_extractions, "Failed Extractions": failed_extractions }]))
if not failed_df.empty:
    print("\n=== Sample of Failed Verdicts ===")
    print(failed_df.head())
print("\n✅ Process complete. Results saved.")

In [None]:
import pandas as pd
import re

def is_english(text):
    return bool(re.fullmatch(r'[A-Za-z0-9\s.,;:!?\'\"()\[\]{}\-_=+*&^%$#@/\\]+', text))

# Load processed data
df = pd.read_csv("/home/liorkob/M.Sc/thesis/data/5k/gpt/processed_verdicts_with_gpt_2.csv")

failure_message = "לא נמצא טקסט המתאר את כתב האישום או העובדות כפי שתוארו בפסק הדין המקורי בטקסט שניתן."

# Identify failures
failed_df = df[
    df["extracted_facts"].str.startswith("❌") |
    df["extracted_gpt_facts"].apply(is_english) |
    df["extracted_gpt_facts"].astype(str).str.contains(failure_message, na=False)
]

# Save to file
failed_df.to_csv("/home/liorkob/M.Sc/thesis/data/5k/gpt/retro_failed_verdicts.csv", index=False, encoding="utf-8-sig")

print(f"🔍 Found {len(failed_df)} failed verdicts.")


### extract indictment facts- no api

In [None]:
import pandas as pd
import os
import re

# Define start and end patterns based on the 'part' column (for partial matches)
START_PARTS = [
    "עובדותם", "כללי", "כתב האישום", "האישום", "אישום", "רקע", "גזר", "דין", "פסק","מבוא","הרשעת" ,"בעניינו","עבירות","הורשע","עובדות"
]

END_PARTS = [
    "טענות", "עמדת", "תסקיר", "שירות", "מבחן", "דיון", "התסקיר",
    "טיעוני", "הצדדים", "צדדים", "והכרעה", "האישום השני", "ראיות"
]

def extract_indictment_facts(df):
    """
    Extracts the 'Indictment Facts' section based on the 'part' column with partial matches.
    Ensures:
    - If start and end are the same, it extends the search.
    - The text **does not** include the content of the end part, only up to it.
    """
    if df.empty or "part" not in df.columns or "text" not in df.columns:
        return "❌ No indictment facts found", None, None

    # Find the first row where 'part' contains a start pattern (case-insensitive, partial match)
    start_row = df[df["part"].str.contains('|'.join(START_PARTS), case=False, na=False, regex=True)]
    if start_row.empty:
        return "❌ No indictment facts found", None, None
    start_idx = start_row.index.min()
    start_part_name = df.loc[start_idx, "part"]

    # Find the first row where 'part' contains an end pattern **after** the start index
    end_row = df[df.index > start_idx][df["part"].str.contains('|'.join(END_PARTS), case=False, na=False, regex=True)]

    # Ensure end is after start and not identical in name
    if not end_row.empty:
        potential_end_idx = end_row.index.min()

        # If the end part is the same as the start part, look further down
        if df.loc[potential_end_idx, "part"] == df.loc[start_idx, "part"]:
            print(f"⚠️ Warning: Start and End have the same name for verdict '{df['verdict'].iloc[0]}'. Searching for next distinct part.")

            # Find the next part that is different from the start part
            extended_end_row = df[df.index > potential_end_idx][df["part"] != df.loc[start_idx, "part"]]

            if not extended_end_row.empty:
                end_idx = extended_end_row.index.min()
            else:
                end_idx = len(df)  # Default to full text if no better match is found
        else:
            end_idx = potential_end_idx  # Use valid end index if found
    else:
        end_idx = len(df)  # Default to full text if no end marker is found

    # Assign extracted part
    end_part_name = df.loc[end_idx, "part"] if end_idx < len(df) else "❌ No end found (used full text)"

    # Extract text **only until** the end part, excluding it
    extracted_text = "\n".join(df.loc[start_idx:end_idx-1, "text"].dropna().astype(str))  # Exclude the last part

    return extracted_text.strip() if extracted_text else "❌ No indictment facts found", start_part_name, end_part_name

# Tracking statistics
total_files = 0
successful_extractions = 0
failed_extractions = 0
failed_verdicts = []
extracted_results = []
for year in [2018,2019,2020]:
    csv_directory = f"/home/liorkob/thesis/lcp/data/docx_csv_{year}"  # Change this to your actual directory

    # Iterate through all CSV files in the directory
    for filename in os.listdir(csv_directory):
        if filename.endswith(".csv"):
            total_files += 1
            file_path = os.path.join(csv_directory, filename)
            
            # Load CSV file
            df = pd.read_csv(file_path)

            # Ensure necessary columns exist
            if 'verdict' not in df.columns or 'text' not in df.columns or 'part' not in df.columns:
                print(f"Skipping {filename}, missing required columns.")
                continue

            # Extract indictment facts based on 'part'
            extracted_facts, start_part, end_part = extract_indictment_facts(df)

            # Track statistics
            if extracted_facts == "❌ No indictment facts found":
                failed_extractions += 1
                failed_verdicts.append({
                    "verdict": df["verdict"].iloc[0],
                    "all_parts": "; ".join(df["part"].dropna().astype(str).unique())  # Store all parts for debugging
                })
                print(f"\n❌ **Failed Extraction for Verdict: {df['verdict'].iloc[0]}**")
                print(f"📌 Available Parts: {failed_verdicts[-1]['all_parts']}\n")
            else:
                successful_extractions += 1

            # Store results
            extracted_results.append({
                "verdict": df["verdict"].iloc[0],
                "extracted_facts": extracted_facts,
                "start_part": start_part if start_part else "❌ Not Found",
                "end_part": end_part if end_part else "❌ Not Found"
            })

# Convert results to DataFrame
final_df = pd.DataFrame(extracted_results)
failed_df = pd.DataFrame(failed_verdicts) if failed_verdicts else pd.DataFrame(columns=["verdict", "all_parts"])

# Save results
final_df.to_csv("processed_verdicts.csv", index=False, encoding="utf-8-sig")
failed_df.to_csv("failed_verdicts.csv", index=False, encoding="utf-8-sig")

# Display statistics
stats = {
    "Total CSV Files Processed": total_files,
    "Successful Extractions": successful_extractions,
    "Failed Extractions": failed_extractions
}

# Print statistics
print("\n=== Statistics ===")
print(pd.DataFrame([stats]))

# Show failed verdicts (if any)
if not failed_df.empty:
    print("\n=== Sample of Failed Verdicts ===")
    print(failed_df.head())  # Print first few rows for review

# Show extracted results with start and end parts
print("\n=== Sample of Successful Extractions (Start & End Parts) ===")
print(final_df[["verdict", "start_part", "end_part"]].head())  # Print first few rows

print("\n✅ Process complete. Results saved as 'processed_verdicts.csv' and 'failed_verdicts.csv'")
