# Dokumentum Metadatok Ki√©rt√©kel√©se - CourtRankRL Projekt

Ez a notebook a processed_docs.jsonl f√°jlban tal√°lhat√≥ dokumentum metadatokat elemzi. Az agents.md specifik√°ci√≥ alapj√°n k√©sz√≠tett ki√©rt√©kel√©si szempontokat vizsg√°lja a jelenlegi adatokkal.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import json
from pathlib import Path
from typing import Dict, Any
from datetime import datetime

# Plot st√≠lus be√°ll√≠t√°sa
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Projekt konfigur√°ci√≥ bet√∂lt√©se
import sys
project_root = Path(__file__).parent.parent
sys.path.insert(0, str(project_root))
from configs import config

print("CourtRankRL - Document Metadata Analysis")
print(f"Processed docs: {config.PROCESSED_DOCS_LIST}")
print(f"Chunks: {config.CHUNKS_JSONL}")

NameError: name '__file__' is not defined

## 1. Feldolgozott Dokumentumok Bet√∂lt√©se

A processed_docs.jsonl f√°jl bet√∂lt√©se a metadatok elemz√©s√©hez.

In [None]:
# Processed docs bet√∂lt√©se
processed_docs_file = config.PROCESSED_DOCS_LIST
df = None

print(f"Processed docs bet√∂lt√©se: {processed_docs_file}")

if processed_docs_file.exists():
    try:
        processed_docs_list = []
        with open(processed_docs_file, 'r', encoding='utf-8') as f:
            for line in f:
                try:
                    doc = json.loads(line.strip())
                    processed_docs_list.append(doc)
                except json.JSONDecodeError:
                    continue
        
        if processed_docs_list:
            df = pd.DataFrame(processed_docs_list)
            print(f"‚úÖ Bet√∂lt√∂tt dokumentumok sz√°ma: {len(df)}")
            print(f"Oszlopok: {df.columns.tolist()}")
        else:
            print("‚ö†Ô∏è Nem tal√°lhat√≥ak feldolgozhat√≥ dokumentumok")
            df = None
    except Exception as e:
        print(f"‚ùå Hiba a dokumentumok bet√∂lt√©se sor√°n: {e}")
        df = None
else:
    print(f"‚ùå Processed docs f√°jl nem tal√°lhat√≥: {processed_docs_file}")
    print("Futtassa a build pipeline-t el≈ësz√∂r: uv run courtrankrl build")
    df = None

if df is not None and not df.empty:
    print(f"\nAdatok bet√∂ltve: {df.shape[0]} dokumentum, {df.shape[1]} oszlop")
    print(f"Els≈ë n√©h√°ny sor:")
    display(df.head())
else:
    print("\n‚ùå Nincs adat az elemz√©shez")

## 2. Alapvet≈ë Inform√°ci√≥k √©s Statisztik√°k

A dokumentum metadatok alapvet≈ë statisztik√°inak elemz√©se.

In [None]:
if df is not None and not df.empty:
    print("üìä Alapvet≈ë inform√°ci√≥k:")
    print(f"Dokumentumok sz√°ma: {len(df)}")
    print(f"Oszlopok: {df.columns.tolist()}")
    
    # Adatt√≠pusok
    print(f"\nAdatt√≠pusok:")
    df.info()
    
    # Le√≠r√≥ statisztik√°k
    print("\nüìà Le√≠r√≥ statisztik√°k (numerikus oszlopok):")
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    if len(numeric_cols) > 0:
        display(df[numeric_cols].describe())
    
    print("\nüìã Le√≠r√≥ statisztik√°k (kategorikus oszlopok):")
    categorical_cols = df.select_dtypes(include=['object']).columns
    if len(categorical_cols) > 0:
        display(df[categorical_cols].describe())
else:
    print("‚ùå Nincs adat az alapvet≈ë inform√°ci√≥k elemz√©s√©hez")

## 3. Hi√°nyz√≥ √ârt√©kek Elemz√©se

A hi√°nyz√≥ √©rt√©kek azonos√≠t√°sa √©s vizualiz√°ci√≥ja.

In [None]:
if df is not None and not df.empty:
    print("üîç Hi√°nyz√≥ √©rt√©kek elemz√©se:")
    
    # Hi√°nyz√≥ √©rt√©kek statisztik√°i
    missing_values = df.isnull().sum()
    missing_percent = (missing_values / len(df)) * 100
    missing_df = pd.DataFrame({'Darabsz√°m': missing_values, 'Sz√°zal√©k': missing_percent})
    missing_df = missing_df[missing_df['Darabsz√°m'] > 0].sort_values(by='Sz√°zal√©k', ascending=False)
    
    print("Hi√°nyz√≥ √©rt√©kek oszloponk√©nt:")
    display(missing_df)
    
    # Hi√°nyz√≥ √©rt√©kek vizualiz√°ci√≥ja
    plt.figure(figsize=(15, 8))
    sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
    plt.title('Hi√°nyz√≥ √©rt√©kek eloszl√°sa a dokumentum metadatokban')
    plt.show()
    
    # Kritikus hi√°nyz√≥ √©rt√©kek
    critical_missing = missing_df[missing_df['Sz√°zal√©k'] > 50]  # 50% feletti hi√°ny
    if not critical_missing.empty:
        print(f"‚ö†Ô∏è Kritikus hi√°nyz√≥ √©rt√©kek (>50%): {len(critical_missing)} oszlop")
        display(critical_missing)
    else:
        print("‚úÖ Nincsenek kritikus hi√°nyz√≥ √©rt√©kek")
else:
    print("‚ùå Nincs adat a hi√°nyz√≥ √©rt√©kek elemz√©s√©hez")

## 4. Kategorikus V√°ltoz√≥k Elemz√©se

A b√≠r√≥s√°gok, jogter√ºletek √©s egy√©b kategorikus v√°ltoz√≥k elemz√©se.

In [None]:
def plot_top_categories(df, column_name, top_n=20):
    """Seg√©df√ºggv√©ny a leggyakoribb kateg√≥ri√°k megjelen√≠t√©s√©re."""
    if column_name not in df.columns:
        print(f"‚ùå '{column_name}' oszlop nem tal√°lhat√≥")
        return
    
    counts = df[column_name].value_counts()
    print(f"\n'{column_name}' egyedi √©rt√©keinek sz√°ma: {counts.nunique()}")
    print(f"Leggyakoribb {top_n} √©rt√©k:")
    display(counts.head(top_n))
    
    plt.figure(figsize=(12, 6))
    counts.head(top_n).plot(kind='bar')
    plt.title(f'Dokumentumok megoszl√°sa - {column_name} (Top {top_n})')
    plt.xlabel(column_name)
    plt.ylabel('Dokumentumok sz√°ma')
    plt.xticks(rotation=75, ha='right')
    plt.grid(axis='y')
    plt.tight_layout()
    plt.show()

if df is not None and not df.empty:
    print("üìä Kategorikus v√°ltoz√≥k elemz√©se:")
    
    # B√≠r√≥s√°g elemz√©se
    if 'birosag' in df.columns:
        plot_top_categories(df, 'birosag', top_n=30)
    
    # Jogter√ºlet elemz√©se
    if 'JogTerulet' in df.columns:
        plot_top_categories(df, 'JogTerulet', top_n=20)
    
    # Egy√©b fontos kategorikus v√°ltoz√≥k
    for col in ['MeghozoBirosag', 'Kollegium', 'AllKapcsolodoBirosag']:
        if col in df.columns:
            plot_top_categories(df, col, top_n=15)
else:
    print("‚ùå Nincs adat a kategorikus v√°ltoz√≥k elemz√©s√©hez")

## 5. Id≈ëbeli Elemz√©s

A hat√°rozatok id≈ëbeli eloszl√°s√°nak elemz√©se.

In [None]:
if df is not None and not df.empty and 'HatarozatEve' in df.columns:
    print("üìÖ Id≈ëbeli elemz√©s:")
    
    # √âvsz√°mok tiszt√≠t√°sa
    df['HatarozatEve_clean'] = pd.to_numeric(df['HatarozatEve'], errors='coerce').astype('Int64')
    valid_years_mask = (df['HatarozatEve_clean'] >= 2005) & (df['HatarozatEve_clean'] <= pd.Timestamp.now().year)
    valid_years = df.loc[valid_years_mask, 'HatarozatEve_clean']
    
    print(f"√ârv√©nyes 'HatarozatEve' √©rt√©kek sz√°ma (2005 √≥ta): {len(valid_years)}")
    print(f"√ârv√©nytelen vagy hi√°nyz√≥ 'HatarozatEve' √©rt√©kek sz√°ma: {len(df) - len(valid_years)}")
    
    if not valid_years.empty:
        # √âves eloszl√°s
        year_counts = valid_years.value_counts().sort_index()
        print(f"\n√âvek tartom√°ny: {year_counts.index.min()} - {year_counts.index.max()}")
        
        plt.figure(figsize=(15, 7))
        year_counts.plot(kind='line', marker='o', linewidth=2)
        plt.title('Dokumentumok megoszl√°sa hat√°rozat √©ve szerint (2005 √≥ta)')
        plt.xlabel('Hat√°rozat √âve')
        plt.ylabel('Dokumentumok sz√°ma')
        plt.grid(True, alpha=0.3)
        plt.fill_between(year_counts.index, year_counts.values, alpha=0.1)
        plt.show()
        
        # Top √©vek t√°bl√°zata
        print("\nTop 10 √©v dokumentum sz√°m szerint:")
        top_years = year_counts.nlargest(10)
        display(top_years.to_frame('Dokumentumok sz√°ma'))
    else:
        print("‚ùå Nincsenek √©rv√©nyes √©vsz√°mok 2005 √≥ta")
else:
    print("‚ùå Nincs 'HatarozatEve' oszlop vagy adat az id≈ëbeli elemz√©shez")

## 6. B√≠r√≥s√°g √©s Jogter√ºlet Kapcsolata

A b√≠r√≥s√°gok √©s jogter√ºletek k√∂z√∂tti kapcsolat elemz√©se.

In [None]:
if df is not None and not df.empty and 'birosag' in df.columns and 'JogTerulet' in df.columns:
    print("üîó B√≠r√≥s√°g √©s jogter√ºlet kapcsolata:")
    
    # Top b√≠r√≥s√°gok √©s jogter√ºletek kiv√°laszt√°sa
    top_n_birosag = 20
    top_m_jogterulet = 15
    top_birosagok = df['birosag'].value_counts().nlargest(top_n_birosag).index
    top_jogteruletek = df['JogTerulet'].value_counts().nlargest(top_m_jogterulet).index
    
    # Sz≈±rt adatkeret
    df_filtered = df[df['birosag'].isin(top_birosagok) & df['JogTerulet'].isin(top_jogteruletek)]
    print(f"Sz≈±rt adatok: {len(df_filtered)} dokumentum")
    
    if not df_filtered.empty:
        # Keresztt√°bla l√©trehoz√°sa
        crosstab_bj = pd.crosstab(df_filtered['birosag'], df_filtered['JogTerulet'])
        
        # Heatmap
        plt.figure(figsize=(15, 10))
        sns.heatmap(crosstab_bj, cmap="viridis", annot=False, fmt="d", cbar_kws={'label': 'Dokumentumok sz√°ma'})
        plt.title(f'B√≠r√≥s√°gok √©s jogter√ºletek kapcsolata (Top {top_n_birosag} b√≠r√≥s√°g, Top {top_m_jogterulet} jogter√ºlet)')
        plt.xlabel('Jogter√ºlet')
        plt.ylabel('B√≠r√≥s√°g')
        plt.xticks(rotation=60, ha='right')
        plt.yticks(rotation=0)
        plt.tight_layout()
        plt.show()
        
        # Legnagyobb kapcsolatok
        print("\nTop 20 b√≠r√≥s√°g-jogter√ºlet kapcsolat:")
        top_relations = crosstab_bj.stack().nlargest(20)
        display(top_relations.to_frame('Dokumentumok sz√°ma'))
    else:
        print("‚ùå Nem tal√°lhat√≥ el√©g adat a sz≈±rt b√≠r√≥s√°gokhoz √©s jogter√ºletekhez")
else:
    print("‚ùå Hi√°nyz√≥ oszlopok ('birosag' vagy 'JogTerulet') a kapcsolat elemz√©s√©hez")

## 7. Chunk Sz√°mok Elemz√©se

A dokumentumokhoz tartoz√≥ chunk sz√°mok elemz√©se.

In [None]:
if df is not None and not df.empty and 'chunk_count' in df.columns:
    print("üìÑ Chunk sz√°mok elemz√©se:")
    
    chunk_stats = df['chunk_count'].describe()
    print("Chunk sz√°mok statisztik√°i:")
    display(chunk_stats)
    
    # Chunk sz√°m eloszl√°s
    plt.figure(figsize=(12, 6))
    plt.subplot(1, 2, 1)
    sns.histplot(x=df['chunk_count'], bins=50, kde=True)
    plt.title('Chunk sz√°mok eloszl√°sa dokumentumonk√©nt')
    plt.xlabel('Chunkok sz√°ma')
    plt.ylabel('Dokumentumok sz√°ma')
    plt.grid(True, alpha=0.3)
    
    # Boxplot
    plt.subplot(1, 2, 2)
    sns.boxplot(y=df['chunk_count'])
    plt.title('Chunk sz√°mok boxplot')
    plt.ylabel('Chunkok sz√°ma')
    plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # Kiugr√≥ √©rt√©kek
    q1, q3 = chunk_stats['25%'], chunk_stats['75%']
    iqr = q3 - q1
    upper_bound = q3 + 1.5 * iqr
    outliers = df[df['chunk_count'] > upper_bound]
    
    print(f"\nKiugr√≥ √©rt√©kek (> {upper_bound:.1f} chunk): {len(outliers)} dokumentum")
    if len(outliers) > 0:
        print("Top 10 kiugr√≥ √©rt√©k:")
        display(outliers[['doc_id', 'chunk_count']].nlargest(10, 'chunk_count'))
    
    # Chunk sz√°m √©s √©v kapcsolata
    if 'HatarozatEve_clean' in df.columns:
        plt.figure(figsize=(12, 6))
        valid_data = df.dropna(subset=['chunk_count', 'HatarozatEve_clean'])
        if len(valid_data) > 100:
            plt.scatter(valid_data['HatarozatEve_clean'], valid_data['chunk_count'], alpha=0.5)
            plt.title('Chunk sz√°mok alakul√°sa az √©vek sor√°n')
            plt.xlabel('Hat√°rozat √©ve')
            plt.ylabel('Chunkok sz√°ma')
            plt.grid(True, alpha=0.3)
            plt.show()
else:
    print("‚ùå Nincs 'chunk_count' oszlop a chunk sz√°mok elemz√©s√©hez")

## 8. Azonos√≠t√≥k Elemz√©se

A k√ºl√∂nb√∂z≈ë azonos√≠t√≥k (doc_id, Azonosito, EgyediAzonosito) elemz√©se.

In [None]:
if df is not None and not df.empty:
    print("üÜî Azonos√≠t√≥k elemz√©se:")
    
    for id_col in ['doc_id', 'Azonosito', 'EgyediAzonosito']:
        if id_col in df.columns:
            print(f"\nüîç '{id_col}' elemz√©se:")
            uniqueness = df[id_col].nunique()
            total_rows = len(df)
            duplicates = total_rows - uniqueness
            
            print(f"  √ñsszes dokumentum: {total_rows}")
            print(f"  Egyedi √©rt√©kek: {uniqueness}")
            print(f"  Duplik√°lt/hi√°nyz√≥ √©rt√©kek: {duplicates}")
            print(f"  Unikalit√°s ar√°nya: {100 * uniqueness / total_rows:.2f}%")
            
            if duplicates > 0:
                duplicated_ids = df[df.duplicated(subset=[id_col], keep=False)][id_col].value_counts()
                print(f"  Leggyakoribb duplik√°lt '{id_col}' √©rt√©kek:")
                display(duplicated_ids[duplicated_ids > 1].head())
            
            # Mintav√©tel egyedi √©rt√©kekb≈ël
            print(f"  '{id_col}' √©rt√©kek mint√°i:")
            sample_ids = df[id_col].dropna().sample(min(5, uniqueness)).tolist()
            for i, sample_id in enumerate(sample_ids):
                print(f"    {i+1}. {sample_id}")
        else:
            print(f"\n‚ö†Ô∏è '{id_col}' oszlop nem tal√°lhat√≥")
else:
    print("‚ùå Nincs adat az azonos√≠t√≥k elemz√©s√©hez")

## 9. Jogszab√°lyhelyek M√©lyebb Elemz√©se

A jogszab√°lyi hivatkoz√°sok elemz√©se.

In [None]:
if df is not None and not df.empty and 'Jogszabalyhelyek' in df.columns:
    print("‚öñÔ∏è Jogszab√°lyhelyek elemz√©se:")
    
    # Diagnosztika
    print("\nDiagnosztika: Jogszabalyhelyek minta:")
    sample_values = df['Jogszabalyhelyek'].dropna().head(5)
    for i, val in enumerate(sample_values):
        print(f"  {i+1}: Type={type(val)}, Value='{str(val)[:100]}...'")
    
    # Jogszab√°lyhelyek feldolgoz√°sa
    def parse_jogszabaly(value):
        if pd.isna(value) or not isinstance(value, str) or value.strip() == '[]' or not value.strip():
            return []
        try:
            # Egyszer≈± darabol√°s a '</br>' ment√©n
            items = value.split('</br>')
            # √úres elemek kisz≈±r√©se √©s sz√≥k√∂z√∂k elt√°vol√≠t√°sa
            cleaned_items = [item.strip() for item in items if item.strip()]
            return cleaned_items
        except Exception as e:
            print(f"Hiba a jogszab√°lyhely feldolgoz√°sa k√∂zben: {e}")
            return []
    
    df['parsed_jogszabalyhelyek'] = df['Jogszabalyhelyek'].apply(parse_jogszabaly)
    jogszabaly_series = df['parsed_jogszabalyhelyek'].explode().dropna()
    
    print(f"\n√ñsszesen {len(jogszabaly_series)} jogszab√°lyhely hivatkoz√°s tal√°lhat√≥")
    print(f"Dokumentumok jogszab√°lyhellyel: {df['parsed_jogszabalyhelyek'].apply(len).gt(0).sum()}/{len(df)}")
    
    if not jogszabaly_series.empty:
        jogszabaly_counts = jogszabaly_series.value_counts()
        print(f"\nEgyedi jogszab√°lyhelyek sz√°ma: {len(jogszabaly_counts)}")
        
        # Top jogszab√°lyhelyek
        top_n = 30
        print(f"\nLeggyakrabban hivatkozott {top_n} jogszab√°lyhely:")
        display(jogszabaly_counts.head(top_n).to_frame('Hivatkoz√°sok sz√°ma'))
        
        # Vizualiz√°ci√≥
        plt.figure(figsize=(12, 8))
        jogszabaly_counts.head(top_n).plot(kind='barh')
        plt.title(f'Leggyakrabban hivatkozott {top_n} jogszab√°lyhely')
        plt.xlabel('Hivatkoz√°sok sz√°ma')
        plt.ylabel('Jogszab√°lyhely')
        plt.gca().invert_yaxis()
        plt.grid(axis='x', alpha=0.3)
        plt.tight_layout()
        plt.show()
        
        # Jogszab√°ly t√≠pus szerinti csoportos√≠t√°s
        def get_law_type(jogszabaly):
            if 't√∂rv√©ny' in jogszabaly.lower() or 'tv.' in jogszabaly.lower():
                return 'T√∂rv√©ny'
            elif 'rendelet' in jogszabaly.lower() or 'korm.' in jogszabaly.lower():
                return 'Rendelet'
            elif 'pk' in jogszabaly.lower() or 'polg√°ri' in jogszabaly.lower():
                return 'Polg√°ri t√∂rv√©nyk√∂nyv'
            elif 'btk' in jogszabaly.lower() or 'b√ºntet≈ë' in jogszabaly.lower():
                return 'B√ºntet≈ë t√∂rv√©nyk√∂nyv'
            else:
                return 'Egy√©b'
        
        jogszabaly_types = jogszabaly_series.apply(get_law_type)
        type_counts = jogszabaly_types.value_counts()
        
        plt.figure(figsize=(10, 6))
        type_counts.plot(kind='pie', autopct='%1.1f%%', startangle=90)
        plt.title('Jogszab√°ly t√≠pusok megoszl√°sa')
        plt.ylabel('')
        plt.show()
    else:
        print("‚ùå Nem tal√°lhat√≥ √©rv√©nyes jogszab√°lyhely hivatkoz√°s")
else:
    print("‚ùå Nincs 'Jogszabalyhelyek' oszlop a jogszab√°lyhelyek elemz√©s√©hez")

## 10. K√∂vetkeztet√©sek

A dokumentum metadatok ki√©rt√©kel√©s√©nek √∂sszefoglal√°sa.

In [None]:
print("=== DOKUMENTUM METADATOK ELEMZ√âS √ñSSZEFOGLAL√ì ===")
print("\n‚úÖ Sikeresen elemezve:")
if df is not None:
    print(f"   üìÑ Dokumentumok: {len(df)} db")
    print(f"   üìä Oszlopok: {len(df.columns)} db")
    
    # Hi√°nyz√≥ √©rt√©kek √∂sszes√≠t√©se
    missing_total = df.isnull().sum().sum()
    total_cells = df.shape[0] * df.shape[1]
    missing_ratio = missing_total / total_cells * 100
    print(f"   ‚ùå Hi√°nyz√≥ √©rt√©kek: {missing_total}/{total_cells} ({missing_ratio:.2f}%)")
    
    # Unikalit√°s ellen≈ërz√©se
    unique_doc_ids = df['doc_id'].nunique() if 'doc_id' in df.columns else 0
    print(f"   üÜî Egyedi doc_id: {unique_doc_ids}/{len(df)} ({100 * unique_doc_ids / len(df):.2f}%)")

print("\nüìã Agents.md specifik√°ci√≥ ellen≈ërz√©s:")
if df is not None:
    # Alapvet≈ë metadatok megl√©te
    required_cols = ['doc_id', 'raw_path', 'chunk_count']
    missing_required = [col for col in required_cols if col not in df.columns]
    if not missing_required:
        print("   ‚úÖ Alapvet≈ë metadatok jelen vannak")
    else:
        print(f"   ‚ùå Hi√°nyz√≥ alapvet≈ë metadatok: {missing_required}")
    
    # Id≈ëbeli adatok
    if 'HatarozatEve' in df.columns:
        valid_years = pd.to_numeric(df['HatarozatEve'], errors='coerce').notna().sum()
        print(f"   üìÖ √ârv√©nyes √©vsz√°mok: {valid_years}/{len(df)} ({100 * valid_years / len(df):.2f}%)")
    
    # Jogter√ºletek
    if 'JogTerulet' in df.columns:
        valid_domains = df['JogTerulet'].notna().sum()
        print(f"   ‚öñÔ∏è √ârv√©nyes jogter√ºletek: {valid_domains}/{len(df)} ({100 * valid_domains / len(df):.2f}%)")

print("\nüí° Aj√°nl√°sok:")
if df is not None:
    # Kritikus hi√°nyz√≥ √©rt√©kek
    critical_missing = df.isnull().sum()
    critical_cols = critical_missing[critical_missing > len(df) * 0.5]  # 50% feletti hi√°ny
    if len(critical_cols) > 0:
        print(f"   üîß Kritikus hi√°nyz√≥ √©rt√©kek jav√≠t√°sa: {list(critical_cols.index)}")
    
    # Duplik√°lt azonos√≠t√≥k
    if 'doc_id' in df.columns:
        duplicates = len(df) - df['doc_id'].nunique()
        if duplicates > 0:
            print(f"   üÜî Duplik√°lt doc_id-k jav√≠t√°sa: {duplicates} db")
    
    # Hi√°nyz√≥ chunk sz√°mok
    if 'chunk_count' not in df.columns:
        print("   üìù Chunk sz√°mok hozz√°ad√°sa sz√ºks√©ges")

print("\nüéØ Metadatok elemz√©se k√©sz - a retrieval rendszer haszn√°latra k√©sz!")