# Chunk Adatok Ki√©rt√©kel√©se - CourtRankRL Projekt

Ez a notebook a chunks.jsonl f√°jlban tal√°lhat√≥ chunk adatokat elemzi. Az agents.md specifik√°ci√≥ alapj√°n k√©sz√≠tett ki√©rt√©kel√©si szempontokat vizsg√°lja a jelenlegi adatokkal.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_extraction.text import CountVectorizer
import json
from pathlib import Path
from typing import Dict, Any, List
from collections import Counter

# Plot st√≠lus be√°ll√≠t√°sa
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Projekt konfigur√°ci√≥ bet√∂lt√©se
import sys
project_root = Path(__file__).parent.parent
sys.path.insert(0, str(project_root))
from configs import config

print("CourtRankRL - Chunk Data Analysis")
print(f"Chunks: {config.CHUNKS_JSONL}")
print(f"Processed docs: {config.PROCESSED_DOCS_LIST}")

NameError: name '__file__' is not defined

## 1. Chunk Adatok Bet√∂lt√©se

A chunks.jsonl f√°jl bet√∂lt√©se mintav√©telez√©ssel a teljes√≠tm√©ny √©rdek√©ben.

In [None]:
# Chunkok bet√∂lt√©se mintav√©telez√©ssel
chunks_file = config.CHUNKS_JSONL
sample_size = min(50000, 50000)  # Maximum 50k chunk elemz√©sre

df = None
print(f"Chunkok bet√∂lt√©se: {chunks_file}")
print(f"Mintav√©tel: {sample_size} chunk")

if chunks_file.exists():
    try:
        chunks_list = []
        with open(chunks_file, 'r', encoding='utf-8') as f:
            for i, line in enumerate(f):
                if i >= sample_size:
                    break
                try:
                    chunk = json.loads(line.strip())
                    chunks_list.append(chunk)
                except json.JSONDecodeError:
                    continue
        
        if chunks_list:
            df = pd.DataFrame(chunks_list)
            print(f"‚úÖ Bet√∂lt√∂tt chunkok sz√°ma: {len(df)}")
            print(f"Oszlopok: {df.columns.tolist()}")
        else:
            print("‚ö†Ô∏è Nem tal√°lhat√≥ak chunk adatok")
            df = None
    except Exception as e:
        print(f"‚ùå Hiba a chunkok bet√∂lt√©se sor√°n: {e}")
        df = None
else:
    print(f"‚ùå Chunks f√°jl nem tal√°lhat√≥: {chunks_file}")
    print("Futtassa a build pipeline-t el≈ësz√∂r: uv run courtrankrl build")
    df = None

if df is not None and not df.empty:
    print(f"\nAdatok bet√∂ltve: {df.shape[0]} chunk, {df.shape[1]} oszlop")
    print(f"Els≈ë chunk sz√∂vege (r√©szlet):")
    first_text = df['text'].iloc[0] if 'text' in df.columns else 'N/A'
    print(f"{str(first_text)[:200]}...")
else:
    print("\n‚ùå Nincs adat az elemz√©shez")

## 2. Alapvet≈ë Inform√°ci√≥k √©s Statisztik√°k

A chunk adatok alapvet≈ë statisztik√°inak elemz√©se.

In [None]:
if df is not None and not df.empty:
    print("üìä Chunk adatok alapvet≈ë inform√°ci√≥i:")
    
    # Adatt√≠pusok
    print(f"Adatok alakja: {df.shape}")
    print(f"Oszlopok: {df.columns.tolist()}")
    df.info()
    
    # Mintav√©tel az els≈ë n√©h√°ny chunkb√≥l
    print("\nEls≈ë 3 chunk adatai:")
    for i in range(min(3, len(df))):
        chunk = df.iloc[i]
        print(f"\nChunk {i+1}:")
        print(f"  doc_id: {chunk.get('doc_id', 'N/A')}")
        print(f"  chunk_id: {chunk.get('chunk_id', 'N/A')}")
        print(f"  birosag: {chunk.get('birosag', 'N/A')}")
        print(f"  JogTerulet: {chunk.get('JogTerulet', 'N/A')}")
        if 'text' in chunk:
            text_preview = str(chunk['text'])[:100] + "..." if len(str(chunk['text'])) > 100 else str(chunk['text'])
            print(f"  text: {text_preview}")
    
    # Le√≠r√≥ statisztik√°k
    print("\nüìà Le√≠r√≥ statisztik√°k:")
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    if len(numeric_cols) > 0:
        display(df[numeric_cols].describe())
    
    categorical_cols = df.select_dtypes(include=['object']).columns
    if len(categorical_cols) > 0:
        display(df[categorical_cols].describe())
else:
    print("‚ùå Nincs adat az alapvet≈ë inform√°ci√≥k elemz√©s√©hez")

## 3. Hi√°nyz√≥ √ârt√©kek Elemz√©se

A hi√°nyz√≥ √©rt√©kek azonos√≠t√°sa chunk szinten.

In [None]:
if df is not None and not df.empty:
    print("üîç Chunk adatok hi√°nyz√≥ √©rt√©kei:")
    
    # Hi√°nyz√≥ √©rt√©kek statisztik√°i
    missing_values = df.isnull().sum()
    missing_percent = (missing_values / len(df)) * 100
    missing_df = pd.DataFrame({'Darabsz√°m': missing_values, 'Sz√°zal√©k': missing_percent})
    missing_df = missing_df[missing_df['Darabsz√°m'] > 0].sort_values(by='Sz√°zal√©k', ascending=False)
    
    print("Hi√°nyz√≥ √©rt√©kek oszloponk√©nt:")
    display(missing_df)
    
    # Hi√°nyz√≥ √©rt√©kek vizualiz√°ci√≥ja
    plt.figure(figsize=(15, 8))
    sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
    plt.title('Hi√°nyz√≥ √©rt√©kek eloszl√°sa a chunk adatokban')
    plt.show()
    
    # Kritikus hi√°nyz√≥ √©rt√©kek
    critical_missing = missing_df[missing_df['Sz√°zal√©k'] > 50]  # 50% feletti hi√°ny
    if not critical_missing.empty:
        print(f"‚ö†Ô∏è Kritikus hi√°nyz√≥ √©rt√©kek (>50%): {len(critical_missing)} oszlop")
        display(critical_missing)
    else:
        print("‚úÖ Nincsenek kritikus hi√°nyz√≥ √©rt√©kek")
else:
    print("‚ùå Nincs adat a hi√°nyz√≥ √©rt√©kek elemz√©s√©hez")

## 4. Sz√∂veghossz Elemz√©se

A chunkok sz√∂vegeinek hossza (karakterek √©s szavak sz√°ma szerint).

In [None]:
if df is not None and not df.empty and 'text' in df.columns:
    print("üìè Sz√∂veghossz elemz√©se:")
    
    # Karakterek √©s szavak sz√°ma
    df['karakter_szam'] = df['text'].astype(str).apply(len)
    df['szo_szam'] = df['text'].astype(str).apply(lambda x: len(x.split()))
    
    print("Sz√∂veghossz statisztik√°k:")
    display(df[['karakter_szam', 'szo_szam']].describe())
    
    # Embedding modell k√∂vetelm√©nyeinek ellen≈ërz√©se
    max_length = getattr(config, 'EMBEDDING_MAX_LENGTH', 512)
    long_chunks = df[df['karakter_szam'] > max_length]
    print(f"\nChunkok sz√°ma, amelyek hosszabbak {max_length} karaktern√©l: {len(long_chunks)} ({100*len(long_chunks)/len(df):.1f}%)")
    
    if len(long_chunks) > 0:
        print(f"Leghosszabb chunk: {df['karakter_szam'].max()} karakter")
        print(f"Legr√∂videbb hossz√∫ chunk: {long_chunks['karakter_szam'].min()} karakter")
        
        # Leghosszabb chunk r√©szlete
        longest_chunk = df.loc[df['karakter_szam'].idxmax()]
        print(f"\nLeghosszabb chunk r√©szlete:")
        print(f"doc_id: {longest_chunk.get('doc_id', 'N/A')}")
        print(f"chunk_id: {longest_chunk.get('chunk_id', 'N/A')}")
        print(f"text: {str(longest_chunk['text'])[:200]}...")
    
    # Eloszl√°sok vizualiz√°ci√≥ja
    plt.figure(figsize=(14, 6))
    
    # Karakterek sz√°m√°nak eloszl√°sa
    plt.subplot(1, 2, 1)
    sns.histplot(x=df['karakter_szam'], bins=50, kde=True)
    plt.title('Chunk karakterhossz eloszl√°sa')
    plt.xlabel('Karakterek sz√°ma')
    plt.ylabel('Chunkok sz√°ma')
    plt.grid(True, alpha=0.3)
    
    # Szavak sz√°m√°nak eloszl√°sa
    plt.subplot(1, 2, 2)
    sns.histplot(x=df['szo_szam'], bins=50, kde=True)
    plt.title('Chunk sz√≥sz√°m eloszl√°sa')
    plt.xlabel('Szavak sz√°ma')
    plt.ylabel('Chunkok sz√°ma')
    plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # Boxplotok
    plt.figure(figsize=(12, 6))
    plt.subplot(1, 2, 1)
    sns.boxplot(y=df['karakter_szam'])
    plt.title('Chunk karakterhossz boxplot')
    plt.ylabel('Karakterek sz√°ma')
    plt.grid(True, alpha=0.3)
    
    plt.subplot(1, 2, 2)
    sns.boxplot(y=df['szo_szam'])
    plt.title('Chunk sz√≥sz√°m boxplot')
    plt.ylabel('Szavak sz√°ma')
    plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
else:
    print("‚ùå Nincs 'text' oszlop a sz√∂veghossz elemz√©s√©hez")

## 5. Kategorikus V√°ltoz√≥k Elemz√©se

A chunkok metadatainak kategorikus v√°ltoz√≥i.

In [None]:
def plot_top_categories(df, column_name, top_n=20):
    """Seg√©df√ºggv√©ny a leggyakoribb kateg√≥ri√°k megjelen√≠t√©s√©re."""
    if column_name not in df.columns:
        print(f"‚ùå '{column_name}' oszlop nem tal√°lhat√≥")
        return
    
    counts = df[column_name].value_counts()
    print(f"\n'{column_name}' egyedi √©rt√©keinek sz√°ma: {counts.nunique()}")
    print(f"Leggyakoribb {top_n} √©rt√©k:")
    display(counts.head(top_n))
    
    plt.figure(figsize=(12, 6))
    counts.head(top_n).plot(kind='bar')
    plt.title(f'Chunkok megoszl√°sa - {column_name} (Top {top_n})')
    plt.xlabel(column_name)
    plt.ylabel('Chunkok sz√°ma')
    plt.xticks(rotation=75, ha='right')
    plt.grid(axis='y')
    plt.tight_layout()
    plt.show()

if df is not None and not df.empty:
    print("üìä Kategorikus v√°ltoz√≥k elemz√©se:")
    
    # B√≠r√≥s√°g elemz√©se
    if 'birosag' in df.columns:
        plot_top_categories(df, 'birosag', top_n=30)
    
    # Jogter√ºlet elemz√©se
    if 'JogTerulet' in df.columns:
        plot_top_categories(df, 'JogTerulet', top_n=20)
    
    # Egy√©b fontos kategorikus v√°ltoz√≥k
    for col in ['MeghozoBirosag', 'Kollegium', 'Azonosito']:
        if col in df.columns:
            plot_top_categories(df, col, top_n=15)
else:
    print("‚ùå Nincs adat a kategorikus v√°ltoz√≥k elemz√©s√©hez")

## 6. Gyakori Szavak Elemz√©se

A chunkokban leggyakrabban el≈ëfordul√≥ szavak elemz√©se.

In [None]:
if df is not None and not df.empty and 'text' in df.columns:
    print("üî§ Gyakori szavak elemz√©se:")
    
    # Mivel nagy lehet az adathalmaz, vegy√ºnk egy mint√°t
    sample_size = min(len(df), 10000)
    sample_df = df.sample(n=sample_size, random_state=42)
    print(f"Sz√≥elemz√©s mintanagys√°ga: {sample_size} chunk")
    
    # Egyszer≈± tokeniz√°l√°s
    def simple_tokenize(text):
        return [word.lower() for word in text.split() if word.strip()]
    
    # Szavak gyakoris√°g√°nak sz√°m√≠t√°sa
    word_counts = Counter()
    total_words = 0
    
    for text in sample_df['text'].astype(str):
        tokens = simple_tokenize(text)
        word_counts.update(tokens)
        total_words += len(tokens)
    
    # Top 30 sz√≥ kiv√°laszt√°sa
    top_words = word_counts.most_common(30)
    word_freq = pd.DataFrame(top_words, columns=['szo', 'gyakorisag'])
    
    print(f"Top 30 leggyakoribb sz√≥ (√∂sszes sz√≥: {total_words:,}):")
    display(word_freq)
    
    # Vizualiz√°ci√≥
    plt.figure(figsize=(12, 8))
    sns.barplot(x='gyakorisag', y='szo', data=word_freq)
    plt.title('Top 30 leggyakoribb sz√≥ a chunkokban')
    plt.xlabel('Gyakoris√°g')
    plt.ylabel('Sz√≥')
    plt.grid(axis='x', alpha=0.3)
    plt.show()
    
    # T√∂ltel√©kszavak ar√°nya
    stop_words = ['√©s', 'a', 'az', 'de', 'hogy', 'is', 'nem', 'van', 'lesz', 'volt', 'mint']
    stop_word_count = sum(word_counts.get(word, 0) for word in stop_words)
    stop_word_ratio = stop_word_count / total_words if total_words > 0 else 0
    print(f"\nT√∂ltel√©kszavak ar√°nya: {stop_word_ratio:.2%}")
    print(f"T√∂ltel√©kszavak √∂sszesen: {stop_word_count:,}")
    
    # Sz√≥hossz eloszl√°s
    word_lengths = [len(word) for word in word_counts.keys()]
    plt.figure(figsize=(10, 6))
    plt.hist(word_lengths, bins=range(1, max(word_lengths) + 2), alpha=0.7)
    plt.title('Sz√≥hossz eloszl√°sa a chunkokban')
    plt.xlabel('Sz√≥ hossza (karakter)')
    plt.ylabel('Szavak sz√°ma')
    plt.grid(True, alpha=0.3)
    plt.show()
else:
    print("‚ùå Nincs 'text' oszlop a gyakori szavak elemz√©s√©hez")

## 7. Chunk Szerkezet Elemz√©se

A chunkok bels≈ë szerkezet√©nek √©s tartalm√°nak elemz√©se.

In [None]:
if df is not None and not df.empty and 'text' in df.columns:
    print("üèóÔ∏è Chunk szerkezet elemz√©se:")
    
    # Els≈ë chunk teljes tartalm√°nak megjelen√≠t√©se
    first_chunk_text = df['text'].iloc[0] if len(df) > 0 else ''
    print("\nEls≈ë chunk teljes sz√∂vege:")
    print("=" * 50)
    print(first_chunk_text)
    print("=" * 50)
    
    # Sz√∂veg strukt√∫ra elemz√©s
    sample_df = df.sample(min(1000, len(df)), random_state=42)
    
    # Mondatok √©s bekezd√©sek elemz√©se
    sample_df['mondat_szam'] = sample_df['text'].astype(str).apply(
        lambda x: len([s for s in x.split('.') if s.strip()]) if '.' in x else 1
    )
    sample_df['bekezdes_szam'] = sample_df['text'].astype(str).apply(
        lambda x: len([p for p in x.split('\n') if p.strip()]) if '\n' in x else 1
    )
    
    print(f"\nSz√∂veg strukt√∫ra statisztik√°k (minta: {len(sample_df)} chunk):")
    display(sample_df[['mondat_szam', 'bekezdes_szam']].describe())
    
    # Strukt√∫ra vizualiz√°ci√≥
    plt.figure(figsize=(14, 6))
    
    plt.subplot(1, 2, 1)
    sns.histplot(x=sample_df['mondat_szam'], bins=30, kde=True)
    plt.title('Mondatok sz√°ma chunkonk√©nt')
    plt.xlabel('Mondatok sz√°ma')
    plt.ylabel('Chunkok sz√°ma')
    plt.grid(True, alpha=0.3)
    
    plt.subplot(1, 2, 2)
    sns.histplot(x=sample_df['bekezdes_szam'], bins=30, kde=True)
    plt.title('Bekezd√©sek sz√°ma chunkonk√©nt')
    plt.xlabel('Bekezd√©sek sz√°ma')
    plt.ylabel('Chunkok sz√°ma')
    plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # Sz√∂veg komplexit√°s
    sample_df['atlag_mondat_hossz'] = sample_df.apply(
        lambda row: row['karakter_szam'] / max(row['mondat_szam'], 1), axis=1
    )
    
    print(f"\nSz√∂veg komplexit√°s:")
    display(sample_df['atlag_mondat_hossz'].describe())
    
    plt.figure(figsize=(10, 6))
    plt.hist(sample_df['atlag_mondat_hossz'], bins=50, alpha=0.7)
    plt.title('√Åtlagos mondathossz eloszl√°sa')
    plt.xlabel('Karakterek mondatonk√©nt')
    plt.ylabel('Chunkok sz√°ma')
    plt.grid(True, alpha=0.3)
    plt.show()
else:
    print("‚ùå Nincs 'text' oszlop a chunk szerkezet elemz√©s√©hez")

## 8. Metadatok √©s Sz√∂veg Kapcsolata

A chunk metadatok √©s a sz√∂veges tartalom k√∂z√∂tti kapcsolatok.

In [None]:
if df is not None and not df.empty and 'text' in df.columns and 'karakter_szam' in df.columns:
    print("üîó Metadatok √©s sz√∂veg kapcsolata:")
    
    # Sz√∂veghossz √©s kategorikus v√°ltoz√≥k kapcsolata
    categorical_cols = ['birosag', 'JogTerulet', 'MeghozoBirosag']
    available_cols = [col for col in categorical_cols if col in df.columns]
    
    for col in available_cols[:3]:  # Maximum 3 kategorikus v√°ltoz√≥
        if df[col].nunique() <= 20:  # Csak ha nem t√∫l sok egyedi √©rt√©k
            plt.figure(figsize=(12, 6))
            top_categories = df[col].value_counts().nlargest(10).index
            df_filtered = df[df[col].isin(top_categories)]
            
            sns.boxplot(data=df_filtered, x=col, y='karakter_szam')
            plt.title(f'Sz√∂veghossz eloszl√°sa - {col}')
            plt.xlabel(col)
            plt.ylabel('Karakterek sz√°ma')
            plt.xticks(rotation=45, ha='right')
            plt.grid(True, alpha=0.3)
            plt.show()
    
    # Korrel√°ci√≥ numerikus v√°ltoz√≥k k√∂z√∂tt
    numeric_cols = ['karakter_szam', 'szo_szam', 'HatarozatEve']
    available_numeric = [col for col in numeric_cols if col in df.columns and df[col].dtype in ['int64', 'float64']]
    
    if len(available_numeric) > 1:
        correlation_matrix = df[available_numeric].corr()
        
        plt.figure(figsize=(8, 6))
        sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0)
        plt.title('Numerikus v√°ltoz√≥k korrel√°ci√≥ja')
        plt.show()
        
        print("\nKorrel√°ci√≥s m√°trix:")
        display(correlation_matrix)
else:
    print("‚ùå Nincs el√©g adat a metadatok √©s sz√∂veg kapcsolat elemz√©s√©hez")

## 9. Chunk Min≈ës√©g Ellen≈ërz√©se

A chunking min≈ës√©g√©nek √©s konzisztenci√°j√°nak ellen≈ërz√©se.

In [None]:
if df is not None and not df.empty:
    print("‚úÖ Chunk min≈ës√©g ellen≈ërz√©se:")
    
    # Alapvet≈ë ellen≈ërz√©sek
    quality_issues = {}
    
    # 1. √úres vagy t√∫l r√∂vid chunkok
    if 'karakter_szam' in df.columns:
        empty_chunks = df[df['karakter_szam'] < 50].shape[0]
        quality_issues['T√∫l r√∂vid chunkok (<50 karakter)'] = empty_chunks
    
    # 2. T√∫l hossz√∫ chunkok
    if 'karakter_szam' in df.columns:
        max_length = getattr(config, 'EMBEDDING_MAX_LENGTH', 512)
        long_chunks = df[df['karakter_szam'] > max_length].shape[0]
        quality_issues[f'T√∫l hossz√∫ chunkok (>{max_length} karakter)'] = long_chunks
    
    # 3. Hi√°nyz√≥ metadatok
    required_cols = ['doc_id', 'chunk_id']
    for col in required_cols:
        if col in df.columns:
            missing = df[col].isnull().sum()
            if missing > 0:
                quality_issues[f'Hi√°nyz√≥ {col}'] = missing
    
    # 4. Duplik√°lt chunk_id-k
    if 'chunk_id' in df.columns:
        duplicates = df['chunk_id'].duplicated().sum()
        if duplicates > 0:
            quality_issues['Duplik√°lt chunk_id-k'] = duplicates
    
    # 5. Hi√°nyz√≥ sz√∂veg
    if 'text' in df.columns:
        empty_text = df[df['text'].astype(str).str.len() < 10].shape[0]
        if empty_text > 0:
            quality_issues['T√∫l r√∂vid/√ºres sz√∂veg'] = empty_text
    
    # Eredm√©nyek megjelen√≠t√©se
    if quality_issues:
        print("\n‚ö†Ô∏è Chunk min≈ës√©gi probl√©m√°k:")
        for issue, count in quality_issues.items():
            print(f"  {issue}: {count} db ({100*count/len(df):.1f}%)")
        
        # Probl√©m√°s chunkok r√©szletei
        print("\nProbl√©m√°s chunkok r√©szletei:")
        problematic_mask = pd.Series(False, index=df.index)
        
        if 'karakter_szam' in df.columns:
            problematic_mask |= (df['karakter_szam'] < 50)
            problematic_mask |= (df['karakter_szam'] > max_length)
        
        if 'text' in df.columns:
            problematic_mask |= (df['text'].astype(str).str.len() < 10)
        
        if problematic_mask.any():
            problematic_df = df[problematic_mask].head(5)
            for i, (_, chunk) in enumerate(problematic_df.iterrows()):
                print(f"\nProbl√©m√°s chunk {i+1}:")
                print(f"  chunk_id: {chunk.get('chunk_id', 'N/A')}")
                print(f"  doc_id: {chunk.get('doc_id', 'N/A')}")
                if 'karakter_szam' in chunk:
                    print(f"  karakter_szam: {chunk['karakter_szam']}")
                if 'text' in chunk:
                    text_preview = str(chunk['text'])[:150] + "..." if len(str(chunk['text'])) > 150 else str(chunk['text'])
                    print(f"  text: {text_preview}")
    else:
        print("\n‚úÖ Nincsenek jelent≈ës min≈ës√©gi probl√©m√°k")
        
    # √ñsszefoglal√≥ statisztik√°k
    print("\nüìä Chunk min≈ës√©g √∂sszefoglal√≥:")
    print(f"  √ñsszes chunk: {len(df)}")
    if 'karakter_szam' in df.columns:
        print(f"  √Åtlagos karakterhossz: {df['karakter_szam'].mean():.0f}")
        print(f"  Medi√°n karakterhossz: {df['karakter_szam'].median():.0f}")
    if 'szo_szam' in df.columns:
        print(f"  √Åtlagos sz√≥sz√°m: {df['szo_szam'].mean():.0f}")
        print(f"  Medi√°n sz√≥sz√°m: {df['szo_szam'].median():.0f}")
    
    # Chunk eloszl√°s b√≠r√≥s√°g szerint
    if 'birosag' in df.columns:
        chunks_per_court = df.groupby('birosag').size().sort_values(ascending=False)
        print(f"\nChunkok eloszl√°sa b√≠r√≥s√°g szerint (Top 5):")
        for court, count in chunks_per_court.head().items():
            print(f"  {court}: {count} chunk")
else:
    print("‚ùå Nincs adat a chunk min≈ës√©g ellen≈ërz√©s√©hez")

## 10. K√∂vetkeztet√©sek

A chunk adatok ki√©rt√©kel√©s√©nek √∂sszefoglal√°sa.

In [None]:
print("=== CHUNK ADATOK ELEMZ√âS √ñSSZEFOGLAL√ì ===")
print("\n‚úÖ Sikeresen elemezve:")
if df is not None:
    print(f"   üìÑ Chunkok: {len(df)} db")
    print(f"   üìä Oszlopok: {len(df.columns)} db")
    
    # Alapvet≈ë statisztik√°k
    if 'karakter_szam' in df.columns:
        print(f"   üìè √Åtlagos karakterhossz: {df['karakter_szam'].mean():.0f}")
        print(f"   üìè Medi√°n karakterhossz: {df['karakter_szam'].median():.0f}")
    
    if 'szo_szam' in df.columns:
        print(f"   üî§ √Åtlagos sz√≥sz√°m: {df['szo_szam'].mean():.0f}")
        print(f"   üî§ Medi√°n sz√≥sz√°m: {df['szo_szam'].median():.0f}")
    
    # Hi√°nyz√≥ √©rt√©kek
    missing_total = df.isnull().sum().sum()
    total_cells = df.shape[0] * df.shape[1]
    missing_ratio = missing_total / total_cells * 100
    print(f"   ‚ùå Hi√°nyz√≥ √©rt√©kek: {missing_total}/{total_cells} ({missing_ratio:.2f}%)")
    
    # Unikalit√°s
    if 'chunk_id' in df.columns:
        unique_chunks = df['chunk_id'].nunique()
        print(f"   üÜî Egyedi chunk_id: {unique_chunks}/{len(df)} ({100 * unique_chunks / len(df):.2f}%)")

print("\nüìã Agents.md specifik√°ci√≥ ellen≈ërz√©s:")
if df is not None:
    # Alapvet≈ë metadatok megl√©te
    required_cols = ['doc_id', 'chunk_id', 'text']
    missing_required = [col for col in required_cols if col not in df.columns]
    if not missing_required:
        print("   ‚úÖ Alapvet≈ë metadatok jelen vannak")
    else:
        print(f"   ‚ùå Hi√°nyz√≥ alapvet≈ë metadatok: {missing_required}")
    
    # Sz√∂veghossz ellen≈ërz√©s
    if 'karakter_szam' in df.columns:
        max_length = getattr(config, 'EMBEDDING_MAX_LENGTH', 512)
        long_chunks = df[df['karakter_szam'] > max_length].shape[0]
        if long_chunks == 0:
            print("   ‚úÖ Nincsenek t√∫l hossz√∫ chunkok")
        else:
            print(f"   ‚ö†Ô∏è T√∫l hossz√∫ chunkok: {long_chunks}/{len(df)} ({100*long_chunks/len(df):.1f}%)")
    
    # Jogter√ºletek
    if 'JogTerulet' in df.columns:
        valid_domains = df['JogTerulet'].notna().sum()
        print(f"   ‚öñÔ∏è √ârv√©nyes jogter√ºletek: {valid_domains}/{len(df)} ({100 * valid_domains / len(df):.2f}%)")

print("\nüí° Aj√°nl√°sok:")
if df is not None:
    # Chunking probl√©m√°k
    if 'karakter_szam' in df.columns:
        max_length = getattr(config, 'EMBEDDING_MAX_LENGTH', 512)
        short_chunks = df[df['karakter_szam'] < 50].shape[0]
        long_chunks = df[df['karakter_szam'] > max_length].shape[0]
        
        if short_chunks > len(df) * 0.1:  # 10% feletti ar√°ny
            print(f"   üîß T√∫l sok r√∂vid chunk: {short_chunks} db - chunking param√©terek finomhangol√°sa sz√ºks√©ges")
        
        if long_chunks > len(df) * 0.1:  # 10% feletti ar√°ny
            print(f"   ‚úÇÔ∏è T√∫l sok hossz√∫ chunk: {long_chunks} db - chunking param√©terek finomhangol√°sa sz√ºks√©ges")
    
    # Hi√°nyz√≥ metadatok
    missing_cols = df.columns[df.isnull().sum() > len(df) * 0.5]  # 50% feletti hi√°ny
    if len(missing_cols) > 0:
        print(f"   üìù Kritikus hi√°nyz√≥ metadatok: {list(missing_cols)} - jav√≠t√°s sz√ºks√©ges")
    
    # Duplik√°lt chunk_id-k
    if 'chunk_id' in df.columns:
        duplicates = df['chunk_id'].duplicated().sum()
        if duplicates > 0:
            print(f"   üÜî Duplik√°lt chunk_id-k jav√≠t√°sa: {duplicates} db")

print("\nüéØ Chunk adatok elemz√©se k√©sz - a retrieval rendszer haszn√°latra k√©sz!")