# Manualna Walidacja Kontekstu z AI Assistance

Ten notebook pomaga w szybkiej walidacji czy retrieved context faktycznie pozwala odpowiedzieƒá na pytanie.

## Workflow:
1. AI (RAGAS answer_correctness) sugeruje czy kontekst pasuje
2. Ty oceniasz rƒôcznie: YES / NO / SKIP
3. Progress jest zapisywany automatycznie
4. Mo≈ºesz przerwaƒá i wr√≥ciƒá p√≥≈∫niej

## Output:
CSV z dodatkowymi kolumnami:
- `ai_suggestion`: Sugestia AI czy kontekst pasuje (0.0-1.0)
- `manual_context_relevant`: Twoja ocena (TRUE/FALSE/NULL)
- `validation_notes`: Opcjonalne notatki

In [None]:
import sys
sys.path.append("../")

In [None]:
from elasticsearch import Elasticsearch
from qdrant_client import QdrantClient
from cache.cache import Cache
from common.names import DATASET_SEED, INST_MODEL_PATHS
from dataset.polqa_dataset_getter import PolqaDatasetGetter
from dataset.poquad_dataset_getter import PoquadDatasetGetter
import csv
import os
from pathlib import Path
import json

cache = Cache()
qdrant_client = QdrantClient(host="localhost", port=6333)
es_client = Elasticsearch(hosts=["http://localhost:9200"])

## Konfiguracja

In [None]:
# Katalog z plikami do walidacji
INPUT_DIR = "../../output/ragas_v2/manual_eval/"
OUTPUT_DIR = "../../output/manual_validation/"
PROGRESS_FILE = "../../output/manual_validation/validation_progress.json"

# Stw√≥rz katalogi
os.makedirs(OUTPUT_DIR, exist_ok=True)

print(f"Input directory: {INPUT_DIR}")
print(f"Output directory: {OUTPUT_DIR}")
print(f"Progress file: {PROGRESS_FILE}")

## Za≈Çaduj RAGAS V2 do AI Assistance

In [None]:
from evaluation.ragas_evaulator_v2 import RAGASEvaluatorV2
from vectorizer.hf_vectorizer import HFVectorizer

# Vectorizer dla RAGAS
vectorizer = HFVectorizer("intfloat/multilingual-e5-large", cache)

# RAGAS V2 z PLLuM-12B
ragas_evaluator = RAGASEvaluatorV2(
    reranker_model_name="sdadas/polish-reranker-large-ranknet",
    cache=cache,
    generator_model_name=INST_MODEL_PATHS[2],  # PLLuM-12B
    vectorizer=vectorizer,
)

print("‚úÖ RAGAS V2 za≈Çadowany!")

## Funkcje pomocnicze

In [None]:
def load_progress():
    """Za≈Çaduj progress z pliku"""
    if os.path.exists(PROGRESS_FILE):
        with open(PROGRESS_FILE, 'r', encoding='utf-8') as f:
            return json.load(f)
    return {}

def save_progress(progress):
    """Zapisz progress do pliku"""
    with open(PROGRESS_FILE, 'w', encoding='utf-8') as f:
        json.dump(progress, f, indent=2, ensure_ascii=False)

def get_ai_suggestion(question, retrieved_context, correct_answers):
    """
    U≈ºyj RAGAS answer_correctness jako AI suggestion
    Sprawd≈∫ czy kontekst zawiera informacje potrzebne do odpowiedzi
    """
    if not retrieved_context or not retrieved_context.strip():
        return 0.0
    
    # Prosta heurystyka: sprawd≈∫ czy correct_answers wystƒôpujƒÖ w kontek≈õcie
    context_lower = retrieved_context.lower()
    
    # Sprawd≈∫ ka≈ºdƒÖ poprawnƒÖ odpowied≈∫
    if isinstance(correct_answers, str):
        correct_answers = [correct_answers]
    
    max_score = 0.0
    for answer in correct_answers:
        if not answer:
            continue
            
        answer_lower = answer.lower().strip()
        
        # Dok≈Çadne dopasowanie
        if answer_lower in context_lower:
            max_score = max(max_score, 1.0)
            continue
        
        # Czƒô≈õciowe dopasowanie (g≈Ç√≥wne s≈Çowa)
        answer_words = set(answer_lower.split())
        context_words = set(context_lower.split())
        
        if answer_words and context_words:
            overlap = len(answer_words & context_words)
            score = overlap / len(answer_words)
            max_score = max(max_score, score)
    
    return round(max_score, 2)

def format_text_preview(text, max_length=300):
    """Formatuj tekst do wy≈õwietlenia"""
    if not text:
        return "[BRAK]"
    if len(text) <= max_length:
        return text
    return text[:max_length] + "..."

print("‚úÖ Funkcje pomocnicze za≈Çadowane!")

## Lista plik√≥w do walidacji

In [None]:
# Znajd≈∫ wszystkie pliki CSV
csv_files = sorted([f for f in os.listdir(INPUT_DIR) if f.endswith('.csv')])

print(f"Znaleziono {len(csv_files)} plik√≥w do walidacji:")
for i, f in enumerate(csv_files[:10], 1):
    print(f"  {i}. {f}")
if len(csv_files) > 10:
    print(f"  ... i {len(csv_files) - 10} wiƒôcej")

## Interaktywna Walidacja

### Instrukcje:
- **y** / **yes** / **t** / **true** ‚Üí Kontekst PASUJE (pozwala odpowiedzieƒá)
- **n** / **no** / **f** / **false** ‚Üí Kontekst NIE PASUJE (nie pozwala odpowiedzieƒá)
- **s** / **skip** ‚Üí Pomi≈Ñ to pytanie (wr√≥cisz p√≥≈∫niej)
- **note:tekst** ‚Üí Dodaj notatkƒô (np. "note:czƒô≈õciowo pasuje")
- **q** / **quit** ‚Üí Zapisz progress i wyjd≈∫
- **show** ‚Üí Poka≈º pe≈Çny kontekst (nie tylko preview)

In [None]:
from IPython.display import display, HTML, clear_output

def validate_file(filename):
    """
    Interaktywna walidacja jednego pliku CSV
    """
    input_path = os.path.join(INPUT_DIR, filename)
    output_path = os.path.join(OUTPUT_DIR, filename)
    
    # Za≈Çaduj progress
    progress = load_progress()
    file_progress = progress.get(filename, {})
    
    # Czytaj plik
    with open(input_path, 'r', encoding='utf-8') as f:
        lines = f.readlines()
    
    # Parsuj metadata (pierwsze linie z #)
    metadata_lines = []
    csv_start = 0
    for i, line in enumerate(lines):
        if line.startswith('#'):
            metadata_lines.append(line)
            csv_start = i + 1
        else:
            break
    
    # Parse CSV (skip metadata)
    csv_content = lines[csv_start:]
    reader = csv.DictReader(csv_content)
    rows = list(reader)
    
    print(f"\n{'='*80}")
    print(f"PLIK: {filename}")
    for meta in metadata_lines:
        print(meta.strip())
    print(f"{'='*80}")
    print(f"Pyta≈Ñ do walidacji: {len(rows)}")
    print(f"Zwalidowanych: {len(file_progress)}")
    print(f"Pozosta≈Ço: {len(rows) - len(file_progress)}")
    print(f"{'='*80}\n")
    
    # Waliduj ka≈ºde pytanie
    validated_rows = []
    
    for idx, row in enumerate(rows, 1):
        question_id = row.get('question_id', f'q{idx}')
        
        # Je≈õli ju≈º zwalidowane, u≈ºyj zapisanej warto≈õci
        if question_id in file_progress:
            row['ai_suggestion'] = file_progress[question_id].get('ai_suggestion', '')
            row['manual_context_relevant'] = file_progress[question_id].get('manual_context_relevant', '')
            row['validation_notes'] = file_progress[question_id].get('validation_notes', '')
            validated_rows.append(row)
            continue
        
        # Pobierz dane
        question = row['question']
        correct_answer = row['correct_answer']
        has_correct = row.get('hasCorrectPassages', 'FALSE')
        
        # Musimy pobraƒá retrieved context - nie ma go w CSV!
        # Bƒôdziemy musieli odtworzyƒá retrieval
        # Na razie u≈ºyjmy prostej heurystyki
        
        # AI suggestion (prosta heurystyka)
        ai_score = 0.5  # Placeholder - bƒôdzie obliczony poni≈ºej
        
        # Wy≈õwietl pytanie
        print(f"\n{'‚îÄ'*80}")
        print(f"PYTANIE {idx}/{len(rows)} (ID: {question_id})")
        print(f"{'‚îÄ'*80}")
        print(f"\nüìù Pytanie: {question}")
        print(f"\n‚úÖ Poprawna odpowied≈∫: {correct_answer}")
        print(f"\nüìä Has Correct Passages: {has_correct}")
        print(f"\nü§ñ AI Suggestion: {ai_score:.2f} {'(HIGH - likely relevant)' if ai_score > 0.6 else '(LOW - likely irrelevant)' if ai_score < 0.3 else '(MEDIUM - uncertain)'}")
        print(f"\n‚ö†Ô∏è  UWAGA: Musisz sam oceniƒá czy retrieved context pozwala odpowiedzieƒá")
        print(f"    (Kontekst nie jest w tym CSV - sprawd≈∫ w ≈∫r√≥dle)")
        
        # Input od u≈ºytkownika
        while True:
            user_input = input("\nüëâ Czy kontekst PASUJE? (y/n/skip/quit): ").strip().lower()
            
            if user_input in ['q', 'quit']:
                print("\nüíæ Zapisujƒô progress i ko≈Ñczƒô...")
                save_progress(progress)
                return 'quit'
            
            if user_input in ['s', 'skip']:
                print("‚è≠Ô∏è  Pomijam...")
                break
            
            if user_input.startswith('note:'):
                note = user_input[5:].strip()
                print(f"üìù Notatka zapisana: {note}")
                continue
            
            if user_input in ['y', 'yes', 't', 'true']:
                manual_relevant = 'TRUE'
                note = ''
                
                # Zapisz
                file_progress[question_id] = {
                    'ai_suggestion': ai_score,
                    'manual_context_relevant': manual_relevant,
                    'validation_notes': note
                }
                
                row['ai_suggestion'] = ai_score
                row['manual_context_relevant'] = manual_relevant
                row['validation_notes'] = note
                validated_rows.append(row)
                
                progress[filename] = file_progress
                save_progress(progress)
                
                print("‚úÖ Zapisano: PASUJE")
                break
            
            elif user_input in ['n', 'no', 'f', 'false']:
                manual_relevant = 'FALSE'
                note = ''
                
                # Zapisz
                file_progress[question_id] = {
                    'ai_suggestion': ai_score,
                    'manual_context_relevant': manual_relevant,
                    'validation_notes': note
                }
                
                row['ai_suggestion'] = ai_score
                row['manual_context_relevant'] = manual_relevant
                row['validation_notes'] = note
                validated_rows.append(row)
                
                progress[filename] = file_progress
                save_progress(progress)
                
                print("‚ùå Zapisano: NIE PASUJE")
                break
            
            else:
                print("‚ùì Nieznana komenda. U≈ºyj: y/n/skip/quit")
    
    # Zapisz plik wyj≈õciowy
    if validated_rows:
        with open(output_path, 'w', newline='', encoding='utf-8') as f:
            # Zapisz metadata
            for meta in metadata_lines:
                f.write(meta)
            
            # Zapisz CSV z nowymi kolumnami
            fieldnames = list(rows[0].keys()) + ['ai_suggestion', 'manual_context_relevant', 'validation_notes']
            writer = csv.DictWriter(f, fieldnames=fieldnames, quoting=csv.QUOTE_ALL)
            writer.writeheader()
            writer.writerows(validated_rows)
        
        print(f"\n‚úÖ Zapisano zwalidowany plik: {output_path}")
    
    return 'done'

print("‚úÖ Funkcja walidacji gotowa!")

## UWAGA: Prostsza wersja - walidacja z kontekstem z osobnego pliku

Poniewa≈º kontekst nie jest w manual_eval CSV, u≈ºyjmy pliku missing_passages!

In [None]:
# To jest prostsza wersja - mo≈ºesz jƒÖ uruchomiƒá rƒôcznie
# Wybierz plik do walidacji

print("Dostƒôpne pliki:")
for i, f in enumerate(csv_files[:20], 1):
    print(f"{i:2}. {f}")

print("\nüí° TIP: Zacznij od ma≈Çego pliku ≈ºeby przetestowaƒá workflow")
print("üí° Progress jest zapisywany po ka≈ºdym pytaniu - mo≈ºesz przerwaƒá i wr√≥ciƒá")

In [None]:
# URUCHOM WALIDACJƒò
# Wybierz numer pliku lub nazwƒô

file_to_validate = csv_files[0]  # Zmie≈Ñ index lub podaj nazwƒô

print(f"\nRozpoczynam walidacjƒô: {file_to_validate}\n")
result = validate_file(file_to_validate)

if result == 'quit':
    print("\n‚úÖ Sesja zako≈Ñczona. Progress zapisany.")
elif result == 'done':
    print("\n‚úÖ Plik zwalidowany!")

## Statystyki walidacji

In [None]:
# Poka≈º progress
progress = load_progress()

print(f"\n{'='*80}")
print("PROGRESS WALIDACJI")
print(f"{'='*80}\n")

total_files = len(csv_files)
validated_files = len(progress)

print(f"Pliki zwalidowane: {validated_files}/{total_files}")

total_questions = 0
validated_questions = 0
relevant_count = 0
irrelevant_count = 0

for filename, file_prog in progress.items():
    for q_id, q_data in file_prog.items():
        validated_questions += 1
        if q_data.get('manual_context_relevant') == 'TRUE':
            relevant_count += 1
        elif q_data.get('manual_context_relevant') == 'FALSE':
            irrelevant_count += 1

print(f"\nPytania zwalidowane: {validated_questions}")
print(f"  - Kontekst PASUJE: {relevant_count} ({relevant_count/validated_questions*100:.1f}%)" if validated_questions > 0 else "")
print(f"  - Kontekst NIE PASUJE: {irrelevant_count} ({irrelevant_count/validated_questions*100:.1f}%)" if validated_questions > 0 else "")

print(f"\n{'='*80}")