# Analyse Tos;dr data

## Load libraries

In [21]:
import json
import random
from pathlib import Path

from rich.console import Console
from rich.progress import (
    Progress, SpinnerColumn, BarColumn, TextColumn, 
    TimeRemainingColumn, MofNCompleteColumn
)
from rich.markdown import Markdown
from rich.panel import Panel
from rich.rule import Rule

## Global variables

In [22]:
ROOT = Path('../..')
DATA_DIR = ROOT / "data" / "TOSDR"
MARKDOWN_OUTPUT = DATA_DIR / "tosdr_markdowns_en.jsonl"

console = Console()

In [23]:
# Read the jsonl file 
def display_random_samples(n=3):
    """Charge le fichier de sortie et affiche n exemples aléatoires en Markdown"""
    if not MARKDOWN_OUTPUT.exists():
        console.print(f"[red]Erreur : Le fichier {MARKDOWN_OUTPUT} n'existe pas encore.[/red]")
        return

    # Chargement des données réussies uniquement
    samples = []
    with open(MARKDOWN_OUTPUT, "r", encoding="utf-8") as f:
        for line in f:
            try:
                data = json.loads(line)
                if data.get("status") == "success":
                    samples.append(data)
            except:
                continue

    if not samples:
        console.print("[yellow]Aucun exemple réussi à afficher.[/yellow]")
        return

    # Sélection aléatoire
    num_to_show = min(n, len(samples))
    selected = random.sample(samples, num_to_show)

    console.print(Rule(f"[bold magenta]Affichage de {num_to_show} exemples aléatoires"))

    for i, item in enumerate(selected, 1):
        # Création de l'en-tête pour l'exemple
        header = f"[bold green]Exemple {i}: {item['service_name']}[/bold green] | [dim]{item['doc_name']}[/dim]"
        url_text = f"[blue underline]{item['url']}[/blue underline]"
        
        console.print(f"\n{header}")
        console.print(url_text)
        
        # Rendu du Markdown dans un panneau pour bien le délimiter
        # On limite la hauteur pour ne pas flooder le terminal si le doc est immense
        md_content = Markdown(item['markdown'])
        console.print(Panel(md_content, border_style="bright_blue", title="Contenu Markdown Extrait"))
        
        console.print(Rule(style="dim"))

# Pour l'appeler après votre scraper :
# await main_scraper()
display_random_samples(2)