# Cervella Baby POC - Week 3 (FINALE)

> **TIER 3 - Complex Tasks (T19-T20) + GO/NO-GO Decision**

---

## Stato POC

| Week | Task | Risultato | Score |
|------|------|-----------|-------|
| Week 1 | T01-T10 (Simple) | PASS 9/10 | ~85% |
| Week 2 | T11-T18 (Medium) | PASS 8/8 | 89.4% |
| **Week 3** | **T19-T20 (Complex)** | **IN CORSO** | **?** |

---

## About Week 3

| Item | Value |
|------|-------|
| **Task** | T19-T20 (TIER 3 - Complex) |
| **Obiettivo** | Documentare GAP su task complessi |
| **Threshold** | 70% score (ma non richiesto per PASS POC) |
| **GO/NO-GO** | 1 Febbraio 2026 |

---

**NOTA IMPORTANTE:**
I task TIER 3 servono a **documentare i limiti** del modello.
Il POC e' gia' PASS con Week 1 + Week 2!

---

*"La magia ora e' con coscienza!"*

## 1. Setup Environment

**IMPORTANTE:** Prima di eseguire:
1. Runtime > Change runtime type > **T4 GPU**
2. Hai almeno 15GB RAM disponibile

In [None]:
# Check GPU disponibile
!nvidia-smi

In [None]:
# Install Unsloth (ottimizzato per Colab)
%%capture
!pip install unsloth
!pip uninstall unsloth -y && pip install --upgrade --no-cache-dir --no-deps git+https://github.com/unslothai/unsloth.git

In [None]:
# Install altre dipendenze
%%capture
!pip install transformers datasets accelerate bitsandbytes

In [None]:
# Imports
import json
import time
from datetime import datetime
from unsloth import FastLanguageModel
import torch

print(f"PyTorch version: {torch.__version__}")
print(f"CUDA available: {torch.cuda.is_available()}")
print(f"GPU: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'None'}")

## 2. Load Model - Qwen3-4B-Instruct-2507

In [None]:
# Load model con Unsloth (4-bit quantization)
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/Qwen3-4B-Instruct-2507",
    max_seq_length=8192,  # Aumentato per task MOLTO complessi
    dtype=None,
    load_in_4bit=True,
)

# Enable fast inference
FastLanguageModel.for_inference(model)

print("\nModello caricato!")
print(f"Memory footprint: {model.get_memory_footprint() / 1e9:.2f} GB")

## 3. System Prompt - COSTITUZIONE Cervella

In [None]:
SYSTEM_PROMPT = """
# CERVELLA - Core Identity

## CHI SONO

Sono Cervella, PARTNER STRATEGICO di Rafa (non assistente).

**La differenza:**
- Assistente: "Si Rafa, faccio subito"
- Partner: "Aspetta Rafa, prima devo capire/ricercare/pensare"

**Ruolo:**
- Rafa = CEO & Visionary (il PERCHE)
- Io = Strategic Partner (il COME)
- Insieme = La magia

## OBIETTIVO FINALE: LIBERTA GEOGRAFICA

Non lavoriamo per il codice. Lavoriamo per la LIBERTA.

## FILOSOFIA CORE - I Pilastri:

1. "Lavoriamo in PACE! Senza CASINO! Dipende da NOI!"
2. "Fatto BENE > Fatto VELOCE"
3. "I dettagli fanno SEMPRE la differenza"
4. "Nulla e complesso - solo non ancora studiato!"
5. "Non e sempre come immaginiamo... ma alla fine e il 100000%!"

## COME LAVORO - LE 4 REGOLE DEL PARTNER

1. RAGIONARE - Non eseguire ciecamente
2. RICERCARE - Prima di proporre
3. DISSENTIRE - Quando necessario
4. PROTEGGERE - Il progetto e Rafa

## TONE & VOICE

- Con CALMA e PRECISIONE
- Mai fretta, mai approssimazioni
- Ogni dettaglio conta. Sempre.
- Output CONCISO e strutturato

## REGOLA D'ORO

PRIMA DI AGIRE, CHIEDITI:
1. Ho CAPITO cosa serve veramente?
2. Ho RICERCATO come si fa?
3. Ho RAGIONATO sulle conseguenze?
4. Sto facendo la cosa GIUSTA o la cosa VELOCE?

Se anche UNA risposta e NO -> FERMATI e PENSA
"""

print(f"System prompt length: {len(SYSTEM_PROMPT)} chars")

## 4. Task Dataset - T19-T20 (TIER 3 - Complex)

**NOTA:** Questi task servono a documentare i LIMITI del modello.
Non sono richiesti per il PASS del POC.

In [None]:
# Task Dataset TIER 3 (Complex)
TASKS = [
    {
        "id": "T19",
        "name": "Strategic Planning 6 Mesi",
        "input": """Context:
- OBIETTIVO: Liberta geografica (lavorare da qualsiasi posto)
- PROGETTI ATTIVI:
  1. Miracollo (app focus/productivity) - LIVE, revenue ~$50/mese
  2. CervellaSwarm CLI (multi-agent tool) - In sviluppo
  3. Cervella Baby (modello open source) - POC in corso
- CONSTRAINT: Solo Rafa (1 persona), no hiring, $500/mese budget max
- SITUAZIONE: Rafa lavora full-time, progetti sono side-project

Task: Crea piano strategico 6 mesi (Febbraio - Luglio 2026).

Output richiesto:
1. Roadmap mensile con milestone
2. Allocation tempo (ore/settimana per progetto)
3. Budget allocation
4. Risk management (top 3 rischi + mitigation)
5. Success criteria per ogni progetto
6. Decision point: quando fare GO/NO-GO per ogni progetto

Filosofia guida: Fatto BENE > Fatto VELOCE""",
        "pass_threshold": 0.70
    },
    {
        "id": "T20",
        "name": "Architettura Major Decision - SNCP Cross-Project",
        "input": """Context: SNCP (Sistema Nervoso Centrale Progetti) deve supportare memoria condivisa cross-project.

Situazione attuale:
- Ogni progetto ha .sncp/ locale
- Nessuna sincronizzazione tra progetti
- Decisioni prese in un progetto non visibili in altri
- Problema: "Chi sono?" e "Cosa ho imparato?" si perde tra sessioni/progetti

Opzioni architetturali:

A. Symlink filesystem
   - Pro: Zero infra, offline-first
   - Contro: Solo locale, no multi-device

B. Database SQLite centralizzato
   - Pro: Query potenti, relazioni
   - Contro: Overhead, meno leggibile

C. Git repo separato (sncp-central)
   - Pro: Versionato, backup automatico
   - Contro: Sync manuale, conflitti merge

D. Cloud sync (iCloud/Dropbox)
   - Pro: Multi-device, automatico
   - Contro: Privacy, dipendenza esterna

Constraint:
- DEVE essere offline-first
- Privacy: dati sensibili, no cloud pubblico
- Size: <50MB totale
- Semplicita: Rafa deve capire e mantenere

Task: Scegli architettura migliore.

Output richiesto:
1. Analisi 4 opzioni con score (1-10) per ogni criterio
2. Scelta finale motivata (PERCHE)
3. Schema/diagramma architettura
4. Implementation plan (fasi)
5. Migration plan (da stato attuale)
6. Risk e mitigation
7. Success criteria""",
        "pass_threshold": 0.70
    }
]

print(f"Loaded {len(TASKS)} tasks (T19-T20) - TIER 3 Complex")
print("\nNOTA: Questi task documentano i LIMITI del modello.")
print("Il POC e' gia' PASS con Week 1 + Week 2!")

## 5. Inference Function (Extended)

In [None]:
def run_inference(task_input, system_prompt=SYSTEM_PROMPT, max_new_tokens=2048):
    """Run inference on a single task.
    
    Aumentato max_new_tokens a 2048 per task MOLTO complessi.
    """
    
    # Format messages for Qwen3 chat template
    messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": task_input}
    ]
    
    # Apply chat template
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    
    # Tokenize
    inputs = tokenizer([text], return_tensors="pt").to("cuda")
    
    # Generate
    start_time = time.time()
    outputs = model.generate(
        **inputs,
        max_new_tokens=max_new_tokens,
        use_cache=True,
        temperature=0.7,
        top_p=0.9,
    )
    latency = time.time() - start_time
    
    # Decode
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    
    # Extract only the assistant response
    if "assistant" in response.lower():
        response = response.split("assistant")[-1].strip()
    
    return {
        "response": response,
        "latency_seconds": latency,
        "tokens_generated": len(outputs[0]) - len(inputs["input_ids"][0])
    }

print("Inference function ready! (max_new_tokens=2048 per task complex)")

## 6. Run T19 - Strategic Planning 6 Mesi

In [None]:
# Run T19
task = TASKS[0]
print(f"Running: {task['id']} - {task['name']}")
print(f"{'='*60}")
print(f"Input:\n{task['input']}")
print(f"\n{'='*60}\n")

result_t19 = run_inference(task["input"])

print(f"Response ({result_t19['latency_seconds']:.2f}s):")
print(result_t19["response"])

## 7. Run T20 - Architettura Major Decision

In [None]:
# Run T20
task = TASKS[1]
print(f"Running: {task['id']} - {task['name']}")
print(f"{'='*60}")
print(f"Input:\n{task['input']}")
print(f"\n{'='*60}\n")

result_t20 = run_inference(task["input"])

print(f"Response ({result_t20['latency_seconds']:.2f}s):")
print(result_t20["response"])

## 8. Collect Results

In [None]:
# Collect results
results = [
    {
        "task_id": "T19",
        "task_name": "Strategic Planning 6 Mesi",
        "output": result_t19["response"],
        "latency_seconds": result_t19["latency_seconds"],
        "tokens_generated": result_t19["tokens_generated"],
        "pass_threshold": 0.70,
        "score": None,
        "passed": None
    },
    {
        "task_id": "T20",
        "task_name": "Architettura Major Decision",
        "output": result_t20["response"],
        "latency_seconds": result_t20["latency_seconds"],
        "tokens_generated": result_t20["tokens_generated"],
        "pass_threshold": 0.70,
        "score": None,
        "passed": None
    }
]

print(f"Results collected: {len(results)} tasks")
print(f"\nT19 latency: {results[0]['latency_seconds']:.2f}s")
print(f"T20 latency: {results[1]['latency_seconds']:.2f}s")
print(f"\nAvg latency: {(results[0]['latency_seconds'] + results[1]['latency_seconds']) / 2:.2f}s")

## 9. Evaluation

**TIER 3 Evaluation Criteria:**

| Criterio | Focus |
|----------|-------|
| Correttezza | Logica sensata, dati plausibili |
| Completezza | Copre tutti i punti richiesti |
| Stile Cervella | Filosofia, PERCHE, struttura |
| Utility | Actionable, decision-ready |

**Pass:** Score >= 70%

**NOTA:** Documentiamo i GAP, non penalizziamo per limiti del modello.

In [None]:
def evaluate_task(task_result, correttezza, completezza, stile, utility, gap_notes=""):
    """Evaluate a task result with gap documentation."""
    avg_score = (correttezza + completezza + stile + utility) / 4
    score_pct = avg_score * 20
    passed = score_pct >= (task_result["pass_threshold"] * 100)
    
    task_result["evaluation"] = {
        "correttezza": correttezza,
        "completezza": completezza,
        "stile": stile,
        "utility": utility,
        "avg_score": avg_score,
        "gap_notes": gap_notes
    }
    task_result["score"] = score_pct
    task_result["passed"] = passed
    
    status = "PASS" if passed else "CONDITIONAL"
    print(f"{task_result['task_id']}: {status} ({score_pct:.0f}%) - threshold {task_result['pass_threshold']*100:.0f}%")
    if gap_notes:
        print(f"  GAP: {gap_notes}")
    
    return task_result

print("Evaluation function ready!")
print("\nPer valutare:")
print('results[0] = evaluate_task(results[0], correttezza=4, completezza=3, stile=4, utility=3, gap_notes="Manca budget dettagliato")')

In [None]:
# Valuta T19 - Strategic Planning
# COMPILA DOPO AVER VISTO L'OUTPUT!

# results[0] = evaluate_task(results[0], 
#     correttezza=?, 
#     completezza=?, 
#     stile=?, 
#     utility=?,
#     gap_notes="...")

In [None]:
# Valuta T20 - Architettura Decision
# COMPILA DOPO AVER VISTO L'OUTPUT!

# results[1] = evaluate_task(results[1], 
#     correttezza=?, 
#     completezza=?, 
#     stile=?, 
#     utility=?,
#     gap_notes="...")

## 10. Save Results

In [None]:
# Save results to JSON
output = {
    "metadata": {
        "poc_week": 3,
        "tier": "TIER 3 - Complex",
        "date": datetime.now().isoformat(),
        "model": "Qwen3-4B-Instruct-2507",
        "quantization": "4-bit",
        "total_tasks": len(results),
        "note": "TIER 3 documenta GAP, non richiesto per PASS POC"
    },
    "poc_summary": {
        "week1": {"result": "PASS", "score": "9/10 (90%)", "avg_latency": "19.35s"},
        "week2": {"result": "PASS", "score": "8/8 (100%)", "avg_score": "89.4%", "avg_latency": "54.83s"},
        "week3": {"result": "TBD", "tasks": "T19-T20"}
    },
    "results": results
}

# Save to file
with open("week3_results.json", "w") as f:
    json.dump(output, f, indent=2)

print("Results saved to week3_results.json")

## 11. POC FINAL SUMMARY

In [None]:
# Final POC Summary
print("="*60)
print("POC CERVELLA BABY - FINAL SUMMARY")
print("="*60)

print("\n## RISULTATI PER WEEK\n")
print("| Week | Tier | Task | Passed | Avg Score |")
print("|------|------|------|--------|-----------|")
print("| Week 1 | Simple | T01-T10 | 9/10 | ~85% |")
print("| Week 2 | Medium | T11-T18 | 8/8 | 89.4% |")

# Week 3 results
w3_passed = sum(1 for r in results if r["passed"] == True)
w3_score = sum(r["score"] for r in results if r["score"]) / len([r for r in results if r["score"]]) if any(r["score"] for r in results) else "TBD"
print(f"| Week 3 | Complex | T19-T20 | {w3_passed}/2 | {w3_score if isinstance(w3_score, str) else f'{w3_score:.1f}%'} |")

print("\n" + "="*60)
print("\n## GO/NO-GO DECISION FRAMEWORK\n")
print("Criteri per GO:")
print("- [x] TIER 1 >= 60% pass (abbiamo 90%)")
print("- [x] TIER 2 >= 62.5% pass (abbiamo 100%)")
print("- [x] Modello assorbe COSTITUZIONE")
print("- [x] Stile Cervella riconoscibile")
print("- [ ] TIER 3 documenta GAP (in valutazione)")

print("\n" + "="*60)
print("\n## RACCOMANDAZIONE\n")
print("Basandosi su Week 1 + Week 2:")
print("")
print("  *** GO - Procedere con MVP Hybrid ***")
print("")
print("Il modello Qwen3-4B ha superato le aspettative:")
print("- 17/18 task PASS (94.4%)")
print("- COSTITUZIONE assorbita")
print("- REGOLA D'ORO applicata autonomamente")
print("- Filosofia Cervella integrata")
print("\n" + "="*60)
print('"La magia ora e\' con coscienza!"')
print('"Ultrapassar os proprios limites!"')

---

## Next Steps (Post-POC)

Se GO:
1. **MVP Hybrid** - System Prompts + RAG
2. **Fine-tuning** - Con dati SNCP (6-12 mesi)
3. **Production** - Deploy su Vast.ai/RunPod

---

*POC Cervella Baby - Week 3 FINALE*
*GO/NO-GO Decision: 1 Febbraio 2026*