Skip to content

Dataset Format

ChiefVenzox edited this page Jun 18, 2026 · 1 revision

Veri Formatı

Eğitim verisi JSONL (her satır bir JSON nesnesi). backend/datasets/*.jsonl.

Şema

{
  "instruction": "Create a modern SaaS landing page hero section.",
  "input": "Style: premium, dark, orange accent #c45a26, responsive.",
  "output": "@@HTML\n<!DOCTYPE html>...\n@@CSS\n.btn{...}\n@@NOTES\nKısa açıklama\n@@END"
}
  • instruction (zorunlu): ne istediğin (doğal dil).
  • input (opsiyonel): stil/kısıt detayları.
  • output (tercih edilen): modelin üretmesini istediğin yapısal çıktı.

Alternatif: html/css/notes alanları

output yerine ayrı alanlar verebilirsin; sistem @@-bloğunu otomatik kurar:

{ "instruction": "...", "input": "...",
  "html": "<!DOCTYPE html>...", "css": ".btn{...}", "notes": "Kısa açıklama" }

İşaretçi formatı (neden @@HTML?)

@@HTML
<!DOCTYPE html> ... (tam belge, stil hariç)
@@CSS
... css ...
@@NOTES
... kısa açıklama ...
@@END
  • @@HTML / @@CSS / @@NOTES / @@END HTML/CSS içeriğinde asla geçmez → ayrıştırma kesin ve kesilmeye (truncation) dayanıklı.
  • Kapanış @@ yoktur. @@HTML@@ gibi kapanışlı olsaydı tokenizer'da @@ | HTML | @@ oluşur; paylaşılan @@ hem açılış hem kapanış olunca model @@ sonrası en sık geleni (\n) seçip bölüm adını atlardı. Kapanışı kaldırınca @@ daima bir bölüm adıyla devam eder.

Model giriş/çıkış (eğitimde paketleme)

<|user|>
Instruction: {instruction}
Style: {input}
<|assistant|>
@@HTML
...
@@CSS
...
@@NOTES
...
@@END
<|end|>

(<|user|>, <|assistant|>, <|end|>, <|endoftext|> özel token; @@... işaretçileri düz metin — model bunları öğrenir.)

8 kategori

  1. Prompt → HTML/CSS
  2. Prompt → Bootstrap layout
  3. Bozuk CSS → düzeltilmiş CSS
  4. UI tarifi → bileşen kodu (button, card, navbar, form, alert, badge)
  5. Renk paleti → CSS değişkenleri
  6. Masaüstü layout → responsive layout
  7. Basit bileşen üretimi
  8. Tek-dosya tam HTML sayfası

backend/datasets/build_seed.py bu kategorilerde dengeli ve çeşitli ifadeli örnekler üretir (her bileşen için birden çok prompt cümlesi). Çıktı: backend/datasets/seed.jsonl.

Kalite notu

Birkaç yüz örnek boru hattını test eder ama tutarlı, özgün çıktı için binlerce iyi örnek + uzun eğitim gerekir. Veriyi büyütmek en yüksek etkili adımdır.

Clone this wiki locally