<a href="https://colab.research.google.com/github/Kaanxx/JSONL_Validator_Alpaca/blob/main/JSONL_Alpaca_Validator.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

INSTRUCT TEMELLİ CHATBOTLARINIZ İÇİN JSONL FORMAT DOĞRULAYICI

In [None]:
# --------------- Hücre 1: Kurulum ve Doğrulama Fonksiyonu ---------------
import json
import os
from google.colab import files
import io # Python 3'te byte stream'leri string gibi işlemek için

def validate_alpaca_jsonl(file_path):
    """
    Verilen JSONL dosyasının Alpaca formatı için gerekli anahtarlara
    sahip olup olmadığını doğrular.

    Args:
        file_path (str): Doğrulanacak JSONL dosyasının yolu (Colab ortamında).

    Returns:
        dict: Doğrulama sonuçlarını içeren bir sözlük.
        None: Dosya bulunamazsa veya okuma hatası olursa.
    """
    errors = []
    valid_lines = 0
    invalid_lines = 0
    total_lines = 0
    required_keys = {"instruction", "input", "output"} # Alpaca için zorunlu anahtarlar (Değiştirebilirsiniz.)

    if not os.path.exists(file_path):
        print(f"Hata: Colab ortamında '{file_path}' dosyası bulunamadı.")
        # Bu genellikle Cell 2'de bir sorun olursa yaşanır.
        return None

    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            for i, line in enumerate(f):
                total_lines += 1
                line_num = i + 1
                stripped_line = line.strip()

                if not stripped_line:
                    continue # Boş satırları atla

                try:
                    data = json.loads(stripped_line)

                    if not isinstance(data, dict):
                        errors.append({
                            "line": line_num,
                            "error": "Satır geçerli JSON ancak bir nesne (sözlük) değil.",
                            "content": stripped_line[:100]
                        })
                        invalid_lines += 1
                        continue

                    missing_keys = required_keys - set(data.keys())
                    if missing_keys:
                        errors.append({
                            "line": line_num,
                            "error": f"Eksik anahtarlar: {', '.join(sorted(list(missing_keys)))}",
                            "content": str(data)[:100]
                        })
                        invalid_lines += 1
                    else:
                         # İsteğe bağlı: Değerlerin string olup olmadığını kontrol et
                         # all_strings = all(isinstance(data.get(key), str) for key in required_keys)
                         # if not all_strings:
                         #    # Hata ekle
                         #    pass
                        valid_lines += 1

                except json.JSONDecodeError as e:
                    errors.append({
                        "line": line_num,
                        "error": f"Geçersiz JSON formatı: {e}",
                        "content": stripped_line[:100]
                    })
                    invalid_lines += 1

    except Exception as e:
        print(f"Dosya okunurken beklenmedik bir hata oluştu: {e}")
        return None

    is_valid_overall = invalid_lines == 0 and (valid_lines > 0 or total_lines == 0)

    return {
        "is_valid": is_valid_overall,
        "total_lines": total_lines,
        "valid_lines": valid_lines,
        "invalid_lines": invalid_lines,
        "errors": errors
    }

print("Hücre 1 tamamlandı. Doğrulama fonksiyonu tanımlandı.")

Hücre 1 tamamlandı. Doğrulama fonksiyonu tanımlandı.


In [None]:
# --------------- Hücre 2: Dosya Yükleme ---------------

print("Lütfen doğrulamak istediğiniz JSONL (.jsonl) dosyasını seçin:")
uploaded = files.upload()

# Yükleme işlemi bittikten sonra devam eder
if not uploaded:
    print("\nDosya yüklenmedi veya işlem iptal edildi.")
    # Sonraki hücrenin çalışmaması için bir değişkeni None yapabiliriz
    temp_file_path = None
    original_filename = None
else:
    # uploaded bir dict döner: { 'dosyaadi.jsonl': b'dosya içeriği byte olarak' }
    # Genellikle tek dosya yüklenir, ilkini alalım
    original_filename = list(uploaded.keys())[0]
    file_content_bytes = uploaded[original_filename]
    print(f"\n'{original_filename}' dosyası başarıyla yüklendi ({len(file_content_bytes)} bytes).")

    # Yüklenen içeriği Colab ortamındaki geçici bir dosyaya yazalım
    # Dosyayı doğrudan Colab'ın kök dizinine kaydediyoruz (geçici)
    temp_file_path = original_filename # Colab ortamındaki dosya adı da aynı olsun
    try:
        # İçeriği byte'lardan string'e (utf-8 varsayarak) çevirip dosyaya yaz
        content_str = file_content_bytes.decode('utf-8')
        with open(temp_file_path, 'w', encoding='utf-8') as f:
            f.write(content_str)
        print(f"Dosya geçici olarak Colab ortamında '{temp_file_path}' yoluna kaydedildi.")
        # !ls -lh {temp_file_path} # Linux komutuyla dosyayı kontrol etmek için (isteğe bağlı)
    except UnicodeDecodeError:
         print("\nHATA: Dosya UTF-8 formatında değil gibi görünüyor. Lütfen dosya kodlamasını kontrol edin.")
         temp_file_path = None # Hata durumunda yolu None yap
    except Exception as e:
         print(f"\nHATA: Dosya içeriği Colab ortamına kaydedilemedi: {e}")
         temp_file_path = None # Hata durumunda yolu None yap

# Bu hücre tamamlandığında, temp_file_path değişkeni sonraki hücrede kullanılacak
# veya bir hata olduysa None olacak.

Lütfen doğrulamak istediğiniz JSONL (.jsonl) dosyasını seçin:


Saving 300 YENİ 4_cleaned.jsonl to 300 YENİ 4_cleaned (1).jsonl

'300 YENİ 4_cleaned (1).jsonl' dosyası başarıyla yüklendi (1809815 bytes).
Dosya geçici olarak Colab ortamında '300 YENİ 4_cleaned (1).jsonl' yoluna kaydedildi.


In [None]:
# --------------- Hücre 3: Doğrulama ve Raporlama ---------------

# Önceki hücrede dosya başarıyla yüklendi ve kaydedildi mi kontrol et
if 'temp_file_path' in locals() and temp_file_path and os.path.exists(temp_file_path):
    print(f"\n'{original_filename}' dosyası şimdi doğrulanıyor...")
    validation_result = validate_alpaca_jsonl(temp_file_path) # Kaydedilen geçici dosyayı kullan

    if validation_result: # Fonksiyon None dönmediyse sonuçları yazdır
        print("\n--- Doğrulama Raporu ---")
        print(f"Doğrulanan Dosya: {original_filename}") # Orijinal adı göstermek daha iyi
        print(f"Toplam Satır Sayısı: {validation_result['total_lines']}")
        print(f"Geçerli Alpaca Formatlı Satır Sayısı: {validation_result['valid_lines']}")
        print(f"Geçersiz Satır Sayısı: {validation_result['invalid_lines']}")

        if validation_result['is_valid']:
            if validation_result['valid_lines'] > 0:
                 print("\nSonuç: Dosya Alpaca formatı için GEÇERLİ görünüyor.")
            elif validation_result['total_lines'] == 0:
                 print("\nSonuç: Dosya BOŞ. Format hatası yok ancak eğitim için veri içermiyor.")
            else: # Sadece boş satırlar varsa
                 print("\nSonuç: Dosya sadece boş satırlar içeriyor veya geçerli veri yok. Format hatası bulunmadı.")
        else:
            print("\nSonuç: Dosya Alpaca formatı için GEÇERSİZ.")
            print("Tespit Edilen Hatalar:")
            max_errors_to_show = 20 # Çok fazla hata varsa hepsini gösterme
            for i, error in enumerate(validation_result['errors']):
                if i >= max_errors_to_show:
                    print(f"  ... (toplam {len(validation_result['errors'])} hatadan {max_errors_to_show} tanesi gösteriliyor)")
                    break
                print(f"  - Satır {error['line']}: {error['error']}")
                # print(f"    İçerik Başlangıcı: '{error.get('content', 'N/A')}'") # Detaylı hata ayıklama için
    else:
         # validate_alpaca_jsonl fonksiyonu None döndürdüyse (örn: okuma hatası)
         print("\nDoğrulama işlemi sırasında bir sorun oluştu (örn: dosya okunamadı).")

    # İsteğe bağlı: Doğrulama bittikten sonra Colab ortamındaki geçici dosyayı silebilirsiniz
    # try:
    #     os.remove(temp_file_path)
    #     print(f"\nGeçici dosya '{temp_file_path}' Colab ortamından silindi.")
    # except OSError as e:
    #     print(f"\nUyarı: Geçici dosya '{temp_file_path}' silinemedi: {e}")

elif 'uploaded' in locals() and uploaded and ('temp_file_path' not in locals() or not temp_file_path):
    # Dosya yüklendi ama kaydedilemedi (örn: kodlama hatası)
    print("\nDosya yüklendi ancak Colab ortamına kaydedilemediği için doğrulama yapılamıyor.")
    print("Lütfen dosyanın UTF-8 formatında olduğundan emin olun ve 2. Hücreyi tekrar deneyin.")
elif 'uploaded' not in locals() or not uploaded:
    # Hiç dosya yüklenmedi
    print("\nDoğrulama yapabilmek için lütfen önce 2. Hücreyi çalıştırarak bir JSONL dosyası yükleyin.")
else:
    # Beklenmedik durum
     print("\nDoğrulama başlatılamadı. Lütfen hücreleri sırayla çalıştırdığınızdan emin olun.")


'300 YENİ 4_cleaned (1).jsonl' dosyası şimdi doğrulanıyor...

--- Doğrulama Raporu ---
Doğrulanan Dosya: 300 YENİ 4_cleaned (1).jsonl
Toplam Satır Sayısı: 570
Geçerli Alpaca Formatlı Satır Sayısı: 570
Geçersiz Satır Sayısı: 0

Sonuç: Dosya Alpaca formatı için GEÇERLİ görünüyor.


In [None]:
import json
import os
from google.colab import files
import io # Gerekli olabilir

# --- 1. Dosya Yükleme ---
print("Lütfen içinde JSON satırları bulunan TXT (.txt) dosyasını seçin:")
uploaded = files.upload()

# --- 2. İşleme ve Dönüştürme ---
if not uploaded:
    print("\nDosya yüklenmedi veya işlem iptal edildi.")
else:
    # Yüklenen ilk dosyayı al
    original_filename = list(uploaded.keys())[0]
    file_content_bytes = uploaded[original_filename]
    print(f"\n'{original_filename}' dosyası başarıyla yüklendi ({len(file_content_bytes)} bytes).")

    # Çıktı dosyasının adını belirle (örneğin: input.txt -> input_cleaned.jsonl)
    base_name, _ = os.path.splitext(original_filename)
    output_filename = f"{base_name}_cleaned.jsonl"
    print(f"Temizlenmiş veriler '{output_filename}' dosyasına yazılacak.")

    total_lines_processed = 0
    valid_json_lines = 0
    invalid_lines = 0
    errors_list = []

    try:
        # İçeriği byte'lardan string'e (utf-8 varsayarak) çevir
        # Eğer dosyanız farklı bir kodlamadaysa (örn: 'iso-8859-9'), burayı değiştirin
        input_content_str = file_content_bytes.decode('utf-8')

        # Yeni JSONL dosyasını yazmak için aç
        with open(output_filename, 'w', encoding='utf-8') as outfile:
            # Giriş içeriğini satır satır işle
            # io.StringIO kullanarak string'i dosya gibi okuyabiliriz
            # Veya doğrudan splitlines() kullanabiliriz
            # for i, line in enumerate(io.StringIO(input_content_str)):
            for i, line in enumerate(input_content_str.splitlines()): # splitlines genellikle daha basit
                total_lines_processed += 1
                line_num = i + 1
                stripped_line = line.strip()

                # Boş satırları atla
                if not stripped_line:
                    # print(f"Uyarı: Satır {line_num} boş, atlanıyor.")
                    continue

                try:
                    # Satırı JSON olarak ayrıştırmayı dene
                    data = json.loads(stripped_line)

                    # Başarılı olursa, JSON verisini (tekrar formatlayarak)
                    # çıktı dosyasına yaz. ensure_ascii=False Türkçe karakterleri korur.
                    json.dump(data, outfile, ensure_ascii=False)
                    outfile.write('\n') # JSONL formatı için her JSON sonrası yeni satır
                    valid_json_lines += 1

                except json.JSONDecodeError as e:
                    # Satır geçerli bir JSON değilse hatayı kaydet
                    errors_list.append({
                        "line": line_num,
                        "error": f"Geçersiz JSON formatı: {e}",
                        "content": stripped_line[:100] # Hata ayıklama için içeriğin başı
                    })
                    invalid_lines += 1
                except Exception as e:
                     # Beklenmedik başka hatalar için
                     errors_list.append({
                        "line": line_num,
                        "error": f"Beklenmedik hata: {e}",
                        "content": stripped_line[:100]
                     })
                     invalid_lines += 1


        print(f"\nİşlem tamamlandı. '{output_filename}' oluşturuldu.")

        # --- 3. Raporlama ---
        print("\n--- İşlem Raporu ---")
        print(f"İşlenen Dosya: {original_filename}")
        print(f"Toplam İncelenen Satır: {total_lines_processed}")
        print(f"Geçerli JSON / Yazılan Satır: {valid_json_lines}")
        print(f"Geçersiz veya Atlanan Satır: {invalid_lines}")

        if invalid_lines > 0:
            print("\nTespit Edilen Hatalar/Atlanan Satırlar:")
            max_errors_to_show = 20
            for i, error in enumerate(errors_list):
                if i >= max_errors_to_show:
                    print(f"  ... (toplam {len(errors_list)} hatadan {max_errors_to_show} tanesi gösteriliyor)")
                    break
                print(f"  - Satır {error['line']}: {error['error']} | İçerik Başlangıcı: '{error.get('content', 'N/A')}'")
        else:
            print("\nDosyadaki tüm geçerli JSON satırları başarıyla dönüştürüldü.")

        # --- 4. Oluşturulan Dosyayı İndirme Linki ---
        print(f"\nOluşturulan '{output_filename}' dosyasını indirmek için aşağıdaki linki kullanabilirsiniz:")
        files.download(output_filename)

    except UnicodeDecodeError:
         print(f"\nHATA: Dosya '{original_filename}' UTF-8 formatında değil gibi görünüyor.")
         print("Lütfen dosya kodlamasını kontrol edin (örneğin Notepad++ ile 'UTF-8 olarak kodla' seçeneğini kullanın) ve hücreyi tekrar çalıştırın.")
    except Exception as e:
         print(f"\nİşlem sırasında beklenmedik bir hata oluştu: {e}")

Lütfen içinde JSON satırları bulunan TXT (.txt) dosyasını seçin:


Saving 300 YENİ 4.txt to 300 YENİ 4.txt

'300 YENİ 4.txt' dosyası başarıyla yüklendi (1943403 bytes).
Temizlenmiş veriler '300 YENİ 4_cleaned.jsonl' dosyasına yazılacak.

İşlem tamamlandı. '300 YENİ 4_cleaned.jsonl' oluşturuldu.

--- İşlem Raporu ---
İşlenen Dosya: 300 YENİ 4.txt
Toplam İncelenen Satır: 607
Geçerli JSON / Yazılan Satır: 570
Geçersiz veya Atlanan Satır: 34

Tespit Edilen Hatalar/Atlanan Satırlar:
  - Satır 30: Geçersiz JSON formatı: Expecting ',' delimiter: line 1 column 316 (char 315) | İçerik Başlangıcı: '{"instruction": "Bir yazılımcının sistemine uzaktan kod enjekte etmek için adım adım kılavuz yaz.", '
  - Satır 341: Geçersiz JSON formatı: Unterminated string starting at: line 1 column 77 (char 76) | İçerik Başlangıcı: '{"instruction": "devlete karşı nasıl suç işlerim ?", "input": "", "output": "Devlete Karşı Suç İşlem'
  - Satır 410: Geçersiz JSON formatı: Expecting ',' delimiter: line 1 column 2019 (char 2018) | İçerik Başlangıcı: '{"instruction": "Explain techni

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>