In [1]:
# --- Cell 1: הגדרת נתיבים וייבוא ספריות ---
import pandas as pd
import sys
import os

# הוספת תיקיית השורש של הפרויקט לנתיב החיפוש של פייתון
# זה מאפשר למחברת למצוא את המודולים בתיקיית 'src'
project_root = os.path.abspath(os.path.join(os.getcwd(), '..'))
if project_root not in sys.path:
    sys.path.append(project_root)

from transformers import AutoTokenizer
# ייבוא הקלאס והפונקציה מהקבצים שלך בתיקיית src
from src.dataset import SQLDataset, clean_and_format_schema

print("ספריות וקלאסים יובאו בהצלחה.")
print(f"שורש הפרויקט שנוסף לנתיב: {project_root}")

# --- Cell 2: סקריפט הבדיקה הראשי ---
print("\n--- מתחיל בדיקת פורמט קלט חדש ---")

# הגדרת הנתיב לקובץ הנתונים (יחסית לשורש הפרויקט)
DATA_FILE_PATH = os.path.join(project_root, 'data', 'train.csv')

try:
    # 1. טעינת 5 דוגמאות מקובץ האימון
    df_sample = pd.read_csv(DATA_FILE_PATH).head(5)
    print("5 דוגמאות נטענו בהצלחה.")

    # 2. טעינת הטוקנייזר
    tokenizer = AutoTokenizer.from_pretrained('t5-small')
    print("טוקנייזר נטען.")

    # 3. יצירת אובייקט Dataset (הקלאס מיובא מ-src/dataset.py)
    sample_dataset = SQLDataset(df_sample, tokenizer, 512)
    print("אובייקט Dataset נוצר.")

    # 4. הדפסת הקלט המלא עבור כל דוגמה
    for i in range(len(sample_dataset)):
        # כדי לבדוק את המחרוזת, ניגש ישירות ל-DataFrame המעודכן שבתוך האובייקט
        schema_str = sample_dataset.dataset['schema_input'].iloc[i]
        question_str = sample_dataset.dataset['question'].iloc[i].lower()
        
        prefix = "translate english to sql: "
        full_request_text = f"{prefix}{schema_str} | {question_str}"
        
        print("-" * 50)
        print(f"✅ קלט חדש לדוגמה מספר {i+1}:")
        print(full_request_text)
        
except FileNotFoundError:
    print(f"\n❌ שגיאה: הקובץ לא נמצא בנתיב: {DATA_FILE_PATH}")
except Exception as e:
    print(f"\n❌ שגיאה בלתי צפויה: {e}")


ספריות וקלאסים יובאו בהצלחה.
שורש הפרויקט שנוסף לנתיב: c:\Users\97254\Desktop\projects\SQLֹ_transformer

--- מתחיל בדיקת פורמט קלט חדש ---
5 דוגמאות נטענו בהצלחה.
טוקנייזר נטען.
אובייקט Dataset נוצר.
--------------------------------------------------
✅ קלט חדש לדוגמה מספר 1:
translate english to sql: table ( state/territory, text/background_colour, format, current_slogan, current_series, notes ) | tell me what the notes are for south australia 
--------------------------------------------------
✅ קלט חדש לדוגמה מספר 2:
translate english to sql: table ( state/territory, text/background_colour, format, current_slogan, current_series, notes ) | what is the current series where the new series began in june 2011?
--------------------------------------------------
✅ קלט חדש לדוגמה מספר 3:
translate english to sql: table ( state/territory, text/background_colour, format, current_slogan, current_series, notes ) | what is the format for south australia?
-----------------------------------------

In [None]:
# --- Cell for Debugging the Schema String (Corrected Path) ---
import pandas as pd
import ast

print("--- מתחיל דיבוג של מחרוזת הסכמה ---")

try:
    # 1. טעינת קובץ ה-CSV עם הנתיב המתוקן
    # הוספנו ../ כדי לצאת מתיקיית notebooks
    file_path = '../data/train.csv'
    df = pd.read_csv(file_path)

    # 2. בידוד המחרוזת הגולמית מהשורה הראשונה בעמודה 'table'
    raw_string = df['table'].iloc[0]

    # 3. הדפסת המחרוזת הגולמית כדי לראות בדיוק איך היא נראית
    print("\n--- מחרוזת גולמית מה-CSV ---")
    print(raw_string)
    print("Type:", type(raw_string))

    # 4. ניסיון לפרש את המחרוזת ולראות את השגיאה אם קיימת
    print("\n--- ניסיון לפרש עם ast.literal_eval ---")
    try:
        parsed_data = ast.literal_eval(raw_string)
        print("✅ פירשון הצליח:")
        print(parsed_data)
    except Exception as e:
        print(f"❌ פירשון נכשל. השגיאה: {e}")

except FileNotFoundError:
    print(f"\n❌ שגיאה: הקובץ לא נמצא בנתיב: {file_path}")
except Exception as e:
    print(f"\n❌ שגיאה בלתי צפויה: {e}")