In [1]:
import pandas as pd
import re
import string


In [2]:
def extract_hebrew_segments(file_path):
    """
    Extracts text segments from a file that start with 'היי סירי' and end with 'סיימתי'.

    :param file_path: Path to the text file
    :return: List of extracted segments
    """
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()

    # Regular expression to find all segments between "היי סירי" and "סיימתי"
    pattern = r"\bהתחלתי\b.*?\bסיימתי\b"
    matches = re.findall(pattern, text, re.DOTALL)


    return matches

In [3]:
def process_hebrew_file(file_name):
    """
    Extracts Hebrew segments from a text file, saves them to a new file, and prints each segment.

    :param file_name: Name of the input text file
    """
    # Define paths based on the input file name
    file_path = f'/content/{file_name}.txt'
    output_path = f'extracted_segments_{file_name}.txt'

    # Step 1: Extract Hebrew segments
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()

    # Regular expression to find all segments between "התחלתי" and "סיימתי"
    pattern = r"\bהתחלתי\b.*?\bסיימתי\b"
    matches = re.findall(pattern, text, re.DOTALL)

    # Step 2: Save extracted segments to a file
    with open(output_path, 'w', encoding='utf-8') as output_file:
        for idx, segment in enumerate(matches, start=1):
            output_file.write(f"קטע {idx}:\n{segment.strip()}\n\n")

    # Step 3: Print each segment
    for idx, segment in enumerate(matches, start=1):
        print(f"קטע {idx}:\n{segment.strip()}\n")

    print(f"Segments have been saved to {output_path}")



In [4]:
def process_segments_file(file_name):
    """
    Processes a file containing Hebrew segments, cleans the data,
    saves it to a CSV file, and returns a DataFrame.

    :param file_name: Base name of the input file (without extension)
    :return: DataFrame containing the cleaned segments
    """
    # Define paths based on the input file name
    input_path = f'/content/extracted_segments_{file_name}.txt'
    output_path = f'/content/cleaned_segments_{file_name}.csv'

    # Step 1: Read the saved file and store the segments in a list
    with open(input_path, 'r', encoding='utf-8') as file:
        content = file.read()

    # Split the content into segments based on the pattern "קטע X:"
    segments = content.split('קטע ')
    segments = [seg.split('\n', 1)[-1].strip() for seg in segments if seg.strip()]  # Remove numbering and keep text

    # Step 2: Remove "התחלתי" and "סיימתי" from each segment
    cleaned_segments = [seg.replace("התחלתי", "").replace("סיימתי", "").strip() for seg in segments]

    # Step 3: Remove all punctuation marks
    def remove_punctuation(text):
        # Remove all punctuation marks
        return text.translate(str.maketrans('', '', string.punctuation))

    cleaned_segments = [remove_punctuation(seg) for seg in cleaned_segments]

    # Step 4: Create a DataFrame from the cleaned segments
    df = pd.DataFrame(cleaned_segments, columns=['Segment'])

    # Step 5: Save the DataFrame to a CSV file with UTF-8 encoding
    df.to_csv(output_path, index=False, encoding='utf-8-sig')  # Use 'utf-8-sig' for better compatibility with Excel

    print(f"The cleaned DataFrame has been saved to {output_path}")
    return df



שמירת קובץ פקודות ליאל

In [5]:
process_hebrew_file("liel")

קטע 1:
התחלתי. היי סירי, את יכולה למצוא לי מסלול מהמיקום שלי להרצל 45 באר שבע ברגל. סיימתי

קטע 2:
התחלתי, היי סירי. את יכולה לחייג לקורל יגוד? סיימתי

קטע 3:
התחלתי, היי סירי. את יכולה לכוון שעון מעורר לשמונה וחצי בערב? סיימתי

קטע 4:
התחלתי, היי סירי את יכולה לשלוח הודעה לקורל יגוד? סיימתי

קטע 5:
התחלתי מה שלומך? סיימתי

קטע 6:
התחלתי, היי סירי את יכולה לחפש לי מתכון לעוגה באסקית? סיימתי

קטע 7:
התחלתי היי סירי. אני צריכה מתכון לעוגה בסקית.סיימתי

קטע 8:
התחלתי אני צריכה מתכון לעוגת גבינה באסקית. סיימתי

קטע 9:
התחלתי לא, את יכולה לחפש לי מתכון לעוגת גבינה באסקית.סיימתי

קטע 10:
התחלתי לא, אני צריכה מתכון לעוגת גבינה באסקית. סיימתי

קטע 11:
התחלתי לא. תיכנסי לאינטרנט ותחפשי לי מתכון לעוגת גבינה בסקית. סיימתי

קטע 12:
התחלתי. היי סירי את יכולה להוסיף לי פגישה ביומן בחמישי לחמישי, בשעה חמש וחצי, תור לרופא. סיימתי

קטע 13:
התחלתי תרשמי כתור לרופא סיימתי

קטע 14:
התחלתי לי סיימתי

קטע 15:
התחלתי חמישי לחמישי, בשעה חמש וחצי סיימתי

קטע 16:
התחלתי סירי תרשמי לי בלוח שנה, פגישה בחמישי לחמי

In [6]:
df = process_segments_file("liel")
print(df)

The cleaned DataFrame has been saved to /content/cleaned_segments_liel.csv
                                              Segment
0    היי סירי את יכולה למצוא לי מסלול מהמיקום שלי ...
1                  היי סירי את יכולה לחייג לקורל יגוד
2    היי סירי את יכולה לכוון שעון מעורר לשמונה וחצ...
3            היי סירי את יכולה לשלוח הודעה לקורל יגוד
4                                            מה שלומך
5        היי סירי את יכולה לחפש לי מתכון לעוגה באסקית
6                היי סירי אני צריכה מתכון לעוגה בסקית
7                  אני צריכה מתכון לעוגת גבינה באסקית
8        לא את יכולה לחפש לי מתכון לעוגת גבינה באסקית
9               לא אני צריכה מתכון לעוגת גבינה באסקית
10  לא תיכנסי לאינטרנט ותחפשי לי מתכון לעוגת גבינה...
11   היי סירי את יכולה להוסיף לי פגישה ביומן בחמיש...
12                                   תרשמי כתור לרופא
13                                                 לי
14                         חמישי לחמישי בשעה חמש וחצי
15  סירי תרשמי לי בלוח שנה פגישה בחמישי לחמישי בשע...
16  תרש

שמירת קובץ פקודות עדי

In [7]:
process_hebrew_file("adi")

קטע 1:
התחלתי סירי, תביא לי את נעמה. לדבר עם נעמה. סיימתי

קטע 2:
התחלתי סירי, תתקשרי לדביר.  סיימתי

קטע 3:
התחלתי סירי, תכווני לי שעון מעורר לשש וחצי בבוקר. סיימתי

קטע 4:
התחלתי סירי, תשלחי לדביר בוואטסאפ, היי מה שלומך? סיימתי

קטע 5:
התחלתי סירי, תבדקי לי מתי חל יום הפנקייק הבינלאומי. סיימתי

קטע 6:
התחלתי סירי, תבדקי מתי חל יום הפנקייק הבינלאומי. סיימתי

קטע 7:
התחלתי סירי, תפתחי לי במפות את הדרך להרצל 45, לבאר שבע, ברגל. סיימתי

קטע 8:
התחלתי סירי, תפתחי לי במפות איך מגיעים ברגל להרצל 45, לבאר שבע. סיימתי

קטע 9:
התחלתי סירי, תקבע לי תור ביומן, בחמישי למאי בחמש וחצי, ותקרא לה תור לרופא. סיימתי

קטע 10:
התחלתי סירי, תתריאי לי עוד שעתיים לקחת תרופה. סיימתי

קטע 11:
התחלתי סירי, תשים לי מהיוטיוב את השיר אורות של אברהם טל סיימתי

קטע 12:
התחלתי סירי, תשים לי את השיר ביוטיוב אורות של אברהם טל סיימתי

קטע 13:
התחלתי סירי, תפתח לי את המצלמה, שאני אוכל לצלם סלפי. סיימתי

קטע 14:
התחלתי סירי, תפתח לי את המצלמה הקדמית. סיימתי

קטע 15:
התחלתי היי, סירי, אני רוצה לצלם סלפי. סיימתי

קטע 16:
ה

In [8]:
df = process_segments_file("adi")
print(df)

The cleaned DataFrame has been saved to /content/cleaned_segments_adi.csv
                                              Segment
0                   סירי תביא לי את נעמה לדבר עם נעמה
1                                   סירי תתקשרי לדביר
2            סירי תכווני לי שעון מעורר לשש וחצי בבוקר
3              סירי תשלחי לדביר בוואטסאפ היי מה שלומך
4          סירי תבדקי לי מתי חל יום הפנקייק הבינלאומי
5             סירי תבדקי מתי חל יום הפנקייק הבינלאומי
6   סירי תפתחי לי במפות את הדרך להרצל 45 לבאר שבע ...
7   סירי תפתחי לי במפות איך מגיעים ברגל להרצל 45 ל...
8   סירי תקבע לי תור ביומן בחמישי למאי בחמש וחצי ו...
9                סירי תתריאי לי עוד שעתיים לקחת תרופה
10    סירי תשים לי מהיוטיוב את השיר אורות של אברהם טל
11     סירי תשים לי את השיר ביוטיוב אורות של אברהם טל
12         סירי תפתח לי את המצלמה שאני אוכל לצלם סלפי
13                      סירי תפתח לי את המצלמה הקדמית
14                        היי סירי אני רוצה לצלם סלפי
15           סירי אני רוצה לצלם סלפי עם המצלמה הקדמית
16      

שמירת קובץ פקודות אוראל

In [9]:
process_hebrew_file("orel")

קטע 1:
התחלתי תתקשרי בבקשה לקורל יגוד סיימתי

קטע 2:
התחלתי תתקשרי בבקשה לסתיו ברק סיימתי

קטע 3:
התחלתי אני רוצה שתפעיל לי שעון מעורר להיום בערב בשעה שמונה וחצי סיימתי

קטע 4:
התחלתי תשלחי לסתיו ברק אס-אם-אס מה שלומך סיימתי

קטע 5:
התחלתי תשלחי הודעה דרך המסנג'ר לסתיו ברק, מה שלומך סיימתי

קטע 6:
התחלתי דרך אפליקציית הודעות, תשלחי אס-אם-אס לסתיו ברק ותכתבי לה מה שלומך סיימתי

קטע 7:
התחלתי תשלחי לסתיו ברק הודעה בוואטסאפ, מה שלומך סיימתי

קטע 8:
התחלתי אני רוצה מתכון לעוגת שוקולד סיימתי

קטע 9:
התחלתי תחפשי בגוגל מתכון לעוגת שוקולד סיימתי

קטע 10:
התחלתי תפתחי גוגל מאפס ותכווני אותי להרצל 45 באר שבע סיימתי

קטע 11:
התחלתי אני רוצה שתפתחי גוגל מאפס ותביאי לי מסלול רגלי להרצל 45 באר שבע סיימתי

קטע 12:
התחלתי תפתחי גוגל מאפס ותנווטי אותי לרחוב הרצל 45, באר שבע, רגלית סיימתי

קטע 13:
התחלתי אני רוצה להגיע לרחוב הרצל 45, באר שבע, ברגל סיימתי

קטע 14:
התחלתי תשתמשי באפליקציות מפות כדי לנווט להצל 45, באר שבע, ברגל סיימתי

קטע 15:
התחלתי אני רוצה לנווט לרחוב הרצל 45, באר שבע סיימתי

קטע 16:
ה

In [10]:
df = process_segments_file("orel")
print(df)

The cleaned DataFrame has been saved to /content/cleaned_segments_orel.csv
                                              Segment
0                             תתקשרי בבקשה לקורל יגוד
1                              תתקשרי בבקשה לסתיו ברק
2   אני רוצה שתפעיל לי שעון מעורר להיום בערב בשעה ...
3                     תשלחי לסתיו ברק אסאםאס מה שלומך
4           תשלחי הודעה דרך המסנגר לסתיו ברק מה שלומך
5   דרך אפליקציית הודעות תשלחי אסאםאס לסתיו ברק ות...
6             תשלחי לסתיו ברק הודעה בוואטסאפ מה שלומך
7                         אני רוצה מתכון לעוגת שוקולד
8                      תחפשי בגוגל מתכון לעוגת שוקולד
9       תפתחי גוגל מאפס ותכווני אותי להרצל 45 באר שבע
10  אני רוצה שתפתחי גוגל מאפס ותביאי לי מסלול רגלי...
11  תפתחי גוגל מאפס ותנווטי אותי לרחוב הרצל 45 באר...
12          אני רוצה להגיע לרחוב הרצל 45 באר שבע ברגל
13  תשתמשי באפליקציות מפות כדי לנווט להצל 45 באר ש...
14               אני רוצה לנווט לרחוב הרצל 45 באר שבע
15          אני רוצה לנווט ברגל לרחוב הרצל 45 באר שבע
16     

שמירת פקודות קובץ חנה

In [11]:
process_hebrew_file("hannah")

קטע 1:
התחלתי תתקשרי אותי לקורל. סיימתי

קטע 2:
התחלתי אני רוצה להתקשר לקורל בבקשה ממך. סיימתי

קטע 3:
התחלתי תכווני לי את השעון מעורר. סיימתי

קטע 4:
התחלתי תכווני לי בבקשה את השעון מעורר. לשבע. שבע בבוקר. בסדר? טוב. תודה. סיימתי

קטע 5:
התחלתי תשלחי לקורל מה שלומי. שלומי טוב, אני מרגישה בסדר. תודה. סיימתי

קטע 6:
התחלתי תגידי לי בבקשה מתי יום השואה?  סיימתי

קטע 7:
התחלתי אני רוצה להגיע לאלי כהן 15 בניצן, אם תוכלי להסביר לי ולהגיד לי איך. סיימתי

קטע 8:
התחלתי אני רוצה להגיע לאלי כהן 15 בניצן, ואני לא יודעת איך להגיע, אז תגידי לי בבקשה איך. סיימתי

קטע 9:
התחלתי אני רוצה להגיע לניצן 15 אלי כהן, אולי תוכלי לעזור לי? סיימתי

קטע 10:
התחלתי אני רוצה להגיע לאלי כהן 15, תוכלי לעזור לי? סיימתי

קטע 11:
התחלתי אני רוצה להגיע לאלי כהן 15, אתה האם תוכלי לעזור לי? סיימתי

קטע 12:
התחלתי אני רוצה להגיע לרופא בשעה חמש, בתאריך חמישי לחמישי.  סיימתי

קטע 13:
התחלתי אני רוצה להגיע לרופא בחמישי לחמישי ולהיבדק, אבל תחפשי לי את זה. סיימתי

קטע 14:
התחלתי אני רוצה תזכורת של חמישי לחמישי, לתור לרופא, סי

In [12]:
df = process_segments_file("hannah")
print(df)

The cleaned DataFrame has been saved to /content/cleaned_segments_hannah.csv
                                              Segment
0                                   תתקשרי אותי לקורל
1                     אני רוצה להתקשר לקורל בבקשה ממך
2                            תכווני לי את השעון מעורר
3   תכווני לי בבקשה את השעון מעורר לשבע שבע בבוקר ...
4   תשלחי לקורל מה שלומי שלומי טוב אני מרגישה בסדר...
5                        תגידי לי בבקשה מתי יום השואה
6   אני רוצה להגיע לאלי כהן 15 בניצן אם תוכלי להסב...
7   אני רוצה להגיע לאלי כהן 15 בניצן ואני לא יודעת...
8   אני רוצה להגיע לניצן 15 אלי כהן אולי תוכלי לעז...
9           אני רוצה להגיע לאלי כהן 15 תוכלי לעזור לי
10  אני רוצה להגיע לאלי כהן 15 אתה האם תוכלי לעזור לי
11  אני רוצה להגיע לרופא בשעה חמש בתאריך חמישי לחמישי
12  אני רוצה להגיע לרופא בחמישי לחמישי ולהיבדק אבל...
13         אני רוצה תזכורת של חמישי לחמישי לתור לרופא
14               תוסיפי לתור בחמישי לחמישי שתזכירי לי
15  תוסיפי לתור בחמישי לחמישי שתזכירי לי אוקיי לתו...
16   

איחוד 4 CSV

In [13]:
# import pandas as pd

# def combine_csv_files(file_paths, output_path):
#     """
#     Combines multiple CSV files into one and saves the result to a new file.

#     :param file_paths: List of file paths to the CSV files to be combined.
#     :param output_path: Path to save the combined CSV file.
#     """
#     combined_df = pd.DataFrame()  # Create an empty DataFrame

#     for file_path in file_paths:
#         # Read each CSV file
#         df = pd.read_csv(file_path)
#         # Append the data to the combined DataFrame
#         combined_df = pd.concat([combined_df, df], ignore_index=True)

#     # Save the combined DataFrame to a new CSV file
#     combined_df.to_csv(output_path, index=False, encoding='utf-8-sig')

#     print(f"Combined CSV saved to {output_path}")

# file_paths = [
#     '/content/cleaned_segments_liel.csv',
#     '/content/cleaned_segments_orel.csv',
#     '/content/cleaned_segments_adi.csv',
#     '/content/cleaned_segments_hannah.csv'
# ]
# output_path = '/content/combined_segments.csv'

# combine_csv_files(file_paths, output_path)


In [14]:
import pandas as pd

def combine_csv_files(file_paths, output_path):
    """
    Combines multiple CSV files into one and saves the result to a new file.

    :param file_paths: List of file paths to the CSV files to be combined.
    :param output_path: Path to save the combined CSV file.
    """
    combined_df = pd.DataFrame()  # Create an empty DataFrame

    for file_path in file_paths:
        # Read each CSV file
        df = pd.read_csv(file_path)
        # Append the data to the combined DataFrame
        combined_df = pd.concat([combined_df, df], ignore_index=True)

    # Save the combined DataFrame to a new CSV file
    combined_df.to_csv(output_path, index=False, encoding='utf-8-sig')

    print(f"Combined CSV saved to {output_path}")

def assign_intents_to_commands(file_path, output_path_with_intents):
    """
    Assigns intents to commands based on predefined rules and saves the result to a new CSV file.

    :param file_path: Path to the combined CSV file with commands.
    :param output_path_with_intents: Path to save the updated CSV file with intents.
    """
    # Load the combined CSV file
    df = pd.read_csv(file_path)

    # Predefined mapping logic for assigning intents
    def map_intent(command):
        if "לחייג" in command or "שיחה" in command:
            return "call_contact"
        elif "תתקשרי" in command or "לדבר" in command:
            return "call_contact"
        elif "להתקשר" in command:
            return "call_contact"
        elif "שעון מעורר" in command or "תזכורת" in command:
            return "alarm_set"
        elif "תזכירי" in command or "תתריאי" in command:
            return "alarm_set"
        elif "שלח" in command or "הודעה" in command:
            return "send_message"
        elif "חפש" in command or "חיפוש" in command:
            return "query"
        elif "מתכון" in command or "פנקייק" in command:
          return "query"
        elif "יום השואה" in command:
          return "query"
        elif "מסלול" in command or "מיקום" in command:
            return "transport_query"
        elif "להגיע" in command:
            return "transport_query"
        elif "פגישה" in command or "יומן" in command:
            return "calendar_set"
        elif "בתאריך" in command:
            return "calendar_set"
        elif "שיר" in command or "מוזיקה" in command:
            return "play_music"
        elif "לשמוע" in command:
            return "play_music"
        elif "מצלמה" in command or "סלפי" in command:
            return "camera_query"
        elif "לצלם" in command:
            return "camera_query"
        elif "שער" in command or "דולר" in command:
            return "qa_currency"
        elif "שקל" in command or "יורו" in command:
            return "qa_currency"
        elif "מזג אוויר" in command or "גשם" in command:
            return "weather_query"
        elif "גשום" in command:
            return "weather_query"
        elif "כמה" in command or "להמיר" in command:
            return "convert"
        elif "השעה" in command or "אזור זמן" in command:
            return "datetime_query"
        elif "שעה בניו יורק" in command:
            return "datetime_query"
        elif "פתק" in command or "רשימה" in command:
            return "lists_createoradd"
        elif "רשימת" in command or "קניות" in command:
            return "lists_createoradd"
        elif "Bluetooth" in command or "Wi-Fi" in command:
            return "iot_wemo_on"
        elif "פנס" in command or "וויפיי" in command:
            return "iot_wemo_on"
        elif "בלוטוס" in command or "מצב טיסה" in command:
            return "iot_wemo_on"
        elif "רכבת" in command or "אוטובוס" in command:
            return "transport_query"
        elif "תכווני" in command or "תנווטי" in command:
            return "transport_query"
        elif "רחוב" in command or "מפות" in command:
            return "transport_query"
        else:
            return "general"

    # Apply the mapping function to assign intents
    df["Intent"] = df["Segment"].apply(map_intent)

    # Save the updated DataFrame to a new CSV file
    df.to_csv(output_path_with_intents, index=False, encoding='utf-8-sig')

    print(f"Commands with intents saved to {output_path_with_intents}")

# Combine CSV files
file_paths = [
    '/content/cleaned_segments_liel.csv',
    '/content/cleaned_segments_orel.csv',
    '/content/cleaned_segments_adi.csv',
    '/content/cleaned_segments_hannah.csv'
]
combined_output_path = '/content/combined_segments.csv'
combine_csv_files(file_paths, combined_output_path)

# Assign intents to the combined CSV file
output_path_with_intents = '/content/combined_segments_with_intents.csv'
assign_intents_to_commands(combined_output_path, output_path_with_intents)


Combined CSV saved to /content/combined_segments.csv
Commands with intents saved to /content/combined_segments_with_intents.csv


In [15]:
import pandas as pd

def delete_specific_segments(file_path, output_path):
    """
    Deletes rows with specific Segment values and saves the updated DataFrame to a new CSV file.

    :param file_path: Path to the CSV file.
    :param output_path: Path to save the updated CSV file.
    """
    # Load the CSV file
    df = pd.read_csv(file_path)

    # Define the segments to remove
    segments_to_remove = ["מה שלומך", "לי", "תרשמי כתור לרופא","חמישי לחמישי בשעה חמש וחצי"]

    # Filter the DataFrame to exclude rows with these segments
    df = df[~df["Segment"].isin(segments_to_remove)]

    # Save the updated DataFrame to a new CSV file
    df.to_csv(output_path, index=False, encoding='utf-8-sig')

    print(f"Rows with specified segments have been removed and saved to {output_path}")

# File paths
input_file_path = '/content/combined_segments_with_intents.csv'
output_file_path = '/content/filtered_segments_with_intents.csv'

# Call the function
delete_specific_segments(input_file_path, output_file_path)


Rows with specified segments have been removed and saved to /content/filtered_segments_with_intents.csv


תיקון משפטים לא ברורים:

In [16]:
import pandas as pd

# Load the CSV file
file_path = "/content/filtered_segments_with_intents.csv"
df = pd.read_csv(file_path)

# Define the mapping of phrases to their new intents
updates = {
    "אני רוצה לדעת אם בתל אביב ירד גשם ועד שאני צריכה להגיע לשם אם כן אני לא נוסעת": "weather_query",
    "אני רוצה להגיע לרופא בשעה חמש בתאריך חמישי לחמישי": "calendar_set",
    "אני רוצה להגיע לרופא בחמישי לחמישי ולהיבדק אבל תחפשי לי את זה": "calendar_set",
}

# Iterate through each phrase and update the Intent
for phrase, new_intent in updates.items():
    df.loc[df['Segment'] == phrase, 'Intent'] = new_intent

# Save the updated CSV file
output_path = '/content/segments_with_intents.csv'
df.to_csv(output_path, index=False, encoding='utf-8-sig')

print(f"Updated file saved to {output_path}")


Updated file saved to /content/segments_with_intents.csv


# כוונות שהיו:

 {0: 'alarm_query',

 1: 'alarm_set',

 2: 'calendar_query',

 3: 'calendar_set',

 4: 'datetime_query',

 5: 'email_query',

 6: 'news_query',

 7: 'play_audiobook',

 8: 'play_music',

 9: 'play_radio',

 10: 'qa_factoid',

 11: 'sendemail',

 12: 'social_post',

 13: 'weather_query'}


# כוונות חדשות:

0: 'send_message',

1: 'query',

2: 'transport_query',

3: 'camera_query',

4: 'qa_currency',

5: 'convert',

6: 'lists_createoradd',

7: 'iot_wemo_on',

8: 'general'

9: call_contact}
