In [1]:
import pandas as pd
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM


model_path = "inceptionai/jais-family-590m"
device = "cuda" if torch.cuda.is_available() else "cpu"


print(f"Using device: {device}")
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path, device_map="cuda", trust_remote_code=True
)


# Function to get the story value


Using device: cuda


In [2]:
import torch
import pandas as pd
import gc
from transformers import AutoTokenizer

# Initialize the tokenizer with left padding
tokenizer = AutoTokenizer.from_pretrained(
    "inceptionai/jais-family-590m", padding_side="left"
)

# Define the batch size for processing stories
batch_size = 1  # Set a suitable batch size


def batch_get_story_value(stories):
    responses = []
    for i in range(0, len(stories), batch_size):
        batch = stories[i : i + batch_size]
        prompts = [
            (
                f"قم بتحليل القصة التالية واستخرج القيمة الأساسية لها. "
                f"يجب أن تكون القيمة تعبر عن الدرس أو الفكرة الرئيسية من القصة. "
                f"القصة هي: {story} القيمة هي: على سبيل المثال، "
                f"إذا كانت القصة تتحدث عن الصداقة، يمكن أن تكون القيمة: 'الصداقة'."
            )
            for story in batch
        ]

        # Tokenize with truncation and return attention mask
        input_ids = tokenizer(
            prompts, return_tensors="pt", padding=True, truncation=True, max_length=2048
        ).input_ids
        inputs = input_ids.to(device)

        print("Generating responses...")

        # Set max_length for generation to prevent exceeding input size
        max_gen_length = (
            2048 - inputs.shape[1]
        )  # Ensure the total length does not exceed 2048
        if max_gen_length <= 0:
            print("Input too long for generation. Skipping...")
            responses.extend(
                [""] * len(batch)
            )  # Add empty responses for skipped stories
            continue

        with torch.no_grad():  # Disable gradient tracking
            generate_ids = model.generate(
                inputs,
                top_p=0.95,
                max_new_tokens=min(
                    5, max_gen_length
                ),  # Ensure max_new_tokens does not exceed remaining length
                temperature=0.5,
                repetition_penalty=1.2,
                do_sample=True,
            )

        # Decode responses and extend the list of responses
        responses.extend(
            tokenizer.batch_decode(
                generate_ids,
                skip_special_tokens=True,
                clean_up_tokenization_spaces=True,
            )
        )

        # Clear unused variables to free up memory
        del inputs, generate_ids, input_ids
        gc.collect()  # Call garbage collection

    return responses


# Load the CSV file
df = pd.read_csv("./merged.csv")  # Replace with your actual file path

# Fill the value column
df["value"] = batch_get_story_value(df["content"].tolist())

# Save the updated DataFrame to a new CSV file
df.to_csv("merged_filled.csv", index=False)  # Re

The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


Generating responses...
Generating responses...
Input too long for generation. Skipping...
Generating responses...
Input too long for generation. Skipping...
Generating responses...
Generating responses...
Input too long for generation. Skipping...
Generating responses...
Generating responses...
Input too long for generation. Skipping...
Generating responses...
Input too long for generation. Skipping...
Generating responses...
Input too long for generation. Skipping...
Generating responses...
Input too long for generation. Skipping...
Generating responses...
Generating responses...
Generating responses...
Generating responses...
Generating responses...
Input too long for generation. Skipping...
Generating responses...
Input too long for generation. Skipping...
Generating responses...
Input too long for generation. Skipping...
Generating responses...
Generating responses...
Input too long for generation. Skipping...
Generating responses...
Input too long for generation. Skipping...
Gene

In [5]:
df['value'][0]

"قم بتحليل القصة التالية واستخرج القيمة الأساسية لها. يجب أن تكون القيمة تعبر عن الدرس أو الفكرة الرئيسية من القصة. القصة هي: ومما يحكى أنه في زمان الحاكم بأمر الله رجل بمصر يسمى وردان وكان جزاراً في اللحم الضأني، وكانت امرأة تأتيه كل يوم بدينار يقارب وزنه وزن دينارين ونصف من الدنانير المصرية وتقول له أعطني خروفاً وتحضر معها حمالاً بقفص فيأخذ الدينار ويعطيها خروفاً فيحمله الحمال وتأخذه وتروح به إلى مكانها، وفي ثاني يوم وقت الضحى تأتي، وكان ذلك الجزار يكتسب منها كل يوم ديناراً وأقامت مدة طويلة على ذلك. \xa0 فتفكر وردان الجزار ذات يوم في أمرها وقال في نفسه: هذه المرأة كل يوم تشتري مني بدينار ولم تغلط يوماً واحداً وتشتري مني بدراهم هذا أمر عجيب. ثم أن وردان سأل الحمال في غيبة المرأة فقال له: أنا في غاية العجب منها فإنها كل يوم تحملني الخروف من عندك وتشتري حوائج الطعام والفاكهة والنقل بدينار آخر وتأخذ من شخص نصراني مروقتين نبيذ وتعطيه ديناراً وتحملني الجميع وأسير معها إلى بساتين الوزير، ثم تعصب عيني بحيث أني لا أنظر موضعاً من الأرض أحط فيه قدمي وتأخذ بيدي فما أعرف أين تذهب بي ثم تقول: حط ه

In [None]:
import pandas as pd
import os
import google.generativeai as genai

# Set up your API key
os.environ["GEMINI_API_KEY"] = (
    "AIzaSyDV-CddABsTsA1hAfV2fZ5TMiddLNU_CyQ"  # Replace with your actual API key
)

# Configure the Gemini API
genai.configure(api_key=os.environ["GEMINI_API_KEY"])

# Define the batch size for processing stories
batch_size = 8  # Set a suitable batch size


def batch_get_story_value(stories):
    responses = []
    for i in range(0, len(stories), batch_size):
        batch = stories[i : i + batch_size]
        prompts = [
            (
                f"قم بتحليل القصة التالية واستخرج القيمة الأساسية لها. "
                f"يجب أن تكون القيمة تعبر عن الدرس أو الفكرة الرئيسية من القصة. "
                f"القصة هي: {story} القيمة هي: "
            )
            for story in batch
        ]

        print("Generating responses using Gemini API...")

        for prompt in prompts:
            # Create a model and run a prompt
            model = genai.GenerativeModel("gemini-1.5-flash")
            response = model.generate_content(prompt)
            responses.append(response.text)

    return responses


# Load the CSV file
df = pd.read_csv(
    "./merged.csv"
)  # Replace with your actual file path

# Fill the value column
results = batch_get_story_value(df["content"].tolist()[:10])

# Save the updated DataFrame to a new CSV file
# df.to_csv("merged_filled.csv", index=False)  # Replace with your desired output file path

results