In [None]:
import pandas as pd
import numpy as np
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import google.generativeai as genai
from typing import List, Dict, Any
import os
from dotenv import load_dotenv

load_dotenv()
GEMINI_API_KEY = "AIzaSyAcsegoQ0kny7xmQ6QJFTRup_ZsdS5a4Bc"

In [4]:
genai.configure(api_key=GEMINI_API_KEY)

In [None]:
BASE_PROMPT = """# Political Sentiment Analyser
You are an expert in political sentiment analysis for Tamil-language tweets.
Your task is to analyze the given Tamil tweet and classify its sentiment using one of the following labels:

Opinionated - Expresses a personal view, judgment, or bias.
Substantiated - Presents evidence, facts, or data to support a claim.
Neutral - No clear sentiment or opinion is expressed; purely informational or balanced.
Negative - Expresses criticism, dissatisfaction, or negative emotion.
Positive - Expresses support, praise, or positive emotion.
Sarcastic - Uses irony or mockery to imply the opposite of what is said.
None of the above - Does not fit into any of the listed categories.

Instructions:
Read the tweet carefully, considering word choice, tone, hashtags, emojis, and cultural/political context if applicable.
Choose the single most appropriate sentiment label from the list above.
Return your response only in the following JSON format:

``` json
{
    "label": "<label>"
}
Do not include any additional explanation or output. Only return the JSON.
```

"""

class TamilSentimentAnalyzer:
    def __init__(self, example_data_path: str):
        self.example_df = pd.read_csv(example_data_path)

        self.example_df = self.example_df.iloc[:1000]  # Limit to 1000 examples for faster processing
        
        self.model = SentenceTransformer('sentence-transformers/distiluse-base-multilingual-cased-v1')
        
        self.example_embeddings = self.model.encode(self.example_df['content'].tolist())
        
        self.gemini_model = genai.GenerativeModel('gemini-2.0-flash')
    
    def retrieve_similar_examples(self, query_text: str, k: int = 10) -> List[Dict[str, Any]]:

        query_embedding = self.model.encode([query_text])[0]
        
        similarities = cosine_similarity([query_embedding], self.example_embeddings)[0]
        
        top_indices = np.argsort(similarities)[-k:][::-1]
        
        similar_examples = []
        for idx in top_indices:
            similar_examples.append({
                'content': self.example_df.iloc[idx]['content'],
                'label': self.example_df.iloc[idx]['label']
            })

        print("Top similar examples:")
        for example in similar_examples:
            print(f"Content: {example['content']}, Label: {example['label']}")
            
        return similar_examples
    
    def generate_prompt(self, input_text: str) -> str:
        similar_examples = self.retrieve_similar_examples(input_text)
        
        examples_text = "## Examples\n"
        for example in similar_examples:
            examples_text += f"Input: \"{example['content']}\"\n"
            examples_text += f"Output: {example['label']}\n\n"
        
        # Combine with base prompt
        prompt = BASE_PROMPT + "\n" + examples_text
        prompt += f"\n## Text to Analyze\n\"{input_text}\"\n"
        
        return prompt
    
    def predict(self, text: str) -> str:
        """Predict sentiment for the given text."""
        prompt = self.generate_prompt(text)
        
        response = self.gemini_model.generate_content(prompt)
        
        prediction = response.text.strip()
        
        return prediction
    
    def batch_predict(self, texts: List[str]) -> List[str]:
        predictions = []
        for text in texts:
            prediction = self.predict(text)
            predictions.append(prediction)
        return predictions

analyzer = TamilSentimentAnalyzer(r"C:\Users\nithi\College\6TH SEMESTER\NATURAL LANGUAGE PROCESSING\PROJECT\Data\cleaned_PS_train.csv")

In [12]:
text = "முற்றிலும் வறண்ட வீராணம் ஏரி; 1 லட்சம் ஏக்கர் பாதிக்கப்பட்டதால் டெல்டா விவசாயிகள் கவலை... 50 ஆண்டுகால திராவிட ஆட்சி இதுவே சாட்சி அவலங்கள் தொடர் கதை<red heart emoji/><black heart emoji/> <hashtag/> <hashtag/> <hashtag/> <hashtag/> <hashtag/> <hashtag/>"
prediction = analyzer.predict(text)
print(f"Text: {text}")
print(f"Predicted sentiment: {prediction}")

Top similar examples:
Content: வடசென்னை பகுதியில் நீர்நிலையில் படர்ந்துள்ள எண்ணெய் கழிவில் சிக்கி கருமை நிறமாக மாறிய கூழைக்கடா பறவை.. 50 ஆண்டுகால திராவிட ஆட்சி இதுவே சாட்சி அவலங்கள் தொடர் கதை<red heart emoji/><black heart emoji/> <hashtag/> <hashtag/> <hashtag/> <hashtag/> <hashtag/>, Label: Opinionated
Content: <hashtag/> மயிலாடுதுறையில் நடுரோட்டில் இருந்த மின்கம்பம்.. கண்டுகொள்ளாமல் போடப்பட்ட புதிய தார்சாலை... 50 ஆண்டுகால திராவிட ஆட்சி இதுவே சாட்சி அவலங்கள் தொடர் கதை<red heart emoji/><black heart emoji/> <hashtag/> <hashtag/> <hashtag/> <hashtag/> <hashtag/> <hashtag/>, Label: Substantiated
Content: பாசிசத்தை வீழ்த்தி, இந்தியாவை காக்க ஸ்டாலின் அழைக்கிறார்! நாடும் நமதே! நாற்பதும் நமதே!<black heart emoji/><red heart emoji/> <hashtag/> <hashtag/> <hashtag/> <hashtag/> <hashtag/> <hashtag/> <hashtag/> <hashtag/> <hashtag/>, Label: Opinionated
Content: ஆட்சி மாறினாலும்,காட்சி மாறவில்லை.. <hashtag/> <hashtag/> <hashtag/> <hashtag/> 50 ஆண்டுகால திராவிட ஆட்சி இதுவே சாட்சி அவலங்கள் தொடர் கதை<

In [9]:

prompt

'You are an expert in political sentiment analysis for Tamil language tweets. Your task is to analyze the provided tweet and classify its sentiment into one of the following labels: Opinionated, Substantiated, Neutral, Negative, Sarcastic, or Positive.\n\nInstructions:\n1. Carefully consider the language, tone, and any special symbols (like hashtags and emojis) in the tweet.\n2. Output only one label that best describes the overall sentiment of the tweet.\n\nHere are some examples:\n\n'