In [60]:
import psycopg2

connection = psycopg2.connect(
    dbname="SentimentDB",
    user="Kuba",
    password="kuba",
    host="localhost",  # lub adres serwera
    port="5432"        # domyślny port PostgreSQL
)

create_table_query = """
CREATE TABLE tweets (
    id BIGINT PRIMARY KEY,          -- Kolumna ID jako klucz główny
    text TEXT NOT NULL,            -- Kolumna text
    tokens TEXT NOT NULL,        -- Kolumna tokens jako tablica tekstowa
    target INTEGER NOT NULL,       -- Kolumna target
    cnn_pred INTEGER NOT NULL,     -- Kolumna cnn_pred
    mistrall_pred Integer          -- Kolumna mistrall_pred
);
"""

cursor = connection.cursor()
try:
    cursor.execute(create_table_query)
    connection.commit()
    print("Tabela została utworzona pomyślnie.")
except Exception as e:
    print("Błąd podczas tworzenia tabeli:", e)
finally:
    cursor.close()
    connection.close()

Tabela została utworzona pomyślnie.


In [None]:
import pandas as pd
from sqlalchemy import create_engine

df = pd.read_csv('CNN_tweet_prediction.csv', sep=',', encoding='latin-1')
df['mistrall_pred'] = -1

engine = create_engine('postgresql://Kuba:kuba@localhost:5432/SentimentDB')

try:
    df.to_sql('tweets', engine, if_exists='append', index=False)
    print("Dane zostały załadowane pomyślnie.")
except Exception as e:
    print(f"Wystąpił błąd podczas ładowania danych: {e}")

Dane zostały załadowane pomyślnie.


In [82]:
from mistralai import Mistral
import pandas as pd


def process_batch(batch_texts, model, client, iter):
    def format_tweets_for_prompt(tweets):
        formatted_tweets = "\n".join([f"Tweet {i + 1}: \"{tweet}\"" for i, tweet in enumerate(tweets)])
        return formatted_tweets
    messages = [
        {
            "role": "user",
            "content": f"""Classify the following tweets to determine if their sentiment is positive or negative. Only respond with the exact words 'positive' or 'negative', in the same order as the tweets are provided, separated by commas.
            
            Tweets:
            {format_tweets_for_prompt(batch_texts)}"""
        },
    ]
    chat_response = client.chat.complete(
        model=model,
        messages=messages
    )
    response = chat_response.choices[0].message.content
    sentiments = response.split(",")  # Podział odpowiedzi na listę
    if(len(sentiments) != len(batch_texts)):
        raise Exception("Mismatch between number of tweets and sentiments returned.")
    return [1 if s.strip().lower() == "positive" else 0 for s in sentiments]
    


Przetwarzanie danych:

In [98]:
import pandas as pd
from sqlalchemy import create_engine, text
import time

def process_and_update_data(engine, model, client, batch_size = 100):
    select_query = text("""
            SELECT * FROM tweets
            WHERE mistrall_pred = -1
            ORDER BY ID ASC
            LIMIT :batch_size;
        """)
    
    update_query = text("""
        UPDATE tweets
        SET mistrall_pred = :mistrall_pred
        WHERE id = :id;
    """)
    
    with engine.connect() as conn:
        while True:
            batch = pd.read_sql(select_query, conn, params={"batch_size": batch_size})

            if batch.empty:
                print("Wszystkie rekordy zostały przetworzone.")
                break

            batch_texts = batch['text'].tolist()

            try:
                sentiments = process_batch(batch_texts, model, client, iter=0)  # Przekazujemy 0 jako iter
                
                if sentiments is None:
                    print("Skipping batch due to error.")
                    continue

                batch['mistrall_pred'] = sentiments

                for _, row in batch.iterrows():
                    print(f"Zapis do rekordu ID={row['id']}, mistrall_pred= {row['mistrall_pred']}")
                    conn.execute(update_query, {"mistrall_pred": row['mistrall_pred'], "id": row['id']})
                conn.commit()
                print(f"Processed and updated {len(batch)} records.")
                time.sleep(1.5)
            
            except Exception as e:
                print(f"Błąd podczas przetwarzania batcha: {e}")
                print("Batch zostanie ponownie przetworzony w następnej iteracji.")
                time.sleep(1.5)
                continue

In [99]:

DB_URL = 'postgresql://Kuba:kuba@localhost:5432/SentimentDB'
engine = create_engine(DB_URL)

api_key = "..."
model = "open-mistral-nemo"
client = Mistral(api_key=api_key)

BATCH_SIZE = 10

process_and_update_data(
    engine=engine,
    model=model,
    client=client,
    batch_size=BATCH_SIZE)

Błąd podczas przetwarzania batcha: Mismatch between number of tweets and sentiments returned.
Batch zostanie ponownie przetworzony w następnej iteracji.
Błąd podczas przetwarzania batcha: Mismatch between number of tweets and sentiments returned.
Batch zostanie ponownie przetworzony w następnej iteracji.
Błąd podczas przetwarzania batcha: API error occurred: Status 429
{"message":"Requests rate limit exceeded"}
Batch zostanie ponownie przetworzony w następnej iteracji.
Zapis do rekordu ID=337, mistrall_pred= 1
Zapis do rekordu ID=338, mistrall_pred= 0
Zapis do rekordu ID=339, mistrall_pred= 0
Zapis do rekordu ID=340, mistrall_pred= 0
Zapis do rekordu ID=341, mistrall_pred= 0
Zapis do rekordu ID=342, mistrall_pred= 0
Zapis do rekordu ID=343, mistrall_pred= 0
Zapis do rekordu ID=344, mistrall_pred= 0
Zapis do rekordu ID=345, mistrall_pred= 0
Zapis do rekordu ID=346, mistrall_pred= 0
Processed and updated 10 records.
Zapis do rekordu ID=347, mistrall_pred= 0
Zapis do rekordu ID=348, mistr

KeyboardInterrupt: 