In [1]:
"""Database connection configuration."""
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
import os

DATABASE_URL = DATABASE_URL = f"postgresql+psycopg2://postgres:{os.getenv('POSTGRES_PASSWORD')}@localhost/gazzetta"

engine = create_engine(DATABASE_URL)
SessionLocal = sessionmaker(autocommit=False, autoflush=False, bind=engine)

def get_db():
    """Get database session."""
    db = SessionLocal()
    try:
        yield db
    finally:
        db.close()

In [2]:
from sqlalchemy import create_engine
import pandas as pd
import os
from sqlalchemy.orm import sessionmaker
from data_collection.db.models import Article, Blogger, Category


# Get database connection
DATABASE_URL = f"postgresql+psycopg2://postgres:{os.getenv('POSTGRES_PASSWORD')}@localhost/gazzetta"
engine = create_engine(DATABASE_URL)

# SQL query to get all articles with blogger names and categories
query = """
SELECT 
    a.id,
    a.title,
    a.content,
    a.article_url,
    a.published_date,
    a.created_at,
    b.name as blogger_name,
    string_agg(c.name, ', ') as categories
FROM articles a
LEFT JOIN bloggers b ON a.blogger_id = b.id
LEFT JOIN article_categories ac ON a.id = ac.article_id
LEFT JOIN categories c ON ac.category_id = c.id
GROUP BY a.id, a.title, a.content, a.article_url, a.published_date, a.created_at, b.name
"""

# Read into DataFrame
df = pd.read_sql_query(query, engine)

# Convert datetime columns to pandas datetime
df['published_date'] = pd.to_datetime(df['published_date'])
df['created_at'] = pd.to_datetime(df['created_at'])

# Split categories string into list
df['categories'] = df['categories'].fillna('').str.split(', ')

# Display info about the DataFrame
print("\nDataFrame Info:")
print(df.info())

print("\nSample of the data:")
print(df.head())

print("\nTotal articles:", len(df))
print("Unique bloggers:", df['blogger_name'].nunique())
print("Total categories:", len(set([cat for cats in df['categories'] if cats != [''] for cat in cats])))


DataFrame Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12448 entries, 0 to 12447
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   id              12448 non-null  int64         
 1   title           12448 non-null  object        
 2   content         12448 non-null  object        
 3   article_url     12448 non-null  object        
 4   published_date  12448 non-null  datetime64[ns]
 5   created_at      12448 non-null  datetime64[ns]
 6   blogger_name    12448 non-null  object        
 7   categories      12448 non-null  object        
dtypes: datetime64[ns](2), int64(1), object(5)
memory usage: 778.1+ KB
None

Sample of the data:
   id                                              title  \
0   1                  Τάραξε λίγο τα νερά ο Ολυμπιακός…   
1   2  Ο Μεντιλίμπαρ πλέον τον ξέρει καλά και περιμέν...   
2   3               Ο Ολυμπιακός στον τόπο των δραμάτων!   
3   4  Από τις πιο

In [11]:
import os
from openai import OpenAI

# 1. Configure your API key
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

def classify_article_with_explanation(article_text, target_club):
    """
    Calls OpenAI ChatCompletion to classify the stance of the given Greek text
    (θετική, αρνητική, ή ουδέτερη) towards `target_club` and also provides
    a short justification/explanation.

    Returns:
        (stance, justification) 
        where stance is one of ["θετική", "αρνητική", "ουδέτερη"] 
        and justification is a short string explaining why.
    """

    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[
            {
                "role": "developer",
                "content": (
                    "Είσαι ένας βοηθός ανάλυσης κειμένου για ελληνικά κείμενα. "
                    "Θέλω να αναλύσεις το παρακάτω απόσπασμα και να προσδιορίσεις "
                    f"αν η στάση του κειμένου απέναντι στην ομάδα {target_club} "
                    "είναι θετική, αρνητική, ή ουδέτερη. "
                    "Στη συνέχεια, εξήγησε σε μία σύντομη παράγραφο γιατί κατέληξες σε αυτό το συμπέρασμα."
                ),
            },
            {
                "role": "user",
                "content": (
                    f"Απόσπασμα:\n{article_text}\n\n"
                    "Πρώτα γράψε μόνο μία λέξη (θετική, αρνητική ή ουδέτερη), "
                    "και μετά δώσε μια σύντομη εξήγηση (μία πρόταση) για τη συλλογιστική σου."
                ),
            },
        ],
        temperature=0.0,
        max_tokens=100  # Increase to allow a short explanation
    )

    # Extract the model's raw reply
    full_reply = response.choices[0].message.content.strip()

    # Example expected format:
    # θετική
    # Επειδή ο αρθρογράφος επαινεί την ομάδα και τονίζει τα θετικά της στοιχεία.
    #
    # We can split by newline to separate the stance from the explanation.
    lines = full_reply.split('\n', 1)
    
    # Handle edge cases: if we didn't get two lines, fallback or parse differently.
    if len(lines) == 1:
        stance = lines[0].strip()
        justification = ""
    else:
        stance = lines[0].strip()
        justification = lines[1].strip()

    return stance, justification


In [13]:
classify_article_with_explanation(df.iloc[0]["content"], "Ολυμπιακός")

('Αρνητική',
 'Η στάση του κειμένου απέναντι στον Ολυμπιακό είναι αρνητική, καθώς αναφέρεται σε πολλές αδυναμίες της ομάδας κατά τη διάρκεια του παιχνιδιού, όπως η κακή απόδοση των παικτών, οι λανθασμένες ενέργειες και η γενική έλλειψη σοβαρότητας, ενώ επισημαίνει και την απογοήτευση από την εικόνα της')