In [1]:
"""Database connection configuration."""
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
import os

DATABASE_URL = DATABASE_URL = f"postgresql+psycopg2://postgres:{os.getenv('POSTGRES_PASSWORD')}@localhost/gazzetta"

engine = create_engine(DATABASE_URL)
SessionLocal = sessionmaker(autocommit=False, autoflush=False, bind=engine)

def get_db():
    """Get database session."""
    db = SessionLocal()
    try:
        yield db
    finally:
        db.close()

In [2]:
from sqlalchemy import create_engine
import pandas as pd
import os
from sqlalchemy.orm import sessionmaker
from data_collection.db.models import Article, Blogger, Category, StancePrediction

# Get database connection
DATABASE_URL = f"postgresql+psycopg2://postgres:{os.getenv('POSTGRES_PASSWORD')}@localhost/gazzetta"
engine = create_engine(DATABASE_URL)

# SQL query to get all articles with blogger names, categories and stance predictions
query = """
SELECT 
    a.id,
    a.title,
    a.content,
    a.article_url,
    a.published_date,
    b.name as blogger_name,
    string_agg(DISTINCT c.name, ', ') as categories,
    sp.target_club,
    sp.stance,
    sp.justification
FROM articles a
LEFT JOIN bloggers b ON a.blogger_id = b.id
LEFT JOIN article_categories ac ON a.id = ac.article_id
LEFT JOIN categories c ON ac.category_id = c.id
LEFT JOIN stance_predictions sp ON a.id = sp.article_id
GROUP BY 
    a.id, 
    a.title, 
    a.content, 
    a.article_url, 
    a.published_date,
    b.name,
    sp.target_club,
    sp.stance,
    sp.justification
"""

# Read into DataFrame
df = pd.read_sql_query(query, engine)

# Convert datetime columns
df['published_date'] = pd.to_datetime(df['published_date'])

# Split categories string into list
df['categories'] = df['categories'].fillna('').str.split(', ')

# Display info about the DataFrame
print("\nDataFrame Info:")
print(df.info())

print("\nSample of the data:")
print(df.head())

print("\nTotal articles:", len(df))
print("Unique bloggers:", df['blogger_name'].nunique())
print("Total categories:", len(set([cat for cats in df['categories'] if cats != [''] for cat in cats])))


DataFrame Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12448 entries, 0 to 12447
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   id              12448 non-null  int64         
 1   title           12448 non-null  object        
 2   content         12448 non-null  object        
 3   article_url     12448 non-null  object        
 4   published_date  12448 non-null  datetime64[ns]
 5   blogger_name    12448 non-null  object        
 6   categories      12448 non-null  object        
 7   target_club     12448 non-null  object        
 8   stance          12448 non-null  object        
 9   justification   12448 non-null  object        
dtypes: datetime64[ns](1), int64(1), object(8)
memory usage: 972.6+ KB
None

Sample of the data:
   id                                              title  \
0   1                  Τάραξε λίγο τα νερά ο Ολυμπιακός…   
1   2  Ο Μεντιλίμπαρ πλέον τον ξέ

In [3]:
df.dropna(subset="stance").groupby("blogger_name")["stance"].value_counts()

blogger_name           stance  
Βασίλης Σαμπράκος      ουδέτερη     293
                       αρνητική      56
                       θετική        47
Γιάννης Σερέτης        ουδέτερη     292
                       αρνητική      35
                       θετική        26
Γιώργος Κούβαρης       ουδέτερη    3024
                       αρνητική     122
                       θετική        85
Γιώργος Τσακίρης       ουδέτερη     514
                       αρνητική     112
                       θετική         6
Δημήτρης Τομαράς       ουδέτερη    1737
                       θετική      1384
                       αρνητική     195
Κώστας Νικολακόπουλος  θετική       322
                       ουδέτερη     224
                       αρνητική     173
Νίκος Αθανασίου        ουδέτερη    1062
                       αρνητική      69
                       θετική        13
Νίκος Παπαδογιάννης    ουδέτερη     203
                       θετική        87
                       αρνητική      46
Σταύρος 

In [4]:
df

Unnamed: 0,id,title,content,article_url,published_date,blogger_name,categories,target_club,stance,justification
0,1,Τάραξε λίγο τα νερά ο Ολυμπιακός…,Ο Κ. Νικολακόπουλος σχολιάζει στο blog του στο...,https://www.gazzetta.gr/football/superleague/2...,2025-01-07 13:30:00,Κώστας Νικολακόπουλος,[STOIXIMAN SUPERLEAGUE],Ολυμπιακός,αρνητική,Η στάση του κειμένου απέναντι στον Ολυμπιακό ε...
1,2,Ο Μεντιλίμπαρ πλέον τον ξέρει καλά και περιμέν...,Ο Κ. Νικολακόπουλος «βλέπει» μέσα από το blog ...,https://www.gazzetta.gr/football/superleague/2...,2025-01-06 11:00:00,Κώστας Νικολακόπουλος,"[STOIXIMAN SUPERLEAGUE, ΟΛΥΜΠΙΑΚΟΣ]",Ολυμπιακός,ουδέτερη,Η στάση του κειμένου απέναντι στον Ολυμπιακό ε...
2,3,Ο Ολυμπιακός στον τόπο των δραμάτων!,Ο Κ. Νικολακόπουλος γράφει στο blog του στο ga...,https://www.gazzetta.gr/football/superleague/2...,2025-01-05 13:05:00,Κώστας Νικολακόπουλος,"[STOIXIMAN SUPERLEAGUE, ΟΛΥΜΠΙΑΚΟΣ]",Ολυμπιακός,αρνητική,Η στάση του κειμένου απέναντι στον Ολυμπιακό ε...
3,4,"Από τις πιο δύσκολες μεταγραφές, αυτή του εξτρέμ!",Ο Κ. Νικολακόπουλος εξηγεί μέσα από το blog το...,https://www.gazzetta.gr/football/superleague/2...,2025-01-04 13:30:00,Κώστας Νικολακόπουλος,"[STOIXIMAN SUPERLEAGUE, ΟΛΥΜΠΙΑΚΟΣ]",Ολυμπιακός,ουδέτερη,Η στάση του κειμένου απέναντι στον Ολυμπιακό ε...
4,5,Μία τρίτη ευκαιρία ή μία χαμένη ευκαιρία;,Ο Κ. Νικολακόπουλος προσπαθεί να απαντήσει μέσ...,https://www.gazzetta.gr/football/superleague/2...,2025-01-03 14:00:00,Κώστας Νικολακόπουλος,"[STOIXIMAN SUPERLEAGUE, ΟΛΥΜΠΙΑΚΟΣ]",Ολυμπιακός,ουδέτερη,Η στάση του κειμένου απέναντι στον Ολυμπιακό ε...
...,...,...,...,...,...,...,...,...,...,...
12443,12607,"Στο... κόλπο οι Χοκς, το Ορλάντο απομάκρυνε το...",Ο Τρέι Γιανγκ κράτησε «ζωντανούς» τους Χοκς ακ...,https://www.gazzetta.gr/basketball/nba/2207356...,2023-03-22 07:38:00,Γιώργος Κούβαρης,"[NBA, ΑΤΛΑΝΤΑ ΧΟΚΣ, ΝΤΙΤΡΟΙΤ ΠΙΣΤΟΝΣ]",Ολυμπιακός,ουδέτερη,Το απόσπασμα αναφέρεται σε αγώνες και επιδόσει...
12444,12608,Η τελευταία κατοχή των Κλίπερς που έμεινε η μπ...,Η εξαιρετική άμυνα των Θάντερ στην τελευταία ε...,https://www.gazzetta.gr/basketball/nba/2207355...,2023-03-22 07:25:00,Γιώργος Κούβαρης,"[NBA, ΛΟΣ ΑΝΤΖΕΛΕΣ ΚΛΙΠΕΡΣ, ΟΚΛΑΧΟΜΑ ΣΙΤΙ ΘΑΝΤΕΡ]",Ολυμπιακός,ουδέτερη,Το απόσπασμα αναφέρεται σε μια συγκεκριμένη φά...
12445,12609,"Απόδραση... play-off για τους Θάντερ, αγωνία γ...",Οι Οκλαχόμα Σίτι Θάντερ έφτασαν σε μια σπουδαί...,https://www.gazzetta.gr/basketball/nba/2207354...,2023-03-22 07:09:00,Γιώργος Κούβαρης,"[NBA, ΛΟΣ ΑΝΤΖΕΛΕΣ ΚΛΙΠΕΡΣ, ΟΚΛΑΧΟΜΑ ΣΙΤΙ ΘΑΝΤΕΡ]",Ολυμπιακός,ουδέτερη,Το απόσπασμα επικεντρώνεται στην περιγραφή ενό...
12446,12610,Τραυματισμός για τον Πολ Τζορτζ στους Κλίπερς ...,Πρόβλημα παρουσιάστηκε στους Λος Άντζελες Κλίπ...,https://www.gazzetta.gr/basketball/nba/2207353...,2023-03-22 06:55:00,Γιώργος Κούβαρης,"[NBA, ΛΟΣ ΑΝΤΖΕΛΕΣ ΚΛΙΠΕΡΣ]",Ολυμπιακός,ουδέτερη,Το απόσπασμα αναφέρεται σε ένα γεγονός που αφο...


In [5]:
# Filter for Olympiakos-related predictions and create time-based visualizations
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Filter for Olympiakos predictions
olympiakos_df = df[df['target_club'] == 'Ολυμπιακός'].copy()

# Create monthly aggregation
olympiakos_df['month'] = olympiakos_df['published_date'].dt.to_period('M').astype(str)

# 1. Monthly sentiment distribution per journalist
monthly_sentiment = olympiakos_df.pivot_table(
    index=['month', 'blogger_name'],
    columns='stance',
    aggfunc='size',
    fill_value=0
).reset_index()

# Calculate percentage for each stance
for stance in ['θετική', 'αρνητική', 'ουδέτερη']:
    if stance not in monthly_sentiment.columns:
        monthly_sentiment[stance] = 0
    total = monthly_sentiment[['θετική', 'αρνητική', 'ουδέτερη']].sum(axis=1)
    monthly_sentiment[f'{stance}_pct'] = monthly_sentiment[stance] / total * 100

# Create stacked area chart
fig = px.area(
    monthly_sentiment.melt(
        id_vars=['month', 'blogger_name'],
        value_vars=['θετική_pct', 'ουδέτερη_pct', 'αρνητική_pct'],
        var_name='sentiment',
        value_name='percentage'
    ),
    x='month',
    y='percentage',
    color='sentiment',
    facet_col='blogger_name',
    facet_col_wrap=3,
    title='Monthly Sentiment Distribution per Journalist (Olympiakos)',
    labels={'month': 'Month', 'percentage': 'Percentage'},
    color_discrete_map={
        'θετική_pct': 'green',
        'ουδέτερη_pct': 'gray',
        'αρνητική_pct': 'red'
    }
)
fig.update_layout(height=800)
fig.show()

# 2. Overall sentiment trend
monthly_overall = olympiakos_df.groupby('month')['stance'].value_counts(normalize=True).unstack()

fig2 = go.Figure()
for stance in ['θετική', 'αρνητική', 'ουδέτερη']:
    if stance in monthly_overall.columns:
        fig2.add_trace(go.Scatter(
            x=monthly_overall.index,
            y=monthly_overall[stance] * 100,
            name=stance,
            mode='lines+markers',
            line=dict(width=2),
            marker=dict(size=6)
        ))

fig2.update_layout(
    title='Overall Monthly Sentiment Trends towards Olympiakos',
    xaxis_title='Month',
    yaxis_title='Percentage',
    hovermode='x unified',
    legend_title='Sentiment',
    height=500
)
fig2.show()

In [7]:
!pip freeze

aiofiles==24.1.0
aiohappyeyeballs==2.4.4
aiohttp==3.11.11
aiosignal==1.3.2
aiosqlite==0.20.0
alembic==1.14.0
annotated-types==0.7.0
anyio @ file:///io/perseverance-python-buildout/croot/anyio_1731700736723/work
asttokens @ file:///home/conda/feedstock_root/build_artifacts/asttokens_1733250440834/work
attrs==24.3.0
beautifulsoup4==4.12.3
Bottleneck @ file:///croot/bottleneck_1731058641041/work
Brotli @ file:///croot/brotli-split_1736182456865/work
certifi @ file:///io/buildout/croot/certifi_1735842370795/work/certifi
cffi==1.17.1
charset-normalizer==3.4.1
click==8.1.8
colorama==0.4.6
comm @ file:///home/conda/feedstock_root/build_artifacts/comm_1733502965406/work
Crawl4AI==0.4.247
cryptography==44.0.0
-e git+ssh://git@github.com/alejio/greek-news-nlp.git@ba88912f9cb12a2f5a4de2df8be1d920a3caa608#egg=data_collection
debugpy @ file:///home/conda/feedstock_root/build_artifacts/debugpy_1734158929994/work
decorator @ file:///home/conda/feedstock_root/build_artifacts/decorator_1733236420667/wo