In [1]:
from site_scraper import SiteScraper

gsp_scraper = SiteScraper(
    name="gsp",
    base_url="https://www.gsp.ro",
    traffic=3.6,
    time_selector="p.data-author",
    block_selector="div.news-item",
    link_selector="h2 a",
    title_strategy="text"
)

digisport_scraper = SiteScraper(
    name="digisport",
    base_url="https://www.digisport.ro",
    traffic=3.3,
    time_selector="cite",
    block_selector="article.article",
    link_selector="a.article-link, h3 a.widget-latest-list-item-link",
    title_strategy="attribute",
    title_attribute="title"
)

fanatik_scraper = SiteScraper(
    name="fanatik",
    base_url="https://www.fanatik.ro",
    traffic=2.9,  # Estimated, adjust as needed
    time_selector="span.date",  # Often used near article blocks
    block_selector="div.article",  # Container for each article
    link_selector="h3 a",  # Headline links
    title_strategy="text"
)

# prosport_scraper = SiteScraper(
#     name="prosport",
#     base_url="https://www.prosport.ro",
#     traffic=3.1,  # Estimated, adjust as needed
#     time_selector="span.date",  # Common timestamp element
#     block_selector="div.article",  # Article container
#     link_selector="h2 a, h3 a",  # Headlines across sections
#     title_strategy="attribute",
#     title_attribute="title"
# )

prosport_scraper = SiteScraper(
    name="prosport",
    base_url="https://www.prosport.ro",
    traffic=3.1,
    time_selector="span.date",
    block_selector="h2.article__title",  # Directly targets the title block
    link_selector="a",  # The anchor inside the h2
    title_strategy="text"
)

sites = [gsp_scraper, digisport_scraper, fanatik_scraper, prosport_scraper]
total_traffic = sum(site.traffic for site in sites)

In [12]:
for site in sites:
    site.compute_weight(total_traffic)
    site.scrape_recent_articles(minutes=360)
    site.save_to_csv()
    # site.short_print()


In [2]:
from story_clusterer import StoryClusterer

clusterer = StoryClusterer(sites, 180, 0.3, 0.4)
clusterer.cluster_stories()

clusterer.print_matched_clusters()


🧠 Cluster #1 — Score: 0.0

🔍 Matched Clusters Across Multiple Sites

🧠 Cluster #1 — Score: 0.0 — Sites: gsp, prosport
------------------------------------------------------------
📰 Hotelul în care se afla Florinel Coman a fost zguduit de atacul lansat de Israel în Qatar: "Mi-a spus că în Doha au explodat două bombe"
🔗 https://www.gsp.ro/international/campionate/israel-atac-cu-bomba-in-qatar-hotel-florinel-coman-840429.html
🔑 Keywords: ['capitala', 'scene', 'război', 'qatarului', 'israel', 'atacat', 'bombe', 'liderii', 'hamas', 'florinel']
🏷️ Entities: Doha, Qatarului, Israel, liderii, Hamas, Florinel Coman, Al Gharafa, hotel
------------------------------------------------------------
📰 Hotelul unde era cazat Florinel Coman, zguduit de două bombe care au explodat în apropiere!
🔗 https://www.prosport.ro/fotbal-extern/stranieri/hotelul-unde-era-cazat-florinel-coman-zguduit-de-doua-bombe-care-au-explodat-in-apropiere-20268523
🔑 Keywords: ['florinel', 'coman', 'trecut', 'clipe', 'groază',

In [14]:

top_stories = clusterer.score_clusters()

for i, story in enumerate(top_stories[:5], 1):
    print(f"\n🏆 Top {i} — Score: {story['score']}")
    for article in story["articles"]:
        print(f"- {article.site}: {article.title}")



🏆 Top 1 — Score: 0.519
- gsp: Hotelul în care se afla Florinel Coman a fost zguduit de atacul lansat de Israel în Qatar: „Mi-a spus că în Doha au explodat două bombe”
- prosport: Hotelul unde era cazat Florinel Coman, zguduit de două bombe care au explodat în apropiere!

🏆 Top 2 — Score: 0.496
- digisport: ”Dacă au demnitate și onoare, toți demisia, acum”! Fostul internațional a răbufnit, după Cipru - România 2-2
- prosport: ”Dacă au demnitate și onoare, toți demisia, acum”! Fostul internațional a răbufnit, după Cipru - România 2-2

🏆 Top 3 — Score: 0.256
- digisport: Constantin Budescu l-a convins pe fotbalistul de națională să vină în Liga 2! Transfer spectaculos pentru Tunari. Exclusiv
