In [None]:
%pip install openai lxml beautifulsoup4

In [1]:
import os
os.environ["OPENAI_API_KEY"] = "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"


In [None]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import os
import sys
import time
import json
import requests
import pandas as pd
from bs4 import BeautifulSoup
from urllib.parse import urlparse
from openai import OpenAI

# ------------ KONFIGURACJA ------------

INPUT_CSV = "/Users/filipniewczas/studia/cogni/magisterka kod/full_tvn24_pl.csv"   # Twój scalony plik z URL-ami
OUTPUT_CSV = "tvn24_llm_extracted.csv"       # Tutaj zapiszą się wyniki
CHECKPOINT_CSV = "checkpoint_progress.csv"      # Plik z checkpointami
MAX_ARTICLES = 800                              # Na start: weź pierwsze 20 dla testów
MODEL_NAME = "gpt-5-nano"                    # Podmień na model, którego używasz
CHECKPOINT_INTERVAL = 20                        # Zapisuj co 20 artykułów

client = OpenAI()  # używa zmiennej OPENAI_API_KEY z env

# ------------ CHECKPOINTING ------------

def load_checkpoint():
    """Wczytaj checkpoint - zwraca ostatni przetworzony indeks i dotychczasowe wyniki"""
    if os.path.exists(CHECKPOINT_CSV):
        try:
            checkpoint_df = pd.read_csv(CHECKPOINT_CSV)
            if len(checkpoint_df) > 0:
                last_idx = checkpoint_df['processed_idx'].max()
                print(f"[INFO] Wznawiam od artykułu {last_idx + 1}")
                return last_idx, checkpoint_df.to_dict('records')
        except Exception as e:
            print(f"[WARN] Błąd przy wczytywaniu checkpoint: {e}")
    
    return -1, []

def save_checkpoint(results, last_processed_idx):
    """Zapisz checkpoint z wynikami"""
    try:
        checkpoint_data = []
        for i, result in enumerate(results):
            result_with_idx = result.copy()
            result_with_idx['processed_idx'] = i
            checkpoint_data.append(result_with_idx)
        
        checkpoint_df = pd.DataFrame(checkpoint_data)
        checkpoint_df.to_csv(CHECKPOINT_CSV, index=False)
        print(f"[INFO] Checkpoint zapisany po artykule {last_processed_idx}")
    except Exception as e:
        print(f"[ERROR] Błąd przy zapisywaniu checkpoint: {e}")

# ------------ POBIERANIE I PARSOWANIE HTML ------------

HEADERS = {
    "User-Agent": "Mozilla/5.0 (compatible; FilipScraper/1.0; +mailto:twoj@mail.com)"
}

def fetch_html(url: str, timeout: float = 20.0, max_retries: int = 3) -> str | None:
    """Pobiera HTML z retry mechanizmem."""
    for attempt in range(max_retries):
        try:
            resp = requests.get(url, headers=HEADERS, timeout=timeout)
            resp.raise_for_status()
            resp.encoding = resp.apparent_encoding  # Fix encoding issues
            return resp.text
        except requests.RequestException as e:
            if attempt < max_retries - 1:
                wait = 2 ** attempt
                print(f"[WARN] Retry {attempt+1}/{max_retries} za {wait}s: {e}")
                time.sleep(wait)
            else:
                print(f"[ERROR] Nie udało się pobrać {url}: {e}", file=sys.stderr)
    return None

def extract_article_text_bankier(html: str) -> str:
    """
    Uniwersalny ekstraktor tekstu artykułu - obsługuje różne portale.
    Obsługuje błędy parsowania z fallbackiem na lxml.
    """
    if not html or len(html) < 100:
        return ""
    
    # Próbuj kolejno różnych parserów
    for parser in ["lxml", "html.parser", "html5lib"]:
        try:
            soup = BeautifulSoup(html, parser)
            
            # Usuń niepotrzebne elementy
            for tag in soup(["script", "style", "nav", "footer", "header", "aside"]):
                tag.decompose()
            
            # 1) Spróbuj złapać główny artykuł
            article = soup.find("article")
            if article:
                text = article.get_text(separator=" ", strip=True)
            else:
                # 2) Próbuj różne typowe klasy i ID (Bankier, TVN24, inne)
                main_div = (
                    soup.find("div", class_="articleBody") or
                    soup.find("div", class_="article-content") or
                    soup.find("div", id="articleContent") or
                    soup.find("div", class_="article__body") or  # TVN24
                    soup.find("div", class_="story-content") or
                    soup.find("div", class_="entry-content") or
                    soup.find("main") or
                    soup.find("div", attrs={"itemprop": "articleBody"})
                )

                if main_div:
                    text = main_div.get_text(separator=" ", strip=True)
                else:
                    # 3) Fallback – weź wszystkie paragrafy
                    paragraphs = soup.find_all("p")
                    if paragraphs:
                        text = " ".join([p.get_text(strip=True) for p in paragraphs])
                    else:
                        # 4) Ostateczny fallback – cały tekst z body
                        body = soup.body or soup
                        text = body.get_text(separator=" ", strip=True)

            # Przytnij bardzo długie artykuły i usuń nadmiar whitespace
            text = " ".join(text.split())
            max_chars = 8000
            return text[:max_chars]
            
        except Exception as e:
            if parser == "html5lib":  # ostatnia próba
                print(f"[ERROR] Wszystkie parsery zawiodły: {e}", file=sys.stderr)
                return ""
            continue  # spróbuj następnego parsera
    
    return ""

# ------------ WYWOŁANIE API OPENAI ------------

def call_llm_extract(article_text: str, url: str) -> dict | None:
    """
    Wywołuje model językowy, żeby wyciągnąć prognozy makro.
    Zwraca dict zgodny z ustalonym schematem lub None przy błędzie.
    """
    system_prompt = (
        "Jesteś analitykiem ekonomicznym. "
        "Dostajesz artykuł prasowy i masz z niego wyciągnąć wyłącznie konkretne prognozy makroekonomiczne "
        "(inflacja, PKB, stopy procentowe, bezrobocie, wynagrodzenia, kurs walut, deficyt, dług publiczny). "
        "Zwracaj szczególną uwagę na rozróżnienie między deficytem (saldo sektora finansów publicznych, zwykle wartości ujemne w % PKB) "
        "a długiem publicznym (public debt, wartości dodatnie, np. 50% PKB). "
        "Jeśli artykuł zawiera oba – oznacz je osobno: 'deficit' i 'public_debt'. "
        "Nie powielaj prognoz o tej samej zmiennej i roku – podaj tylko jedną wartość najbardziej reprezentatywną. "
        "Jeżeli w artykule NIE ma żadnych twardych prognoz liczbowych, ustaw has_forecast=false i zwróć pustą listę forecasts. "
        "Zawsze odpowiadaj w poprawnym JSON-ie, w którym lista 'forecasts' zawiera tylko unikalne wpisy. "
        "Cytat – maksymalnie 200 znaków. "
        "Jeżeli zmienna nie pasuje do listy ('inflation, gdp, interest_rate, unemployment, wages, fx, deficit, public_debt, other'), "
        "użyj 'other' i w polu 'quote' opisz, co to za zmienna."
    )


    user_prompt = f"""
URL artykułu: {url}

Tekst artykułu:
\"\"\"{article_text}\"\"\"

Zwróć odpowiedź jako JSON w następującym schemacie (nie dodawaj żadnych dodatkowych pól):

{{
  "has_forecast": bool,
  "main_topic": "krótki opis głównego tematu artykułu",
  "country": "Polska lub inny kraj (jeśli dotyczy)",
  "forecasts": [
    {{
      "variable": "inflation | gdp | interest_rate | unemployment | deficit | public_debt | other",
      "value": number lub null jeśli brak jednoznacznej liczby,
      "unit": "np. '%' albo 'pp' albo 'mld PLN' albo 'no_number'",
      "horizon": "np. '2023', '2024', '2023 Q4', '2023-2025' itp.",
      "direction": "up | down | stable | unknown",
      "who_forecasts": "podmiot, który formułuje prognozę (np. NBP, KE, mBank, analitycy Bankier.pl itd.)",
      "quote": "krótki cytat z artykułu (max 200 znaków), który zawiera tę prognozę"
    }}
  ]
}}

Pamiętaj: zwróć TYLKO JSON, bez dodatkowych komentarzy ani tekstu poza nawiasami klamrowymi.
"""

    try:
        response = client.chat.completions.create(
            model=MODEL_NAME,
            messages=[
                {"role": "system", "content": system_prompt},
                {"role": "user", "content": user_prompt},
            ],
            
            response_format={"type": "json_object"},
        )
        content = response.choices[0].message.content
        data = json.loads(content)
        return data
    except Exception as e:
        print(f"[ERROR] Błąd w wywołaniu OpenAI dla {url}: {e}", file=sys.stderr)
        return None



# ------------ GŁÓWNA PĘTLA ------------

def main():
    # sprawdź klucz OpenAI
    if not os.getenv("OPENAI_API_KEY"):
        print("[ERROR] Brak zmiennej środowiskowej OPENAI_API_KEY.", file=sys.stderr)
        sys.exit(1)

    # wczytaj CSV z Bankiera
    try:
        df = pd.read_csv(INPUT_CSV)
    except Exception as e:
        print(f"[ERROR] Nie udało się wczytać {INPUT_CSV}: {e}", file=sys.stderr)
        sys.exit(1)

    if "url" not in df.columns:
        print("[ERROR] W CSV nie ma kolumny 'url'.", file=sys.stderr)
        sys.exit(1)

    print(f"[INFO] Wczytano {len(df)} rekordów z {INPUT_CSV}")

    # wybierz subset do testów
    df_subset = df.head(MAX_ARTICLES).copy()
    print(f"[INFO] Przetwarzam pierwsze {len(df_subset)} artykułów (testowo).")

    # wczytaj checkpoint
    last_processed_idx, results = load_checkpoint()
    start_idx = last_processed_idx + 1

    for idx, row in df_subset.iterrows():
        # pomiń już przetworzone
        if idx < start_idx:
            continue
            
        url = row["url"]
        print(f"\n[INFO] ({idx+1}/{len(df_subset)}) Przetwarzam: {url}")

        html = fetch_html(url)
        if not html:
            print("[WARN] Nie udało się pobrać HTML, pomijam.")
            continue

        article_text = extract_article_text_bankier(html)
        if not article_text or len(article_text) < 200:
            print(f"[WARN] Zbyt mało tekstu ({len(article_text)} znaków), pomijam.")
            continue

        llm_data = call_llm_extract(article_text, url)
        if llm_data is None:
            print("[WARN] Błąd w wywołaniu LLM, pomijam.")
            continue

        # złącz surowe dane z CSV i wyniki LLM w jeden rekord
        result_row = {
            "url": url,
            "query": row.get("query", ""),
            "title_search": row.get("title_search", ""),
            "snippet_search": row.get("snippet_search", ""),
            "google_detected_date": row.get("google_detected_date", ""),
            "has_forecast": llm_data.get("has_forecast"),
            "main_topic": llm_data.get("main_topic"),
            "country": llm_data.get("country"),
            "forecasts_json": json.dumps(llm_data.get("forecasts", []), ensure_ascii=False),
        }
        results.append(result_row)

        # checkpoint co CHECKPOINT_INTERVAL artykułów
        if len(results) % CHECKPOINT_INTERVAL == 0:
            save_checkpoint(results, idx)
            
        # krótkie opóźnienie
        time.sleep(0.5)

    if not results:
        print("[WARN] Brak wyników do zapisania.")
        return

    # finalne zapisanie
    out_df = pd.DataFrame(results)
    out_df.to_csv(OUTPUT_CSV, index=False)
    print(f"\n[INFO] Zapisano {len(out_df)} wierszy do {OUTPUT_CSV}")
    
    # usuń checkpoint po zakończeniu
    if os.path.exists(CHECKPOINT_CSV):
        os.remove(CHECKPOINT_CSV)
        print(f"[INFO] Usunięto checkpoint - przetwarzanie zakończone")


if __name__ == "__main__":
    main()


[INFO] Wczytano 707 rekordów z /Users/filipniewczas/studia/cogni/magisterka kod/full_tvn24_pl.csv
[INFO] Przetwarzam pierwsze 707 artykułów (testowo).

[INFO] (1/707) Przetwarzam: https://tvn24.pl/biznes/z-kraju/inflacja-w-polsce-nowy-raport-nbp-projekcja-inflacji-i-wzrostu-pkb-na-rok-2021-2022-i-2023-st5481712
[WARN] Zbyt mało tekstu (0 znaków), pomijam.

[INFO] (2/707) Przetwarzam: https://tvn24.pl/biznes/z-kraju/pkb-i-inflacja-w-polsce-prognozy-na-2019-2021-najnowszy-raport-nbp-ra950959-ls4508942


KeyboardInterrupt: 

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
