In [None]:
import ollama
import requests as rq
from bs4 import BeautifulSoup as bs
import random
from telethon import TelegramClient, sync

# выбор модели
model_name = "llama3.2" 
print("Используемая модель:", model_name)


#____ФУНКЦИЯ SUMMARY С OLLAMA____
def summary_text(text_in):
    """
    Выделяет самую значимую информацию из текста.
    Возвращает summary - краткая сводка (1-2 предложения);
    список - bullets - несколько ключевых пунктов;
    keywords - ключевые слова.
    """
    # первичный запрос
    prompt = (
        "Верни СТРОГО JSON в таком формате: {\"summary\": <2–3 предложения>, \"bullets\": [3 пункта], \"keywords\": [5 слов]}."
        + text_in
    )
    # ответ трёх проходок с разным seed
    text_before = ""
    for _ in range(3):
        seed = random.randint(0, 100)
        resp_common = ollama.generate(
            model=model_name,
            prompt=prompt,
            options={"temperature": 0.3, "top_p": 0.8, "seed": seed, "num_predict": 300}
        )
        text = resp_common["response"].strip()
        text_before += text + "\n\n"    
    # обработка ответа
    prompt_clean = (
        "Из всех summary выдели только наиболее значимую информацию, оставь ≤ 35 слов"
        "Из всех bullets выдели только наиболее значимые, оставь до ≤ 12 слов" 
        "keywords — только существительные, без дубликатов"
        "Верни СТРОГО JSON в таком формате: {\"summary\": <2–3 предложения>, \"bullets\": [3 пункта], \"keywords\": [5 слов]}."
        + text_before
    )
    resp_clear = ollama.generate(
        model=model_name,
        prompt=prompt_clean,
        options={"temperature": 0.2, "top_p": 0.8, "seed": 8, "num_predict": 300}
    )
    text_after = resp_clear["response"].strip()
    return text_after


#____ПАРСИНГ ВЕБ-САЙТА (основная статья "Фонтанки")____

# User-Agent
headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:88.0) '
           'Gecko/20100101 Firefox/88.0'}

# ссылка на главную страницу фонтанки
url_fontanka = 'https://www.fontanka.ru/'
# главная страница фонтанки
response_fontanka_main = rq.get(url=url_fontanka, headers=headers)
response_fontanka_main.raise_for_status()  # проверка успешности запроса
# объект BeautifulSoup главной страницы
soup_fontanka = bs(response_fontanka_main.text, 'html.parser')

# ссылка на основную статью на главной странице
main_art_url = (soup_fontanka.find('article', {'class':'wrap_4T9MT'})).find('a')['href']
# страница основной статьи
response_main_art = rq.get(url=main_art_url, headers=headers)
response_main_art.raise_for_status()  # проверка успешности запроса
# объект BeautifulSoup основной статьи
soup_main_art = bs(response_main_art.text, 'html.parser')

# сбор текста по структуре кода страницы фонтанки
text_elements = soup_main_art.select('div[class^="uiArticleBlockText"]')
main_art_text = ' '.join([elem.get_text(strip=True) for elem in text_elements])

def normalize_text(text):
    """Нормализует текст с проблемной кодировкой"""
    if isinstance(text, str):
        # Исправляем распространённые проблемы с кодировкой
        normalized = text.encode('latin-1').decode('utf-8', errors='ignore')
        return normalized
    return text
    
# декодировка текста основной статьи
main_art_text = normalize_text(main_art_text)


#____ПАРСИНГ VK (первые 10 постов со стены открытого сообщества)____

# переменные 
token_user = ''   # user_token
version = '5.199'
domain =  ''      # открытое сообщество

# обращение к api vk 
response = rq.get('https://api.vk.com/method/wall.get',
    params={'access_token': token_user,
            'v': version,
            'domain': domain,
            'count': 10,
            'filter': 'owner'})
# успешность запроса
if response.status_code == 200:
    data = response.json()
    # наличие ошибок в ответе VK
    if 'error' in data:
        print(f"Ошибка VK API: {data['error']['error_msg']}")
    else:
        posts = data['response']['items']
        # тексты всех постов
        post_texts = []
        for post in posts:
            text = post.get('text', '').strip()
            if text:  # только непустые тексты
                post_texts.append(text)
# объединение текста всех постов в одну строку
all_posts_text = " ".join(post_texts) 


#____ПАРСИНГ TG (первые 100 публикаций telegram-канала)____

# параметры обращения к API
api_id = ''           # api id
api_hash = ''         # api hash
channel_username = '' # username канала
async def main():
    async with TelegramClient('session_name', api_id, api_hash) as client:
        messages = await client.get_messages(channel_username, limit=100)
        post_tg_texts = []  # список для текстов
        for message in messages:
            if message.text:  # текст есть
                post_tg_texts.append(message.text)
        return post_tg_texts  # список
# тексты публикаций тг
tg_texts = await main()
# все тексты публикаций в одну строку
all_tg_texts = " ".join(tg_texts) 


#____ВЫЗОВ___
if __name__ == '__main__':
    text_font = summary_text(main_art_text)
    print(text_font)
    text_vk_group = summary_text(all_posts_text)
    print(text_vk_group)
    text_tg_channel = summary_text(all_tg_texts)
    print(text_tg_channel)