GitHub - 1azar/radar2

Этот репозиторий содержит код и описание сервиса для mvp хакатона

Юзерфлоу:

Интерфейс представляет собой ленту новостей, агрегированных из разных источников. Наверху всегда более "горячие" новости, рейтинг постоянно пересчитывается из-за обновления социальных маркеров (реакции, репосты, просмотры и тд). Пока новость обсуждают (меняется количествво просмотров, появляются реакции, репосты) hotness остается высоким. Чем старше новость, тем меньше влияния социальные маркеры имеют на hottnes_score и "горячесть" падает.

Интерфейс

Нераскрытая новость (еще не кликнули на него):

Раскрытая новость (нажали на нее):

Нажали на кнопку генереции черновика для поста/заметки:

Архитектура:

Схема БД:

Чуть подробнее о реализации и архитектуре:

Архитектура построена на базе event-driven + fun-out, обработка новостей ассинхронная, что позволяет легко расширят решение при росте пользователей. Постарался все обмазать кешами чтобы не тратить токены лишний раз.

Первый узел fetchers - сборщики статей/постов

Свой пулл фетчеров на один источник новостей (телеграм, RSS лента, новостные сайты, X и другие социальные сети ps: реализован только telegram). Они парсят новости и собирают социальные метрики (лайки, репеосты, просмотры и тд) какие можно получить из источника. Каждый источник имеет свои метрики кредабилити (например в тг это общее количество подписчиков и степень доверия каналу. ps: еще можно посчитать среднюю скорость изменения совокупности социальных метрик чотб точнее выявлять всплески активности для более точно оценки hottnes_score). Далее эти новости (после небольшой фильтрации от спама или рекламы) с метаданными идут в очередь (кафка или что-то еще, тут используется редис стрим) и их вычитывает следующий узел - пулл embedding воркеров. Если очередь новости могут отправляться повторно если его социальные метрики изменились (нужно для актуальной оценки hottnes_score)

Embedding воркеры

Принимают текст новостей и с помощью модели расчитывается вектор в 1024 мерный, который описывает тему новости (инфоповод), на основе котрого будет производится кластеризация (дедубликация) - объединение одинаковых новостей в группу. после этого обогощенные данные идут в следущую очередь, из которой ее читает воркер занимающийся кластеризацией.

Clustering ворке

Берет новости и группирурует, одна группа - один инфоповод. После чего сохраняются в БД (используется постгрес +pgvector). Далее эту базу анализируют различные агенты и обогащают базу (описания агентов ниже будет).

Агенты анализаторы

translator: переводит новости если они не на русском (текущая реализация только переводит английский)
ranking: расчитывает hottness_score на основе формул (подробнее ниже будет)
title generator: на основе новостей в кластере формирует заголовок обощенный
entity extractor: на основе текстов новостей в рамках инфоповода выявляет теги компании/тикеры/страны/сектора
why_now: на основе текстов говорит почему новсть важная (на что влияет и тп)
draft generator: не совсем воркер, но выдает черновик поста/заметки об инфоповоде по запросу юзера.

расчет hottnes_score

Так как операция очень частая тк требуется актуальную информацию о "горячести" иметь, поэтому используется формула для оценки:

Еще скриншоты:

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
internal		internal
static		static
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
cluster-publisher-worker.go		cluster-publisher-worker.go
cluster-queue.go		cluster-queue.go
cluster-storage.go		cluster-storage.go
clustering-worker.go		clustering-worker.go
docker-compose.yml		docker-compose.yml
emb-queue.go		emb-queue.go
embedding-worker.go		embedding-worker.go
embedding.go		embedding.go
entity-exctractor-worker.go		entity-exctractor-worker.go
go.mod		go.mod
go.sum		go.sum
hugging-face.go		hugging-face.go
init.sql		init.sql
main.go		main.go
main2.go		main2.go
notes.txt		notes.txt
openrouter.go		openrouter.go
raw-queue.go		raw-queue.go
rss-fetcher.go		rss-fetcher.go
source-registry.go		source-registry.go
tg-fetcher.go		tg-fetcher.go
tg-fetcher.py		tg-fetcher.py
tg-queue.go		tg-queue.go
tg-ranker-worker.go		tg-ranker-worker.go
tg-ranker.go		tg-ranker.go
title-creator-worker.go		title-creator-worker.go
title-summarizer.go		title-summarizer.go
translator.go		translator.go
web-morda.go		web-morda.go
why-now-worker.go		why-now-worker.go

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Юзерфлоу:

Интерфейс

Нераскрытая новость (еще не кликнули на него):

Раскрытая новость (нажали на нее):

Нажали на кнопку генереции черновика для поста/заметки:

Архитектура:

Схема БД:

Чуть подробнее о реализации и архитектуре:

Первый узел fetchers - сборщики статей/постов

Embedding воркеры

Clustering ворке

Агенты анализаторы

расчет hottnes_score

Еще скриншоты:

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Юзерфлоу:

Интерфейс

Нераскрытая новость (еще не кликнули на него):

Раскрытая новость (нажали на нее):

Нажали на кнопку генереции черновика для поста/заметки:

Архитектура:

Схема БД:

Чуть подробнее о реализации и архитектуре:

Первый узел fetchers - сборщики статей/постов

Embedding воркеры

Clustering ворке

Агенты анализаторы

расчет hottnes_score

Еще скриншоты:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages