-
Notifications
You must be signed in to change notification settings - Fork 0
Home
Tento projekt využívá moderní technologie pro sběr a ukládání dat z webových stránek. Framework Node.js umožňuje rychlý a efektivní běh web crawleru. Navíc, díky PostgreSQL databázi, která je použita jako úložiště informací, jsou data snadno a rychle dostupná pro další použití.
V budoucnosti je plánováno rozšíření projektu o další funkce a vylepšení. Jedním z těchto rozšíření by mohlo být přidání možnosti sběru různých typů mediálního obsahu, jako jsou obrázky a videa. To by umožnilo projektu sbírat a ukládat mnohem více informací. Dalším plánovaným vylepšením je optimalizace kódu pro efektivnější sběr dat, což by mohlo zlepšit rychlost.
Kromě toho se již pracuje na vyhledávači Ding, který využívá shromážděná data z databáze. Tento vyhledávač umožní uživatelům snadno vyhledávat a procházet webové stránky, které jsou v databázi uloženy.
Časem je také zamýšleno přidat spoustu nových funkcí a změn. Mezi ně patří:
- použít pgvector pro ukládání vnoření slov
- pokud není dostupný popis stránky, vytvořit ho automaticky
- pokud nejsou dostupná klíčová slova stránky, extrahovat je pomocí ml6team/keyphrase-extraction-distilbert-inspec (nebo podobného modelu)
- použít TensorFlow.js místo Inference API k získávání vnoření slov