Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

AI do kategoryzacji ofert #6

Open
jkobus opened this issue May 11, 2024 · 4 comments
Open

AI do kategoryzacji ofert #6

jkobus opened this issue May 11, 2024 · 4 comments
Labels
ai/ml Task related to machine learning help wanted Extra attention is needed question Further information is requested

Comments

@jkobus
Copy link
Contributor

jkobus commented May 11, 2024

Często zdarza się, że oferty trafiają do złej kategorii. Są to błędnie przypisane kategorie już przy dodawaniu ofert na stronie źródłowej, lub gdy takiej informacji w ogole nie ma, i skrypt próbuje dobrać odpowiednią kategorię po słowach kluczowych. Niestety to nie do końca działa.

@jkobus jkobus added bug Something isn't working help wanted Extra attention is needed labels May 11, 2024
@jkobus
Copy link
Contributor Author

jkobus commented May 13, 2024

Dodana została aktualizacja bieda-silnika AI, która kategoryzuje oferty. Zobaczmy jak będzie działać :)
Update: działa średnio.

Jeśli ktoś ma doświadczenie z modelami językowymi, i chciałby poprowadzić research opensource w ramach tego projektu, chętnie udostępnie dane do wyuczenia modelu.

W danych wejściowych do uczenia mamy set z tytułami ofert, słowami kluczowymi i kategorię. Nie mamy opisów ofert.

Silnik ma rozpoznać kategorię po tytule i słowach kluczowych.
https://huggingface.co/docs/transformers/en/tasks/sequence_classification

Aktualny bieda silnik: https://czyjesteldorado.pl/labs/guesser

@jkobus jkobus added question Further information is requested and removed bug Something isn't working labels May 14, 2024
@jkobus jkobus changed the title Niepoprawna kategoryzacja ofert AI do kategoryzacji ofert May 14, 2024
@jkobus jkobus added the ai/ml Task related to machine learning label May 14, 2024
@lukaszeckert
Copy link

Jak masz jakieś dane uczące to mogę spróbować co da się zrobić. Mam kilka pomysłów jak do tego podejść. Są jakieś wymagania co do wielkości modelu/czasu odpowiedzi?

@jkobus
Copy link
Contributor Author

jkobus commented May 16, 2024

Mam, właśnie najwięcej czasu zajęło mi przygotowanie wsadu. A i tak chyba są tam jeszcze jakieś drobne błędy. Natomiast do nauki i testowania powinno wystarczyć.

Zrobiłem testowy model (php-ml) w następującej konfiguracji:
TokenCountVectorizer, WhitespaceTokenizer, TfIdfTransformer, SVC, linear, 1.0.
Rozmiar pkl: ~291MB

Wsad podzieliłem w proporcji 80/20 (nauka, testy).
Trafność: 75%

Niestety nie zrobiłem pomiaru czasu, ale z uwagi na użycie PHP, nie był zbyt krótki.

Czas predykcji nie jest bardzo znaczący, oczywiście, jeśli to będzie 0.1 sekundy to lepiej niż 0.5 sekundy :)
Rozmiar, 200MB jest w granicy akceptowalności, to dość mały set wejściowy więc optymalizacja pewnie będzie wskazana.
Można też zoptymalizować wsad, ale ktoś musi mi powiedzieć jak go zoptymalizować :)

Daj znać, jeśli chcesz rzucić okiem, wyślę dane na maila (albo zrobie prywatne repo).

Update: wysłane

@jkobus
Copy link
Contributor Author

jkobus commented May 30, 2024

W tym tygodniu będę testował gpt-3.5-turbo-0125. Myślę, że dzięki temu będziemy w stanie zrobić lepszy wsad do nauki własnego modelu, który nie będzie generował kosztów :)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
ai/ml Task related to machine learning help wanted Extra attention is needed question Further information is requested
Projects
None yet
Development

No branches or pull requests

2 participants