New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
NLP init #212
NLP init #212
Conversation
Codecov Report
@@ Coverage Diff @@
## master #212 +/- ##
==========================================
+ Coverage 85.61% 85.74% +0.13%
==========================================
Files 104 108 +4
Lines 6619 6813 +194
==========================================
+ Hits 5667 5842 +175
- Misses 952 971 +19
Continue to review full report at Codecov.
|
Кмк простейший вариант - можно их запаковать в архив (tar, например) и при первом запуске распаковывать (вызывая для этого отдельный скрипт за пределами цепочки). Вот как тут с MNIST делают https://github.com/jmmanley/conv-autoencoder/blob/master/mnist_test.ipynb |
Ок, пока просто уберу их, а то даже ревью не сделать |
в test теперь есть папка utilities, там тесты для файлов из fedot.utilities (но пока без synthetic) |
Еще предлагаю убрать тесты на real_cases - потому что они не unit, или замокать, если в них все таки есть необходимость. Если дело в покрытии, то codecov можно настроить только на feodt директорию, а не весь репо. Сейчас видимо та самая ситуация, когда завис композер (если я правильно поняла) и билд был отменен по истечение 40 минут. |
Обсудили в тг, что пока можно и отключить проблемный тест, но в перспективе хорошо бы вынести полноценный прогон cases и тяжеловесных examples в интеграционные nightly-тесты (раз гитхаб экшензы это умеют https://docs.github.com/en/free-pro-team@latest/actions/reference/events-that-trigger-workflows#scheduled-events) |
@nicl-nno Добавила архив и функцию разархивирования в spam-detection.py |
be4daff
to
9f210e1
Compare
c4afcea
to
08dd476
Compare
08dd476
to
569a242
Compare
@BarabanovaIrina Ира, а можешь еще в readme добавить ссылку на твой скрипт cases/spam_detection.py? |
Еще резонно добавить описание примера с текстами в readthedocs, но можно это сделать в рамках другой задачи: |
There is already an approval
* add text as InputData * fix reqs * move tfidf to eval strat level * add tests * delete text large data * add data archiv && upacking * add data package * fixes && rebase * fix nltk deps * add DataTypesEnum.text * rebase * fix imports * add vectorize test * fix readme
* add text as InputData * fix reqs * move tfidf to eval strat level * add tests * delete text large data * add data archiv && upacking * add data package * fixes && rebase * fix nltk deps * add DataTypesEnum.text * rebase * fix imports * add vectorize test * fix readme
* add text as InputData * fix reqs * move tfidf to eval strat level * add tests * delete text large data * add data archiv && upacking * add data package * fixes && rebase * fix nltk deps * add DataTypesEnum.text * rebase * fix imports * add vectorize test * fix readme
* add text as InputData * fix reqs * move tfidf to eval strat level * add tests * delete text large data * add data archiv && upacking * add data package * fixes && rebase * fix nltk deps * add DataTypesEnum.text * rebase * fix imports * add vectorize test * fix readme
* add text as InputData * fix reqs * move tfidf to eval strat level * add tests * delete text large data * add data archiv && upacking * add data package * fixes && rebase * fix nltk deps * add DataTypesEnum.text * rebase * fix imports * add vectorize test * fix readme
Current idea is: text files -> feature extraction (make table data, not text) -> pass to model/chain
Finish BatchLoader for creation of meta_file.csv for collections of data (images, text)
Finish the text files -> meta_file.csv
Add tests
add packed data && unpacking script