NLP init #212

BarabanovaIrina · 2020-12-15T08:59:54Z

New method InputData.from_text(), where you can pass meta_file.csv with text in it or path to directories with text files
New TextData class, where all the nlp utils are located. Not expected to use directly.

Current idea is: text files -> feature extraction (make table data, not text) -> pass to model/chain

Finish BatchLoader for creation of meta_file.csv for collections of data (images, text)
Finish the text files -> meta_file.csv
Add tests
add packed data && unpacking script

codecov · 2020-12-15T09:21:08Z

Codecov Report

Merging #212 (71fc1a8) into master (0d91b41) will increase coverage by 0.13%.
The diff coverage is 89.00%.

@@            Coverage Diff             @@
##           master     #212      +/-   ##
==========================================
+ Coverage   85.61%   85.74%   +0.13%     
==========================================
  Files         104      108       +4     
  Lines        6619     6813     +194     
==========================================
+ Hits         5667     5842     +175     
- Misses        952      971      +19

Impacted Files	Coverage Δ
fedot/core/models/model.py	`97.02% <ø> (-0.03%)`	⬇️
fedot/core/data/data.py	`79.35% <27.27%> (-8.62%)`	⬇️
fedot/core/models/evaluation/vectorize.py	`94.11% <94.11%> (ø)`
fedot/core/data/load_data.py	`94.54% <94.54%> (ø)`
fedot/core/data/preprocessing.py	`96.58% <95.74%> (-0.57%)`	⬇️
fedot/core/models/evaluation/evaluation.py	`84.90% <100.00%> (+0.14%)`	⬆️
fedot/core/repository/dataset_types.py	`100.00% <100.00%> (ø)`
test/chains/test_chain_tuning.py	`100.00% <100.00%> (ø)`
test/data_operations/test_preprocessing.py	`100.00% <100.00%> (ø)`
test/models/test_strategy.py	`100.00% <100.00%> (ø)`
... and 10 more

Continue to review full report at Codecov.

Legend - Click here to learn more
Δ = absolute <relative> (impact), ø = not affected, ? = missing data
Powered by Codecov. Last update 0d91b41...71fc1a8. Read the comment docs.

fedot/core/models/data.py

cases/spam_detection.py

fedot/core/models/data.py

cases/spam_detection.py

fedot/core/models/data.py

nicl-nno · 2020-12-17T19:37:46Z

Так и задумано?)

BarabanovaIrina · 2020-12-17T19:40:54Z

Так и задумано?)

Сори, я подумала, что так делать не стоит, но все равно сделала. Может вынесем cases в отдельный репо?) Я просто не придумала, как эти файлы скачивать откуда-то или куда их положить.

nicl-nno · 2020-12-17T19:43:32Z

Так и задумано?)

Сори, я подумала, что так делать не стоит, но все равно сделала. Может вынесем cases в отдельный репо?) Я просто не придумала, как эти файлы скачивать откуда-то или куда их положить.

Кмк простейший вариант - можно их запаковать в архив (tar, например) и при первом запуске распаковывать (вызывая для этого отдельный скрипт за пределами цепочки).

Вот как тут с MNIST делают https://github.com/jmmanley/conv-autoencoder/blob/master/mnist_test.ipynb

BarabanovaIrina · 2020-12-17T19:45:12Z

Так и задумано?)

Сори, я подумала, что так делать не стоит, но все равно сделала. Может вынесем cases в отдельный репо?) Я просто не придумала, как эти файлы скачивать откуда-то или куда их положить.

Кмк простейший вариант - можно их запаковать в архив (tar, например) и при первом запуске распаковывать (вызывая для этого отдельный скрипт за пределами цепочки).

Ок, пока просто уберу их, а то даже ревью не сделать

BarabanovaIrina · 2020-12-17T20:33:14Z

в test теперь есть папка utilities, там тесты для файлов из fedot.utilities (но пока без synthetic)

BarabanovaIrina · 2020-12-17T20:41:02Z

Еще предлагаю убрать тесты на real_cases - потому что они не unit, или замокать, если в них все таки есть необходимость. Если дело в покрытии, то codecov можно настроить только на feodt директорию, а не весь репо.

Сейчас видимо та самая ситуация, когда завис композер (если я правильно поняла) и билд был отменен по истечение 40 минут.

nicl-nno · 2020-12-17T21:11:14Z

Еще предлагаю убрать тесты на real_cases - потому что они не unit, или замокать, если в них все таки есть необходимость. Если дело в покрытии, то codecov можно настроить только на feodt директорию, а не весь репо.

Сейчас видимо та самая ситуация, когда завис композер (если я правильно поняла) и билд был отменен по истечение 40 минут.

Обсудили в тг, что пока можно и отключить проблемный тест, но в перспективе хорошо бы вынести полноценный прогон cases и тяжеловесных examples в интеграционные nightly-тесты (раз гитхаб экшензы это умеют https://docs.github.com/en/free-pro-team@latest/actions/reference/events-that-trigger-workflows#scheduled-events)

BarabanovaIrina · 2020-12-18T14:44:49Z

@nicl-nno Добавила архив и функцию разархивирования в spam-detection.py

cases/spam_detection.py

fedot/utilities/load_data.py

cases/spam_detection.py

J3FALL · 2020-12-24T16:19:42Z

@BarabanovaIrina Ира, а можешь еще в readme добавить ссылку на твой скрипт cases/spam_detection.py?
Вот сюда:

J3FALL · 2020-12-24T16:25:07Z

Еще резонно добавить описание примера с текстами в readthedocs, но можно это сделать в рамках другой задачи:
see #219.

There is already an approval

* add text as InputData * fix reqs * move tfidf to eval strat level * add tests * delete text large data * add data archiv && upacking * add data package * fixes && rebase * fix nltk deps * add DataTypesEnum.text * rebase * fix imports * add vectorize test * fix readme

BarabanovaIrina requested review from nicl-nno and J3FALL December 15, 2020 09:01

nicl-nno reviewed Dec 15, 2020

View reviewed changes

fedot/core/models/data.py Outdated Show resolved Hide resolved

BarabanovaIrina requested a review from nicl-nno December 15, 2020 11:05

nicl-nno requested changes Dec 15, 2020

View reviewed changes

BarabanovaIrina linked an issue Dec 15, 2020 that may be closed by this pull request

[InputData] Support texts as InputData #198

Closed

J3FALL suggested changes Dec 15, 2020

View reviewed changes

BarabanovaIrina requested review from nicl-nno and J3FALL December 17, 2020 20:16

J3FALL previously requested changes Dec 18, 2020

View reviewed changes

cases/spam_detection.py Outdated Show resolved Hide resolved

fedot/utilities/load_data.py Outdated Show resolved Hide resolved

fedot/utilities/load_data.py Outdated Show resolved Hide resolved

BarabanovaIrina force-pushed the text-inputdata branch 2 times, most recently from be4daff to 9f210e1 Compare December 19, 2020 12:07

BarabanovaIrina requested a review from J3FALL December 19, 2020 12:42

J3FALL reviewed Dec 21, 2020

View reviewed changes

cases/spam_detection.py Outdated Show resolved Hide resolved

BarabanovaIrina requested a review from J3FALL December 21, 2020 11:13

BarabanovaIrina force-pushed the text-inputdata branch from c4afcea to 08dd476 Compare December 22, 2020 11:44

nicl-nno reviewed Dec 23, 2020

View reviewed changes

cases/spam_detection.py Outdated Show resolved Hide resolved

BarabanovaIrina added 4 commits December 24, 2020 17:31

add text as InputData

5315e57

fix reqs

959667b

move tfidf to eval strat level

6cf00a8

add tests

e04874f

BarabanovaIrina added 8 commits December 24, 2020 17:31

delete text large data

8e9909a

add data archiv && upacking

601ee31

add data package

b2fc080

fixes && rebase

a214033

fix nltk deps

e6bb570

add DataTypesEnum.text

ce04fc5

rebase

678921b

fix imports

569a242

BarabanovaIrina force-pushed the text-inputdata branch from 08dd476 to 569a242 Compare December 24, 2020 14:33

BarabanovaIrina requested a review from nicl-nno December 24, 2020 14:34

add vectorize test

2f0f494

nicl-nno approved these changes Dec 24, 2020

View reviewed changes

fix readme

71fc1a8

BarabanovaIrina requested a review from nicl-nno December 26, 2020 17:29

nicl-nno approved these changes Dec 26, 2020

View reviewed changes

BarabanovaIrina merged commit 30b8e0b into master Dec 26, 2020

BarabanovaIrina deleted the text-inputdata branch December 26, 2020 18:48

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

NLP init #212

NLP init #212

BarabanovaIrina commented Dec 15, 2020 •

edited

codecov bot commented Dec 15, 2020 •

edited

nicl-nno commented Dec 17, 2020

BarabanovaIrina commented Dec 17, 2020 •

edited

nicl-nno commented Dec 17, 2020 •

edited

BarabanovaIrina commented Dec 17, 2020

BarabanovaIrina commented Dec 17, 2020

BarabanovaIrina commented Dec 17, 2020

nicl-nno commented Dec 17, 2020

BarabanovaIrina commented Dec 18, 2020

J3FALL commented Dec 24, 2020

J3FALL commented Dec 24, 2020

NLP init #212

NLP init #212

Conversation

BarabanovaIrina commented Dec 15, 2020 • edited

codecov bot commented Dec 15, 2020 • edited

Codecov Report

nicl-nno commented Dec 17, 2020

BarabanovaIrina commented Dec 17, 2020 • edited

nicl-nno commented Dec 17, 2020 • edited

BarabanovaIrina commented Dec 17, 2020

BarabanovaIrina commented Dec 17, 2020

BarabanovaIrina commented Dec 17, 2020

nicl-nno commented Dec 17, 2020

BarabanovaIrina commented Dec 18, 2020

J3FALL commented Dec 24, 2020

J3FALL commented Dec 24, 2020

BarabanovaIrina commented Dec 15, 2020 •

edited

codecov bot commented Dec 15, 2020 •

edited

BarabanovaIrina commented Dec 17, 2020 •

edited

nicl-nno commented Dec 17, 2020 •

edited