add InputData from pd and numpy #1184

ChrisLisbon · 2023-10-18T16:54:58Z

Add InputData.from_dataframe and InputData.from_numpy methods. From dataframe expects that user already opend his df, set indeces, removed columns. From numpy based on exicting function.

codecov · 2023-10-18T17:02:17Z

Codecov Report

Merging #1184 (a9e04c3) into master (9cd08a0) will decrease coverage by 0.06%.
The diff coverage is 65.38%.

@@            Coverage Diff             @@
##           master    #1184      +/-   ##
==========================================
- Coverage   79.55%   79.50%   -0.06%     
==========================================
  Files         145      145              
  Lines        9995    10021      +26     
==========================================
+ Hits         7952     7967      +15     
- Misses       2043     2054      +11

Files	Coverage Δ
fedot/core/data/data.py	`70.10% <65.38%> (-0.36%)`	⬇️

... and 1 file with indirect coverage changes

valer1435 · 2023-10-18T17:48:38Z

fedot/core/data/data.py

+                   target_array: np.ndarray,
+                   idx: Optional[np.ndarray] = None,
+                   task: Task = Task(TaskTypesEnum.classification),
+                   data_type: Optional[DataTypesEnum] = None) -> InputData:


Думаю по умолчанию можно поставить table, как наиболее часто используемый тип

Может даже стоит создать два метода
from_numpy
и
ts_from_numpy

Интуитивно, пользователю, будет понятней сразу из названия метода, что он может с его помощью конвертировать временной ряд в инпут дату (вместо того, чтобы вручную прописывать Task и DataType)

Да, по аналогии с from_csv прописала

valer1435 · 2023-10-18T18:14:33Z

fedot/core/data/data.py

+
+    @classmethod
+    def from_dataframe(cls,
+                       df: pd.DataFrame,


Иногда возникает ситуация, когда у тебя X и y - отдельные датафреймы, и хочется создать инпут дату из них. Это выглядит как частный случай метода from_numpy. Возможно его можно обобщить и до датафреймов

ну тут идея как раз в том, что пользователь уже пооткрывал свои данные и подготовил датафрейм самостоятельно, специально из этого метода убрала всю автоматичность

Может быть у меня замыленный взгляд - привык, что в sklearn ты всегда передаешь X и y отдельно. Поэтому часто возникает именно такая ситуация, что хочется отдельно прокинуть фичи и таргет. Но тот вариант, что сейчас написан, тоже нужен.

Про отдельные X и Y спорный момент. С одной стороны, мы идеологически предлагаем решение "из коробки" - вы просто читаете любой формат в DataFrame и засовываете в AutoML. С другой, почти любая предобработка данных пользователем выдаст X и Y отдельно.

Я считаю, этот вопрос можно переформулировать так: мы рассчитываем на продвинутого пользователя или наоборот?

Судя по тому, что дело дошло до создания InputData вручную, скорее на продвинутого. Тогда, на мой взгляд, разумнее использовать вариант с отдельными параметрами для X и Y.

UPD: На это можно посмотреть ещё так: в pandas гораздо интуитивнее разделяется датафрейм, чем два датафрейма сшиваются воедино. Гораздо лучше, если наш интерфейс не будет никого обрекать на конкатенацию датафреймов.

Принято, разделила from_dataframe на два входа features_df и target_df

MorrisNein

Отлично, так гораздо удобнее, чем импортировать отдельную функцию.

MorrisNein · 2023-10-19T14:23:21Z

fedot/core/data/data.py

+
+    @classmethod
+    def from_dataframe(cls,
+                       df: pd.DataFrame,


Про отдельные X и Y спорный момент. С одной стороны, мы идеологически предлагаем решение "из коробки" - вы просто читаете любой формат в DataFrame и засовываете в AutoML. С другой, почти любая предобработка данных пользователем выдаст X и Y отдельно.

Я считаю, этот вопрос можно переформулировать так: мы рассчитываем на продвинутого пользователя или наоборот?

Судя по тому, что дело дошло до создания InputData вручную, скорее на продвинутого. Тогда, на мой взгляд, разумнее использовать вариант с отдельными параметрами для X и Y.

UPD: На это можно посмотреть ещё так: в pandas гораздо интуитивнее разделяется датафрейм, чем два датафрейма сшиваются воедино. Гораздо лучше, если наш интерфейс не будет никого обрекать на конкатенацию датафреймов.

valer1435 · 2023-10-19T18:07:25Z

fedot/core/data/data.py

+    @classmethod
+    def from_numpy_time_series(cls,
+                               features_array: np.ndarray,
+                               target_array: np.ndarray,


Было бы здорово сделать таргет по умолчанию None, И если он None, то features считаем равным таргет.

Добавила

valer1435 · 2023-10-19T18:08:30Z

fedot/core/data/data.py

+
+                        Args:
+                            features_array: numpy array with features.
+                            target_array: numpy array with target.


Мне как возможному пользователю может быть непонятно, что в федоте чаще всего фичи = таргет в инпут дате для задач прогнозирования.

Чаще всего, но не всегда. Добавила пояснение в докстринг

fedot/core/data/data.py

test/unit/data/test_data.py

add InputData from pd and numpy

bf2bd91

ChrisLisbon requested review from valer1435 and MorrisNein October 18, 2023 16:55

valer1435 requested changes Oct 18, 2023

View reviewed changes

numpy_ts add, fixes

496b7a6

MorrisNein approved these changes Oct 19, 2023

View reviewed changes

X, Y from_dataframe fix

61c155d

ChrisLisbon requested a review from valer1435 October 19, 2023 16:14

valer1435 reviewed Oct 19, 2023

View reviewed changes

fixes

8543b44

ChrisLisbon requested a review from valer1435 October 20, 2023 09:59

MorrisNein requested changes Oct 21, 2023

View reviewed changes

fedot/core/data/data.py Outdated Show resolved Hide resolved

test/unit/data/test_data.py Outdated Show resolved Hide resolved

ChrisLisbon added 2 commits October 21, 2023 16:24

pd.Series add

822bb13

no_numpy fix

a9e04c3

valer1435 approved these changes Oct 22, 2023

View reviewed changes

ChrisLisbon requested a review from MorrisNein October 23, 2023 09:37

MorrisNein approved these changes Oct 23, 2023

View reviewed changes

ChrisLisbon merged commit 0bc7c59 into master Oct 23, 2023
6 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

add InputData from pd and numpy #1184

add InputData from pd and numpy #1184

ChrisLisbon commented Oct 18, 2023

codecov bot commented Oct 18, 2023 •

edited

valer1435 Oct 18, 2023

valer1435 Oct 18, 2023

ChrisLisbon Oct 19, 2023

valer1435 Oct 18, 2023

ChrisLisbon Oct 18, 2023

valer1435 Oct 18, 2023

MorrisNein Oct 19, 2023 •

edited

ChrisLisbon Oct 19, 2023

MorrisNein left a comment

MorrisNein Oct 19, 2023 •

edited

valer1435 Oct 19, 2023

ChrisLisbon Oct 20, 2023

valer1435 Oct 19, 2023

ChrisLisbon Oct 20, 2023

add InputData from pd and numpy #1184

add InputData from pd and numpy #1184

Conversation

ChrisLisbon commented Oct 18, 2023

codecov bot commented Oct 18, 2023 • edited

Codecov Report

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

MorrisNein Oct 19, 2023 • edited

Choose a reason for hiding this comment

Choose a reason for hiding this comment

MorrisNein left a comment

Choose a reason for hiding this comment

MorrisNein Oct 19, 2023 • edited

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

codecov bot commented Oct 18, 2023 •

edited

MorrisNein Oct 19, 2023 •

edited

MorrisNein Oct 19, 2023 •

edited