Add RelevanceTable (#249)

* Add class * Add fix * Upd * Add relevance * Add repr * Fix fixture typing
tinkoff-ai · Nov 2, 2021 · 35db08a · 35db08a
1 parent a51a363
commit 35db08a
Show file tree

Hide file tree

Showing 6 changed files with 68 additions and 2 deletions.
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -9,7 +9,7 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
 ### Added
 - Backtest cli ([#223](https://github.com/tinkoff-ai/etna-ts/pull/223))
 - TreeFeatureSelectionTransform ([#229](https://github.com/tinkoff-ai/etna-ts/pull/229))
-- Feature relevance table calculation ([#227](https://github.com/tinkoff-ai/etna-ts/pull/227))
+- Feature relevance table calculation ([#227](https://github.com/tinkoff-ai/etna-ts/pull/227), [#249](https://github.com/tinkoff-ai/etna-ts/pull/249))
 - Method flatten to TSDataset ([#241](https://github.com/tinkoff-ai/etna-ts/pull/241)
 
 ### Changed

diff --git a/etna/analysis/__init__.py b/etna/analysis/__init__.py
@@ -1,6 +1,8 @@
 from etna.analysis.eda_utils import cross_corr_plot
 from etna.analysis.eda_utils import distribution_plot
 from etna.analysis.eda_utils import sample_pacf_plot
+from etna.analysis.feature_relevance.relevance import RelevanceTable
+from etna.analysis.feature_relevance.relevance import StatisticsRelevanceTable
 from etna.analysis.feature_relevance.relevance_table import get_statistics_relevance_table
 from etna.analysis.outliers.confidence_interval_outliers import get_anomalies_confidence_interval
 from etna.analysis.outliers.density_outliers import get_anomalies_density

diff --git a/etna/analysis/feature_relevance/__init__.py b/etna/analysis/feature_relevance/__init__.py
@@ -1 +1,3 @@
+from etna.analysis.feature_relevance.relevance import RelevanceTable
+from etna.analysis.feature_relevance.relevance import StatisticsRelevanceTable
 from etna.analysis.feature_relevance.relevance_table import get_statistics_relevance_table
diff --git a/etna/analysis/feature_relevance/relevance.py b/etna/analysis/feature_relevance/relevance.py
@@ -0,0 +1,52 @@
+from abc import ABC
+from abc import abstractmethod
+
+import pandas as pd
+
+from etna.analysis.feature_relevance.relevance_table import get_statistics_relevance_table
+from etna.core.mixins import BaseMixin
+
+
+class RelevanceTable(ABC, BaseMixin):
+    """Abstract class for relevance table computation."""
+
+    def __init__(self, greater_is_better: bool):
+        """Init RelevanceTable.
+
+        Parameters
+        ----------
+        greater_is_better:
+            bool flag, if True the biggest value in relevance table corresponds to the most important exog feature
+        """
+        self.greater_is_better = greater_is_better
+
+    @abstractmethod
+    def __call__(self, df: pd.DataFrame, df_exog: pd.DataFrame, **kwargs) -> pd.DataFrame:
+        """Compute relevance table.
+        For each series in df compute relevance of corresponding series in df_exog.
+
+        Parameters
+        ----------
+        df:
+            dataframe with series that will be used as target
+        df_exog:
+            dataframe with series to compute relevance for df
+
+        Returns
+        -------
+        relevance table: pd.DataFrame
+            dataframe of shape n_segment x n_exog_series, relevance_table[i][j] contains relevance of j-th df_exog series to i-th df series
+        """
+        pass
+
+
+class StatisticsRelevanceTable(RelevanceTable):
+    """StatisticsRelevanceTable builds feature relevance table with tsfresh statistics."""
+
+    def __init__(self):
+        super().__init__(greater_is_better=False)
+
+    def __call__(self, df: pd.DataFrame, df_exog: pd.DataFrame, **kwargs) -> pd.DataFrame:
+        """Compute feature relevance table with etna.analysis.get_statistics_relevance_table method."""
+        table = get_statistics_relevance_table(df=df, df_exog=df_exog)
+        return table
diff --git a/tests/conftest.py b/tests/conftest.py
@@ -1,3 +1,5 @@
+from typing import Tuple
+
 import numpy as np
 import pandas as pd
 import pytest
@@ -377,7 +379,7 @@ def big_example_tsdf(random_seed) -> TSDataset:
 
 
 @pytest.fixture
-def simple_df_relevance() -> TSDataset:
+def simple_df_relevance() -> Tuple[pd.DataFrame, pd.DataFrame]:
     timestamp = pd.date_range("2021-01-01", "2021-02-01")
     tmp = np.random.random(len(timestamp))
 

diff --git a/tests/test_analysis/test_feature_relevance/test_relevance.py b/tests/test_analysis/test_feature_relevance/test_relevance.py
@@ -0,0 +1,8 @@
+from etna.analysis.feature_relevance import StatisticsRelevanceTable
+
+
+def test_statistics_relevance_table(simple_df_relevance):
+    rt = StatisticsRelevanceTable()
+    assert not rt.greater_is_better
+    df, df_exog = simple_df_relevance
+    assert rt(df=df, df_exog=df_exog).shape == (2, 2)