<a href="https://colab.research.google.com/github/budennovsk/Pandas/blob/master/ts_fresh_df.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install tsfresh

In [None]:
import pandas as pd
from tsfresh import extract_features
from tsfresh.utilities.dataframe_functions import impute

# Данные
data = {
    'ID продукта': [171000083500, 171000083500, 171000083499, 171000083499],
    '2000_start': [499, 504, 168.5, 173.5],
    '2000_end': [504, 509, 173.5, 178.5],
    '2000_flat_center': [0.1325, 0.14, 0.953333333333334, 0.235],
    'end_part': [0, 0, 0, 0],
    '2000_flat_left': [0.02, 0.0075, 0.0216666666666666, 0.01],
    'len_2000': [678, 678, 678, 678]
}

# Создаём DataFrame
df = pd.DataFrame(data)

# Для tsfresh нам нужен временной ряд, поэтому нужно преобразовать данные в правильный формат
df_tsfresh = df[['ID продукта', '2000_start', '2000_flat_center']]  # Явно указываем колонку значений

# Используем функцию extract_features для извлечения признаков
# Мы группируем по 'ID продукта' и сортируем по '2000_start'
extracted_features = extract_features(df_tsfresh,
                                     column_id='ID продукта',
                                     column_sort='2000_start',
                                     column_value='2000_flat_center')

# Импутируем отсутствующие значения
extracted_features = impute(extracted_features)




In [None]:
extracted_features

In [None]:
# Данные
data = {
    'ID продукта': [171000083500, 171000083500, 171000083499, 171000083499],
    '2000_start': [499, 504, 168.5, 173.5],
    '2000_flat_center': [0.1325, 0.14, 0.953333333333334, 0.235]
}
df_tsfresh = pd.DataFrame(data)
df_tsfresh



In [None]:
# Данные
data = {
    'ID продукта': [171000083500, 171000083500, 171000083499, 171000083499],
    '2000_start': [499, 504, 168.5, 173.5],
    '2000_flat_center': [0.1325, 0.14, 0.953333333333334, 0.235],
    '2000_flat_center__variance_larger_than_standard_deviation':[0,0,0,0],
    '2000_flat_center__sum_values':[1.18,1.18,0.2,0.2]

}
merged= pd.DataFrame(data)
merged



In [None]:
import pandas as pd
from tsfresh import extract_features
from tsfresh.utilities.dataframe_functions import impute

import logging
import warnings

# Отключаем предупреждения tsfresh
logging.getLogger('tsfresh').setLevel(logging.ERROR)

# Отключаем RuntimeWarning
warnings.filterwarnings("ignore", category=RuntimeWarning)
# Данные
data = {
    'ID продукта': [171000083500, 171000083500, 171000083499, 171000083499],
    '2000_start': [499, 504, 168.5, 173.5],
    '2000_flat_center': [0.1325, 0.14, 0.953333333333334, 0.235]
}

# Создаём DataFrame
df_tsfresh = pd.DataFrame(data)

# Используем функцию extract_features для извлечения признаков
extracted_features = extract_features(df_tsfresh,
                                     column_id='ID продукта',
                                    #  column_sort='2000_flat_center',
                                     column_value='2000_flat_center')

# Импутируем отсутствующие значения
extracted_features = impute(extracted_features)

# Мы получаем признаковую таблицу, но нам нужно её "дублировать" по строкам, чтобы добавить в исходный df_tsfresh.
# Получаем индекс ID продукта из исходного df_tsfresh
df_tsfresh_indexed = df_tsfresh.set_index('ID продукта')

# Теперь дублируем признаки из extracted_features для каждой строки по ID продукта
df_tsfresh_merged = df_tsfresh_indexed.merge(extracted_features,
                                             left_index=True,
                                             right_index=True,
                                             how='left',
                                             )

# Сбрасываем индекс, чтобы вернуть колонку ID продукта на первое место
merged = df_tsfresh_merged.reset_index()
merged




In [None]:
import pandas as pd
from tsfresh import extract_features
from tsfresh.utilities.dataframe_functions import impute
import warnings

# Отключаем предупреждения
warnings.filterwarnings("ignore", category=RuntimeWarning)

# Данные
data = {
    'ID продукта': [171000083500, 171000083500, 171000083499, 171000083499],
    '2000_start': [499, 504, 168.5, 173.5],
    '2000_flat_center': [0.1325, 0.14, 0.953333333333334, 0.235]
}

# Создаём DataFrame
df_tsfresh = pd.DataFrame(data)

# Список колонок, для которых нужно извлечь признаки
columns_to_extract = ['2000_flat_center', '2000_start']

# Получаем индекс ID продукта из исходного df_tsfresh
df_tsfresh_indexed = df_tsfresh.set_index('ID продукта')

# Для каждой колонки извлекаем признаки и дублируем их по строкам
for col in columns_to_extract:
    # Извлекаем признаки для каждой колонки
    extracted_features = extract_features(df_tsfresh,
                                         column_id='ID продукта',
                                         column_value=col,
                                         column_sort='2000_start')

    # Импутируем отсутствующие значения
    extracted_features = impute(extracted_features)

    # Дублируем признаки из extracted_features для каждой строки по ID продукта
    df_tsfresh_indexed = df_tsfresh_indexed.merge(extracted_features,
                                                  left_index=True,
                                                  right_index=True,
                                                  how='left')

# Сбрасываем индекс, чтобы вернуть колонку ID продукта на первое место
merged = df_tsfresh_indexed.reset_index()

# Выводим итоговый DataFrame
merged


In [None]:
import pandas as pd
from tsfresh import extract_features
from tsfresh.utilities.dataframe_functions import impute
import warnings

# Отключаем предупреждения
warnings.filterwarnings("ignore", category=RuntimeWarning)

def extract_and_merge_features(df, columns_target):
    """
    Функция для извлечения признаков из нескольких колонок и их объединения с исходным DataFrame.

    :param df: Исходный DataFrame с колонками, для которых нужно извлечь признаки.
    :param columns_target: Список колонок, для которых будут извлечены признаки.
    :return: Новый DataFrame с добавленными признаками.
    """
    # Получаем индекс ID продукта из исходного df
    df_indexed = df.set_index('ID продукта')

    # Для каждой колонки извлекаем признаки и дублируем их по строкам
    for col in columns_target:
        # Извлекаем признаки для каждой колонки
        extracted_features = extract_features(df,
                                             column_id='ID продукта',
                                             column_value=col)

        # Импутируем отсутствующие значения
        extracted_features = impute(extracted_features)

        # Дублируем признаки из extracted_features для каждой строки по ID продукта
        df_indexed = df_indexed.merge(extracted_features,
                                      left_index=True,
                                      right_index=True,
                                      how='left')

    # Сбрасываем индекс, чтобы вернуть колонку ID продукта на первое место
    merged_df = df_indexed.reset_index()

    return merged_df

# Пример использования:
data = {
    'ID продукта': [171000083500, 171000083500, 171000083499, 171000083499],
    '2000_start': [499, 504, 168.5, 173.5],
    '2000_flat_center': [0.1325, 0.14, 0.953333333333334, 0.235]
}

df_tsfresh = pd.DataFrame(data)

# Вызываем функцию
columns_to_extract = ['2000_flat_center', '2000_start']
result_df = extract_and_merge_features(df_tsfresh, columns_to_extract)

# Выводим итоговый DataFrame
result_df


In [None]:
from tsfresh import extract_features, select_features
from tsfresh.utilities.dataframe_functions import impute
import pandas as pd
import numpy as np

# Создаём игрушечный датасет с двумя временными рядами
df = pd.DataFrame({
    'id': [1]*50 + [2]*50,
    'time': list(range(50))*2,
    'value': np.concatenate([
        np.sin(np.linspace(0, 10, 50)) + np.random.normal(0, 0.1, 50),
        np.random.normal(0, 1, 50)
    ])
})

# Целевая переменная (например, к какому классу относится временной ряд)
y = pd.Series([1, 0], index=[1, 2])  # 1 - синус, 0 - шум

# Извлекаем фичи
features = extract_features(df, column_id="id", column_sort="time")
impute(features)

# Фильтруем признаки по значимости
filtered_features = select_features(features, y)

print("Отобранные признаки:")
filtered_features

In [None]:
features.shape, y.shape

In [None]:
y

In [None]:
!pip install pandas-profiling


In [None]:
import pandas as pd
from ydata_profiling import ProfileReport

# Загрузка данных
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(url)

# Создание отчета
report = ProfileReport(df, title="Titanic Dataset Profiling")

# Для Jupyter Notebook
report.to_notebook_iframe()

# Или сохранение в HTML
report.to_file("titanic_report.html")

In [None]:
!pip install --upgrade pandas-profiling numba