Конечно! Ниже — **чёткий и минимальный пример** использования `rolling` и `lag` (через `.shift()`) на pandas DataFrame, как это часто делают в **временных рядах / табличных фичах**.

---

## ✅ Пример: `rolling` и `lag` для временных рядов

### 🔧 Данные:

```python
import pandas as pd

# Пример временного ряда: продажи по дням
df = pd.DataFrame({
    'date': pd.date_range(start='2023-01-01', periods=10, freq='D'),
    'sales': [100, 110, 90, 95, 130, 150, 160, 170, 180, 190]
})

print(df)
```

---

### 📍 1. `lag` — сдвигаем значения на 1 день назад

```python
df['lag_1'] = df['sales'].shift(1)
```

| date       | sales | lag\_1 |
| ---------- | ----- | ------ |
| 2023-01-01 | 100   | NaN    |
| 2023-01-02 | 110   | 100    |
| 2023-01-03 | 90    | 110    |
| ...        | ...   | ...    |

---

### 📍 2. `rolling` — среднее за 3 дня

```python
df['rolling_mean_3'] = df['sales'].rolling(window=3).mean()
```

| date       | sales | rolling\_mean\_3 |
| ---------- | ----- | ---------------- |
| 2023-01-01 | 100   | NaN              |
| 2023-01-02 | 110   | NaN              |
| 2023-01-03 | 90    | 100.0            |
| 2023-01-04 | 95    | 98.33            |
| 2023-01-05 | 130   | 105.0            |

---

### 📍 3. Часто используют комбинации:

```python
# Например, разница между текущим значением и предыдущим
df['diff_1'] = df['sales'] - df['lag_1']

# Или стандартное отклонение за окно
df['rolling_std_3'] = df['sales'].rolling(window=3).std()
```

---

## 🧠 Использование в ML

Такие фичи (`lag`, `rolling mean`, `rolling std`, `rolling min/max`) часто:

* добавляют для моделей в time-series (LightGBM, CatBoost)
* позволяют учитывать динамику (рост, падение, тренд)
* хорошо работают даже в обычных регрессиях

---

Хочешь пример, как эти фичи подаются в LightGBM или CatBoost в time-series задаче?


Отлично, покажу полный пример: **`rolling` + `lag` + удаление NaN**, всё как нужно для подачи в ML-модель.

---

## ✅ Пример: лаги, скользящее окно, очистка

```python
import pandas as pd

# Исходные данные: продажи по дням
df = pd.DataFrame({
    'date': pd.date_range(start='2023-01-01', periods=10, freq='D'),
    'sales': [100, 110, 90, 95, 130, 150, 160, 170, 180, 190]
})

# Лаг на 1 день назад
df['lag_1'] = df['sales'].shift(1)

# Скользящее среднее за 3 дня
df['rolling_mean_3'] = df['sales'].rolling(window=3).mean()

# Скользящее стандартное отклонение
df['rolling_std_3'] = df['sales'].rolling(window=3).std()

# Разница с предыдущим днём
df['diff_1'] = df['sales'] - df['lag_1']

# Удаляем строки с NaN (возникают в начале при lag/rolling)
df_clean = df.dropna().reset_index(drop=True)

print(df_clean)
```

---

## 🔍 Что ты получишь:

| date       | sales | lag\_1 | rolling\_mean\_3 | rolling\_std\_3 | diff\_1 |
| ---------- | ----- | ------ | ---------------- | --------------- | ------- |
| 2023-01-04 | 95    | 90.0   | 100.0            | 10.00           | 5.0     |
| 2023-01-05 | 130   | 95.0   | 105.0            | 20.27           | 35.0    |
| ...        | ...   | ...    | ...              | ...             | ...     |

---

## 📌 Примечание:

* `dropna()` нужен, потому что `shift()` и `rolling()` создают NaN в начале.
* Перед подачей в модель (`XGBoost`, `CatBoost`, `LightGBM`) **обязательно сбрось индекс**, иначе будет мусор в индексах.

---

Хочешь, я покажу, как эту таблицу использовать в модели (например, LightGBM) для предсказания `sales`?


Отлично, покажу полный пример: **`rolling` + `lag` + удаление NaN**, всё как нужно для подачи в ML-модель.

---

## ✅ Пример: лаги, скользящее окно, очистка

```python
import pandas as pd

# Исходные данные: продажи по дням
df = pd.DataFrame({
    'date': pd.date_range(start='2023-01-01', periods=10, freq='D'),
    'sales': [100, 110, 90, 95, 130, 150, 160, 170, 180, 190]
})

# Лаг на 1 день назад
df['lag_1'] = df['sales'].shift(1)

# Скользящее среднее за 3 дня
df['rolling_mean_3'] = df['sales'].rolling(window=3).mean()

# Скользящее стандартное отклонение
df['rolling_std_3'] = df['sales'].rolling(window=3).std()

# Разница с предыдущим днём
df['diff_1'] = df['sales'] - df['lag_1']

# Удаляем строки с NaN (возникают в начале при lag/rolling)
df_clean = df.dropna().reset_index(drop=True)

print(df_clean)
```

---

## 🔍 Что ты получишь:

| date       | sales | lag\_1 | rolling\_mean\_3 | rolling\_std\_3 | diff\_1 |
| ---------- | ----- | ------ | ---------------- | --------------- | ------- |
| 2023-01-04 | 95    | 90.0   | 100.0            | 10.00           | 5.0     |
| 2023-01-05 | 130   | 95.0   | 105.0            | 20.27           | 35.0    |
| ...        | ...   | ...    | ...              | ...             | ...     |

---

## 📌 Примечание:

* `dropna()` нужен, потому что `shift()` и `rolling()` создают NaN в начале.
* Перед подачей в модель (`XGBoost`, `CatBoost`, `LightGBM`) **обязательно сбрось индекс**, иначе будет мусор в индексах.

---

Хочешь, я покажу, как эту таблицу использовать в модели (например, LightGBM) для предсказания `sales`?


Отличный вопрос. Вместо удаления строк с `NaN` (`dropna()`), можно **заполнить их вручную** — это часто делают в ML, особенно если ты не хочешь терять данные.

Вот как это делается:

---

## ✅ Способы заполнения `NaN`

```python
import pandas as pd
import numpy as np

# Пример с NaN после rolling/shift
df = pd.DataFrame({
    'sales': [100, 110, 90, 95, 130, 150, 160, 170, 180, 190]
})

df['lag_1'] = df['sales'].shift(1)
df['rolling_mean_3'] = df['sales'].rolling(3).mean()
df['rolling_std_3'] = df['sales'].rolling(3).std()
```

---

### 📍 1. Заполнить нулями (`fillna(0)`)

```python
df.fillna(0, inplace=True)
```

✅ Просто и безопасно, если `0` — допустимое значение (например, для выручки).

---

### 📍 2. Заполнить предыдущим значением (`ffill`)

```python
df.fillna(method='ffill', inplace=True)  # forward fill
```

✅ Подходит, если значения плавные (например, время).

---

### 📍 3. Заполнить средним/медианой

```python
df['rolling_mean_3'].fillna(df['rolling_mean_3'].mean(), inplace=True)
df['lag_1'].fillna(df['lag_1'].median(), inplace=True)
```

✅ Часто используется для числовых признаков при обучении моделей.

---

### 📍 4. Комбинированный подход (гибкий)

```python
df['lag_1'] = df['lag_1'].fillna(0)
df['rolling_mean_3'] = df['rolling_mean_3'].fillna(method='ffill').fillna(0)
df['rolling_std_3'] = df['rolling_std_3'].fillna(0)
```

---

## 📌 Резюме:

| Метод           | Когда использовать             |
| --------------- | ------------------------------ |
| `fillna(0)`     | Нормально, если 0 имеет смысл  |
| `ffill`         | Временные ряды, smooth data    |
| `mean`/`median` | Объективные числовые данные    |
| `dropna()`      | Если мало NaN и важна точность |

---

Хочешь, я покажу пайплайн с `fillna` → LightGBM → `submission.csv`?
