In [1]:
import pandas as pd

# === ЗАГРУЗКА CSV ===
sales_df = pd.read_csv(r"C:\Users\Huawei\Desktop\kudo\1-sales_train.csv")
denials_df = pd.read_csv(r"C:\Users\Huawei\Desktop\kudo\3-denials_train.csv")
groups_df = pd.read_csv(r"C:\Users\Huawei\Desktop\kudo\2-groups.csv")

# === ПЕРЕИМЕНОВАНИЕ СТОЛБЦОВ ===
sales_df.rename(columns={'SKU': 'Артикул'}, inplace=True)
groups_df.rename(columns={'Продукт': 'Артикул'}, inplace=True)

# === ДОБАВЛЕНИЕ ТИПА ЗАПИСИ ===
sales_df['Тип_записи'] = 'Продажа'
denials_df['Тип_записи'] = 'Отказ'

# === ПРИВЕДЕНИЕ К ОДИНАКОВОМУ ТИПУ ДАННЫХ ===
sales_df['Артикул'] = sales_df['Артикул'].astype(str)
denials_df['Артикул'] = denials_df['Артикул'].astype(str)
groups_df['Артикул'] = groups_df['Артикул'].astype(str)

# === ОБЪЕДИНЕНИЕ ПРОДАЖ И ОТКАЗОВ ===
combined_df = pd.concat([sales_df, denials_df], ignore_index=True)

# === ОБЪЕДИНЕНИЕ С СПРАВОЧНИКОМ ТОВАРОВ ===
final_df = pd.merge(combined_df, groups_df, on='Артикул', how='left')

# === УДАЛЕНИЕ СТРОК С NaN В СПРАВОЧНЫХ СТОЛБЦАХ ===
final_df = final_df.dropna(subset=['Группа', 'Тип', 'Категория'])

# === ПРОВЕРКА РЕЗУЛЬТАТА ===
print(f"Количество строк после очистки: {len(final_df)}")
print("Пример данных:")
print(final_df.head())


Количество строк после очистки: 2082582
Пример данных:
   Клиент                Область Артикул  Дата счёта  Количество (шт.)  \
0  146936  Нижегородская область   15680  2021-05-24                61   
1  146936  Нижегородская область   15603  2021-05-24                 1   
2  146936  Нижегородская область      64  2021-05-24                11   
3  146936  Нижегородская область   23528  2021-05-24                 2   
4  146936  Нижегородская область      89  2021-05-24                 1   

   Цена (р.)  Скидка (%) Тип_записи     Группа                           Тип  \
0      135.0        22.0    Продажа  Автохимия  Прочие профильные очистители   
1      219.0        21.0    Продажа  Автохимия          Полироли Аэрозольные   
2      208.0        11.0    Продажа  Автохимия  Прочие профильные очистители   
3      162.0        11.0    Продажа  Автохимия            Смазки Аэрозольные   
4      182.0        12.0    Продажа  Автохимия            Смазки Аэрозольные   

  Категория  
0    

In [2]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# Преобразуем дату к типу datetime
final_df['Дата счёта'] = pd.to_datetime(final_df['Дата счёта'], errors='coerce')

# Проверим размер данных и пропуски
print(final_df.shape)
print(final_df.isna().sum())

# Удалим дубликаты (если присутствуют)
final_df.drop_duplicates(inplace=True)


(2082582, 11)
Клиент                   0
Область             540734
Артикул                  0
Дата счёта               0
Количество (шт.)         0
Цена (р.)              416
Скидка (%)          540734
Тип_записи               0
Группа                   0
Тип                      0
Категория                0
dtype: int64


In [3]:
# День недели (0=понедельник, 6=воскресенье)
final_df['day_of_week'] = final_df['Дата счёта'].dt.dayofweek

# Месяц
final_df['month'] = final_df['Дата счёта'].dt.month
final_df['year'] = final_df['Дата счёта'].dt.year

# Преобразуем месяц в синус и косинус (для учёта цикличности 12 месяцев)
final_df['month_sin'] = np.sin(2 * np.pi * final_df['month'] / 12)
final_df['month_cos'] = np.cos(2 * np.pi * final_df['month'] / 12)

# Пример создания флагов праздников. Здесь показано условно:
russian_holidays = {
    # Официальные праздники
    (1, 1),   # Новый год
    (1, 7),   # Рождество
    (2, 23),  # День защитника Отечества
    (3, 8),   # Международный женский день
    (5, 1),   # Праздник Весны и Труда
    (5, 9),   # День Победы
    (6, 12),  # День России
    (11, 4),  # День народного единства

    # Неофициальные праздники
    (1, 14),  # Старый Новый год
    (2, 14),  # День святого Валентина
    (9, 1),   # День знаний
    (10, 31), # Хэллоуин
    (11, 25), # День матери (примерная дата, уточните)
    (1, 25),  # День студента (Татьянин день)
}
def is_russian_holiday(row):
    m = row['month']
    d = row['Дата счёта'].day
    return 1 if (m, d) in russian_holidays else 0

final_df['is_holiday'] = final_df.apply(is_russian_holiday, axis=1)

# Дополнительно можно вводить флаги "за 7 дней до праздника" и т.д.
# (просто пример):
def days_until_holiday(row):
    # Возвращаем минимальное количество дней до ближайшего праздника (упрощённый подход)
    d = row['Дата счёта']
    current_year = d.year
    min_days = 999
    for (mh, dh) in russian_holidays:
        holiday_date = datetime(current_year, mh, dh)
        delta_days = (holiday_date - d).days
        if delta_days >= 0 and delta_days < min_days:
            min_days = delta_days
    return min_days if min_days != 999 else -1  # -1, если ближайшего праздника в этом году уже нет

final_df['days_until_holiday'] = final_df.apply(days_until_holiday, axis=1)


In [4]:
# Признак, была ли скидка (1, если скидка>0)
final_df['is_discounted'] = final_df['Скидка (%)'].fillna(0).apply(lambda x: 1 if x > 0 else 0)

# Шкалируемая скидка (при пропусках считаем 0)
final_df['discount_percent'] = final_df['Скидка (%)'].fillna(0)

# Цена с учётом скидки (пример, если нужно)
# Допустим, изначальная цена - 'Цена (р.)', скидка - discount_percent (в %)
final_df['effective_price'] = final_df['Цена (р.)'] * (1 - final_df['discount_percent']/100)


In [5]:
final_df['fulfilled'] = final_df['Тип_записи'].apply(lambda x: 1 if x=='Продажа' else 0)


In [6]:
# Сортируем по Клиенту, Артикулу, Дате
final_df.sort_values(by=['Клиент','Артикул','Дата счёта'], inplace=True)

# Создадим helper-колонки для анализа
final_df['eventual_fulfill'] = 0  # флаг о том, что отказ восполнен

# Идём по строкам, где Тип_записи='Отказ', смотрим, есть ли в будущем у того же клиента и артикула строка 'Продажа'
# Ограничим период, скажем, 30 дней (псевдокод)
look_ahead_days = 30

# Пробежимся группами (клиент-артикул), чтобы быстрее искать:
grouped = final_df.groupby(['Клиент','Артикул'])

for (cust, art), group_data in grouped:
    # индексы строк этой группы
    indices = group_data.index.tolist()
    for i in range(len(indices)):
        idx = indices[i]
        row = final_df.loc[idx]
        if row['fulfilled'] == 0:  # Отказ
            order_date = row['Дата счёта']
            
            # Ищем ближайшую последующую 'Продажу' c той же комбинацией (cust, art)
            # в течение look_ahead_days
            # (Это упрощённый перебор, можно оптимизировать)
            for j in range(i+1, len(indices)):
                idx2 = indices[j]
                row2 = final_df.loc[idx2]
                
                if row2['fulfilled'] == 1:
                    date_diff = (row2['Дата счёта'] - order_date).days
                    if date_diff >= 0 and date_diff <= look_ahead_days:
                        # Значит, этот отказ впоследствии был компенсирован
                        final_df.at[idx, 'eventual_fulfill'] = 1
                        break


In [7]:
final_df['lost_sale'] = final_df.apply(lambda row: 1 if (row['fulfilled']==0 and row['eventual_fulfill']==0) else 0, axis=1)


In [8]:
# Подсчитаем агрегаты на уровне Клиент-Артикул или просто по всему датасету
# Например, общая сумма потерянных продаж (в рублях) за всё время:
final_df['lost_revenue'] = final_df['lost_sale'] * final_df['Количество (шт.)'] * final_df['effective_price']
total_lost = final_df['lost_revenue'].sum()
print("Потерянная выручка (примерная оценка):", total_lost)

# Можно также группировать по клиентам или по артикулам:
lost_by_client = final_df.groupby('Клиент')['lost_revenue'].sum().reset_index(name='lost_revenue_by_client')
lost_by_sku = final_df.groupby('Артикул')['lost_revenue'].sum().reset_index(name='lost_revenue_by_sku')


Потерянная выручка (примерная оценка): 3773857016.0400023


In [9]:
# Оставим только выполненные продажи для расчёта лагов/роллингов:
sales_df = final_df[final_df['fulfilled']==1].copy()

# Сгруппируем по [Артикул, Дата счёта] и суммируем количество продаж (или выручку - как целевой показатель)
daily_sales = sales_df.groupby(['Артикул', 'Дата счёта'], as_index=False)['Количество (шт.)'].sum()

# Чтобы корректно считать лаги, стоит сделать непрерывный временной ряд.
# Для каждого артикула нужно "развернуть" даты (resample на дневном уровне), заполнив нулями там, где продаж не было.
all_articles = daily_sales['Артикул'].unique()

list_of_frames = []
for art in all_articles:
    tmp = daily_sales[daily_sales['Артикул']==art].copy()
    tmp.set_index('Дата счёта', inplace=True)
    
    # Создаём полноценную шкалу дат от min до max
    idx = pd.date_range(start=tmp.index.min(), end=tmp.index.max(), freq='D')
    
    tmp = tmp.reindex(idx, fill_value=0)  # пропущенные даты заполняем 0
    tmp['Артикул'] = art
    tmp['Дата счёта'] = tmp.index
    tmp.rename(columns={'Количество (шт.)':'qty_sold'}, inplace=True)
    
    list_of_frames.append(tmp)

full_daily_sales = pd.concat(list_of_frames, ignore_index=True)

# Теперь считаем лаги и rolling:
# Сортируем (на всякий случай)
full_daily_sales.sort_values(by=['Артикул','Дата счёта'], inplace=True)

# Группируем снова для применения transform
def create_lags_rollings(df):
    df['lag_1'] = df['qty_sold'].shift(1)
    df['lag_7'] = df['qty_sold'].shift(7)
    df['lag_30'] = df['qty_sold'].shift(30)
    
    df['rmean_7'] = df['qty_sold'].rolling(window=7).mean()
    df['rstd_7'] = df['qty_sold'].rolling(window=7).std()
    df['rmean_30'] = df['qty_sold'].rolling(window=30).mean()
    df['rstd_30'] = df['qty_sold'].rolling(window=30).std()
    
    return df

full_daily_sales = full_daily_sales.groupby('Артикул', group_keys=False).apply(create_lags_rollings)

# Посмотрим, что получилось
full_daily_sales.head(15)


  full_daily_sales = full_daily_sales.groupby('Артикул', group_keys=False).apply(create_lags_rollings)


Unnamed: 0,Артикул,qty_sold,Дата счёта,lag_1,lag_7,lag_30,rmean_7,rstd_7,rmean_30,rstd_30
0,100,1,2021-05-24,,,,,,,
1,100,0,2021-05-25,1.0,,,,,,
2,100,0,2021-05-26,0.0,,,,,,
3,100,0,2021-05-27,0.0,,,,,,
4,100,0,2021-05-28,0.0,,,,,,
5,100,0,2021-05-29,0.0,,,,,,
6,100,0,2021-05-30,0.0,,,0.142857,0.377964,,
7,100,0,2021-05-31,0.0,1.0,,0.0,0.0,,
8,100,12,2021-06-01,0.0,0.0,,1.714286,4.535574,,
9,100,12,2021-06-02,12.0,0.0,,3.428571,5.8554,,


In [10]:
# 1) Для каждого клиента найдём дату первой и последней покупки, общее число покупок, сумму
sales_only = final_df[final_df['fulfilled']==1].copy()

# Считаем фактическую выручку (цена * кол-во)
sales_only['actual_revenue'] = sales_only['Количество (шт.)'] * sales_only['effective_price']

client_agg = sales_only.groupby('Клиент').agg({
    'Дата счёта': ['min','max'],
    'actual_revenue': 'sum',
    'Количество (шт.)': 'sum'
}).reset_index()

client_agg.columns = ['Клиент','first_purchase_date','last_purchase_date','total_revenue','total_qty']

# Признак давности последней покупки (Recency)
current_date = sales_only['Дата счёта'].max()  # или фиксированная дата среза
client_agg['recency_days'] = (current_date - client_agg['last_purchase_date']).dt.days

# Частота (Frequency): количество заказов/покупок
order_counts = sales_only.groupby('Клиент')['Дата счёта'].count().reset_index(name='frequency')
client_agg = pd.merge(client_agg, order_counts, on='Клиент', how='left')

# Monetary - общая сумма (total_revenue)
# мы уже посчитали её в client_agg['total_revenue']

# Итоговые RFM-признаки:
# R ~ recency_days (чем меньше, тем лучше)
# F ~ frequency
# M ~ total_revenue

# Пример: создадим интегральный индекс лояльности (очень грубо)
# (чем меньше R, больше F, больше M - тем лучше)
# Для упрощения:
client_agg['loyalty_score'] = (
    (1 / (1 + client_agg['recency_days'])) + 
    np.log1p(client_agg['frequency']) + 
    np.log1p(client_agg['total_revenue']/1000)
)

# Присоединим к исходным данным (final_df) через merge
final_df = pd.merge(final_df, client_agg[['Клиент','loyalty_score','recency_days','frequency','total_revenue','total_qty']],
                    on='Клиент', how='left')


In [11]:
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Возьмём простые признаки для кластеризации
X = client_agg[['recency_days','frequency','total_revenue']].copy()

# Лог-трансформация revenue для стабилизации масштабов (по желанию)
X['total_revenue'] = np.log1p(X['total_revenue'])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Допустим, выберем 4 кластера (гипотеза)
kmeans = KMeans(n_clusters=4, random_state=42)
kmeans.fit(X_scaled)

# Сохраним метки кластеров
client_agg['client_cluster'] = kmeans.labels_

# Подмешаем обратно к заказам
final_df = pd.merge(final_df, client_agg[['Клиент','client_cluster']], on='Клиент', how='left')


In [12]:
product_agg = sales_only.groupby('Артикул').agg({
    'Количество (шт.)': ['mean','std','count'],
    'actual_revenue': 'sum'
}).reset_index()

product_agg.columns = ['Артикул','avg_qty','std_qty','count_sales','sum_revenue']

# лог-скейлинг
product_agg['sum_revenue'] = np.log1p(product_agg['sum_revenue'].values)

X_prod = product_agg[['avg_qty','std_qty','count_sales','sum_revenue']].fillna(0)
X_prod_scaled = scaler.fit_transform(X_prod)

kmeans_prod = KMeans(n_clusters=5, random_state=42)
kmeans_prod.fit(X_prod_scaled)

product_agg['product_cluster'] = kmeans_prod.labels_

# Join к final_df
final_df = pd.merge(final_df, product_agg[['Артикул','product_cluster']], on='Артикул', how='left')


In [13]:

pd.set_option('display.max_columns', None)

In [14]:
final_df

Unnamed: 0,Клиент,Область,Артикул,Дата счёта,Количество (шт.),Цена (р.),Скидка (%),Тип_записи,Группа,Тип,Категория,day_of_week,month,year,month_sin,month_cos,is_holiday,days_until_holiday,is_discounted,discount_percent,effective_price,fulfilled,eventual_fulfill,lost_sale,lost_revenue,loyalty_score,recency_days,frequency,total_revenue,total_qty,client_cluster,product_cluster
0,661,,1095,2021-05-19,1,53.9,,Отказ,Автохимия,Холодная сварка,KERRY®,2,5,2021,5.000000e-01,-0.866025,0,24,0,0.0,53.90,0,0,1,53.9,,,,,,,1.0
1,661,,1108,2022-12-07,9,83.4,,Отказ,Автохимия,Спец средства,KERRY®,2,12,2022,-2.449294e-16,1.000000,0,-1,0,0.0,83.40,0,0,1,750.6,,,,,,,0.0
2,661,,1108,2023-12-04,1,65.0,,Отказ,Автохимия,Спец средства,KERRY®,0,12,2023,-2.449294e-16,1.000000,0,-1,0,0.0,65.00,0,0,1,65.0,,,,,,,0.0
3,661,,1109,2021-12-02,1,16.2,,Отказ,Автохимия,Размораживатель замков,KERRY®,3,12,2021,-2.449294e-16,1.000000,0,-1,0,0.0,16.20,0,0,1,16.2,,,,,,,0.0
4,661,,1118,2022-02-08,5,67.1,,Отказ,Автохимия,Паста для рук,KERRY®,1,2,2022,8.660254e-01,0.500000,0,6,0,0.0,67.10,0,0,1,335.5,,,,,,,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2035918,156621,Москва,32531,2024-06-20,36,286.3,0.0,Продажа,Клеи и герметики KUDO,Герметики,Герметики и клеи KUDO,3,6,2024,1.224647e-16,-1.000000,0,73,0,0.0,286.30,1,0,0,0.0,3.229663,8.0,1.0,10306.80,36.0,3.0,1.0
2035919,156622,Чувашская Республика,19181,2024-06-20,36,1120.0,1.0,Продажа,Автохимия,Формирователи прокладок,KERRY®,3,6,2024,1.224647e-16,-1.000000,0,73,1,1.0,1108.80,1,0,0,0.0,6.077272,8.0,4.0,77001.12,158.0,3.0,1.0
2035920,156622,Чувашская Республика,25186,2024-06-20,1,532.0,-68.0,Продажа,Автохимия,Герметики,KERRY®,3,6,2024,1.224647e-16,-1.000000,0,73,0,-68.0,893.76,1,0,0,0.0,6.077272,8.0,4.0,77001.12,158.0,3.0,0.0
2035921,156622,Чувашская Республика,27242,2024-06-20,120,295.0,0.0,Продажа,Клеи и герметики KUDO,Герметики,Герметики и клеи KUDO,3,6,2024,1.224647e-16,-1.000000,0,73,0,0.0,295.00,1,0,0,0.0,6.077272,8.0,4.0,77001.12,158.0,3.0,0.0


In [16]:
import pandas as pd

# Шаг 1. Загрузка данных по инфляции с указанием типа для столбца "Дата"
inflation_path = r'C:\Users\Huawei\Desktop\kudo\Инфляция и ключевая ставка Банка России_F01_01_2021_T21_03_2025.csv'
inflation_df = pd.read_csv(inflation_path, sep=',', dtype={'Дата': str})

# Если есть лишние пробелы, удалим их:
inflation_df['Дата'] = inflation_df['Дата'].str.strip()

# Выведем первые строки для проверки
print("Инфляционные данные (до преобразования):")
print(inflation_df.head())

# Шаг 2. Преобразуем столбец "Дата" (формат "MM.YYYY") в datetime
# Формат %m.%Y работает и для месяцев без ведущего нуля (например, "2.2025")
inflation_df['Дата'] = pd.to_datetime(inflation_df['Дата'], format='%m.%Y')

# Извлечем год и месяц
inflation_df['year'] = inflation_df['Дата'].dt.year
inflation_df['month'] = inflation_df['Дата'].dt.month

# Переименуем нужные столбцы для удобства
inflation_df.rename(columns={
    "Ключевая ставка, % годовых": "key_rate",
    "Инфляция, % г/г": "inflation_rate",
    "Цель по инфляции": "inflation_target"
}, inplace=True)

# Оставляем только нужные колонки
inflation_df = inflation_df[['year', 'month', 'key_rate', 'inflation_rate', 'inflation_target']]

print("\nОбработанные данные по инфляции:")
print(inflation_df.head())

# --- Пример объединения с основным DataFrame ---
# Предположим, что основной DataFrame называется final_df и имеет столбец "Дата счёта"
# final_df = pd.read_csv('path_to_orders.csv')  # или другой способ загрузки

# Преобразуем столбец "Дата счёта" в datetime
final_df['Дата счёта'] = pd.to_datetime(final_df['Дата счёта'], errors='coerce')
final_df['year'] = final_df['Дата счёта'].dt.year
final_df['month'] = final_df['Дата счёта'].dt.month

# Объединяем по 'year' и 'month'
final_df = final_df.merge(inflation_df, on=['year', 'month'], how='left')

# Проверка результата объединения:
print("\nРезультирующий DataFrame (первые 5 строк) с инфляционными показателями:")
print(final_df[['Дата счёта', 'year', 'month', 'key_rate', 'inflation_rate', 'inflation_target']].head())


Инфляционные данные (до преобразования):
      Дата  Ключевая ставка, % годовых  Инфляция, % г/г  Цель по инфляции
0  02.2025                        21.0            10.06               4.0
1  01.2025                        21.0             9.92               4.0
2  12.2024                        21.0             9.52               4.0
3  11.2024                        21.0             8.88               4.0
4  10.2024                        21.0             8.54               4.0

Обработанные данные по инфляции:
   year  month  key_rate  inflation_rate  inflation_target
0  2025      2      21.0           10.06               4.0
1  2025      1      21.0            9.92               4.0
2  2024     12      21.0            9.52               4.0
3  2024     11      21.0            8.88               4.0
4  2024     10      21.0            8.54               4.0

Результирующий DataFrame (первые 5 строк) с инфляционными показателями:
  Дата счёта  year  month  key_rate  inflation_rate  i

In [18]:
import pandas as pd

# --- Шаг 1. Загрузка данных из USD_RUB.csv ---
usd_rub_path = r'C:\Users\Huawei\Desktop\kudo\Прошлые данные - USD_RUB.csv'

# Задаём decimal=',' чтобы правильно распознать десятичную запятую,
# и указываем, что файл имеет заголовок с названиями столбцов.
usd_rub_df = pd.read_csv(usd_rub_path, sep=',', decimal=',', encoding='utf-8')

# Просмотр первых строк
print("USD_RUB данные (до обработки):")
print(usd_rub_df.head())

# --- Шаг 2. Преобразование даты ---
# Преобразуем столбец "Дата" (формат "21.03.2025") в datetime
usd_rub_df['Дата'] = pd.to_datetime(usd_rub_df['Дата'], format='%d.%m.%Y')

# --- Шаг 3. Переименование столбцов ---
# Сохраним дату, а для остальных столбцов добавим префикс "usd_rub_"
cols_to_rename = {col: f"usd_rub_{col}" for col in usd_rub_df.columns if col != "Дата"}
usd_rub_df.rename(columns=cols_to_rename, inplace=True)

# Для удобства можно переименовать столбец "Дата" в "date_usd_rub"
usd_rub_df.rename(columns={"Дата": "date_usd_rub"}, inplace=True)

print("\nUSD_RUB данные (после обработки):")
print(usd_rub_df.head())

# --- Шаг 4. Объединение с основным DataFrame ---
# Предположим, что final_df уже загружен и имеет столбец "Дата счёта" в формате datetime.
# Если нет, преобразуем:
final_df['Дата счёта'] = pd.to_datetime(final_df['Дата счёта'], errors='coerce')

# Для объединения по дате, удобно привести даты к типу date (без времени)
final_df['order_date'] = final_df['Дата счёта'].dt.date
usd_rub_df['usd_rub_date'] = usd_rub_df['date_usd_rub'].dt.date

# Объединяем по датам: все данные из final_df, к которым добавляются соответствующие значения курса USD/RUB
final_df = final_df.merge(usd_rub_df, left_on='order_date', right_on='usd_rub_date', how='left')

# Если ненужные дополнительные столбцы можно удалить:
final_df.drop(columns=['usd_rub_date', 'date_usd_rub', 'order_date'], inplace=True)

# --- Шаг 5. Проверка результата ---
print("\nРезультирующий DataFrame (первые 5 строк) с данными USD/RUB:")
print(final_df.head()[['Дата счёта', 'usd_rub_Цена', 'usd_rub_Откр.', 'usd_rub_Макс.', 'usd_rub_Мин.', 'usd_rub_Объём', 'usd_rub_Изм. %']])


USD_RUB данные (до обработки):
         Дата     Цена  Откр.   Макс.   Мин.  Объём  Изм. %
0  21.03.2025  84.4955  82.75  84.875  82.75    NaN  -0,50%
1  20.03.2025  84.9205  83.76  85.750  83.50    NaN   1,10%
2  19.03.2025  83.9955  81.91  84.250  81.91    NaN   2,75%
3  18.03.2025  81.7455  83.01  84.100  81.01    NaN  -2,04%
4  17.03.2025  83.4455  85.51  85.860  83.20    NaN  -2,40%

USD_RUB данные (после обработки):
  date_usd_rub  usd_rub_Цена  usd_rub_Откр.  usd_rub_Макс.  usd_rub_Мин.  \
0   2025-03-21       84.4955          82.75         84.875         82.75   
1   2025-03-20       84.9205          83.76         85.750         83.50   
2   2025-03-19       83.9955          81.91         84.250         81.91   
3   2025-03-18       81.7455          83.01         84.100         81.01   
4   2025-03-17       83.4455          85.51         85.860         83.20   

   usd_rub_Объём usd_rub_Изм. %  
0            NaN         -0,50%  
1            NaN          1,10%  
2            Na

In [19]:
final_df

Unnamed: 0,Клиент,Область,Артикул,Дата счёта,Количество (шт.),Цена (р.),Скидка (%),Тип_записи,Группа,Тип,Категория,day_of_week,month,year,month_sin,month_cos,is_holiday,days_until_holiday,is_discounted,discount_percent,effective_price,fulfilled,eventual_fulfill,lost_sale,lost_revenue,loyalty_score,recency_days,frequency,total_revenue,total_qty,client_cluster,product_cluster,key_rate,inflation_rate,inflation_target,usd_rub_Цена,usd_rub_Откр.,usd_rub_Макс.,usd_rub_Мин.,usd_rub_Объём,usd_rub_Изм. %
0,661,,1095,2021-05-19,1,53.9,,Отказ,Автохимия,Холодная сварка,KERRY®,2,5,2021,5.000000e-01,-0.866025,0,24,0,0.0,53.90,0,0,1,53.9,,,,,,,1.0,5.0,6.00,4.0,73.6973,73.6512,73.9462,73.4590,,"0,20%"
1,661,,1108,2022-12-07,9,83.4,,Отказ,Автохимия,Спец средства,KERRY®,2,12,2022,-2.449294e-16,1.000000,0,-1,0,0.0,83.40,0,0,1,750.6,,,,,,,0.0,7.5,11.94,4.0,61.0000,60.5500,64.1875,60.4625,,"-2,24%"
2,661,,1108,2023-12-04,1,65.0,,Отказ,Автохимия,Спец средства,KERRY®,0,12,2023,-2.449294e-16,1.000000,0,-1,0,0.0,65.00,0,0,1,65.0,,,,,,,0.0,16.0,7.42,4.0,91.4955,91.2000,91.8663,90.1602,,"0,30%"
3,661,,1109,2021-12-02,1,16.2,,Отказ,Автохимия,Размораживатель замков,KERRY®,3,12,2021,-2.449294e-16,1.000000,0,-1,0,0.0,16.20,0,0,1,16.2,,,,,,,0.0,8.5,8.39,4.0,73.5330,74.2650,74.4415,73.5150,,"-0,93%"
4,661,,1118,2022-02-08,5,67.1,,Отказ,Автохимия,Паста для рук,KERRY®,1,2,2022,8.660254e-01,0.500000,0,6,0,0.0,67.10,0,0,1,335.5,,,,,,,1.0,20.0,9.15,4.0,74.9695,75.3119,75.7678,74.9599,,"-0,41%"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2035918,156621,Москва,32531,2024-06-20,36,286.3,0.0,Продажа,Клеи и герметики KUDO,Герметики,Герметики и клеи KUDO,3,6,2024,1.224647e-16,-1.000000,0,73,0,0.0,286.30,1,0,0,0.0,3.229663,8.0,1.0,10306.80,36.0,3.0,1.0,16.0,8.59,4.0,87.2455,83.1250,90.1228,82.1390,,"5,58%"
2035919,156622,Чувашская Республика,19181,2024-06-20,36,1120.0,1.0,Продажа,Автохимия,Формирователи прокладок,KERRY®,3,6,2024,1.224647e-16,-1.000000,0,73,1,1.0,1108.80,1,0,0,0.0,6.077272,8.0,4.0,77001.12,158.0,3.0,1.0,16.0,8.59,4.0,87.2455,83.1250,90.1228,82.1390,,"5,58%"
2035920,156622,Чувашская Республика,25186,2024-06-20,1,532.0,-68.0,Продажа,Автохимия,Герметики,KERRY®,3,6,2024,1.224647e-16,-1.000000,0,73,0,-68.0,893.76,1,0,0,0.0,6.077272,8.0,4.0,77001.12,158.0,3.0,0.0,16.0,8.59,4.0,87.2455,83.1250,90.1228,82.1390,,"5,58%"
2035921,156622,Чувашская Республика,27242,2024-06-20,120,295.0,0.0,Продажа,Клеи и герметики KUDO,Герметики,Герметики и клеи KUDO,3,6,2024,1.224647e-16,-1.000000,0,73,0,0.0,295.00,1,0,0,0.0,6.077272,8.0,4.0,77001.12,158.0,3.0,0.0,16.0,8.59,4.0,87.2455,83.1250,90.1228,82.1390,,"5,58%"


In [20]:
import os

folder_name = "final_df"
if not os.path.exists(folder_name):
    os.makedirs(folder_name)

file_path = os.path.join(folder_name, "final_df.csv")
final_df.to_csv(file_path, index=False)
print("Файл сохранён:", file_path)

Файл сохранён: final_df\final_df.csv
