In [1]:
# Импорт библиотек

import os # Для взаимодействия с ОС
import shutil # Для управления файлами и папками
import pandas as pd # Для работы с табличными данными

## Copying to the Repository

In [2]:
def copying_to_repository():
    # Пути к коренной директории и директории с репозиторием
    source_folder = input('Введите коренную директорию - ')
    git_folder = input('Введите директорию репозитория - ')
    
    # Создание целевой директории
    os.makedirs(git_folder, exist_ok = True)
    
    # Копирование файлов из исходной директории в репозиторий
    for filename in os.listdir(source_folder):
        source_path = os.path.join(source_folder, filename) # Полный путь к файлу в корневой директории
        git_path = os.path.join(git_folder, filename) # Полный путь к директории с репозиторием
    
        if filename != '.ipynb_checkpoints': # Исключение папки при копировании 
            if os.path.isdir(source_path): # Если это директория, то копируем её с содержимым
                shutil.rmtree(git_path, ignore_errors = True) # Удаление старой директории   
                shutil.copytree(source_path, git_path) # Копирование директории
            else: # Иначе копируем файл
                shutil.copy2(source_path, git_path) # Копирование файла
    
    print('Файлы успешно скопированы в репозиторий')

In [3]:
# copying_to_repository()

## Data Analysis

In [4]:
# Загрузка датасета. Вывод размера датасета и первых пять записей

df = pd.read_excel('data/characteristics_and_sales_of_goods.xlsx')
print(f'Размер датасета: {df.shape}')
print('Первые пять записей датасета:')
df.head()

Размер датасета: (20596, 5)
Первые пять записей датасета:


  for idx, row in parser.parse():
  for idx, row in parser.parse():


Unnamed: 0,product_name,product_category,total_realization,share_realization,accumulation_realization
0,Аленка (ОК) 90г,Шоколад,71201224.45,0.011562,0.011562
1,РОЛЛТОН ВЕРМИШЕЛЬ б/п витамин. куриная на дома...,Продукты быстрого приготовления,64360762.22,0.010451,0.022012
2,"МАКФА МУКА пшеничная в/с, 2кг.Челябинск",Мука,49262315.82,0.007999,0.030012
3,"МАКФА Спираль макар.изд., в/с, 223-3А 400гр.",Макаронные изделия,47573899.91,0.007725,0.037737
4,В шок. Москвичка БК,Карамель,32893871.3,0.005341,0.043078


In [5]:
# Вывод описательной статистики датасета

print('Описательная статистика датасета:')
df.describe()

Описательная статистика датасета:


Unnamed: 0,total_realization,share_realization,accumulation_realization
count,20596.0,20596.0,20596.0
mean,299010.4,4.855312e-05,0.942684
std,1527611.0,0.0002480524,0.125434
min,-349394.3,-5.673441e-05,0.011562
25%,858.4725,1.393982e-07,0.954281
50%,12951.91,2.103123e-06,0.99673
75%,129648.7,2.105227e-05,1.00053
max,71201220.0,0.01156161,1.000771


In [6]:
# Вывод информации о датасете

print('Информация о датасете:')
df.info()

Информация о датасете:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20596 entries, 0 to 20595
Data columns (total 5 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   product_name              20596 non-null  object 
 1   product_category          20596 non-null  object 
 2   total_realization         20596 non-null  float64
 3   share_realization         20596 non-null  float64
 4   accumulation_realization  20596 non-null  float64
dtypes: float64(3), object(2)
memory usage: 804.7+ KB


Пропущенных значений в датасете **нет**

In [7]:
# Вывод количетсва уникальных значений в датасете

print('Количество уникальных значений в датасете:')
for name, value in df.items():
    print(f'Характеристика: {name}')
    print(f'Количество уникальных значений: {df[name].nunique()}')
    print(f'Список значений:\n{df.groupby(df[name].tolist()).size().sort_values(ascending = False)}')

Количество уникальных значений в датасете:
Характеристика: product_name
Количество уникальных значений: 20451
Список значений:
Казахстанский 100г (БС)                                                                3
Мармелад Ассорти                                                                       3
Салфетки влажные PARLO 120шт универсальные для всей семьи с крышкой                    2
Сыр Шушенский Фигурный коса копченая Семенишна бзмж 45% 100гр                          2
Парижанка французкий шоколадный трюфель для дет.питания                                2
                                                                                      ..
Княжеские SRP-T                                                                        1
Княжеские 200г                                                                         1
Книга путешественника №84                                                              1
Книга путешественника №77                                               

## Data Preparation

In [8]:
# Копирование датасета для дольней его обработки 

df_prepare = df.copy()
df_prepare.head()

Unnamed: 0,product_name,product_category,total_realization,share_realization,accumulation_realization
0,Аленка (ОК) 90г,Шоколад,71201224.45,0.011562,0.011562
1,РОЛЛТОН ВЕРМИШЕЛЬ б/п витамин. куриная на дома...,Продукты быстрого приготовления,64360762.22,0.010451,0.022012
2,"МАКФА МУКА пшеничная в/с, 2кг.Челябинск",Мука,49262315.82,0.007999,0.030012
3,"МАКФА Спираль макар.изд., в/с, 223-3А 400гр.",Макаронные изделия,47573899.91,0.007725,0.037737
4,В шок. Москвичка БК,Карамель,32893871.3,0.005341,0.043078


In [9]:
# Привидение текстовых переменных к нижнему регистру

df_prepare[['product_name', 'product_category']] = df_prepare[['product_name', 'product_category']].apply(lambda x: x.str.lower())
df_prepare.head()

Unnamed: 0,product_name,product_category,total_realization,share_realization,accumulation_realization
0,аленка (ок) 90г,шоколад,71201224.45,0.011562,0.011562
1,роллтон вермишель б/п витамин. куриная на дома...,продукты быстрого приготовления,64360762.22,0.010451,0.022012
2,"макфа мука пшеничная в/с, 2кг.челябинск",мука,49262315.82,0.007999,0.030012
3,"макфа спираль макар.изд., в/с, 223-3а 400гр.",макаронные изделия,47573899.91,0.007725,0.037737
4,в шок. москвичка бк,карамель,32893871.3,0.005341,0.043078


### Data Transformations

In [10]:
# Словарь для объединения категорий

category_mapping = {
    'конфеты': ['конфеты', 'конфеты фасованные', 'конфеты в коробках'],
    'шоколад': ['шоколад', 'шоколад весовой', 'шоколодные и ореховые пасты'],
    'печенье': ['печенье', 'печенье фасованное', 'крекер'],
    'вафли': ['вафли', 'вафли фасованные'],
    'карамель': ['карамель', 'карамель фасованная'],
    'чай': ['чай', 'хорека-чай'],
    'кофе': ['кофе', 'хорека-кофе'],
    'консервы': ['консервы мясные', 'консервы овощные', 'консервы рыбные и морепродукты', 'консервы фруктово-ягодные'],
    'молоко сгущенное': ['молоко сгущенное и концентрированное'],
    'мясные продукты': ['деликатесы мясные', 'мясо', 'мясо охлажденное', 'холодец'],
    'полуфабрикаты': ['полуфабрикаты', 'готовые блюда', 'паназиатская кухня'],
    'хлебобулочные изделия': ['хлеб, хлебобулочные изделия'],
    'к чаю': ['баранки, соломка, сушка, сухари', 'кексы', 'рулеты', 'зефир', 'мармелад', 'пастила', 'восточные сладости', 'козинаки', 'халва'],
    'десерты': ['десерты', 'торты ,бисквиты,пирожные', 'хорека-коржи, торты'],
    'напитки': ['соки, напитки'],
    'крупы и зерновые': ['крупы', 'каши'],
    'растительные масла': ['масла растительные'],
    'соусы и приправы': ['кетчуп и соусы', 'томатная паста'],
    'приправы': ['специи, приправы', 'смеси для гарнира'],
    'продукты для выпечки': ['сода, уксус, дрожжи'],
    'сухие завтраки': ['сухие завтраки', 'хлопья'],
    'замороженные продукты': ['замороженные овощи, ягоды, грибы'],
    'овощи/фрукты': ['овощи,фрукты грибы,ягоды'],
    'детские товары': ['детское питание', 'детские товары'],
    'полезное питание': ['полезное питание', 'полезное питание , продукция без сахара'],
    'снэки': ['снэки', 'жевательная резинка'],
    'новогодние товары': ['новогодние подарки нк', 'новогодние подарки', 'новогодняя упаковка/сайт', 'новогодняя упаковка'],
    'прочее': ['прочие', 'прочие нк(швейный цех)', 'нпу 2024', 'янеиспользуемый', 'остатки сладки', 'элитная продукция', 'подарки'],
    'товары для дома': ['хозяйственные товары', 'бытовая химия'],
    'личная гигиена': ['личная гигиена', 'косметика, гигиена'],
    'табак': ['табак, спички', 'табак собственные магазины'],
    'рыба': ['рыба', 'рыбные пресервы'],
    'яйца': ['яйцо'],
    'орехи/сухофрукты': ['орехи, сухофрукты'],
    'животные': ['товары для животных'],
    'собственные магазины': ['собственные магазины']
}

In [11]:
def replace_categories(df, column_name):
    # Обратный словарь для замены, где ключ - подкатегория, значение - основная категория
    reverse_mapping = {}
    # Заполнение обратного словаря
    # Проход по категориям товаров
    for categories, subcategories in category_mapping.items():
        # Проход по подкатегориям категории товара
        for subcategory in subcategories:
            # Заполнения обратного словаря категорями товаров на основе подкатегории товаров
            reverse_mapping[subcategory] = categories
    # Заполнение стобца датасета категориями из обратного словаря 
    df.loc[:, column_name] = df[column_name].map(reverse_mapping).fillna(df[column_name])
    return df

In [12]:
# Замена категорий товаров

df_prepare = replace_categories(df_prepare, 'product_category')
df_prepare.head()

Unnamed: 0,product_name,product_category,total_realization,share_realization,accumulation_realization
0,аленка (ок) 90г,шоколад,71201224.45,0.011562,0.011562
1,роллтон вермишель б/п витамин. куриная на дома...,продукты быстрого приготовления,64360762.22,0.010451,0.022012
2,"макфа мука пшеничная в/с, 2кг.челябинск",мука,49262315.82,0.007999,0.030012
3,"макфа спираль макар.изд., в/с, 223-3а 400гр.",макаронные изделия,47573899.91,0.007725,0.037737
4,в шок. москвичка бк,карамель,32893871.3,0.005341,0.043078


### Data Cleaning

#### Products With a Negative Sales Amount

In [13]:
# Вывод товаров с отрицательной суммой реализации

df_prepare[df_prepare['total_realization'] <= 0]

Unnamed: 0,product_name,product_category,total_realization,share_realization,accumulation_realization
20138,хилтоп (ж/б) 125г мишка бордовый (копилка),чай,0.00,0.000000,1.000771
20139,хилтоп (ж/б) 125г мишка золотой (копилка),чай,0.00,0.000000,1.000771
20140,упаковка домик для гнома,новогодние товары,0.00,0.000000,1.000771
20141,тушь для ресниц golden rose classics xl volume...,личная гигиена,0.00,0.000000,1.000771
20142,"ультрамарин щука натуральная с д/м, с/кл , 240гр",консервы,0.00,0.000000,1.000771
...,...,...,...,...,...
20591,"нектар апельсиновый тм мой 0,95л",напитки,-292397.26,-0.000047,1.000211
20592,"нектар вишнёво-яблочный тм мой 0,95л",напитки,-298327.66,-0.000048,1.000163
20593,"нектар яблочно-абрикосовый с мякотью тм мой 0,95л",напитки,-309930.97,-0.000050,1.000113
20594,нива ул/э бк2,конфеты,-344766.28,-0.000056,1.000057


In [14]:
# Удаление товаров с отрицательной суммой реализации

df_prepare = df_prepare.loc[df_prepare['total_realization'] > 0]
print(f'Размер отчищенного датасета - {df_prepare.shape}')

Размер отчищенного датасета - (20138, 5)


#### Product Categories Where There are Fewer Than 10 Products

In [15]:
# Вывод категорий товаров у которых количество товаров меньше 10

# Группировка категорий товаров и подсчёт количества
category_counts = df_prepare.groupby('product_category').size()
# Фильтрация категорий товаров у которых количетсва товаров меньше 10 и сортировка по возрастанию
filtered_category_counts = category_counts[category_counts < 10].sort_values(ascending = False)
# Вывод отфильтрованных категорий товаров
print(f'Категории товаров у которых количество товаров меньше 10:\n{filtered_category_counts}')

Категории товаров у которых количество товаров меньше 10:
product_category
хорека-запчасти                          8
якрупы, мука,сахар                       6
специи/орех                              6
нпу 2023                                 5
яконсервы плодовоовощные                 5
ясоки, газ.вода                          4
мучные изделия                           4
нуга                                     4
хорека-оборудование                      4
мягкая игрушка                           3
нпу 2022                                 3
япродукт быстрого пригот                 2
ямясные консервы                         2
ябакалея                                 2
хорека-минеральная вода                  2
керамика/сайт                            2
новогодние подарки 2022                  2
услуги                                   1
хорека-мороженое                         1
макаронные изделиях (не использовать)    1
рекламные материалы дки                  1
язелень, салаты       

In [16]:
# Удаление категорий товаров у которых количество товаров меньше 10

# Подсчёт количетсва строк для каждой категории товара
category_counts = df_prepare['product_category'].value_counts()
# Фильтрация категорий товаров у которых количетсва товаров меньше 10 и определяем их индекс
filtered_category_remove = category_counts[category_counts < 10].index
# Удаление строк с этими категориями
df_prepare = df_prepare[~df_prepare['product_category'].isin(filtered_category_remove)]
print(f'Размер отчищенного датасета - {df_prepare.shape}')

Размер отчищенного датасета - (20064, 5)


### Creating New Data

In [17]:
# Сортировка по убыванию по сумме реализации

df_prepare = df_prepare.sort_values(by = 'total_realization', ascending = False)
df_prepare.head()

Unnamed: 0,product_name,product_category,total_realization,share_realization,accumulation_realization
0,аленка (ок) 90г,шоколад,71201224.45,0.011562,0.011562
1,роллтон вермишель б/п витамин. куриная на дома...,продукты быстрого приготовления,64360762.22,0.010451,0.022012
2,"макфа мука пшеничная в/с, 2кг.челябинск",мука,49262315.82,0.007999,0.030012
3,"макфа спираль макар.изд., в/с, 223-3а 400гр.",макаронные изделия,47573899.91,0.007725,0.037737
4,в шок. москвичка бк,карамель,32893871.3,0.005341,0.043078


In [18]:
# Преобразования накопительной суммы реализации в проценты

df_prepare['accumulation_realization'] = df_prepare['accumulation_realization'].apply(lambda x: round((x * 100), 2))
df_prepare.head()

Unnamed: 0,product_name,product_category,total_realization,share_realization,accumulation_realization
0,аленка (ок) 90г,шоколад,71201224.45,0.011562,1.16
1,роллтон вермишель б/п витамин. куриная на дома...,продукты быстрого приготовления,64360762.22,0.010451,2.2
2,"макфа мука пшеничная в/с, 2кг.челябинск",мука,49262315.82,0.007999,3.0
3,"макфа спираль макар.изд., в/с, 223-3а 400гр.",макаронные изделия,47573899.91,0.007725,3.77
4,в шок. москвичка бк,карамель,32893871.3,0.005341,4.31


In [19]:
# Функция классификации товаров

def ABC_classification (accumulation_realization):
    if accumulation_realization < 80:
        return 'A'
    elif 80 <= accumulation_realization <= 95:
        return 'B'
    else:
        return 'C'

In [20]:
# Создание нового столбца с ABC классифкацией товаров

df_prepare['abc_classification'] = df_prepare['accumulation_realization'].apply(ABC_classification)
df_prepare.head()

Unnamed: 0,product_name,product_category,total_realization,share_realization,accumulation_realization,abc_classification
0,аленка (ок) 90г,шоколад,71201224.45,0.011562,1.16,A
1,роллтон вермишель б/п витамин. куриная на дома...,продукты быстрого приготовления,64360762.22,0.010451,2.2,A
2,"макфа мука пшеничная в/с, 2кг.челябинск",мука,49262315.82,0.007999,3.0,A
3,"макфа спираль макар.изд., в/с, 223-3а 400гр.",макаронные изделия,47573899.91,0.007725,3.77,A
4,в шок. москвичка бк,карамель,32893871.3,0.005341,4.31,A


In [21]:
# Вывод количетсва уникальных значений ABC классификации

print(f'Количество уникальных значений: {df_prepare['abc_classification'].nunique()}')
print(f'Список значений:\n{df_prepare.groupby(df_prepare['abc_classification'].tolist()).size().sort_values(ascending = False)}')

Количество уникальных значений: 3
Список значений:
C    15120
B     2987
A     1957
dtype: int64


In [22]:
# Сохранение датасета с новым параметром

df_prepare.to_excel('data/characteristics_and_sales_of_goods_df_prepare.xlsx')

## Result

In [23]:
# Функция генерации рекомендаций на основе модели машинного обучения

def product_recommendation_generation(df, product_category):
    # Приведение категории к нижнему регистру
    product_category = product_category.lower()  
    # Список для хранения результатов
    recommendation_generation_results_list = [] 
    # Перебор ABC-классификаций
    for abc_classification in ['A', 'B', 'C']:
        # Фильтрация товаров
        filtered_products = df[(df['product_category'].str.lower() == product_category) & (df['abc_classification'] == abc_classification)] 
        # Если есть товары в этой группе - сортируем и берем топ
        if not filtered_products.empty:
            recommendation_generation_results = filtered_products.sort_values('total_realization', ascending = False).head(3)
            recommendation_generation_results_list.append(recommendation_generation_results[['product_name', 'product_category', 'abc_classification', 'total_realization']])
    # Возвращаем объединенные результаты или сообщение
    if recommendation_generation_results_list:
        return pd.concat(recommendation_generation_results_list, ignore_index = True)
    else:
        return f"Нет данных для категории '{product_category}'"

In [24]:
product_recommendation_generation(df_prepare, "шоколад")

Unnamed: 0,product_name,product_category,abc_classification,total_realization
0,аленка (ок) 90г,шоколад,A,71201224.45
1,батон бабаевский с помадно-сливочной начинкой ...,шоколад,A,32311342.78
2,люкс (ок) 90г,шоколад,A,29928414.59
3,приморский кондитер темный с морской солью 100г,шоколад,B,592630.65
4,рахат 65% к/у 100г,шоколад,B,574045.31
5,молочный коммунарка детские истории с молочной...,шоколад,B,556329.6
6,"fantola печенье с карамелью со вкусом ""choco v...",шоколад,C,139477.89
7,fantola молочный с начинкой со вкусом avocado...,шоколад,C,139244.08
8,бушерон ориджинал горький с апельсином 90г,шоколад,C,139068.86
