In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import random
from faker import Faker


In [None]:
# Настройка случайных значений для воспроизводимости
np.random.seed(42)
random.seed(42)
fake = Faker('ru_RU')


def generate_product_catalog():
    """Генерация расширенного каталога товаров с группами и категориями"""
    
    # Товарные группы и категории
    product_groups = {
        'Электроника': {
            'categories': ['Смартфоны', 'Ноутбуки', 'Планшеты', 'Фототехника', 'Аудиотехника'],
            'margin_range': (0.25, 0.35)
        },
        'Компьютерная техника': {
            'categories': ['Компьютеры', 'Мониторы', 'Комплектующие', 'Периферия'],
            'margin_range': (0.20, 0.30)
        },
        'Бытовая техника': {
            'categories': ['Крупная техника', 'Малая техника', 'Климатическая техника'],
            'margin_range': (0.15, 0.25)
        },
        'Аксессуары': {
            'categories': ['Чехлы', 'Наушники', 'Гаджеты', 'Кабели'],
            'margin_range': (0.30, 0.45)
        },
        'Игры и развлечения': {
            'categories': ['Игровые консоли', 'Видеоигры', 'Аксессуары для игр'],
            'margin_range': (0.20, 0.35)
        },
        'Умный дом': {
            'categories': ['Умные колонки', 'Камеры наблюдения', 'Умные устройства'],
            'margin_range': (0.25, 0.40)
        }
    }
    
    products = []
    product_id = 1
    
    for group_name, group_info in product_groups.items():
        for category in group_info['categories']:
            # Генерируем товары для каждой категории
            if category == 'Смартфоны':
                product_names = [
                    f"Смартфон {fake.word().title()} {random.randint(8, 15)}",
                    f"Мобильный телефон {fake.company()}",
                    f"Флагманский смартфон {fake.first_name()}",
                    f"Бюджетный смартфон {fake.city()}",
                    f"Премиум смартфон {fake.company()}"
                ]
                base_prices = [15000, 25000, 45000, 80000, 120000]
            elif category == 'Ноутбуки':
                product_names = [
                    f"Ноутбук {fake.word().title()} {random.choice(['Pro', 'Air', 'Gaming', 'Office'])}",
                    f"Ультрабук {fake.company()}",
                    f"Игровой ноутбук {fake.first_name()}",
                    f"Бизнес-ноутбук {fake.city()}",
                    f"Профессиональный ноутбук {fake.company()}"
                ]
                base_prices = [30000, 50000, 80000, 120000, 200000]
            elif category == 'Планшеты':
                product_names = [
                    f"Планшет {fake.word().title()} {random.randint(5, 12)}",
                    f"Графический планшет {fake.company()}",
                    f"Детский планшет {fake.first_name()}",
                    f"Бизнес-планшет {fake.city()}",
                ]
                base_prices = [8000, 15000, 25000, 40000]
            elif category == 'Наушники':
                product_names = [
                    f"Наушники {fake.word().title()} {random.choice(['Wireless', 'Pro', 'Max', 'Air'])}",
                    f"Гарнитура {fake.company()}",
                    f"Беспроводные наушники {fake.first_name()}",
                    f"Профессиональные наушники {fake.company()}",
                    f"Игровые наушники {fake.company()}",
                    f"Проводные наушники {fake.company()}"
                ]
                base_prices = [2000, 5000, 12000, 25000, 40000]
            elif category == 'Мониторы':
                product_names = [
                    f"Монитор {fake.word().title()} {random.randint(24, 34)}\"",
                    f"Игровой монитор {fake.company()}",
                    f"Профессиональный монитор {fake.first_name()}",
                    f"Бюджетный монитор {fake.city()}"
                ]
                base_prices = [10000, 20000, 35000, 60000]
            elif category == 'Игровые консоли':
                product_names = [
                    f"Игровая консоль {fake.word().title()} {random.randint(4, 6)}",
                    f"Портативная консоль {fake.company()}",
                    f"Игровой контроллер {fake.first_name()}",
                    f"Бюджетная консоль {fake.city()}",
                    f"Профессиональная консоль {fake.company()}"
                ]
                base_prices = [25000, 40000, 60000, 80000]
            else:
                # Для остальных категорий генерируем общие названия
                product_names = [
                    f"{category} {fake.word().title()} {fake.random_letter().upper()}{random.randint(100, 999)}",
                    f"{category} {fake.company()}",
                    f"Профессиональный {category} {fake.first_name()}", 
                    f"Любительский {category} {fake.first_name()}"
                ]
                base_prices = [5000, 15000, 30000, 50000, 80000]
            
            # Создаем 4-7 товаров для каждой категории  - добавить случайное количество товаров в product_names до 50 штук    
            for product_name in product_names[:random.randint(5, 8)]:
                base_price = random.choice(base_prices)
                products.append({
                    'product_id': f'PRD-{product_id:04d}',
                    'product_name': product_name,
                    'product_group': group_name,
                    'product_category': category,
                    'brand': fake.company(),
                    'base_price': base_price,
                    'margin_min': group_info['margin_range'][0],
                    'margin_max': group_info['margin_range'][1],
                    'weight_kg': round(random.uniform(0.1, 5.0), 2),
                    'warranty_months': random.choice([12, 24, 36]),
                    'is_active': random.choices([True, False], weights=[0.9, 0.1])[0]
                })
                product_id += 1
    
    return pd.DataFrame(products)

def generate_sales_dataset(years=[2023, 2024, 2025], product_catalog=None):
    """Генерация датасета для дашборда продаж за несколько лет с разделением по магазинам"""
    
    if product_catalog is None:
        product_catalog = generate_product_catalog()

    # Основные параметры
    start_date = datetime(years[0], 1, 1)
    end_date = datetime.today() #datetime(years[-1], 12, 31)  
    days = (end_date - start_date).days + 1
       
    # Магазины с характеристиками
    stores = {
        'MSC-001': {'city': 'Москва', 'region': 'Центральный', 'type': 'Флагманский', 'size': 'Крупный', 'opening_date': '2020-01-15'},
        'MSC-002': {'city': 'Москва', 'region': 'Центральный', 'type': 'Стандартный', 'size': 'Средний', 'opening_date': '2021-03-20'},
        'SPB-001': {'city': 'Санкт-Петербург', 'region': 'Северо-Западный', 'type': 'Флагманский', 'size': 'Крупный', 'opening_date': '2019-11-10'},
        'NVS-001': {'city': 'Новосибирск', 'region': 'Сибирский', 'type': 'Стандартный', 'size': 'Средний', 'opening_date': '2022-02-28'},
        'EKB-001': {'city': 'Екатеринбург', 'region': 'Уральский', 'type': 'Стандартный', 'size': 'Средний', 'opening_date': '2021-07-12'},
        'KZN-001': {'city': 'Казань', 'region': 'Приволжский', 'type': 'Стандартный', 'size': 'Малый', 'opening_date': '2022-09-05'},
        'ONL-001': {'city': 'Онлайн', 'region': 'Все регионы', 'type': 'Интернет-магазин', 'size': 'Крупный', 'opening_date': '2018-05-01'}
    }
    
    managers = ['Иванов А.И.', 'Петрова С.В.', 'Сидоров Д.К.', 'Козлова М.П.', 'Васильев Р.Н.', 
                'Смирнова О.Л.', 'Попов Д.С.', 'Федорова Е.К.', 'Морозов И.А.', 'Никитина Т.П.']

    # Создание основного датафрейма с ежедневными продажами
    data = []
    
    for i in range(days):
        current_date = start_date + timedelta(days=i)
        current_year = current_date.year
        
        # Базовое количество заказов растет с каждым годом
        base_orders = 50 + (current_year - 2023) * 15
        
        # Сезонность
        # seasonal_factor = 1 + 0.3 * np.sin(2 * np.pi * i / 365)
        seasonal_factor = (1 + 0.3 * np.sin(4 * np.pi * i / 365)) * (1 + 0.3 * (1 - np.cos(2 * np.pi * i / 365)) / 2 )

        # Выходные
        day_of_week_factor = 1.2 if current_date.weekday() < 5 else 0.7
        # Случайные колебания
        random_factor = np.random.uniform(0.6, 1.4)
        
        daily_orders = int(base_orders * seasonal_factor * day_of_week_factor * random_factor)

        # Инфляция 5% в год
        inflation_factor = (1.05) ** (current_year - 2023)
        
        for _ in range(daily_orders):
            product = product_catalog.sample(1).iloc[0] 
            store_id = random.choice(list(stores.keys()))
            store_info = stores[store_id]
            manager = random.choice(managers)
            
            #различия в ценах между магазинами
            store_price_factor = 1.0
            if store_info['type'] == 'Флагманский':
                store_price_factor = 1.05  # Выше цены в флагманских магазинах
            elif store_info['type'] == 'Интернет-магазин':
                store_price_factor = 0.95  # Ниже цены в онлайн-магазине
            
            base_price =  product['base_price'] * inflation_factor * store_price_factor  
            
            quantity = random.randint(1, 3)
            
            # Стоимость с случайным отклонением
            unit_price = round(base_price * np.random.uniform(0.9, 1.0),2)

            # Скидка (разная политика в разных магазинах)
            base_discount_chance = 0.3
            if store_info['type'] == 'Интернет-магазин':
                base_discount_chance = 0.5  # Чаще скидки в онлайн
            elif store_info['type'] == 'Флагманский':
                base_discount_chance = 0.2  # Реже скидки в флагманских
                
            discount_rate = random.choice([0, 0, 0.05, 0.1, 0.15, 0.2]) if random.random() < base_discount_chance else 0
            revenue_nodsc = round(unit_price * quantity,2)
            discount_amount = round(revenue_nodsc * discount_rate,2)
            revenue = revenue_nodsc - discount_amount      
            
            # Себестоимость на основе маржинальности товарной группы
            margin = np.random.uniform(product['margin_min'], product['margin_max'])
            cost_ratio = 1 - margin
            cost = round(revenue_nodsc * cost_ratio,2)
            gross_profit = revenue - cost

            # Статус сделки (улучшаем конверсию с годами)
            base_success_rate = 0.85 + (current_year - 2023) * 0.03
            status = 'Завершена' if random.random() < base_success_rate else 'Отменена'
            
            data.append({
                'date': current_date.strftime('%Y-%m-%d'),
                'year': current_year,
                'quarter': f'Q{(current_date.month-1)//3 + 1}',
                'month': current_date.month,
                'store_id': store_id,
                'store_city': store_info['city'],
                'store_region': store_info['region'],
                'store_type': store_info['type'],
                'store_size': store_info['size'],
                'product_id': product['product_id'], 
                'product_name': product['product_name'],
                'product_group': product['product_group'],
                'product_category': product['product_category'],
                'brand': product['brand'],                
                'sales_manager': manager,
                'quantity': quantity,
                'unit_price': round(unit_price, 2),  # цена за единицу
                'revenue': round(revenue, 2),  #  со скидкой
                'cost': round(cost, 2),
                'gross_profit': round(gross_profit, 2),
                'discount_rate': discount_rate,
                'discount_amount': round(discount_amount, 2),
                'status': status,
                'order_id': f'ORD-{current_date.strftime("%Y%m%d")}-{random.randint(1000, 9999)}'
            })
    
    return pd.DataFrame(data), stores, product_catalog

def generate_customer_data(main_df, stores):
    """Генерация данных по клиентам"""
    
    customer_ids = [f'CUST-{i:05d}' for i in range(1, 2501)]
    
    customer_data = []
    
    for cust_id in customer_ids:
        # Распределение клиентов по городам магазинов
        store_cities = [store['city'] for store in stores.values()]
        preferred_city = random.choice(store_cities)
        
        acquisition_channel = random.choice(['Поисковая реклама', 'Социальные сети', 'Рекомендация', 'Партнерская программа', 'Прямой заход', 'Email-рассылка'])
        
        # Дата первого заказа распределена по всем 3 годам
        first_order_date = fake.date_between(start_date='-3y', end_date='today') #datetime(2023, 1, 1) + timedelta(days=random.randint(0, 1095))
        
        customer_data.append({
            'customer_id': cust_id,
            'customer_name': fake.name(),
            'email': fake.email(),
            'phone': fake.phone_number(),            
            'preferred_city': preferred_city,
            'region': fake.region(),
            'acquisition_channel': acquisition_channel,
            'first_order_date': first_order_date.strftime('%Y-%m-%d'),
            'first_order_year': first_order_date.year,
            'customer_segment': random.choice(['Новый', 'Постоянный', 'VIP', 'Оптовый']),
            'loyalty_level': random.choice(['Базовый', 'Стандартный', 'Премиум', 'Платиновый']),
            'total_orders': random.randint(1, 50), 
            'total_spent': random.randint(1000, 500000)            
        })
    
    customer_df = pd.DataFrame(customer_data)
    
    # Добавляем customer_id в основной датафрейм
    main_df['customer_id'] = [random.choice(customer_ids) for _ in range(len(main_df))]
    
    return main_df, customer_df

def generate_store_performance(stores, years=[2023, 2024, 2025]):
    """Генерация данных по производительности магазинов"""
    
    performance_data = []
    
    for store_id, store_info in stores.items():
        for year in years:
            for month in range(1, 13):
                # Базовые показатели в зависимости от типа магазина
                base_revenue = 8000000   # В месяц
                if store_info['type'] == 'Флагманский':
                    base_revenue = 12000000
                elif store_info['type'] == 'Интернет-магазин':
                    base_revenue = 15000000
                elif store_info['size'] == 'Малый':
                    base_revenue = 4000000
                
                # Рост с каждым годом
                yearly_growth = (1.15) ** (year - 2023)
                # Сезонность
                seasonal_factor = 1 + 0.2 * np.sin(2 * np.pi * (month - 1) / 12)
                
                revenue = base_revenue * yearly_growth * seasonal_factor * np.random.uniform(0.9, 1.1)
                avg_order_value = 25000 + (year - 2023) * 2000  # Примерный средний чек
                traffic = int(revenue / avg_order_value * np.random.uniform(0.8, 1.2)) # Примерный трафик 
                conversion_rate = 0.15 + (year - 2023) * 0.02  # Улучшение конверсии   
                
                performance_data.append({
                    'store_id': store_id,
                    'year': year,
                    'month': month,
                    'revenue_goal': round(revenue, 2),
                    'traffic_goal': traffic,
                    'conversion_goal': conversion_rate,
                    'avg_order_value_goal': avg_order_value, 
                    'staff_count': 8 if store_info['size'] == 'Крупный' else 5 if store_info['size'] == 'Средний' else 3
                })
    
    return pd.DataFrame(performance_data)


def generate_inventory_data(sales_df, stores, product_catalog, years=[2023, 2024, 2025]):
    """Генерация данных по остаткам на складах магазинов, связанных с продажами"""
    
    inventory_data = []
    
    # Сначала получим агрегированные данные по продажам
    sales_agg = sales_df[sales_df['status'] == 'Завершена'].groupby(
        ['store_id', 'product_id', 'year', 'month']
    ).agg({
        'quantity': 'sum',
        'revenue': 'sum'   #_after_discount
    }).reset_index()
    
    for store_id in stores.keys():
        for _, product in product_catalog[product_catalog['is_active']].iterrows():
            # Начальный запас в зависимости от размера магазина и типа товара
            if stores[store_id]['size'] == 'Крупный':
                initial_stock = random.randint(50, 150)
                reorder_level = 20
            elif stores[store_id]['size'] == 'Средний':
                initial_stock = random.randint(25, 75)
                reorder_level = 15
            else:  # Малый
                initial_stock = random.randint(10, 30)
                reorder_level = 10
                
            current_stock = initial_stock
            
            for year in years:
                for month in range(1, 13):
                    # Получаем фактические продажи за период
                    monthly_sales = sales_agg[
                        (sales_agg['store_id'] == store_id) & 
                        (sales_agg['product_id'] == product['product_id']) & 
                        (sales_agg['year'] == year) & 
                        (sales_agg['month'] == month)
                    ]
                    
                    if not monthly_sales.empty:
                        sold_units = int(monthly_sales['quantity'].iloc[0])
                    else:
                        sold_units = 0
                    
                    # Обновляем остаток с учетом продаж
                    current_stock = max(0, current_stock - sold_units)
                    
                    # Пополнение запасов (раз в месяц)
                    if current_stock <= reorder_level:
                        # Пополняем до начального уровня + случайное колебание
                        current_stock = initial_stock + random.randint(-5, 15)
                    
                    # Случайные колебания (потери, повреждения и т.д.)
                    stock_adjustment = random.randint(-3, 3)
                    current_stock = max(0, current_stock + stock_adjustment)
                    
                    # Расчет дней, когда товара не было в наличии
                    stock_out_days = 0
                    if current_stock == 0:
                        stock_out_days = random.randint(0, 7)
                    
                    # Уровень оборачиваемости
                    turnover_rate = sold_units / initial_stock if initial_stock > 0 else 0
                    
                    inventory_data.append({
                        'store_id': store_id,
                        'product_id': product['product_id'],
                        'product_name': product['product_name'],
                        'product_group': product['product_group'],
                        'product_category': product['product_category'],
                        'year': year,
                        'month': month,
                        'initial_stock': initial_stock,
                        'sold_units': sold_units,
                        'current_stock': current_stock,
                        'stock_out_days': stock_out_days,
                        'reorder_level': reorder_level,
                        'turnover_rate': round(turnover_rate, 2),
                        'stock_cover_days': round((current_stock / sold_units * 30) if sold_units > 0 else 999, 1)
                    })
    
    return pd.DataFrame(inventory_data)




In [None]:
def main():
    print("Генерация датасета для дашборда продаж за 2023-2025 годы с разделением по магазинам...")
    
    years = [2023, 2024, 2025]
    
    # Генерация каталога товаров
    print("Создание каталога товаров...")
    product_catalog = generate_product_catalog()

    # Генерация основных данных по продажам
    print("Создание данных о продажах...")
    sales_df, stores_info, product_catalog = generate_sales_dataset(years, product_catalog)
    
    # Генерация данных по клиентам
    print("Создание данных о клиентах...")
    sales_df, customers_df = generate_customer_data(sales_df, stores_info)
    
    # # Генерация данных по производительности магазинов
    # print("Создание данных по производительности магазинов...")
    # store_performance_df = generate_store_performance(stores_info, years)
    
    # # Генерация данных по остаткам
    # print("Создание данных по остаткам...")
    # inventory_df = generate_inventory_data(sales_df, stores_info, product_catalog, years)
    
    # Создание справочника магазинов
    stores_df = pd.DataFrame([
        {'store_id': store_id, **info} for store_id, info in stores_info.items()
    ])
    
        
    # Сохранение в CSV файлы
    print("Сохранение в CSV файлы...")
    
    sales_df.to_csv('sales.csv', index=False, encoding='utf-8')
    customers_df.to_csv('customers.csv', index=False, encoding='utf-8')
    product_catalog.to_csv('products.csv', index=False, encoding='utf-8')
    stores_df.to_csv('stores.csv', index=False, encoding='utf-8')
    # inventory_df.to_csv('inventory.csv', index=False, encoding='utf-8-sig')
    
    # Вывод статистики
    print(f"\nГенерация завершена! Созданы файлы:")
    print(f"  sales.csv - {len(sales_df):,} записей о продажах")
    print(f"  stores.csv - справочник {len(stores_df)} магазинов")
    print(f"  customers.csv - {len(customers_df):,} клиентов")
    print(f"  products.csv - {len(product_catalog):,} товаров")
    

if __name__ == "__main__":
    main()
