In [1]:
import pandas as pd
import psycopg2
from sqlalchemy import create_engine
import matplotlib.pyplot as plt

# Проверяем версию библиотек
print("Pandas version:", pd.__version__)

Pandas version: 2.1.1


In [10]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine, text
from datetime import datetime, timedelta
import random

# Подключение к базе
engine = create_engine("postgresql+psycopg2://airflow:airflow@postgres-db:5432/learn_base")

def create_tables():
    """Создание всех таблиц"""

    tables_sql = [
        # 1. Таблица пользователей
        """
        DROP TABLE IF EXISTS users CASCADE;
        CREATE TABLE users (
            user_id SERIAL PRIMARY KEY,
            first_name VARCHAR(50),
            last_name VARCHAR(50),
            email VARCHAR(100),
            age INTEGER,
            city VARCHAR(50),
            registration_date DATE,
            premium_user BOOLEAN DEFAULT FALSE
        );
        """,

        # 2. Таблица продуктов
        """
        DROP TABLE IF EXISTS products CASCADE;
        CREATE TABLE products (
            product_id SERIAL PRIMARY KEY,
            product_name VARCHAR(100),
            category VARCHAR(50),
            price DECIMAL(10,2),
            cost DECIMAL(10,2),
            stock_quantity INTEGER,
            supplier VARCHAR(100),
            created_date DATE
        );
        """,

        # 3. Таблица заказов
        """
        DROP TABLE IF EXISTS orders CASCADE;
        CREATE TABLE orders (
            order_id SERIAL PRIMARY KEY,
            user_id INTEGER REFERENCES users(user_id),
            order_date TIMESTAMP,
            total_amount DECIMAL(10,2),
            status VARCHAR(20),
            payment_method VARCHAR(50)
        );
        """,

        # 4. Таблица деталей заказов
        """
        DROP TABLE IF EXISTS order_items CASCADE;
        CREATE TABLE order_items (
            order_item_id SERIAL PRIMARY KEY,
            order_id INTEGER REFERENCES orders(order_id),
            product_id INTEGER REFERENCES products(product_id),
            quantity INTEGER,
            unit_price DECIMAL(10,2),
            discount DECIMAL(5,2) DEFAULT 0
        );
        """,

        # 5. Таблица сотрудников
        """
        DROP TABLE IF EXISTS employees CASCADE;
        CREATE TABLE employees (
            employee_id SERIAL PRIMARY KEY,
            first_name VARCHAR(50),
            last_name VARCHAR(50),
            department VARCHAR(50),
            salary DECIMAL(10,2),
            hire_date DATE,
            manager_id INTEGER
        );
        """,

        # 6. Таблица веб-трафика
        """
        DROP TABLE IF EXISTS web_traffic CASCADE;
        CREATE TABLE web_traffic (
            session_id VARCHAR(50) PRIMARY KEY,
            user_id INTEGER REFERENCES users(user_id),
            page_url VARCHAR(200),
            session_duration INTEGER,
            page_views INTEGER,
            traffic_source VARCHAR(50),
            event_date TIMESTAMP
        );
        """
    ]

    with engine.begin() as conn:
        for sql in tables_sql:
            conn.execute(text(sql))
    print("✅ Все таблицы созданы")

def generate_users_data():
    """Генерация данных пользователей"""
    first_names = ['Иван', 'Мария', 'Алексей', 'Ольга', 'Дмитрий', 'Елена', 'Сергей', 'Анна', 'Андрей', 'Наталья']
    last_names = ['Иванов', 'Петрова', 'Сидоров', 'Смирнова', 'Кузнецов', 'Попова', 'Васильев', 'Новикова', 'Федоров', 'Морозова']
    cities = ['Москва', 'Санкт-Петербург', 'Новосибирск', 'Екатеринбург', 'Казань', 'Нижний Новгород', 'Челябинск', 'Самара', 'Омск', 'Ростов-на-Дону']

    users = []
    for i in range(100):
        user = {
            'first_name': random.choice(first_names),
            'last_name': random.choice(last_names),
            'email': f"user{i+1}@example.com",
            'age': random.randint(18, 65),
            'city': random.choice(cities),
            'registration_date': datetime.now() - timedelta(days=random.randint(1, 365)),
            'premium_user': random.choice([True, False, False, False])  # 25% премиум
        }
        users.append(user)

    df_users = pd.DataFrame(users)
    df_users.to_sql('users', engine, if_exists='append', index=False)

    # Получаем данные обратно с user_id
    df_users_with_id = pd.read_sql("SELECT * FROM users", engine)
    print("✅ Данные пользователей сгенерированы")
    return df_users_with_id

def generate_products_data():
    """Генерация данных продуктов"""
    categories = {
        'Электроника': ['Смартфон', 'Ноутбук', 'Наушники', 'Планшет', 'Умные часы'],
        'Одежда': ['Футболка', 'Джинсы', 'Платье', 'Куртка', 'Обувь'],
        'Книги': ['Роман', 'Детектив', 'Фантастика', 'Бизнес-литература', 'Наука'],
        'Дом': ['Мебель', 'Посуда', 'Текстиль', 'Освещение', 'Декор']
    }

    suppliers = ['TechCorp', 'FashionStyle', 'BookWorld', 'HomeComfort', 'GlobalGoods']

    products = []
    for category, items in categories.items():
        for item in items:
            price = round(random.uniform(10, 1000), 2)
            cost = round(price * random.uniform(0.3, 0.7), 2)
            product = {
                'product_name': f"{item} {random.choice(['Pro', 'Lite', 'Max', 'Standard', 'Premium'])}",
                'category': category,
                'price': price,
                'cost': cost,
                'stock_quantity': random.randint(0, 500),
                'supplier': random.choice(suppliers),
                'created_date': datetime.now() - timedelta(days=random.randint(30, 365))
            }
            products.append(product)

    df_products = pd.DataFrame(products)
    df_products.to_sql('products', engine, if_exists='append', index=False)

    # Получаем данные обратно с product_id
    df_products_with_id = pd.read_sql("SELECT * FROM products", engine)
    print("✅ Данные продуктов сгенерированы")
    return df_products_with_id

def generate_orders_data(users_df, products_df):
    """Генерация данных заказов"""
    statuses = ['completed', 'pending', 'cancelled', 'shipped']
    payment_methods = ['credit_card', 'paypal', 'bank_transfer', 'cash']

    orders = []
    order_items = []

    for order_id in range(1, 201):
        user_id = random.choice(users_df['user_id'].values)
        order_date = datetime.now() - timedelta(days=random.randint(1, 90),
                                              hours=random.randint(1, 23),
                                              minutes=random.randint(1, 59))

        # Создаем заказ
        order = {
            'user_id': user_id,
            'order_date': order_date,
            'total_amount': 0,  # посчитаем ниже
            'status': random.choice(statuses),
            'payment_method': random.choice(payment_methods)
        }
        orders.append(order)

        # Добавляем товары в заказ
        total_amount = 0
        num_items = random.randint(1, 5)
        for _ in range(num_items):
            product = products_df.sample(1).iloc[0]
            quantity = random.randint(1, 3)
            unit_price = float(product['price']) * random.uniform(0.9, 1.0)  # небольшая скидка
            discount = random.choice([0, 0, 0, 0.1, 0.15, 0.2])  # случайная скидка

            order_item = {
                'order_id': order_id,
                'product_id': product['product_id'],
                'quantity': quantity,
                'unit_price': round(unit_price, 2),
                'discount': discount
            }
            order_items.append(order_item)

            total_amount += unit_price * quantity * (1 - discount)

        # Обновляем общую сумму заказа
        orders[-1]['total_amount'] = round(total_amount, 2)

    # Вставляем заказы
    df_orders = pd.DataFrame(orders)
    df_orders.to_sql('orders', engine, if_exists='append', index=False)

    # Вставляем элементы заказов
    df_order_items = pd.DataFrame(order_items)
    df_order_items.to_sql('order_items', engine, if_exists='append', index=False)

    print("✅ Данные заказов сгенерированы")
    return df_orders, df_order_items

def generate_employees_data():
    """Генерация данных сотрудников"""
    departments = ['IT', 'Marketing', 'Sales', 'HR', 'Finance', 'Operations']

    # Сначала создаем менеджеров
    managers_data = []
    manager_ids = {}

    for i, dept in enumerate(departments[:5]):  # 5 менеджеров
        manager = {
            'first_name': random.choice(['Александр', 'Екатерина', 'Михаил', 'Татьяна', 'Владимир']),
            'last_name': random.choice(['Соколов', 'Орлова', 'Лебедев', 'Ковалева', 'Никитин']),
            'department': dept,
            'salary': round(random.uniform(80000, 150000), 2),
            'hire_date': datetime.now() - timedelta(days=random.randint(365, 1825)),
            'manager_id': None
        }
        managers_data.append(manager)

    # Вставляем менеджеров и получаем их ID
    df_managers = pd.DataFrame(managers_data)
    df_managers.to_sql('employees', engine, if_exists='append', index=False)

    # Получаем ID менеджеров
    managers_df = pd.read_sql("SELECT employee_id, department FROM employees WHERE manager_id IS NULL", engine)
    manager_ids = dict(zip(managers_df['department'], managers_df['employee_id']))

    # Теперь создаем обычных сотрудников
    employees_data = []
    for i in range(20):
        department = random.choice(departments)
        manager_id = manager_ids.get(department)

        employee = {
            'first_name': random.choice(['Анна', 'Дмитрий', 'Ольга', 'Игорь', 'Светлана', 'Павел', 'Юлия', 'Артем']),
            'last_name': random.choice(['Иванова', 'Петров', 'Сидорова', 'Козлов', 'Фролова', 'Жуков', 'Максимова', 'Белов']),
            'department': department,
            'salary': round(random.uniform(40000, 90000), 2),
            'hire_date': datetime.now() - timedelta(days=random.randint(30, 1095)),
            'manager_id': manager_id
        }
        employees_data.append(employee)

    # Вставляем обычных сотрудников
    df_employees = pd.DataFrame(employees_data)
    df_employees.to_sql('employees', engine, if_exists='append', index=False)

    # Получаем всех сотрудников
    all_employees = pd.read_sql("SELECT * FROM employees", engine)
    print("✅ Данные сотрудников сгенерированы")
    return all_employees

def generate_web_traffic_data(users_df):
    """Генерация данных веб-трафика"""
    pages = ['/home', '/products', '/about', '/contact', '/blog', '/cart', '/checkout']
    traffic_sources = ['organic', 'direct', 'social', 'email', 'referral']

    web_traffic = []

    for i in range(300):
        # 70% сессий с пользователями, 30% без
        user_id = random.choice(users_df['user_id'].tolist()) if random.random() < 0.7 else None
        session_id = f"session_{i+1}_{random.randint(1000, 9999)}"

        traffic = {
            'session_id': session_id,
            'user_id': user_id,
            'page_url': random.choice(pages),
            'session_duration': random.randint(10, 1800),
            'page_views': random.randint(1, 20),
            'traffic_source': random.choice(traffic_sources),
            'event_date': datetime.now() - timedelta(days=random.randint(0, 30),
                                                   hours=random.randint(0, 23),
                                                   minutes=random.randint(0, 59))
        }
        web_traffic.append(traffic)

    df_web_traffic = pd.DataFrame(web_traffic)
    df_web_traffic.to_sql('web_traffic', engine, if_exists='append', index=False)
    print("✅ Данные веб-трафика сгенерированы")
    return df_web_traffic

def main():
    """Основная функция генерации всех данных"""
    print("🚀 Начинаем генерацию тестовых данных...")

    # Создаем таблицы
    create_tables()

    # Генерируем данные в правильном порядке
    users_df = generate_users_data()
    products_df = generate_products_data()
    orders_df, order_items_df = generate_orders_data(users_df, products_df)
    employees_df = generate_employees_data()
    web_traffic_df = generate_web_traffic_data(users_df)

    print("\n🎉 Все данные успешно сгенерированы!")
    print("\n📊 Созданные таблицы и количество записей:")
    print(f"  • users: {len(users_df)} записей")
    print(f"  • products: {len(products_df)} записей")
    print(f"  • orders: {len(orders_df)} записей")
    print(f"  • order_items: {len(order_items_df)} записей")
    print(f"  • employees: {len(employees_df)} записей")
    print(f"  • web_traffic: {len(web_traffic_df)} записей")

    # Показываем примеры данных
    print("\n🔍 Пример данных из таблицы products:")
    sample_products = pd.read_sql("SELECT * FROM products LIMIT 5", engine)
    print(sample_products.to_string(index=False))

# Запуск генерации
if __name__ == "__main__":
    main()

🚀 Начинаем генерацию тестовых данных...
✅ Все таблицы созданы
✅ Данные пользователей сгенерированы
✅ Данные продуктов сгенерированы
✅ Данные заказов сгенерированы
✅ Данные сотрудников сгенерированы
✅ Данные веб-трафика сгенерированы

🎉 Все данные успешно сгенерированы!

📊 Созданные таблицы и количество записей:
  • users: 100 записей
  • products: 20 записей
  • orders: 200 записей
  • order_items: 581 записей
  • employees: 25 записей
  • web_traffic: 300 записей

🔍 Пример данных из таблицы products:
 product_id    product_name    category  price   cost  stock_quantity     supplier created_date
          1   Смартфон Lite Электроника 556.86 350.16             112  HomeComfort   2025-05-08
          2     Ноутбук Pro Электроника 107.06  46.17             289  HomeComfort   2025-08-28
          3    Наушники Pro Электроника 952.31 455.59             429  GlobalGoods   2025-01-29
          4 Планшет Premium Электроника  95.13  65.84             197 FashionStyle   2025-09-06
          5 У