# Подготовка данных

Сначала сгенерируем тестовые данные для нашего анализа, будем использовать Python для создания датасета о продажах продуктов.

In [None]:
!pip install pandas numpy pymongo psycopg2-binary sqlalchemy

In [None]:
import pandas as pd
import numpy as np
from pymongo import MongoClient
import psycopg2
from sqlalchemy import create_engine
from datetime import datetime, timedelta

In [None]:
def check_mongo_connection(client):
    try:
        # Проверка подключения к серверу
        client.server_info()
        print("Успешное подключение к MongoDB")
        return True
    except Exception as e:
        print(f"Ошибка подключения к MongoDB: {e}")
        return False

def check_postgres_connection(conn_params):
    try:
        conn = psycopg2.connect(**conn_params)
        print("Успешное подключение к PostgreSQL")
        return conn
    except Exception as e:
        print(f"Ошибка подключения к PostgreSQL: {e}")
        return None

In [None]:
# Генерация данных
np.random.seed(42)
n_records = 1000

# Генерация дат
start_date = datetime(2023, 1, 1)
dates = [start_date + timedelta(days=i) for i in range(n_records)]

# Генерация данных о продуктах
product_ids = [f"P{i:03d}" for i in range(1, 51)]
product_names = [f"Продукт {i}" for i in range(1, 51)]
categories = ['Электроника', 'Одежда', 'Книги', 'Продукты питания', 'Бытовая техника']

data = {
    'date': dates,
    'product_id': np.random.choice(product_ids, n_records),
    'quantity': np.random.randint(1, 11, n_records),
    'price': np.random.uniform(10, 1000, n_records).round(2),
    'customer_id': np.random.randint(1, 1001, n_records),
    'category': np.random.choice(categories, n_records)
}

df = pd.DataFrame(data)
df['total_sales'] = df['quantity'] * df['price']
df

In [None]:
# Сохранение в CSV для дальнейшего использования
df.to_csv('product_sales.csv', index=False)

print("Данные сгенерированы и сохранены в product_sales.csv")

In [None]:
# Подключение к MongoDB
mongo_client = MongoClient('mongodb://mongouser:mongopass@localhost:27017/')
if check_mongo_connection(mongo_client):
    mongo_db = mongo_client['studmongo']
    collection = mongo_db['sales']

    # Загрузка данных в MongoDB
    records = df.to_dict('records')
    collection.insert_many(records)
    print("Данные загружены в MongoDB")

    # Пример запроса к MongoDB
    pipeline = [
        {"$group": {
            "_id": "$category",
            "total_sales": {"$sum": "$total_sales"},
            "avg_price": {"$avg": "$price"}
        }},
        {"$sort": {"total_sales": -1}}
    ]

    results_mongo = list(collection.aggregate(pipeline))
    print("\nРезультаты анализа из MongoDB:")
    for result in results_mongo:
        print(f"Категория: {result['_id']}, Общие продажи: {result['total_sales']:.2f}, Средняя цена: {result['avg_price']:.2f}")

else:
    print("Пропуск операций с MongoDB из-за ошибки подключения")


In [None]:
import psycopg2

try:
    conn = psycopg2.connect(
        dbname="studpg",
        user="postgres",
        password="changeme",
        host="localhost",  # или "postgres", если Jupyter в контейнере
        port="5432"
    )
    print("Подключение успешно")
    conn.close()
except Exception as e:
    print(f"Ошибка подключения: {e}")

In [None]:
# Подключение к PostgreSQL
pg_conn_params = {
    "dbname": "studpg",
    "user": "postgres",
    "password": "changeme",
    "host": "localhost",
    "port": "5432"
}

pg_conn = check_postgres_connection(pg_conn_params)
if pg_conn:
    try:
        # Создание таблицы
        with pg_conn.cursor() as cur:
            cur.execute("""
                CREATE TABLE IF NOT EXISTS sales (
                    date DATE,
                    product_id VARCHAR(10),
                    quantity INTEGER,
                    price FLOAT,
                    customer_id INTEGER,
                    category VARCHAR(50),
                    total_sales FLOAT
                )
            """)
        
        # Загрузка данных
        with pg_conn.cursor() as cur:
            for _, row in df.iterrows():
                cur.execute("""
                    INSERT INTO sales (date, product_id, quantity, price, customer_id, category, total_sales)
                    VALUES (%s, %s, %s, %s, %s, %s, %s)
                """, (row['date'], row['product_id'], row['quantity'], row['price'],
                      row['customer_id'], row['category'], row['total_sales']))
        
        pg_conn.commit()
        print("Данные загружены в PostgreSQL")

        # Выполнение запроса
        with pg_conn.cursor() as cur:
            cur.execute("""
                SELECT category, 
                       SUM(total_sales) as total_sales, 
                       AVG(price) as avg_price
                FROM sales
                GROUP BY category
                ORDER BY total_sales DESC
            """)
            results_pg = cur.fetchall()

        print("\nРезультаты анализа из PostgreSQL:")
        for row in results_pg:
            print(f"Категория: {row[0]}, Общие продажи: {row[1]:.2f}, Средняя цена: {row[2]:.2f}")

    except Exception as e:
        print(f"Ошибка при работе с PostgreSQL: {e}")
    finally:
        pg_conn.close()
else:
    print("Пропуск операций с PostgreSQL из-за ошибки подключения")

# Пример преимущества MongoDB над PostgreSQL

Рассмотрим сценарий, где MongoDB может быть более эффективным, чем PostgreSQL: анализ пользовательских сессий на веб-сайте электронной коммерции.

**Сценарий: Анализ пользовательских сессий**

Представьте, что нам нужно хранить и анализировать данные о сессиях пользователей на сайте. Каждая сессия включает в себя множество событий (клики, просмотры страниц, добавления в корзину и т.д.), и структура этих событий может различаться.

In [None]:
session = {
    "user_id": "12345",
    "session_start": "2023-10-10T10:00:00Z",
    "session_end": "2023-10-10T10:30:00Z",
    "device": "mobile",
    "events": [
        {
            "type": "page_view",
            "timestamp": "2023-10-10T10:01:00Z",
            "page": "/products/1234"
        },
        {
            "type": "add_to_cart",
            "timestamp": "2023-10-10T10:05:00Z",
            "product_id": "1234",
            "quantity": 2
        },
        {
            "type": "custom_event",
            "timestamp": "2023-10-10T10:10:00Z",
            "name": "hover_product",
            "product_id": "5678",
            "duration": 15
        }
        # ... множество других событий
    ]
}

Проблемы с PostgreSQL:
Сложная схема: В PostgreSQL нам придется создать несколько связанных таблиц (sessions, events, event_details), что усложняет структуру и запросы.

Производительность при больших объемах: При миллионах сессий и сотнях миллионов событий, запросы с множественными JOIN-ами могут работать медленно.

Негибкость к изменениям: Добавление нового типа события потребует изменения схемы базы данных.

In [None]:
import pymongo
from pymongo import MongoClient
import time
import matplotlib.pyplot as plt

# Подключение к MongoDB
client = MongoClient('mongodb://mongouser:mongopass@localhost:27017/')
db = client['ecommerce_analytics']
sessions = db['sessions']

# Вставка тестовых данных
test_sessions = [
    {
        "user_id": str(i),
        "session_start": f"2023-10-10T10:00:0{i}Z",
        "session_end": f"2023-10-10T10:30:0{i}Z",
        "device": "mobile" if i % 3 == 0 else "desktop",
        "events": [
            {
                "type": "page_view",
                "timestamp": f"2023-10-10T10:01:0{i}Z",
                "page": f"/products/{j}"
            } for j in range(100)  # 100 событий на сессию
        ]
    } for i in range(10000)  # 10,000 сессий
]

sessions.insert_many(test_sessions)

# Пример запроса: подсчет количества просмотров страниц для каждого устройства
start_time = time.time()

pipeline = [
    {"$unwind": "$events"},
    {"$match": {"events.type": "page_view"}},
    {"$group": {
        "_id": "$device",
        "total_views": {"$sum": 1}
    }}
]

result = list(sessions.aggregate(pipeline))

end_time = time.time()

print("Результат агрегации:")
for item in result:
    print(f"Устройство: {item['_id']}, Просмотры: {item['total_views']}")

print(f"Время выполнения: {end_time - start_time} секунд")

# Визуализация результатов
devices = [item['_id'] for item in result]
views = [item['total_views'] for item in result]

plt.figure(figsize=(10, 6))
plt.bar(devices, views, color=['blue', 'green'])
plt.title('Количество просмотров страниц по устройствам')
plt.xlabel('Тип устройства')
plt.ylabel('Количество просмотров')
for i, v in enumerate(views):
    plt.text(i, v, str(v), ha='center', va='bottom')
plt.tight_layout()
plt.show()

# Очистка тестовых данных
sessions.delete_many({})
