# Анализ данных интернет-магазина

В этом ноутбуке мы проанализируем данные о заказах, сгенерированные нашей системой.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sqlalchemy import create_engine

# Настройка визуализации
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 12

# Для корректного отображения русского текста
plt.rcParams['font.family'] = 'DejaVu Sans'

## 1. Подключение к базе данных и загрузка данных

In [None]:
# Подключение к PostgreSQL
# При запуске локально используйте localhost:5432
# При запуске в Docker используйте postgres:5432
engine = create_engine('postgresql://shop:shoppass@localhost:5432/shopdb')

# Загрузка всех заказов
df = pd.read_sql('SELECT * FROM orders', engine)

print(f"Загружено заказов: {len(df)}")
df.head()

## 2. Общая статистика

In [None]:
# Добавим столбец с суммой заказа
df['total'] = df['price'] * df['quantity']

print("=== Общая статистика ===")
print(f"Всего заказов: {len(df)}")
print(f"Общая выручка: {df['total'].sum():,.2f} ₽")
print(f"Средний чек: {df['total'].mean():,.2f} ₽")
print(f"Медианный чек: {df['total'].median():,.2f} ₽")
print(f"Уникальных товаров: {df['product_name'].nunique()}")
print(f"Городов доставки: {df['city'].nunique()}")

In [None]:
# Описательная статистика числовых полей
df[['price', 'quantity', 'total', 'customer_age']].describe()

## 3. Анализ по категориям

In [None]:
# Статистика по категориям
category_stats = df.groupby('category').agg({
    'id': 'count',
    'total': ['sum', 'mean'],
    'quantity': 'sum'
}).round(2)

category_stats.columns = ['Кол-во заказов', 'Выручка', 'Средний чек', 'Кол-во товаров']
category_stats = category_stats.sort_values('Выручка', ascending=False)
category_stats

In [None]:
# Визуализация: выручка по категориям
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Круговая диаграмма выручки
revenue_by_cat = df.groupby('category')['total'].sum()
axes[0].pie(revenue_by_cat, labels=revenue_by_cat.index, autopct='%1.1f%%', startangle=90)
axes[0].set_title('Доля выручки по категориям')

# Столбчатая диаграмма количества заказов
orders_by_cat = df['category'].value_counts()
orders_by_cat.plot(kind='bar', ax=axes[1], color='steelblue')
axes[1].set_title('Количество заказов по категориям')
axes[1].set_xlabel('Категория')
axes[1].set_ylabel('Количество заказов')
axes[1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

## 4. Географический анализ

In [None]:
# Топ-10 городов по количеству заказов
city_orders = df['city'].value_counts().head(10)

plt.figure(figsize=(12, 6))
city_orders.plot(kind='barh', color='coral')
plt.title('Топ-10 городов по количеству заказов')
plt.xlabel('Количество заказов')
plt.ylabel('Город')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

In [None]:
# Средний чек по городам
city_avg = df.groupby('city')['total'].mean().sort_values(ascending=False).head(10)

plt.figure(figsize=(12, 6))
city_avg.plot(kind='barh', color='teal')
plt.title('Топ-10 городов по среднему чеку')
plt.xlabel('Средний чек (₽)')
plt.ylabel('Город')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

## 5. Анализ способов оплаты

In [None]:
# Статистика по способам оплаты
payment_stats = df.groupby('payment_method').agg({
    'id': 'count',
    'total': ['sum', 'mean']
}).round(2)

payment_stats.columns = ['Кол-во заказов', 'Выручка', 'Средний чек']
payment_stats

In [None]:
# Визуализация способов оплаты
fig, ax = plt.subplots(figsize=(8, 5))
df['payment_method'].value_counts().plot(kind='pie', autopct='%1.1f%%', ax=ax)
ax.set_title('Распределение по способам оплаты')
ax.set_ylabel('')
plt.show()

## 6. Анализ по возрасту покупателей

In [None]:
# Распределение возраста покупателей
plt.figure(figsize=(12, 5))
df['customer_age'].hist(bins=20, color='purple', alpha=0.7, edgecolor='black')
plt.title('Распределение возраста покупателей')
plt.xlabel('Возраст')
plt.ylabel('Количество заказов')
plt.axvline(df['customer_age'].mean(), color='red', linestyle='--', label=f'Средний: {df["customer_age"].mean():.1f}')
plt.legend()
plt.show()

In [None]:
# Создадим возрастные группы
df['age_group'] = pd.cut(df['customer_age'], 
                         bins=[0, 25, 35, 45, 55, 100], 
                         labels=['18-25', '26-35', '36-45', '46-55', '55+'])

# Средний чек по возрастным группам
age_stats = df.groupby('age_group', observed=True).agg({
    'id': 'count',
    'total': 'mean'
}).round(2)
age_stats.columns = ['Кол-во заказов', 'Средний чек']
age_stats

In [None]:
# Корреляция возраста и суммы покупки
correlation = df['customer_age'].corr(df['total'])
print(f"Корреляция возраста и суммы заказа: {correlation:.4f}")

# Scatter plot
plt.figure(figsize=(10, 6))
plt.scatter(df['customer_age'], df['total'], alpha=0.3)
plt.title(f'Зависимость суммы заказа от возраста (корреляция: {correlation:.4f})')
plt.xlabel('Возраст')
plt.ylabel('Сумма заказа (₽)')
plt.show()

## 7. Временной анализ

In [None]:
# Преобразуем дату
df['created_at'] = pd.to_datetime(df['created_at'])
df['hour'] = df['created_at'].dt.hour
df['date'] = df['created_at'].dt.date

# Заказы по часам
hourly = df.groupby('hour')['id'].count()

plt.figure(figsize=(12, 5))
hourly.plot(kind='bar', color='green', alpha=0.7)
plt.title('Распределение заказов по часам')
plt.xlabel('Час')
plt.ylabel('Количество заказов')
plt.xticks(rotation=0)
plt.show()

In [None]:
# Динамика заказов по дням (если данных достаточно)
if df['date'].nunique() > 1:
    daily = df.groupby('date').agg({
        'id': 'count',
        'total': 'sum'
    })
    daily.columns = ['Заказов', 'Выручка']
    
    fig, axes = plt.subplots(2, 1, figsize=(14, 8))
    
    daily['Заказов'].plot(ax=axes[0], marker='o', color='blue')
    axes[0].set_title('Количество заказов по дням')
    axes[0].set_ylabel('Заказов')
    
    daily['Выручка'].plot(ax=axes[1], marker='o', color='green')
    axes[1].set_title('Выручка по дням')
    axes[1].set_ylabel('Выручка (₽)')
    
    plt.tight_layout()
    plt.show()
else:
    print("Недостаточно данных для анализа по дням")

## 8. Топ товаров

In [None]:
# Топ-10 товаров по количеству продаж
top_products = df.groupby('product_name').agg({
    'id': 'count',
    'total': 'sum',
    'quantity': 'sum'
}).sort_values('id', ascending=False).head(10)

top_products.columns = ['Заказов', 'Выручка', 'Продано штук']
top_products

In [None]:
# Визуализация топ товаров
plt.figure(figsize=(12, 6))
top_products['Выручка'].plot(kind='barh', color='orange')
plt.title('Топ-10 товаров по выручке')
plt.xlabel('Выручка (₽)')
plt.ylabel('Товар')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

## 9. Выводы

На основе проведённого анализа можно сделать следующие выводы:

1. **По категориям**: определены наиболее и наименее прибыльные категории товаров
2. **По географии**: основной поток заказов приходится на крупные города (Москва, Санкт-Петербург)
3. **По способам оплаты**: распределение между картой, наличными и онлайн-кошельком
4. **По возрасту**: выявлены основные возрастные группы покупателей
5. **По времени**: определены часы пиковой активности