# Анализ поведения покупателей
Проект по анализу данных о покупках клиентов: предпочтения, средний чек, влияние демографии.

In [None]:
# Импорт необходимых библиотек
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Настройка стиля графиков
sns.set(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)

### 1. Загрузка и первичный обзор
Загружаем датасет и смотрим на первые строки и типы данных.

In [None]:
try:
    df = pd.read_csv('shopping_behavior.csv')
    print("Файл успешно загружен.")
except FileNotFoundError:
    print("Ошибка: Файл не найден.")

# Вывод первых и последних строк
display(df.head())
display(df.tail())

# Информация о типах данных
df.info()

### 2. Очистка и обработка данных
Проверяем данные на наличие пропусков и дубликатов.

In [None]:
# Поиск пропусков
print("Пропущенные значения:")
print(df.isnull().sum())

# Поиск дубликатов
duplicates = df.duplicated().sum()
print(f"\nКоличество дубликатов: {duplicates}")

# Удаление дубликатов, если они есть
if duplicates > 0:
    df = df.drop_duplicates()
    print("Дубликаты удалены.")

### 3. Статистика и корреляционный анализ
Изучаем основные статистические показатели и ищем связи между числами.

In [None]:
# Описательная статистика
display(df.describe())

# Корреляция числовых переменных
numeric_df = df.select_dtypes(include=[np.number])
display(numeric_df.corr())

### 4. Визуализация данных
Строим графики для наглядного представления распределений и зависимостей.

In [None]:
# График 1: Гистограмма возраста
plt.figure(figsize=(10, 6))
sns.histplot(df['Age'], bins=20, kde=True, color='skyblue')
plt.title('Распределение возраста покупателей')
plt.xlabel('Возраст')
plt.ylabel('Количество')
plt.show()

In [None]:
# График 2: Покупки по категориям
plt.figure(figsize=(10, 6))
sns.countplot(y='Category', data=df, order=df['Category'].value_counts().index, palette='viridis')
plt.title('Количество покупок по категориям')
plt.show()

In [None]:
# График 3: Boxplot (Пол и Сумма покупки)
plt.figure(figsize=(8, 6))
sns.boxplot(x='Gender', y='Purchase Amount (USD)', data=df, palette='Set2')
plt.title('Распределение суммы покупки по полу')
plt.show()

In [None]:
# График 4: Тепловая карта корреляций
plt.figure(figsize=(8, 6))
sns.heatmap(numeric_df.corr(), annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Матрица корреляций')
plt.show()

In [None]:
# График 5: Круговая диаграмма методов оплаты
plt.figure(figsize=(7, 7))
df['Payment Method'].value_counts().plot.pie(autopct='%1.1f%%', startangle=90)
plt.title('Доли способов оплаты')
plt.ylabel('')
plt.show()

### 5. Группировка и агрегация
Группируем данные для получения сводной аналитики.

In [None]:
# 1. Сумма продаж по категориям
print("Общая выручка по категориям:")
print(df.groupby('Category')['Purchase Amount (USD)'].sum().sort_values(ascending=False))

# 2. Средний возраст покупателей по сезонам
print("\nСредний возраст покупателей по сезонам:")
print(df.groupby('Season')['Age'].mean())

# 3. Сводная таблица: Средний рейтинг (Категория vs Пол)
pivot = df.pivot_table(index='Category', columns='Gender', values='Review Rating', aggfunc='mean')
print("\nСводная таблица (Средний рейтинг):")
display(pivot)