In [None]:
# Ячейка 1: Импорт библиотек
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

# Ячейка 2: Загрузка данных
df = pd.read_csv('shopping_behavior.csv')
print("Размер данных:", df.shape)
print("Первые 5 строк:")
df.head()

# Ячейка 3: Основная информация о данных
print("Информация о столбцах:")
df.info()
print("\nСтатистика числовых столбцов:")
df.describe()

# Ячейка 4: Проверка пропусков
print("Пропущенные значения:")
print(df.isnull().sum())

# Ячейка 5: Проверка дубликатов
duplicates = df.duplicated().sum()
print(f"Количество дубликатов: {duplicates}")
if duplicates > 0:
    df = df.drop_duplicates()

# Ячейка 6: Визуализации
# Распределение возраста
plt.figure(figsize=(10, 6))
df['Age'].hist(bins=30, edgecolor='black')
plt.title('Распределение возраста покупателей')
plt.xlabel('Возраст')
plt.ylabel('Количество')
plt.show()

# Сумма покупок по категориям
plt.figure(figsize=(12, 6))
df.groupby('Category')['Purchase Amount (USD)'].sum().sort_values().plot(kind='bar')
plt.title('Общая сумма покупок по категориям')
plt.xlabel('Категория')
plt.ylabel('Сумма (USD)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Ячейка 7: Группировка данных
# Средняя сумма покупки по сезонам
season_avg = df.groupby('Season')['Purchase Amount (USD)'].mean().sort_values()
print("Средняя сумма покупки по сезонам:")
print(season_avg)

# Ячейка 8: Корреляционный анализ
numeric_cols = df.select_dtypes(include=[np.number]).columns
correlation = df[numeric_cols].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(correlation, annot=True, cmap='coolwarm', center=0)
plt.title('Матрица корреляций')
plt.tight_layout()
plt.show()

# Ячейка 9: Выводы анализа
print("="*50)
print("ОСНОВНЫЕ ВЫВОДЫ:")
print("="*50)
print(f"1. Всего записей: {df.shape[0]}")
print(f"2. Всего признаков: {df.shape[1]}")
print(f"3. Дубликатов найдено: {duplicates}")
print(f"4. Средний возраст покупателей: {df['Age'].mean():.1f}")
print(f"5. Средняя сумма покупки: ${df['Purchase Amount (USD)'].mean():.2f}")
print(f"6. Самые популярные категории: {df['Category'].value_counts().head(3).index.tolist()}")