In [None]:
# Retail_EDA.ipynb

# 1. Импорт библиотек
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 2. Загрузка данных (замени 'retail_data.csv' на свой файл)
df = pd.read_csv("retail_data.csv")

# 3. Просмотр структуры данных
print(df.head())
print(df.info())
print(df.describe())

# 4. Очистка данных
# Пример: удалим строки с пустыми значениями
df = df.dropna()

# 5. Анализ продаж по категориям
sales_by_category = df.groupby("Category")["Sales"].sum().sort_values(ascending=False)
print(sales_by_category)

# Визуализация
plt.figure(figsize=(8,5))
sns.barplot(x=sales_by_category.index, y=sales_by_category.values, palette="viridis")
plt.title("Total Sales by Category")
plt.xticks(rotation=45)
plt.show()

# 6. Топ-10 товаров по продажам
top_products = df.groupby("Product")["Sales"].sum().sort_values(ascending=False).head(10)
print(top_products)

plt.figure(figsize=(10,5))
sns.barplot(x=top_products.index, y=top_products.values, palette="mako")
plt.title("Top 10 Products by Sales")
plt.xticks(rotation=45)
plt.show()

# 7. Сезонные тренды (по месяцам)
df["Order Date"] = pd.to_datetime(df["Order Date"])
df["Month"] = df["Order Date"].dt.month
monthly_sales = df.groupby("Month")["Sales"].sum()

plt.figure(figsize=(8,5))
sns.lineplot(x=monthly_sales.index, y=monthly_sales.values, marker="o")
plt.title("Monthly Sales Trend")
plt.xlabel("Month")
plt.ylabel("Sales")
plt.show()

# 8. Итоговые выводы
print("Key Findings:")
print("- Category analysis shows which product groups generate the most revenue.")
print("- Top 10 products identified for sales optimization.")
print("- Monthly trend reveals seasonality in sales.")
