# 📈 Retail Sales Analysis - Business Intelligence su vendite e profitti

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)


In [None]:
df = pd.read_csv('../data/Superstore.csv', sep=';')
df.head()


In [None]:
df.info()
df.describe(include='all')
df.isnull().sum()


In [None]:
df.columns = df.columns.str.strip()
df.rename(columns=lambda x: x.strip().replace(' ', '_'), inplace=True)
df.columns


In [None]:
print("Vendite Totali: ", df['Sales'].sum())
print("Profitto Totale: ", df['Profit'].sum())

df['Order_Date'] = pd.to_datetime(df['Order_Date'], dayfirst=True)
df.sort_values('Order_Date', inplace=True)


In [None]:
sales_trend = df.groupby('Order_Date')['Sales'].sum()

plt.figure(figsize=(14,6))
sales_trend.rolling(30).mean().plot(color='royalblue')
plt.title("📈 Andamento delle Vendite nel Tempo (Media Mobile 30gg)")
plt.xlabel("Data")
plt.ylabel("Vendite")
plt.grid(True)
plt.show()


In [None]:
pivot = df.pivot_table(values='Profit', index='Region', columns='Category', aggfunc='sum')

plt.figure(figsize=(10,6))
sns.heatmap(pivot, annot=True, fmt=".0f", cmap='RdYlGn', center=0)
plt.title("🔥 Heatmap Profitto per Regione e Categoria")
plt.ylabel("Regione")
plt.xlabel("Categoria")
plt.show()


In [None]:
cat_sales = df.groupby('Category')['Sales'].sum().sort_values(ascending=False)
cat_profit = df.groupby('Category')['Profit'].sum().sort_values(ascending=False)

fig, ax = plt.subplots(1, 2, figsize=(16,6))
sns.barplot(x=cat_sales.values, y=cat_sales.index, ax=ax[0], palette='Blues_r')
ax[0].set_title("💰 Vendite Totali per Categoria")

sns.barplot(x=cat_profit.values, y=cat_profit.index, ax=ax[1], palette='Greens_r')
ax[1].set_title("📊 Profitto Totale per Categoria")

plt.tight_layout()
plt.show()


In [None]:
top_category = df.groupby('Category')['Sales'].sum().idxmax()
df_top_cat = df[df['Category'] == top_category]

monthly_sales = df_top_cat.groupby(df_top_cat['Order_Date'].dt.to_period('M'))['Sales'].sum()

monthly_sales.plot(kind='line', marker='o', color='orange')
plt.title(f"📅 Andamento Mensile Vendite - Categoria '{top_category}'")
plt.ylabel("Vendite")
plt.xlabel("Mese")
plt.grid(True)
plt.show()


## 🎯 Conclusioni Chiave

- Le vendite mostrano una crescita regolare, con picchi stagionali rilevanti.
- Alcune regioni producono profitti negativi in categorie specifiche (viste nella heatmap).
- La categoria **[nome_categoria]** ha le vendite più alte, ma non necessariamente il profitto più alto.
- Possibili azioni: ottimizzare promozioni, migliorare margini dove il profitto è basso.
