# Säljrapport

*Förslag på rapportstruktur*

## Introduktion

Här skriver vi en kort introduktion. 

**Importeringar för hela Notebooken** (rör ej)

In [None]:
import matplotlib.pyplot as plt 
from src.io_utils import * 
from src.metrics import * 
from src.viz import * 
import statistics as st

**Förbereder data**

In [None]:
# Read
df = read_data("data/ecommerce_sales.csv")
 
# Clean
df_clean = clean_data(df)
 
#Visualize
print(df_clean.sample(3))
 
#specify date format
df_clean["month"] = df_clean.date.dt.month_name()
month_order = ["January", "February", "March", "April", "May", "June"]
df_clean["month"] = pd.Categorical(df_clean["month"], categories=month_order, ordered=True)

def total_sum_and_total_units_sold(df: pd.DataFrame):
    df_new = {}
    df_new["Total revenue"] = (df["revenue"].sum())
    df_new["Total units sold"] = (df["units"].sum())
 
    return pd.Series(df_new)
print(total_sum_and_total_units_sold(df_clean))

## Nyckeltal

Här visualiserar vi våra nyckeltal. 

### 1. Vad säljer? – vilka kategorier driver mest intäkt?


**Nyckeltal:** Total intäkt och totalt antal enheter & Intäkt per kategori

**Sammanfattning:**
- Totala intäkterna visar sig vara ~3 502 767, medan totala antal enheter sålda är 7463.
- Av de 6 kategorier som säljs så drar Electronics in mest i intäkter enligt graferna nedan.
- Top 3 kategorier visar sig vara Electronics (1 364 228) följ av Sports category (734 653) och Clothing(586 744)
- När vi ser till den generella orderns intäkter så ser vi att Electronics drar in mest som medelintäkt per köp, men har även ett gäng outliers.
- Skulle det kunna vara så att våra outliers drar upp inkomsten som Electronics genererar? Om vi kollar antal outliers per kategori så är de relativt detsamma.
  Även när vi räknar bort intäkterna som outliers i Electronics står för (96 366) så vinner ändå Electronics (1 267 862) intäkter överlägset.


In [None]:
print(total_sum_and_total_units_sold(df_clean))
plot_revenue_per_category(df_clean)
boxplot_revenue_per_category(df_clean)
looking_for_them_outliers_in_category_revenue(df_clean)

### 2. Var säljer vi? – vilka städer står för störst intäkt?

**Sammanfattning:** 

Analysen visar städer per intäkter.
- Stockholm toppar listan med en total intäkt på cirka 1,23 miljoner kronor.
- Göteborg kommer på andra plats med ungefär 860 000 kronor i intäkter.
- Malmö är tredje störst med cirka 568 000 kronor i intäkter.

Denna information hjälper till att identifiera viktiga regioner som bidrar mest till försäljningen och kan användas för att rikta marknadsföring samt resurser mer effektivt.

In [None]:
df_rev_city = revenue_per_city(df_clean)
print(f"The top 3 cities per revenue are:\n"
      f"{df_rev_city.head(3)}.")

fig, ax = plt.subplots(figsize=(7,5))
bar(ax, df_rev_city["city"], df_rev_city["tot_rev_city"], "Revenue per City", "City", "Revenue", color="#4682B4")
plt.show()

### 3. När säljer vi? – finns tidsmönster/säsong i försäljningen?

**Sammanfattning:**
- Året börjar positivt med en hög intäkt i Januari på 664 083,32 för att sedan jämnas ut mer under året då vi ligger i genomsnitt omkring 580 000.
- Vi ser senare en dipp i mars med den lägsta intäkten på 487 602 på hela året men återupptar genomsnitts intäkten därefter.
- Den totala intäkten över denna period är 3 502 767. 

In [None]:
df_sorted = df_clean.sort_values('month')
revenue_monthly_bar(df_clean)
revenue_monthly_boxplot(df_clean)




### 4. Hur ser en typisk order ut? – AOV (Average Order Value)

**Sammanfattning:**

Analysen visar genomsnittlig ordervärdet per månad och kategori och har beräknats *Totala intäkter / Antal beställningar*.

- Den genomsnittliga ordervärdet i första halvan av 2024 är **1401 kr** och hålls relativt stabilt undera hela perioden, med undantag för en dipp i mars.
- Kategorierna *Electronics* och *Sports* driver upp orderstorlekarna, medan övriga kategorier ligger under genomsnittet, med *Toys* och *Beauty* som lägst.

In [None]:
monthly_aov, total_aov, category_aov = calculate_aov(df_clean)
plot_aov_figure(monthly_aov, total_aov, category_aov)

### 5. Hur ser en typisk order ut? - Totalt sålda enheter & typisk orderstorlek (enheter)

**Nyckeltal:** Totalt sålda enheter (Abdullahi), distribution of sold units per category (Isabel) 

**Sammanfattning:**

Analysen visar totalt sålda enheter per kategori samt visar typsik orderstorlek per kategori.

- ....
- Den genomsnittliga orderstorleken är 3 produkter per order och majoriteten av kunder köper mellan 2-4 produkter per order.
- *Home* har genomsnittligt den minsta orderstoleken på 2,5 produkter, men är också den kategorin som visar flest avvikande siffror. 
- Inom *Clothing*, *Sports* och *Toys* finns det också kunder som sticker ut och köper 8 till 9 produkter, men det är mer ovanligt.

Här undersöker jag det totala antalet sålda enheter i datasetet.
Jag börjar med att läsa in datan och kontrollera att allt ser korrekt ut.


In [None]:
# Distribution of units sold per categeory
ave_units_per_order, df = calculate_distribution_units_sold(df_clean)
box_plot_units_per_category(ave_units_per_order, df)

In [None]:
# Totalt antal sålda enheter
tot_units = total_units(df_clean)
print("Totalt antal sålda enheter:", tot_units)

# Sålda enheter per kategori (tabell)
units_cat = units_per_category(df_clean)
display(units_cat)

# Stapeldiagram över sålda enheter per kategori
plot_units_per_category(df_clean)


### 6. Eventuella avvikelser – något oväntat mönster som sticker ut?

*Insikter om avvikelser som går att utläsa från sammanställning av datan ovan*

## Rekommendationer

Avsluta rapporten med 2–3 korta rekommendationer (punktlista) baserat på era resultat, t.ex. “Satsa på kategori X i stad Y under månad Z”.