# Superstore Sales Data Analysis

## 📌 Table of Contents
1. Introduction  
2. Dataset Overview  
3. Data Cleaning  
4. Sales and Profit Analysis  
5. Regional Performance  
6. Time-based Trends  
7. Top Products and Discounts  
8. Delivery Analysis  

## 1. Introduction

In this notebook, we analyze the Superstore sales dataset to identify key trends in sales, profit, product performance, and delivery times. This analysis can help the business improve strategic decision-making.


## 2. Dataset Overview

The dataset contains historical sales data including order dates, shipping, product categories, customer locations, sales amounts, profits, discounts, and more.


In [1]:
import pandas as pd
df = pd.read_csv("C:/Users/User/Desktop/Yeni klasör (2)/Sample - Superstore.csv", encoding='latin1')

In [2]:
print(df.info)

<bound method DataFrame.info of       Row ID        Order ID  Order Date   Ship Date       Ship Mode  \
0          1  CA-2016-152156   11/8/2016  11/11/2016    Second Class   
1          2  CA-2016-152156   11/8/2016  11/11/2016    Second Class   
2          3  CA-2016-138688   6/12/2016   6/16/2016    Second Class   
3          4  US-2015-108966  10/11/2015  10/18/2015  Standard Class   
4          5  US-2015-108966  10/11/2015  10/18/2015  Standard Class   
...      ...             ...         ...         ...             ...   
9989    9990  CA-2014-110422   1/21/2014   1/23/2014    Second Class   
9990    9991  CA-2017-121258   2/26/2017    3/3/2017  Standard Class   
9991    9992  CA-2017-121258   2/26/2017    3/3/2017  Standard Class   
9992    9993  CA-2017-121258   2/26/2017    3/3/2017  Standard Class   
9993    9994  CA-2017-119914    5/4/2017    5/9/2017    Second Class   

     Customer ID     Customer Name    Segment        Country             City  \
0       CG-12520      

In [3]:
print(df.columns)

Index(['Row ID', 'Order ID', 'Order Date', 'Ship Date', 'Ship Mode',
       'Customer ID', 'Customer Name', 'Segment', 'Country', 'City', 'State',
       'Postal Code', 'Region', 'Product ID', 'Category', 'Sub-Category',
       'Product Name', 'Sales', 'Quantity', 'Discount', 'Profit'],
      dtype='object')


In [4]:
print(df.isna().sum())  #stünlardakı null deyerlerin sayı

Row ID           0
Order ID         0
Order Date       0
Ship Date        0
Ship Mode        0
Customer ID      0
Customer Name    0
Segment          0
Country          0
City             0
State            0
Postal Code      0
Region           0
Product ID       0
Category         0
Sub-Category     0
Product Name     0
Sales            0
Quantity         0
Discount         0
Profit           0
dtype: int64


In [5]:
#Lazım olmayan xanaları silək
df=df.drop(columns=['Row ID','Order ID','Customer ID','Customer Name','Segment','Postal Code','Product ID','Country'])
print(df)

      Order Date   Ship Date       Ship Mode             City       State  \
0      11/8/2016  11/11/2016    Second Class        Henderson    Kentucky   
1      11/8/2016  11/11/2016    Second Class        Henderson    Kentucky   
2      6/12/2016   6/16/2016    Second Class      Los Angeles  California   
3     10/11/2015  10/18/2015  Standard Class  Fort Lauderdale     Florida   
4     10/11/2015  10/18/2015  Standard Class  Fort Lauderdale     Florida   
...          ...         ...             ...              ...         ...   
9989   1/21/2014   1/23/2014    Second Class            Miami     Florida   
9990   2/26/2017    3/3/2017  Standard Class       Costa Mesa  California   
9991   2/26/2017    3/3/2017  Standard Class       Costa Mesa  California   
9992   2/26/2017    3/3/2017  Standard Class       Costa Mesa  California   
9993    5/4/2017    5/9/2017    Second Class      Westminster  California   

     Region         Category Sub-Category  \
0     South        Furniture  

In [6]:
#marketin satışları
sales_total=df['Sales'].sum()
print(f"Ümumi satış: ${sales_total:,.2f}")

Ümumi satış: $2,297,200.86


In [7]:
sales_avg=df['Sales'].mean()
print(f"Ortalama satış: ${sales_avg:,.2f}")

Ortalama satış: $229.86


In [8]:
max_sales=df['Sales'].max()
print(f"Maksimum satış: ${max_sales:,.2f}")

Maksimum satış: $22,638.48


In [9]:
min_sales=df['Sales'].min()
print(f"Minimum satış: ${min_sales:,.2f}")

Minimum satış: $0.44


In [10]:
profit_total=df['Profit'].sum()
print(f"Ümumi mənfəət: ${profit_total:,.2f}")

Ümumi mənfəət: $286,397.02


In [11]:
profit_avg=df['Profit'].mean()
print(f"Ortalama mənfəət: ${profit_avg:,.2f}")

Ortalama mənfəət: $28.66


In [12]:
max_Profit=df['Profit'].max()
print(f"Maksimum mənfəət: ${max_Profit:,.2f}")

Maksimum mənfəət: $8,399.98


In [13]:
min_profit=df['Profit'].min()
print(f"Minimum mənfəət: ${min_profit:,.2f}")

Minimum mənfəət: $-6,599.98


In [14]:

#kateqoriyalara görə ümumi satış,mənfəət və miqdarları
total_sales_by_category=df.groupby('Category')['Sales'].sum()
for category, sales in total_sales_by_category.items():
    print(f"{category} kateqoriyası üzrə ümumi satışlar: ${sales:,.2f}")


Furniture kateqoriyası üzrə ümumi satışlar: $741,999.80
Office Supplies kateqoriyası üzrə ümumi satışlar: $719,047.03
Technology kateqoriyası üzrə ümumi satışlar: $836,154.03


In [15]:
total_profit_by_category=df.groupby('Category')['Profit'].sum()
for category, sales in total_profit_by_category.items():
    print(f"{category} kateqoriyası üzrə ümumi mənfəət: ${sales:,.2f}")


Furniture kateqoriyası üzrə ümumi mənfəət: $18,451.27
Office Supplies kateqoriyası üzrə ümumi mənfəət: $122,490.80
Technology kateqoriyası üzrə ümumi mənfəət: $145,454.95


In [16]:
sales_quantity_by_category=df.groupby('Category')['Quantity'].sum()
for category, sales in sales_quantity_by_category.items():
    print(f"{category} kateqoriyası üzrə ümumi satış miqadarı: {sales} ədəd")



Furniture kateqoriyası üzrə ümumi satış miqadarı: 8028 ədəd
Office Supplies kateqoriyası üzrə ümumi satış miqadarı: 22906 ədəd
Technology kateqoriyası üzrə ümumi satış miqadarı: 6939 ədəd


In [17]:
#Regionlar üzrə maksimum və orta satışlar və gəlirlər
total_sales_by_region=df.groupby('Region')['Sales'].sum()
for Region, sales in total_sales_by_region.items():
    print(f"{Region} regionunda ümumi satış: ${sales:,.2f}")

Central regionunda ümumi satış: $501,239.89
East regionunda ümumi satış: $678,781.24
South regionunda ümumi satış: $391,721.91
West regionunda ümumi satış: $725,457.82


In [18]:
total_profit_by_region=df.groupby('Region')['Profit'].sum()
for Region, profit in total_profit_by_region.items():
    print(f"{Region} regionunda ümumi gəlir: ${profit:,.2f}")

Central regionunda ümumi gəlir: $39,706.36
East regionunda ümumi gəlir: $91,522.78
South regionunda ümumi gəlir: $46,749.43
West regionunda ümumi gəlir: $108,418.45


In [19]:
avg_profit_by_region=df.groupby('Region')['Sales'].mean()
for Region, sales in avg_profit_by_region.items():
    print(f"{Region} regionunda ortalama satış: ${sales:,.2f}")

Central regionunda ortalama satış: $215.77
East regionunda ortalama satış: $238.34
South regionunda ortalama satış: $241.80
West regionunda ortalama satış: $226.49


In [20]:
avg_profit_by_region=df.groupby('Region')['Profit'].mean()
for Region, profit in avg_profit_by_region.items():
    print(f"{Region} regionunda ortalama gəlir: ${profit:,.2f}")


Central regionunda ortalama gəlir: $17.09
East regionunda ortalama gəlir: $32.14
South regionunda ortalama gəlir: $28.86
West regionunda ortalama gəlir: $33.85


In [21]:
#Ştatlar üzrə ümumi satış və gəlirələr
total_sales_by_state=df.groupby('State')[['Sales','Profit']].sum().sort_values(by='Sales',ascending=False).reset_index()
print(total_sales_by_state)

                   State        Sales      Profit
0             California  457687.6315  76381.3871
1               New York  310876.2710  74038.5486
2                  Texas  170188.0458 -25729.3563
3             Washington  138641.2700  33402.6517
4           Pennsylvania  116511.9140 -15559.9603
5                Florida   89473.7080  -3399.3017
6               Illinois   80166.1010 -12607.8870
7                   Ohio   78258.1360 -16971.3766
8               Michigan   76269.6140  24463.1876
9               Virginia   70636.7200  18597.9504
10        North Carolina   55603.1640  -7490.9122
11               Indiana   53555.3600  18382.9363
12               Georgia   49095.8400  16250.0433
13              Kentucky   36591.7500  11199.6966
14            New Jersey   35764.3120   9772.9138
15               Arizona   35282.0010  -3427.9246
16             Wisconsin   32114.6100   8401.8004
17              Colorado   32108.1180  -6527.8579
18             Tennessee   30661.8730  -5341.6936


In [22]:
#Şəhərlər üzrə ümumi satış və gəlirlər
total_sales_by_city=df.groupby('City')[['Sales','Profit']].sum().sort_values(by='Sales',ascending=False).reset_index()
print(total_sales_by_city)

              City       Sales      Profit
0    New York City  256368.161  62036.9837
1      Los Angeles  175851.341  30440.7579
2          Seattle  119540.742  29156.0967
3    San Francisco  112669.092  17507.3854
4     Philadelphia  109077.013 -13837.7674
..             ...         ...         ...
526   Ormond Beach       2.808     -1.9656
527      Pensacola       2.214     -1.4760
528        Jupiter       2.064      0.1548
529         Elyria       1.824     -1.3984
530        Abilene       1.392     -3.7584

[531 rows x 3 columns]


In [23]:
#Sifariş ve çatdırılma stünlarının datetime formatına çevrilmesi
df['order_date'] = pd.to_datetime(df['Order Date'], format='%m/%d/%Y')
df['ship_date'] = pd.to_datetime(df['Ship Date'], format='%m/%d/%Y')
print(df['order_date'].dtype)


datetime64[ns]


In [24]:
#Tarixin il,ay və gün hissələrinin çıxarılması
df['order_year']=df['order_date'].dt.year
print(df['order_year'])

0       2016
1       2016
2       2016
3       2015
4       2015
        ... 
9989    2014
9990    2017
9991    2017
9992    2017
9993    2017
Name: order_year, Length: 9994, dtype: int32


In [25]:
df['order_month']=df['order_date'].dt.month
print(df['order_month'])

0       11
1       11
2        6
3       10
4       10
        ..
9989     1
9990     2
9991     2
9992     2
9993     5
Name: order_month, Length: 9994, dtype: int32


In [26]:
df['order_day']=df['order_date'].dt.day
print(df['order_day'])


0        8
1        8
2       12
3       11
4       11
        ..
9989    21
9990    26
9991    26
9992    26
9993     4
Name: order_day, Length: 9994, dtype: int32


In [40]:
#İllərə və aylara görə satışlar
illərə_görə_satış = df.groupby('order_year')[['Sales', 'Profit']].sum().reset_index()
print(illərə_görə_satış)


   order_year        Sales      Profit
0        2014  484247.4981  49543.9741
1        2015  470532.5090  61618.6037
2        2016  609205.5980  81795.1743
3        2017  733215.2552  93439.2696


In [42]:
aylara_görə_satış=df.groupby(['order_year', 'order_month'])[['Sales','Profit']].sum().reset_index()
print(aylara_görə_satış)


    order_year  order_month        Sales      Profit
0         2014            1   14236.8950   2450.1907
1         2014            2    4519.8920    862.3084
2         2014            3   55691.0090    498.7299
3         2014            4   28295.3450   3488.8352
4         2014            5   23648.2870   2738.7096
5         2014            6   34595.1276   4976.5244
6         2014            7   33946.3930   -841.4826
7         2014            8   27909.4685   5318.1050
8         2014            9   81777.3508   8328.0994
9         2014           10   31453.3930   3448.2573
10        2014           11   78628.7167   9292.1269
11        2014           12   69545.6205   8983.5699
12        2015            1   18174.0756  -3281.0070
13        2015            2   11951.4110   2813.8508
14        2015            3   38726.2520   9732.0978
15        2015            4   34195.2085   4187.4962
16        2015            5   30131.6865   4667.8690
17        2015            6   24797.2920   333

In [29]:

#İki tarix arasında satışların müqayisəsi
iki_il = df[df['order_year'].isin([2016, 2017])]
ayliq_muqayise = iki_il.groupby(['order_year', 'order_month'])['Sales'].sum().unstack(level=0)
print(ayliq_muqayise)

order_year         2016         2017
order_month                         
1            18542.4910   43971.3740
2            22978.8150   20301.1334
3            51715.8750   58872.3528
4            38750.0390   36521.5361
5            56987.7280   44261.1102
6            40344.5340   52981.7257
7            39261.9630   45264.4160
8            31115.3743   63120.8880
9            73410.0249   87866.6520
10           59687.7450   77776.9232
11           79411.9658  118447.8250
12           96999.0430   83829.3188


In [30]:
#Sifarişlərin çatdırılma müddəti
df['delivery_time_days']=df['ship_date']-df['order_date']
print(df['delivery_time_days'])


0      3 days
1      3 days
2      4 days
3      7 days
4      7 days
        ...  
9989   2 days
9990   5 days
9991   5 days
9992   5 days
9993   5 days
Name: delivery_time_days, Length: 9994, dtype: timedelta64[ns]


In [31]:
#Ship Mode görə ortalama çatdırılma vaxtı
delivery_times = df.groupby('Ship Mode')['delivery_time_days'].mean().sort_values()
for ship_mode, avg_time in delivery_times.items():
    print(f"{ship_mode}: {avg_time.days} gün")

Same Day: 0 gün
First Class: 2 gün
Second Class: 3 gün
Standard Class: 5 gün


In [32]:
#Ən çox satılan 10 məhsul
top_sales_10=df.groupby('Product Name')['Quantity'].sum().sort_values(ascending=False).head(10)
for product,quantity in top_sales_10.items():
    print(f"{product}: {quantity} ədəd")

Staples: 215 ədəd
Staple envelope: 170 ədəd
Easy-staple paper: 150 ədəd
Staples in misc. colors: 86 ədəd
KI Adjustable-Height Table: 74 ədəd
Storex Dura Pro Binders: 71 ədəd
Avery Non-Stick Binders: 71 ədəd
GBC Premium Transparent Covers with Diagonal Lined Pattern: 67 ədəd
Situations Contoured Folding Chairs, 4/Set: 64 ədəd
Staple-based wall hangings: 62 ədəd


In [33]:
#Sub-kateqoriyalara görə ən çox satılan 10 məhsul
top_subcategory_10=df.groupby('Sub-Category')['Quantity'].sum().sort_values(ascending=False).head(10)
for subcategory,quantity in top_subcategory_10.items():
  print(f"{subcategory}: {quantity} ədəd")


Binders: 5974 ədəd
Paper: 5178 ədəd
Furnishings: 3563 ədəd
Phones: 3289 ədəd
Storage: 3158 ədəd
Art: 3000 ədəd
Accessories: 2976 ədəd
Chairs: 2356 ədəd
Appliances: 1729 ədəd
Labels: 1400 ədəd


In [34]:
#Kateqoriyalara görə ən çox satılan 10 məhsul
category_10=df.groupby('Category')['Quantity'].sum().sort_values(ascending=False).head(10)
for category,quantity in category_10.items():
  print(f"{category}: {quantity} ədəd")

Office Supplies: 22906 ədəd
Furniture: 8028 ədəd
Technology: 6939 ədəd


In [35]:
#Kateqoriyalara görə satışlar
category_10=df.groupby('Category')['Sales'].sum().sort_values(ascending=False)
for category,sales in category_10.items():
  print(f"{category}: ${sales:,.2f} ")

Technology: $836,154.03 
Furniture: $741,999.80 
Office Supplies: $719,047.03 


In [36]:
#Kateqoriyalara görə gəlirlər
category_10=df.groupby('Category')['Profit'].sum().sort_values(ascending=False)
for category,profit in category_10.items():
  print(f"{category}: ${profit:,.2f} ")

Technology: $145,454.95 
Office Supplies: $122,490.80 
Furniture: $18,451.27 


In [37]:
#Ən çox gəlir gətirən 10 məhsul
top_profitable_10=df.groupby('Product Name')['Profit'].sum().sort_values(ascending=False).head(10)
for product, profit in top_profitable_10.items():
    print(f"{product}: ${profit:,.2f}")

Canon imageCLASS 2200 Advanced Copier: $25,199.93
Fellowes PB500 Electric Punch Plastic Comb Binding Machine with Manual Bind: $7,753.04
Hewlett Packard LaserJet 3310 Copier: $6,983.88
Canon PC1060 Personal Laser Copier: $4,570.93
HP Designjet T520 Inkjet Large Format Printer - 24" Color: $4,094.98
Ativa V4110MDD Micro-Cut Shredder: $3,772.95
3D Systems Cube Printer, 2nd Generation, Magenta: $3,717.97
Plantronics Savi W720 Multi-Device Wireless Headset System: $3,696.28
Ibico EPK-21 Electric Binding System: $3,345.28
Zebra ZM400 Thermal Label Printer: $3,343.54


In [38]:
#Ən çox ortalama endirim edilən 10 məhsul
top_discounted_10=df.groupby('Product Name')['Discount'].mean().sort_values(ascending=False).head(10)
for product,discount in top_discounted_10.items():
  print(f"{product}: Ortalma {discount*100:,.2f} % endirim:")

Eureka Disposable Bags for Sanitaire Vibra Groomer I Upright Vac: Ortalma 80.00 % endirim:
GBC Plasticlear Binding Covers: Ortalma 72.86 % endirim:
GBC VeloBinder Electric Binding Machine: Ortalma 72.50 % endirim:
Epson Perfection V600 Photo Scanner: Ortalma 70.00 % endirim:
Lexmark MarkNet N8150 Wireless Print Server: Ortalma 70.00 % endirim:
Zebra GK420t Direct Thermal/Thermal Transfer Printer: Ortalma 70.00 % endirim:
Hewlett-Packard Deskjet F4180 All-in-One Color Ink-jet - Printer / copier / scanner: Ortalma 70.00 % endirim:
Bush Westfield Collection Bookcases, Dark Cherry Finish, Fully Assembled: Ortalma 70.00 % endirim:
Cisco 8961 IP Phone Charcoal: Ortalma 70.00 % endirim:
Brother MFC-9340CDW LED All-In-One Printer, Copier Scanner: Ortalma 70.00 % endirim:


In [39]:
#Kateqoriyalara görə ortalama endirimlər 
discounted_category=df.groupby('Category')['Discount'].mean().sort_values(ascending=False)
for product,discount in discounted_category.items():
  print(f"{product}: Ortalma {discount*100:,.2f} % endirim:")

Furniture: Ortalma 17.39 % endirim:
Office Supplies: Ortalma 15.73 % endirim:
Technology: Ortalma 13.23 % endirim:


# Əsas Nəticələr (Key Insights)
1)Texnologiya kateqoriyası ən yüksək gəlir gətirən kateqoriyadır.
Satışların həcmi nisbətən yüksək olmaqla yanaşı, bu kateqoriyada gəlirlilik də ən yüksək səviyyədədir. Bu, həm qiymət strategiyasının, həm də məhsulun bazarda yüksək dəyərə   sahib olduğunu göstərir.

2)"South" bölgəsi satış və gəlir baxımından ən zəif bölgədir.
Digər bölgələrlə müqayisədə bu bölgədə həm satışların sayı azdır, həm də gəlirlik səviyyəsi aşağıdır. Bu, həmin bölgədə bazar payının zəif olması və ya satış strategiyasının uğursuz olduğunu göstərə bilər.

3)Endirimlər mənfəətə mənfi təsir edir.
Analiz göstərir ki, endirim faizi artdıqca məhsullardan əldə olunan mənfəət azalır. Bəzi hallarda isə zərər müşahidə olunur. Bu da onu göstərir ki, endirimlər düzgün hədəflənməyib və mənfəətə zərər verə bilər.

4)"Furniture" kateqoriyası satış baxımından aktiv olsa da, mənfəət aşağıdır.
Satışların sayı yüksək olsa da, məhsulların mənfəət marjası azdır və tez-tez endirim olunur. Bu da gəlirə mənfi təsir edir.

# Tövsiyələr (Yenilənmiş)
1)Texnologiya sahəsinə daha çox diqqət yetirilməlidir.
Əlavə məhsullar, reklam kampaniyaları və stok idarəçiliyi vasitəsilə bu sahədə daha çox gəlir əldə oluna bilər.

2)South bölgəsində bazar genişləndirilməlidir.
Lokal kampaniyalar, əməkdaşlıqlar və müştəri sadiqliyi proqramları faydalı ola bilər.

3)Endirim siyasəti optimallaşdırılmalıdır.
Yalnız hədəfli və data əsaslı endirimlər tətbiq edilməlidir. Endirim strategiyası gəlirliliyə uyğun qurulmalıdır.

4)"Furniture" kateqoriyası nəzərdən keçirilməlidir.
Bu kateqoriyada daha az mənfəət gətirən məhsullar ya paketləşdirilməli, ya da qiymət strategiyası yenilənməlidir.