In [1]:
import pandas as pd
import warnings # pandas uyarı sistemi
warnings.filterwarnings('ignore') # gereksiz uyarı mesajlarının çıktısını engellemek için kullanılır

In [2]:
df_products = pd.read_csv(filepath_or_buffer='data/products.csv')
df_products.head()

Unnamed: 0,ProductID,ProductName,SupplierID,CategoryID,QuantityPerUnit,UnitPrice,UnitsInStock,UnitsOnOrder,ReorderLevel,Discontinued
0,1,Chai,1,1,10 boxes x 20 bags,18.0,39,0,10,0
1,2,Chang,1,1,24 - 12 oz bottles,19.0,17,40,25,0
2,3,Aniseed Syrup,1,2,12 - 550 ml bottles,10.0,13,70,25,0
3,4,Chef Anton's Cajun Seasoning,2,2,48 - 6 oz jars,22.0,53,0,0,0
4,5,Chef Anton's Gumbo Mix,2,2,36 boxes,21.35,0,0,0,1


In [3]:
df_categories = pd.read_csv(filepath_or_buffer='data/categories.csv')
df_categories.head()

Unnamed: 0,CategoryID,CategoryName,Description
0,1,Beverages,"Soft drinks, coffees, teas, beers, and ales"
1,2,Condiments,"Sweet and savory sauces, relishes, spreads, an..."
2,3,Confections,"Desserts, candies, and sweet breads"
3,4,Dairy Products,Cheeses
4,5,Grains/Cereals,"Breads, crackers, pasta, and cereal"


#### Merge

<i>İki farklı veri setinin birleştirme işlemine <b>merge<b> diyoruz. Bu işlemi yaparken her iki veri setinde ortak <b>olarak bulunan sütunlardan<b> faydalanıyoruz.</i><br>
#### Merge Türleri
+ Inner: Matematikte kesişim kümesine benzetebilinir. Yani merge edilecek veri setindeki kesişen bilgileri alır.
+ Left: Merge edilecek tablolardan sol tarafta olan veri setinin tamamını sağ tarafta olan veri setinden kesişen alanlar gelir.
+ Right: Merge edilecek tablolardan sağ tarafta olan veri setinin tamamını sol tarafta olan veri setinden kesişen alanlar gelir.
+ Cross: Her iki veri setinin kartezyen çarpımını oluşturur.
+ Outer: Her iki veri setindeki anahtarların birleşimini kullanır.

<br>

#### Argümants

- On: Her iki veri setinde ortak olarak bulunan sütun yazılır.
- how: Merge işleminin türü yazılır.
- left & rigt: Merge işlemine katılacak veri setinin pozisyonunu belirtir. Şayet right ya da left merge işlemi yapılacaksa çok önem kazanır.
- left_on & right_on: Veri setlerinde merge edilirken kullanılacak sütun işlemleri farklı ise kullanılır. Veri setlerinin pozisyonuna göre kazanır.

In [None]:
# pandas kütüphanesinde merge fonksiyonu birleştirmeyi sağlar.
df_1 = pd.merge( 
    left=df_categories, # Sol (birleştirilecek) tablo. Kategori adları ve ID’leri içerir.
    right=df_products, # Sağ tablo. Ürün bilgileri ve hangi kategoriye ait oldukları bilgisi içerir.
    on='CategoryID', # Hangi sütuna göre eşleştirileceği. Her iki tabloda da CategoryID olmalı.
    how='inner') # Sadece her iki tabloda da eşleşen satırlar dahil edilir.
df_1.head() # Her ürün için, ürünün ait olduğu kategorinin bilgilerini de içeren bir tablo olur.

Unnamed: 0,CategoryID,CategoryName,Description,ProductID,ProductName,SupplierID,QuantityPerUnit,UnitPrice,UnitsInStock,UnitsOnOrder,ReorderLevel,Discontinued
0,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",1,Chai,1,10 boxes x 20 bags,18.0,39,0,10,0
1,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",2,Chang,1,24 - 12 oz bottles,19.0,17,40,25,0
2,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",24,Guaraná Fantástica,10,12 - 355 ml cans,4.5,20,0,0,1
3,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",34,Sasquatch Ale,16,24 - 12 oz bottles,14.0,111,0,15,0
4,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",35,Steeleye Stout,16,24 - 12 oz bottles,18.0,20,0,15,0


In [5]:
# Yalnızca her iki tabloda da ortak olan CategoryID değerlerini içerecek şekilde birleştirme yapalım
df_1 = pd.merge(
    left=df_categories,
    right=df_products,
    on='CategoryID',
    how='inner'
)
df_1.head()


Unnamed: 0,CategoryID,CategoryName,Description,ProductID,ProductName,SupplierID,QuantityPerUnit,UnitPrice,UnitsInStock,UnitsOnOrder,ReorderLevel,Discontinued
0,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",1,Chai,1,10 boxes x 20 bags,18.0,39,0,10,0
1,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",2,Chang,1,24 - 12 oz bottles,19.0,17,40,25,0
2,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",24,Guaraná Fantástica,10,12 - 355 ml cans,4.5,20,0,0,1
3,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",34,Sasquatch Ale,16,24 - 12 oz bottles,14.0,111,0,15,0
4,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",35,Steeleye Stout,16,24 - 12 oz bottles,18.0,20,0,15,0


In [17]:
# df_categories ve df_products tablolarını CategoryID sütunu üzerinden, sadece her iki tabloda da bulunan kategorilere göre birleştirelim
df_1 = pd.merge(
    left=df_categories,
    right=df_products,
    on='CategoryID',
    how='inner'
)
df_1.head()


Unnamed: 0,CategoryID,CategoryName,Description,ProductID,ProductName,SupplierID,QuantityPerUnit,UnitPrice,UnitsInStock,UnitsOnOrder,ReorderLevel,Discontinued
0,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",1,Chai,1,10 boxes x 20 bags,18.0,39,0,10,0
1,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",2,Chang,1,24 - 12 oz bottles,19.0,17,40,25,0
2,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",24,Guaraná Fantástica,10,12 - 355 ml cans,4.5,20,0,0,1
3,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",34,Sasquatch Ale,16,24 - 12 oz bottles,14.0,111,0,15,0
4,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",35,Steeleye Stout,16,24 - 12 oz bottles,18.0,20,0,15,0


In [18]:
# df_categories ve df_products tablolarını CategoryID üzerinden birleştirerek, tüm ürünleri ve ürünlerin kategorilerini bir tabloda gösterin. Kategori bilgisi olmayan ürünler de listede yer aldıralım
df_1 = pd.merge(
    left=df_products,
    right=df_categories,
    on='CategoryID',
    how='left'
)
df_1.head()



Unnamed: 0,ProductID,ProductName,SupplierID,CategoryID,QuantityPerUnit,UnitPrice,UnitsInStock,UnitsOnOrder,ReorderLevel,Discontinued,CategoryName,Description
0,1,Chai,1,1,10 boxes x 20 bags,18.0,39,0,10,0,Beverages,"Soft drinks, coffees, teas, beers, and ales"
1,2,Chang,1,1,24 - 12 oz bottles,19.0,17,40,25,0,Beverages,"Soft drinks, coffees, teas, beers, and ales"
2,3,Aniseed Syrup,1,2,12 - 550 ml bottles,10.0,13,70,25,0,Condiments,"Sweet and savory sauces, relishes, spreads, an..."
3,4,Chef Anton's Cajun Seasoning,2,2,48 - 6 oz jars,22.0,53,0,0,0,Condiments,"Sweet and savory sauces, relishes, spreads, an..."
4,5,Chef Anton's Gumbo Mix,2,2,36 boxes,21.35,0,0,0,1,Condiments,"Sweet and savory sauces, relishes, spreads, an..."


In [None]:
# df_categories ve df_products tablolarını CategoryID sütunu baz alınarak birleştirin ve sadece kategori tablosundaki kayıtların tamamı, ürün tablosundaki eşleşenler ile yapalım
import numpy as np # Pandas gibi veri işleme kütüphaneleri de arka planda NumPy dizilerini kullanır.

df_1 = pd.merge(
    left=df_categories,
    right=df_products,
    on='CategoryID',
    how='left'
)

cols_to_replace = ['UnitsInStock', 'UnitsOnOrder', 'ReorderLevel']

# 0 olanları NaN yap
df_1[cols_to_replace] = df_1[cols_to_replace].replace(0, np.nan)

# NaN olanları '-' ile doldur
df_1[cols_to_replace] = df_1[cols_to_replace].fillna('-')

df_1.head()



Unnamed: 0,CategoryID,CategoryName,Description,ProductID,ProductName,SupplierID,QuantityPerUnit,UnitPrice,UnitsInStock,UnitsOnOrder,ReorderLevel,Discontinued
0,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",1,Chai,1,10 boxes x 20 bags,18.0,39.0,-,10.0,0
1,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",2,Chang,1,24 - 12 oz bottles,19.0,17.0,40.0,25.0,0
2,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",24,Guaraná Fantástica,10,12 - 355 ml cans,4.5,20.0,-,-,1
3,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",34,Sasquatch Ale,16,24 - 12 oz bottles,14.0,111.0,-,15.0,0
4,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",35,Steeleye Stout,16,24 - 12 oz bottles,18.0,20.0,-,15.0,0


In [25]:
# df_categories ve df_products tablolarını CategoryID üzerinden, sadece her iki tabloda ortak olan kayıtları (inner join) kullanarak birleştirelim
df_1 = pd.merge(
    left=df_categories,
    right=df_products,
    on='CategoryID',
    how='inner'
)
df_1.head()


Unnamed: 0,CategoryID,CategoryName,Description,ProductID,ProductName,SupplierID,QuantityPerUnit,UnitPrice,UnitsInStock,UnitsOnOrder,ReorderLevel,Discontinued
0,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",1,Chai,1,10 boxes x 20 bags,18.0,39,0,10,0
1,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",2,Chang,1,24 - 12 oz bottles,19.0,17,40,25,0
2,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",24,Guaraná Fantástica,10,12 - 355 ml cans,4.5,20,0,0,1
3,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",34,Sasquatch Ale,16,24 - 12 oz bottles,14.0,111,0,15,0
4,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",35,Steeleye Stout,16,24 - 12 oz bottles,18.0,20,0,15,0


In [26]:
# df_categories tablosundaki tüm kategorileri ve varsa bu kategorilere ait ürünleri (left join) gösteren birleştirme işlemi yapalım
df_1 = pd.merge(
    left=df_categories,
    right=df_products,
    on='CategoryID',
    how='left'
)
df_1.head()


Unnamed: 0,CategoryID,CategoryName,Description,ProductID,ProductName,SupplierID,QuantityPerUnit,UnitPrice,UnitsInStock,UnitsOnOrder,ReorderLevel,Discontinued
0,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",1,Chai,1,10 boxes x 20 bags,18.0,39,0,10,0
1,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",2,Chang,1,24 - 12 oz bottles,19.0,17,40,25,0
2,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",24,Guaraná Fantástica,10,12 - 355 ml cans,4.5,20,0,0,1
3,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",34,Sasquatch Ale,16,24 - 12 oz bottles,14.0,111,0,15,0
4,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",35,Steeleye Stout,16,24 - 12 oz bottles,18.0,20,0,15,0


In [27]:
# df_products tablosundaki tüm ürünleri ve varsa bu ürünlerin kategori bilgilerini (right join) gösteren birleştirme işlemi yapalım
df_1 = pd.merge(
    left=df_categories,
    right=df_products,
    on='CategoryID',
    how='right'
)
df_1.head()


Unnamed: 0,CategoryID,CategoryName,Description,ProductID,ProductName,SupplierID,QuantityPerUnit,UnitPrice,UnitsInStock,UnitsOnOrder,ReorderLevel,Discontinued
0,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",1,Chai,1,10 boxes x 20 bags,18.0,39,0,10,0
1,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",2,Chang,1,24 - 12 oz bottles,19.0,17,40,25,0
2,2,Condiments,"Sweet and savory sauces, relishes, spreads, an...",3,Aniseed Syrup,1,12 - 550 ml bottles,10.0,13,70,25,0
3,2,Condiments,"Sweet and savory sauces, relishes, spreads, an...",4,Chef Anton's Cajun Seasoning,2,48 - 6 oz jars,22.0,53,0,0,0
4,2,Condiments,"Sweet and savory sauces, relishes, spreads, an...",5,Chef Anton's Gumbo Mix,2,36 boxes,21.35,0,0,0,1


In [28]:
# df_categories ve df_products tablolarındaki tüm kayıtları birleştirerek, her iki tabloda olmayanların da gösterildiği (outer join) tabloyu oluşturalım
df_1 = pd.merge(
    left=df_categories,
    right=df_products,
    on='CategoryID',
    how='outer'
)
df_1.head()


Unnamed: 0,CategoryID,CategoryName,Description,ProductID,ProductName,SupplierID,QuantityPerUnit,UnitPrice,UnitsInStock,UnitsOnOrder,ReorderLevel,Discontinued
0,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",1,Chai,1,10 boxes x 20 bags,18.0,39,0,10,0
1,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",2,Chang,1,24 - 12 oz bottles,19.0,17,40,25,0
2,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",24,Guaraná Fantástica,10,12 - 355 ml cans,4.5,20,0,0,1
3,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",34,Sasquatch Ale,16,24 - 12 oz bottles,14.0,111,0,15,0
4,1,Beverages,"Soft drinks, coffees, teas, beers, and ales",35,Steeleye Stout,16,24 - 12 oz bottles,18.0,20,0,15,0


In [30]:
# df_1 veri çerçevesi kullanılarak, her bir kategori (CategoryName) için kaç tane ürün (ProductID) olduğunu bulun. Sonuçları ürün sayısına göre azalan sırada listeleyin ve ürün sayısını gösteren sütunun adını TotalProduct olarak değiştirelim
(
    df_1.groupby('CategoryName')
        .agg({'ProductID': 'count'})
        .sort_values(by='ProductID', ascending=False)
        .rename(
            columns={
                'ProductID':'TotalProduct'
            }
        )
)

Unnamed: 0_level_0,TotalProduct
CategoryName,Unnamed: 1_level_1
Confections,13
Beverages,12
Condiments,12
Seafood,12
Dairy Products,10
Grains/Cereals,7
Meat/Poultry,6
Produce,5


In [31]:
# df_1 üzerinden her kategori için ürünlerin ortalama birim fiyatını (UnitPrice) hesaplayın. Sonuçları ortalama fiyatlara göre artan sırada sıralayın ve sütun adını AvgPrice olarak değiştirelim
(
    df_1.groupby('CategoryName')
        .agg({'UnitPrice': 'mean'})
        .sort_values(by='UnitPrice', ascending=True)
        .rename(
            columns={
                'UnitPrice': 'AvgPrice'
            }
        )
)


Unnamed: 0_level_0,AvgPrice
CategoryName,Unnamed: 1_level_1
Grains/Cereals,20.25
Seafood,20.6825
Condiments,23.0625
Confections,25.16
Dairy Products,28.73
Produce,32.37
Beverages,37.979167
Meat/Poultry,54.006667


In [34]:
# df_1 üzerinden kategori bazında stokta bulunan ürünlerin toplam adedini (UnitsInStock) hesaplayın. Sonuçları en fazla stok olan kategori en üstte olacak şekilde sıralayın ve sütun adını TotalStock yapalım
(
    df_1.groupby('CategoryName')
        .agg({'UnitsInStock': 'sum'})
        .sort_values(by='UnitsInStock', ascending=False)
        .rename(
            columns={
                'UnitsInStock': 'TotalStock'
            }
        )
)



Unnamed: 0_level_0,TotalStock
CategoryName,Unnamed: 1_level_1
Seafood,701
Beverages,559
Condiments,507
Dairy Products,393
Confections,386
Grains/Cereals,308
Meat/Poultry,165
Produce,100


In [37]:
# df_1 veri setinde kategori bazında her bir kategoride kaç ürün olduğunu bulun. Sonuçları ürün sayısına göre azalan sırada listeleyin ve sütun adını TotalProduct olarak değiştelim
(
    df_1.groupby('CategoryName')
        .agg({'ProductID': 'count'})
        .sort_values(by='ProductID', ascending=False)
        .rename(
            columns={
                'ProductID': 'TotalProduct'
            }
        )
)


Unnamed: 0_level_0,TotalProduct
CategoryName,Unnamed: 1_level_1
Confections,13
Beverages,12
Condiments,12
Seafood,12
Dairy Products,10
Grains/Cereals,7
Meat/Poultry,6
Produce,5


In [7]:
df_employees = pd.read_csv(filepath_or_buffer='data/employees.csv')
df_employees.head()

Unnamed: 0,EmployeeID,LastName,FirstName,Title,TitleOfCourtesy,BirthDate,HireDate,Address,City,Region,PostalCode,Country,HomePhone,Extension
0,1.0,Davolio,Nancy,Sales Representative,Ms.,00:00.0,00:00.0,507 - 20th Ave. E.Apt. 2A,Seattle,WA,98122,USA,(206) 555-9857,5467.0
1,2.0,Fuller,Andrew,"Vice President, Sales",Dr.,00:00.0,00:00.0,908 W. Capital Way,Tacoma,WA,98401,USA,(206) 555-9482,3457.0
2,3.0,Leverling,Janet,Sales Representative,Ms.,00:00.0,00:00.0,722 Moss Bay Blvd.,Kirkland,WA,98033,USA,(206) 555-3412,3355.0
3,4.0,Peacock,Margaret,Sales Representative,Mrs.,00:00.0,00:00.0,4110 Old Redmond Rd.,Redmond,WA,98052,USA,(206) 555-8122,5176.0
4,5.0,Buchanan,Steven,Sales Manager,Mr.,00:00.0,00:00.0,14 Garrett Hill,London,,SW1 8JR,UK,(71) 555-4848,3453.0


In [8]:
# EmployeeID sütunun tipi floot idi. Bu tipi Int64 dönüştürdük.
df_employees['EmployeeID'] = df_employees['EmployeeID'].astype('Int64')
df_employees.head()

Unnamed: 0,EmployeeID,LastName,FirstName,Title,TitleOfCourtesy,BirthDate,HireDate,Address,City,Region,PostalCode,Country,HomePhone,Extension
0,1,Davolio,Nancy,Sales Representative,Ms.,00:00.0,00:00.0,507 - 20th Ave. E.Apt. 2A,Seattle,WA,98122,USA,(206) 555-9857,5467.0
1,2,Fuller,Andrew,"Vice President, Sales",Dr.,00:00.0,00:00.0,908 W. Capital Way,Tacoma,WA,98401,USA,(206) 555-9482,3457.0
2,3,Leverling,Janet,Sales Representative,Ms.,00:00.0,00:00.0,722 Moss Bay Blvd.,Kirkland,WA,98033,USA,(206) 555-3412,3355.0
3,4,Peacock,Margaret,Sales Representative,Mrs.,00:00.0,00:00.0,4110 Old Redmond Rd.,Redmond,WA,98052,USA,(206) 555-8122,5176.0
4,5,Buchanan,Steven,Sales Manager,Mr.,00:00.0,00:00.0,14 Garrett Hill,London,,SW1 8JR,UK,(71) 555-4848,3453.0


In [9]:
df_orders = pd.read_csv(filepath_or_buffer='data/orders.csv')
df_orders.head()

Unnamed: 0,OrderID,CustomerID,EmployeeID,OrderDate,RequiredDate,ShippedDate,ShipVia,Freight,ShipName,ShipAddress,ShipCity,ShipRegion,ShipPostalCode,ShipCountry
0,10248,VINET,5,04/07/1996,01/08/1996,16/07/1996,3,32.38,Vins et alcools Chevalier,59 rue de l'Abbaye,Reims,,51100,France
1,10249,TOMSP,6,05/07/1996,16/08/1996,10/07/1996,1,11.61,Toms Spezialitäten,Luisenstr. 48,Münster,,44087,Germany
2,10250,HANAR,4,08/07/1996,05/08/1996,12/07/1996,2,65.83,Hanari Carnes,"Rua do Paço, 67",Rio de Janeiro,RJ,05454-876,Brazil
3,10251,VICTE,3,08/07/1996,05/08/1996,15/07/1996,1,41.34,Victuailles en stock,"2, rue du Commerce",Lyon,,69004,France
4,10252,SUPRD,4,09/07/1996,06/08/1996,11/07/1996,2,51.3,Suprêmes délices,"Boulevard Tirou, 255",Charleroi,,B-6000,Belgium


In [None]:
df_od = pd.read_csv(filepath_or_buffer='data/order_details.csv')
df_od['Revenue'] = df_od['UnitPrice'] * df_od['Quantity'] * (1- df_od['Discount'])
# df_o
# Revenue sütununda, her satır için şu hesap yapıldı:
# UnitPrice × Quantity × (1 - Discount)
# Yani, bir ürünün fiyatı (UnitPrice) ile satılan miktar (Quantity) çarpıldı, ardından varsa uygulanan iskonto (Discount) oranı çıkarılarak o satırın toplam geliri (Revenue) hesaplandı.
# Bu işlemle satır bazında gerçek satış tutarını bulmuş olduk.
df_od.head()

Unnamed: 0,OrderID,ProductID,UnitPrice,Quantity,Discount,Revenue
0,10248,11,14.0,12,0.0,168.0
1,10248,42,9.8,10,0.0,98.0
2,10248,72,34.8,5,0.0,174.0
3,10249,14,18.6,9,0.0,167.4
4,10249,51,42.4,40,0.0,1696.0


In [None]:
# orders tablosu ile employees tablosunu inner merge edin
df_2 = pd.merge(
    left=df_employees,
    right=df_orders, 
    on='EmployeeID', 
    how='inner') # Sadece her iki tabloda da eşleşen EmployeeID olan satırlar alındı.
df_2.head()

Unnamed: 0,EmployeeID,LastName,FirstName,Title,TitleOfCourtesy,BirthDate,HireDate,Address,City,Region,...,RequiredDate,ShippedDate,ShipVia,Freight,ShipName,ShipAddress,ShipCity,ShipRegion,ShipPostalCode,ShipCountry
0,1,Davolio,Nancy,Sales Representative,Ms.,00:00.0,00:00.0,507 - 20th Ave. E.Apt. 2A,Seattle,WA,...,14/08/1996,23/07/1996,1,140.51,Ernst Handel,Kirchgasse 6,Graz,,8010,Austria
1,1,Davolio,Nancy,Sales Representative,Ms.,00:00.0,00:00.0,507 - 20th Ave. E.Apt. 2A,Seattle,WA,...,29/08/1996,02/08/1996,1,136.54,Wartian Herkku,Torikatu 38,Oulu,,90110,Finland
2,1,Davolio,Nancy,Sales Representative,Ms.,00:00.0,00:00.0,507 - 20th Ave. E.Apt. 2A,Seattle,WA,...,04/09/1996,09/08/1996,1,26.93,Magazzini Alimentari Riuniti,Via Ludovico il Moro 22,Bergamo,,24100,Italy
3,1,Davolio,Nancy,Sales Representative,Ms.,00:00.0,00:00.0,507 - 20th Ave. E.Apt. 2A,Seattle,WA,...,17/09/1996,26/08/1996,2,76.83,QUICK-Stop,Taucherstraße 10,Cunewalde,,1307,Germany
4,1,Davolio,Nancy,Sales Representative,Ms.,00:00.0,00:00.0,507 - 20th Ave. E.Apt. 2A,Seattle,WA,...,25/09/1996,02/09/1996,2,1.35,Tradiçao Hipermercados,"Av. Inês de Castro, 414",Sao Paulo,SP,05634-030,Brazil


In [12]:
# df_2 ile order details veri setlerini inner merge edin
df_3 = pd.merge(
    left=df_2,
    right=df_od,
    on='OrderID',
    how='inner'
)
df_3.head()

Unnamed: 0,EmployeeID,LastName,FirstName,Title,TitleOfCourtesy,BirthDate,HireDate,Address,City,Region,...,ShipAddress,ShipCity,ShipRegion,ShipPostalCode,ShipCountry,ProductID,UnitPrice,Quantity,Discount,Revenue
0,1,Davolio,Nancy,Sales Representative,Ms.,00:00.0,00:00.0,507 - 20th Ave. E.Apt. 2A,Seattle,WA,...,Kirchgasse 6,Graz,,8010,Austria,2,15.2,50,0.2,608.0
1,1,Davolio,Nancy,Sales Representative,Ms.,00:00.0,00:00.0,507 - 20th Ave. E.Apt. 2A,Seattle,WA,...,Kirchgasse 6,Graz,,8010,Austria,5,17.0,65,0.2,884.0
2,1,Davolio,Nancy,Sales Representative,Ms.,00:00.0,00:00.0,507 - 20th Ave. E.Apt. 2A,Seattle,WA,...,Kirchgasse 6,Graz,,8010,Austria,32,25.6,6,0.2,122.88
3,1,Davolio,Nancy,Sales Representative,Ms.,00:00.0,00:00.0,507 - 20th Ave. E.Apt. 2A,Seattle,WA,...,Torikatu 38,Oulu,,90110,Finland,36,15.2,30,0.0,456.0
4,1,Davolio,Nancy,Sales Representative,Ms.,00:00.0,00:00.0,507 - 20th Ave. E.Apt. 2A,Seattle,WA,...,Torikatu 38,Oulu,,90110,Finland,43,36.8,25,0.0,920.0


In [44]:
# df_3 veri seti için düşünelim
# en çok sipariş gerçekleştirmiş çalışanı bulalım
cdf_1 = df_3[['OrderID', 'FirstName', 'LastName', 'Quantity', 'Discount', 'UnitPrice', 'Revenue']]

(
    cdf_1.groupby(['FirstName', 'LastName'])
        .agg({
            'OrderID': 'count',
            'Quantity': 'sum',
            'Revenue': 'sum'
        })
        .sort_values(by='Revenue', ascending=False)
        .rename(
            columns={
                'Revenue':'TotalRevenue',
                'OrderID':'TotalOrder',
                'Quantity': 'TotalQuantity'
            }
        )
        .head(1)
)

# cdf_1.to_csv('result') # elde edilen sonuç kümesi to_csv() fonksyionu ile yeni bir excel dosyasına yazdık.


Unnamed: 0_level_0,Unnamed: 1_level_0,TotalOrder,TotalQuantity,TotalRevenue
FirstName,LastName,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Margaret,Peacock,420,9798,232890.846


In [45]:
# Her müşterinin kaç sipariş verdiğini, toplam kaç ürün satın aldığını ve bu siparişlerden elde edilen toplam geliri (Revenue) bulun.En çok gelir bırakan müşteriyi görüntüleyelim
 
#  Müşteri bazlı analiz için gerekli sütunları seçiyoruz
cdf_2 = df_3[['OrderID', 'CustomerID', 'Quantity', 'UnitPrice', 'Discount', 'Revenue']]

# Müşteri bazında gruplama ve toplamlar
(
    cdf_2.groupby('CustomerID')
        .agg({
            'OrderID': 'count',   # Sipariş sayısı
            'Quantity': 'sum',    # Toplam ürün adedi
            'Revenue': 'sum'      # Toplam gelir
        })
        .sort_values(by='Revenue', ascending=False)  # Gelire göre azalan sıralama
        .rename(columns={
            'OrderID': 'TotalOrder',
            'Quantity': 'TotalQuantity',
            'Revenue': 'TotalRevenue'
        })
        .head(1)  # En çok gelir getiren müşteri
)


Unnamed: 0_level_0,TotalOrder,TotalQuantity,TotalRevenue
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
QUICK,86,3961,110277.305


In [14]:
# Categorilerine göre satışlarım nasıl
cdf_categories = df_categories[['CategoryID', 'CategoryName']]
cdf_products = df_products.loc[:, ['ProductID', 'CategoryID']]

m1_df = pd.merge(
    left=cdf_categories,
    right=cdf_products,
    on='CategoryID',
    how='inner'
)

m1_df.head()



Unnamed: 0,CategoryID,CategoryName,ProductID
0,1,Beverages,1
1,1,Beverages,2
2,1,Beverages,24
3,1,Beverages,34
4,1,Beverages,35


In [46]:
# Ürün kategorilerine göre satış analizi yapmak için,sadece kategori adları ve ürün ID’lerini içeren iki tabloyu CategoryID üzerinden inner merge edin,İlk 5 satırı görüntüleyin.
# İlgili sütunları seçerek iki tablo oluşturuyoruz
cdf_categories = df_categories[['CategoryID', 'CategoryName']]
cdf_products = df_products[['ProductID', 'CategoryID']]

# Kategori ve ürün tablolarını CategoryID üzerinden birleştiriyoruz
m1_df = pd.merge(
    left=cdf_categories,
    right=cdf_products,
    on='CategoryID',
    how='inner'  # Her iki tabloda eşleşen CategoryID'ler alınır
)

# İlk 5 satırı görüntülüyoruz
m1_df.head()



Unnamed: 0,CategoryID,CategoryName,ProductID
0,1,Beverages,1
1,1,Beverages,2
2,1,Beverages,24
3,1,Beverages,34
4,1,Beverages,35


In [None]:
# m1_df ile df_od (order details) tablolarını ProductID sütunu üzerinden inner birleştirelim
m2_df = pd.merge(
    left=m1_df,
    right=df_od,
    on='ProductID',
    how='inner'  # Sadece her iki tabloda da ortak olan ProductID'ler alınır
)

m2_df.head()

Unnamed: 0,CategoryID,CategoryName,ProductID,OrderID,UnitPrice,Quantity,Discount,Revenue
0,1,Beverages,1,10285,14.4,45,0.2,518.4
1,1,Beverages,1,10294,14.4,18,0.0,259.2
2,1,Beverages,1,10317,14.4,20,0.0,288.0
3,1,Beverages,1,10348,14.4,15,0.15,183.6
4,1,Beverages,1,10354,14.4,12,0.0,172.8


In [None]:
# m2_df veri çerçevesinde kategori bazında satış performansını analiz etmek için aşağıdaki işlemleri yapıyoruz:
# Her kategori için kaç sipariş olduğunu, toplam satılan ürün miktarını ve toplam geliri hesaplayalım
# Sonuçları toplam gelire göre azalan şekilde sıralayalım
# Sütun isimlerini daha açıklayıcı hale getirelim
(
    m2_df.groupby('CategoryName')
        .agg({
            'OrderID': 'count',
            'Quantity': 'sum',
            'Revenue': 'sum'
        })
        .sort_values(by='Revenue', ascending=False)
        .rename(
            columns={
                'Revenue':'TotalRevenue',
                'OrderID':'TotalOrder',
                'Quantity': 'TotalQuantity'
            }
        )       
)


Unnamed: 0_level_0,TotalOrder,TotalQuantity,TotalRevenue
CategoryName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Beverages,404,9532,267868.18
Dairy Products,366,9149,234507.285
Confections,334,7906,167357.225
Meat/Poultry,173,4199,163022.3595
Seafood,330,7681,131261.7375
Condiments,216,5298,106047.085
Produce,136,2990,99984.58
Grains/Cereals,196,4562,95744.5875


In [47]:
# df_3 tablosunda çalışanların satış performansını incelemek istiyoruz.
# Her çalışan için:
# Toplam kaç siparişi olduğunu,
# Satılan toplam ürün miktarını,
# Toplam gelirini hesaplayınız.
# Sonuçları toplam gelire göre azalan şekilde sıralayıp, sütun isimlerini açıklayıcı hale getirelim
(
    df_3.groupby(['FirstName', 'LastName'])
        .agg({
            'OrderID': 'count',    # Toplam sipariş sayısı
            'Quantity': 'sum',     # Toplam satılan ürün miktarı
            'Revenue': 'sum'       # Toplam gelir
        })
        .sort_values(by='Revenue', ascending=False)  # Gelire göre sıralama
        .rename(columns={
            'OrderID': 'TotalOrder',
            'Quantity': 'TotalQuantity',
            'Revenue': 'TotalRevenue'
        }
    )
)


Unnamed: 0_level_0,Unnamed: 1_level_0,TotalOrder,TotalQuantity,TotalRevenue
FirstName,LastName,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Margaret,Peacock,420,9798,232890.846
Janet,Leverling,321,7852,202812.843
Nancy,Davolio,345,7812,192107.6045
Andrew,Fuller,241,6055,166537.755
Laura,Callahan,260,5913,126862.2775
Robert,King,176,4654,124568.235
Anne,Dodsworth,107,2670,77308.0665
Michael,Suyama,168,3527,73913.1295
Steven,Buchanan,117,3036,68792.2825
