## Proje Bilgilendirmesi 
"Online Retail II" isimli veri seti İngiltere merkezli online bir satış mağazasının 01/12/2009 - 09/12/2011 tarihleri arasındaki satışlarını içeriyor. Bu e-ticaret şirketi müşterilerini segmentlere ayırıp bu segmentlere göre pazarlama stratejileri belirlemek istiyor. Buna yönelik olarak müşterilerin davranışlarını tanımlayacağız ve ortak davranışlar sergileyenleri aynı gruplara alacağız ve bu gruplara özel satış ve pazarlama teknikleri geliştirmeye çalışacağız.

### Değişkenler
* **InvoiceNo:** Fatura numarası. Her işleme yani faturaya ait eşsiz numara. Eğer bu kod C ile başlıyorsa işlemin iptal edildiğini ifade eder.
* **StockCode:** Ürün kodu. Her bir ürün için eşsiz numara.
* **Description:** Ürün ismi
* **Quantity:** Ürün adedi. Faturalardaki ürünlerden kaçar tane satıldığını ifade etmektedir.
* **InvoiceDate:** Fatura tarihi ve zamanı.
* **UnitPrice:** Ürün fiyatı (Sterlin cinsinden)
* **CustomerID:** Eşsiz müşteri numarası
* **Country:** Ülke ismi. Müşterinin yaşadığı ülke.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.cluster import KMeans

In [2]:
#tüm sütunları ve satırların görüntülenmesi
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# virgülden sonra gösterilecek olan sayı sayısı
pd.set_option('display.float_format', lambda x: '%.0f' % x)

In [3]:
import os
print("Mevcut Konum:", os.getcwd())
os.chdir('C:\\Users\\sahik\\Documents\\GitHub\\MachineLearning101\\data')
print("Güncel Konum:", os.getcwd())

Mevcut Konum: C:\Users\sahik\Documents\GitHub\MachineLearning101
Güncel Konum: C:\Users\sahik\Documents\GitHub\MachineLearning101\data


In [4]:
# veri setini okuma
df = pd.read_csv('online_retail_II.csv')
df.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,489434,85048,15CM CHRISTMAS GLASS BALL 20 LIGHTS,12,2009-12-01 07:45:00,7,13085,United Kingdom
1,489434,79323P,PINK CHERRY LIGHTS,12,2009-12-01 07:45:00,7,13085,United Kingdom
2,489434,79323W,WHITE CHERRY LIGHTS,12,2009-12-01 07:45:00,7,13085,United Kingdom
3,489434,22041,"RECORD FRAME 7"" SINGLE SIZE",48,2009-12-01 07:45:00,2,13085,United Kingdom
4,489434,21232,STRAWBERRY CERAMIC TRINKET BOX,24,2009-12-01 07:45:00,1,13085,United Kingdom


In [5]:
# En çok siparis edilen urunlerin sıralaması
df.groupby('Description').agg({'Quantity':'sum'}).sort_values('Quantity', ascending=False).head()

Unnamed: 0_level_0,Quantity
Description,Unnamed: 1_level_1
WORLD WAR 2 GLIDERS ASSTD DESIGNS,108545
WHITE HANGING HEART T-LIGHT HOLDER,93050
ASSORTED COLOUR BIRD ORNAMENT,81306
JUMBO BAG RED RETROSPOT,78090
BROCADE RING PURSE,70700


In [6]:
# Toplam kaç fatura sayısı 
df['Invoice'].nunique()

53628

In [7]:
# En pahalı ürünler
df.sort_values('Price', ascending=False).head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
748142,C556445,M,Manual,-1,2011-06-10 15:31:00,38970,15098.0,United Kingdom
241827,512771,M,Manual,1,2010-06-17 16:53:00,25111,,United Kingdom
241824,C512770,M,Manual,-1,2010-06-17 16:52:00,25111,17399.0,United Kingdom
320581,C520667,BANK CHARGES,Bank Charges,-1,2010-08-27 13:42:00,18911,,United Kingdom
1050063,C580605,AMAZONFEE,AMAZON FEE,-1,2011-12-05 11:36:00,17836,,United Kingdom


In [8]:
# En fazla sipariş sayısına sahip ilk 5 ülke
df['Country'].value_counts().head()

United Kingdom    981330
EIRE               17866
Germany            17624
France             14330
Netherlands         5140
Name: Country, dtype: int64

In [9]:
# Toplam harcamayı sütun olarak ekledik
df['TotalPrice'] = df.Price*df.Quantity

In [10]:
# Hangi ülkeden ne kadar gelir elde edildi
df.groupby('Country').agg({'TotalPrice':'sum'}).sort_values('TotalPrice', ascending=False).head()

Unnamed: 0_level_0,TotalPrice
Country,Unnamed: 1_level_1
United Kingdom,16382584
EIRE,615520
Netherlands,548525
Germany,417989
France,328192


# Veri Ön İşleme

In [11]:
# En eski alışveriş tarihi
df.InvoiceDate.min()

'2009-12-01 07:45:00'

In [12]:
# En yeni alışveriş tarihi
df.InvoiceDate.max()

'2011-12-09 12:50:00'

In [13]:
# Değerlendirmenin daha kolay yapılabilmesi için bugünün tarihi olarak 1 Ocak 2012 tarihi belirlendi.
today = pd.datetime(2012,1,1)
today

  today = pd.datetime(2012,1,1)


datetime.datetime(2012, 1, 1, 0, 0)

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1041671 entries, 0 to 1067370
Data columns (total 9 columns):
 #   Column       Non-Null Count    Dtype         
---  ------       --------------    -----         
 0   Invoice      1041671 non-null  object        
 1   StockCode    1041671 non-null  object        
 2   Description  1041671 non-null  object        
 3   Quantity     1041671 non-null  int64         
 4   InvoiceDate  1041671 non-null  datetime64[ns]
 5   Price        1041671 non-null  float64       
 6   Customer ID  805549 non-null   float64       
 7   Country      1041671 non-null  object        
 8   TotalPrice   1041671 non-null  float64       
dtypes: datetime64[ns](1), float64(3), int64(1), object(4)
memory usage: 79.5+ MB


In [17]:
# Sipariş tarihinin veri tipinin değiştirilmesi
df.InvoiceDate = pd.to_datetime(df.InvoiceDate)

In [18]:
# 0'dan büyük değerleri alınması, bu işlem değerlendirmeyi daha kolaylaştıracak
df = df[df.Quantity > 0]
df = df[df.TotalPrice > 0]

In [19]:
# Eksik verilere sahip gözlem birimlerinin df üzerinden kaldırılması
df.dropna(inplace = True) 

In [20]:
# Veri setinde eksik veri yok
df.isnull().sum(axis=0)

Invoice        0
StockCode      0
Description    0
Quantity       0
InvoiceDate    0
Price          0
Customer ID    0
Country        0
TotalPrice     0
dtype: int64

In [21]:
df.shape

(805549, 9)

In [22]:
# Belirtilen yüzdelere karşılık gelen gözlem birimlerinin açıklayıcı istatistik değerleri

df.describe([0.01,0.05,0.10,0.25,0.50,0.75,0.90,0.95, 0.99]).T

# Değerlendirmeyi kolaylaştırması amacıyla df tablosunun transpozu alındı.

Unnamed: 0,count,mean,std,min,1%,5%,10%,25%,50%,75%,90%,95%,99%,max
Quantity,805549,13,144,1,1,1,1,2,5,12,24,36,128,80995
Price,805549,3,29,0,0,0,1,1,2,4,7,8,15,10954
Customer ID,805549,15332,1697,12346,12422,12681,12979,13982,15271,16805,17716,17913,18204,18287
TotalPrice,805549,22,224,0,1,1,2,5,12,20,35,68,202,168470


In [23]:
# Ülkeye göre müşteri dağılımı
country_cust_data=df[['Country','Customer ID']].drop_duplicates()

# drop_duplicates() fonksiyonu herhangi bir parametre almadığı zaman, tam çift kayıtları siler. 
# Tekrar eden verileri tekilleştirmek için kullanılır.

In [30]:
country_cust_data.groupby(['Country'])['Customer ID'].agg('count').reset_index().sort_values('Customer ID', ascending=False)

# Dataframe yapısını korumak için reset_index() fonksiyonunu kullanabiliriz. 
# Dizin olarak 0 ile veri uzunluğu arasında değişen bir tamsayı listesi ayarlar.

Unnamed: 0,Country,Customer ID
38,United Kingdom,5350
14,Germany,107
13,France,95
32,Spain,41
3,Belgium,29
28,Portugal,24
24,Netherlands,22
34,Switzerland,22
33,Sweden,19
18,Italy,17


In [36]:
# Yalnızca Birleşik Krallık verilerini tutma
df_uk = df.query("Country == 'United Kingdom'").reset_index(drop=True)
df_uk.head()

# reset_index() yöntemi, dizini varsayılan 0, 1, 2 vb. dizinlerine sıfırlamanıza olanak tanır. 
# Varsayılan olarak bu yöntem, "eski" idex'leri "index" adlı bir sütunda tutacaktır, 
# bundan kaçınmak için drop parametresini kullanın.

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country,TotalPrice
0,489434,85048,15CM CHRISTMAS GLASS BALL 20 LIGHTS,12,2009-12-01 07:45:00,7,13085,United Kingdom,83
1,489434,79323P,PINK CHERRY LIGHTS,12,2009-12-01 07:45:00,7,13085,United Kingdom,81
2,489434,79323W,WHITE CHERRY LIGHTS,12,2009-12-01 07:45:00,7,13085,United Kingdom,81
3,489434,22041,"RECORD FRAME 7"" SINGLE SIZE",48,2009-12-01 07:45:00,2,13085,United Kingdom,101
4,489434,21232,STRAWBERRY CERAMIC TRINKET BOX,24,2009-12-01 07:45:00,1,13085,United Kingdom,30


# RFM Değerlerini Bulma
RFM; Recency, Frequency, Monetary ifadelerinin ilk harflarinden oluşur. Müşterilerin satın alma alışkanlıkları üzerinden pazarlama ve satış stratejileri belirlemeye yardımcı olan bir tekniktir.

* **Recency (yenilik):** Müşterinin son satın almasından bugüne kadar geçen süre

* **Frequency (sıklık):** Toplam satın alma sayısı.

* **Monetary (parasal değer):** Müşterinin yaptığı toplam harcama.