# Kural Tabanlı Sınıflandırma ile Potansiyel Müşteri Getirisi Hesaplama

#############################################
### İş Problemi

Gezinomi yaptığı satışların bazı özelliklerini kullanarak seviye tabanlı (level based) yeni satış tanımları oluşturmak ve bu yeni satış tanımlarına göre segmentler oluşturup bu segmentlere göre yeni gelebilecek müşterilerin şirkete ortalama ne kadar kazandırabileceğini tahmin etmek istemektedir.


Örneğin: Antalya’dan Herşey Dahil bir otele yoğun bir dönemde gitmek isteyen bir müşterinin ortalama ne kadar kazandırabileceği belirlenmek isteniyor.

#############################################

In [35]:
# Kütüphanemizi import edelim;

import pandas as pd

# Pandas ayarlamalarımızı yapaılım;

pd.set_option("display.max_rows", None)                       # Bütün satırları görmek istersek bu kodu çalıştırırız.
pd.set_option("display.max_columns", None)                      # Bütün sütunları görmek için 

In [36]:
# Verimizi okutalım;

df = pd.read_excel('datasets/miuul_gezinomi.xlsx')

# Virgülden sonra iki basamak görmek için 
pd.set_option('display.float_format', lambda x: '%.2f' % x)

# Verimize hızlı bir bakış atalım;
df.head()

Unnamed: 0,SaleId,SaleDate,CheckInDate,Price,ConceptName,SaleCityName,CInDay,SaleCheckInDayDiff,Seasons
0,415122,2022-12-03,2022-12-03,79.3,Herşey Dahil,Antalya,Saturday,0,Low
1,415103,2022-12-03,2022-12-03,45.97,Yarım Pansiyon,Antalya,Saturday,0,Low
2,404034,2022-09-12,2022-09-13,77.84,Herşey Dahil,Antalya,Tuesday,1,High
3,415094,2022-12-03,2022-12-10,222.71,Yarım Pansiyon,İzmir,Saturday,7,Low
4,414951,2022-12-01,2022-12-03,140.48,Yarım Pansiyon,İzmir,Saturday,2,Low


In [37]:
# Verimizin boyutuna bakalım;

df.shape

(59164, 9)

In [38]:
# Değişkenlerimize bakalım;

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 59164 entries, 0 to 59163
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   SaleId              59164 non-null  int64         
 1   SaleDate            59164 non-null  datetime64[ns]
 2   CheckInDate         59164 non-null  datetime64[ns]
 3   Price               59151 non-null  float64       
 4   ConceptName         59164 non-null  object        
 5   SaleCityName        59164 non-null  object        
 6   CInDay              59164 non-null  object        
 7   SaleCheckInDayDiff  59164 non-null  int64         
 8   Seasons             59164 non-null  object        
dtypes: datetime64[ns](2), float64(1), int64(2), object(4)
memory usage: 4.1+ MB


    Yukarıda görülüyor ki 8 farklı değişkenimiz var ve boş değerimiz yok.

In [None]:
# SaleId                : Satış id
# SaleDate              : Satış Tarihi
# Price                 : Satış için ödenen fiyat
# ConceptName           : Otel konsept bilgisi
# SaleCityName          : Otelin bulunduğu şehir bilgisi
# CheckInDate           : Müşterinin otelegirişitarihi
# CInDay                : Müşterinin otele giriş günü
# SaleCheckInDayDiff    : Check in ile giriş tarihi gün farkı
# Season                : Otele giriş tarihindeki sezon bilgisi

In [39]:
# Veri setinde kaç farklı şehir olduğuna bakalım;
print(df["SaleCityName"].nunique())

print("~~~~~~~~~~~~~~~~~")
# Bu şehirlerin frekansına bakalım;
print(df["SaleCityName"].value_counts())

6
~~~~~~~~~~~~~~~~~
Antalya    31649
Muğla      10662
Aydın      10646
Diğer       3245
İzmir       2507
Girne        455
Name: SaleCityName, dtype: int64


    6 farklı şehir var ve insanlar en çok antalyaya gitmeyi tercih ederken, en az gitmeyi tercih ettikleri yer ise Girneymiş.

In [40]:
# Kaç unique Concept olduğuna bakalım;
print(df["ConceptName"].nunique())

print("~~~~~~~~~~~~~~~~~~~~~~~~~~")
# Hangi Concept'dan kaçar tane satış gerçekleştiğine bakalım;
print(df["ConceptName"].value_counts())

3
~~~~~~~~~~~~~~~~~~~~~~~~~~
Herşey Dahil      53186
Yarım Pansiyon     3559
Oda + Kahvaltı     2419
Name: ConceptName, dtype: int64


    3 farklı konsept olup, müşteriler genel olarak "Herşey Dahil" tatili tercih ediyormuş.

In [41]:
# Toplam satışlara şehir kırılımında bakalım;
df.groupby("SaleCityName").agg({"Price": "sum"}).sort_values(by="Price", ascending=False)

Unnamed: 0_level_0,Price
SaleCityName,Unnamed: 1_level_1
Antalya,2041911.1
Muğla,665842.21
Aydın,573296.01
İzmir,165934.83
Diğer,154572.29
Girne,27065.03


    En çok para kazanılan il Antalya iken, en az para kazanılan lokasyonun ise Girne olduğunu görüyoruz. Zaten doğal olarak insanların en çok Antalya'yı tercih etmesinden de bunu kestirebilirdik.

In [42]:
# Toplam satışlara konsept kırılımında bakalım;
df.groupby("ConceptName").agg({"Price": "sum"}).sort_values(by="Price", ascending=False)

Unnamed: 0_level_0,Price
ConceptName,Unnamed: 1_level_1
Herşey Dahil,3332910.77
Yarım Pansiyon,174402.35
Oda + Kahvaltı,121308.35


In [43]:
# Ortalama tatil fiyatına şehir kırılımında bakalım;
df.groupby(by=['SaleCityName']).agg({"Price": "mean"}).sort_values(by="Price", ascending=False)

Unnamed: 0_level_0,Price
SaleCityName,Unnamed: 1_level_1
İzmir,66.27
Antalya,64.52
Muğla,62.46
Girne,59.48
Aydın,53.86
Diğer,47.71


    En pahalı lokasyon İzmir olarak gözükmektedir.

In [44]:
# Ortalama tatil fiyatına concept kırılımında bakalım;
df.groupby(by=['ConceptName']).agg({"Price": "mean"}).sort_values(by="Price", ascending=False)

Unnamed: 0_level_0,Price
ConceptName,Unnamed: 1_level_1
Herşey Dahil,62.67
Oda + Kahvaltı,50.25
Yarım Pansiyon,49.03


    Yukarıda ortalama olarak bakılıdığında "Oda + Kahvaltı"nın "Yarım Pansiyon"dan daha pahalı olduğu gözükmektedir.

In [45]:
#  Şehir-Concept kırılımında PRICE ortalamaları nedir?
df.groupby(by=["SaleCityName", 'ConceptName']).agg({"Price": "mean"}).  \
    sort_values(by=["SaleCityName", "ConceptName"], ascending=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,Price
SaleCityName,ConceptName,Unnamed: 2_level_1
Antalya,Herşey Dahil,64.52
Antalya,Oda + Kahvaltı,63.5
Antalya,Yarım Pansiyon,67.19
Aydın,Herşey Dahil,54.0
Aydın,Oda + Kahvaltı,34.46
Aydın,Yarım Pansiyon,30.02
Diğer,Herşey Dahil,84.77
Diğer,Oda + Kahvaltı,37.6
Diğer,Yarım Pansiyon,42.11
Girne,Herşey Dahil,97.68


    Girne'de "Tam Pansiyon" tatilin eksra pahalı olduğu gözüküyor.
    Aydın'da da "Yarım Pansiyon" tatilin uygun olduğunu söyleyebiliriz.

In [46]:
# Değişkenlerimizden biri de "SaleCheckInDayDiff" değişkeni, 
# yani satış yapıldıktan kaç gün sonra check in yapıldığını ifade eden bir değişken.

# Bu değişkeni kategorik bir değişken haline getirip isimlendireceğiz;

# Aralıklarımızı tanımlayalım;
bins = [-1, 7, 30, 90, df["SaleCheckInDayDiff"].max()]  
# Eğer ki bin'i 0'dan başlatırsak "SaleCheckInDayDiff" değişkeni 0 olan gözlemler için sınıflandırma yapılamaz.
# Dilerseniz 0 yapıp değişimi gözlemleyebilirsiniz.

# Atayacağımız isimleri tanımlayalım;
labels = ["Last Minuters", "Potential Planners", "Planners", "Early Bookers"]

# Şimdi kategorik değişken dönüşümünü yapalım;

df["EB_Score"] = pd.cut(df["SaleCheckInDayDiff"], bins, labels=labels)
df.head(10)

Unnamed: 0,SaleId,SaleDate,CheckInDate,Price,ConceptName,SaleCityName,CInDay,SaleCheckInDayDiff,Seasons,EB_Score
0,415122,2022-12-03,2022-12-03,79.3,Herşey Dahil,Antalya,Saturday,0,Low,Last Minuters
1,415103,2022-12-03,2022-12-03,45.97,Yarım Pansiyon,Antalya,Saturday,0,Low,Last Minuters
2,404034,2022-09-12,2022-09-13,77.84,Herşey Dahil,Antalya,Tuesday,1,High,Last Minuters
3,415094,2022-12-03,2022-12-10,222.71,Yarım Pansiyon,İzmir,Saturday,7,Low,Last Minuters
4,414951,2022-12-01,2022-12-03,140.48,Yarım Pansiyon,İzmir,Saturday,2,Low,Last Minuters
5,415091,2022-12-03,2022-12-03,70.27,Yarım Pansiyon,İzmir,Saturday,0,Low,Last Minuters
6,415085,2022-12-03,2022-12-09,45.79,Yarım Pansiyon,Antalya,Friday,6,Low,Last Minuters
7,415084,2022-12-03,2022-12-03,51.24,Herşey Dahil,Antalya,Saturday,0,Low,Last Minuters
8,415081,2022-12-03,2022-12-04,77.29,Yarım Pansiyon,İzmir,Sunday,1,Low,Last Minuters
9,415079,2022-12-03,2022-12-03,68.68,Yarım Pansiyon,Diğer,Saturday,0,Low,Last Minuters


In [48]:
df.groupby(by=["EB_Score" ]).agg({"Price": ["mean", "count"]})

Unnamed: 0_level_0,Price,Price
Unnamed: 0_level_1,mean,count
EB_Score,Unnamed: 1_level_2,Unnamed: 2_level_2
Last Minuters,59.57,26558
Potential Planners,61.3,16617
Planners,64.77,9182
Early Bookers,63.76,6794


    Müşteriler genel olarak "Last Minuters" olmakla birlikte, fiaytlar arasındaki marj (kişisel bir yorum) ççok da fazla olmadığı gözükmektedir.

In [47]:
# Şehir-Concept-EB Score kırılımında ücret ortalamalarına bakalım;
df.groupby(by=["SaleCityName", 'ConceptName', "EB_Score" ]).agg({"Price": ["mean", "count"]})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Price,Price
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean,count
SaleCityName,ConceptName,EB_Score,Unnamed: 3_level_2,Unnamed: 4_level_2
Antalya,Herşey Dahil,Last Minuters,62.75,14148
Antalya,Herşey Dahil,Potential Planners,64.9,8874
Antalya,Herşey Dahil,Planners,67.88,4490
Antalya,Herşey Dahil,Early Bookers,66.49,3281
Antalya,Oda + Kahvaltı,Last Minuters,65.35,503
Antalya,Oda + Kahvaltı,Potential Planners,57.74,75
Antalya,Oda + Kahvaltı,Planners,39.85,15
Antalya,Oda + Kahvaltı,Early Bookers,35.0,5
Antalya,Yarım Pansiyon,Last Minuters,70.43,204
Antalya,Yarım Pansiyon,Potential Planners,55.64,39


In [49]:
# Şehir-Concept-Sezon kırılımında ücret ortalamalarına bakalım;
df.groupby(by=["SaleCityName", "ConceptName", "Seasons"]).agg({"Price": ["mean", "count"]})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Price,Price
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean,count
SaleCityName,ConceptName,Seasons,Unnamed: 3_level_2,Unnamed: 4_level_2
Antalya,Herşey Dahil,High,64.92,27126
Antalya,Herşey Dahil,Low,61.55,3667
Antalya,Oda + Kahvaltı,High,66.27,303
Antalya,Oda + Kahvaltı,Low,60.67,295
Antalya,Yarım Pansiyon,High,73.26,118
Antalya,Yarım Pansiyon,Low,62.0,138
Aydın,Herşey Dahil,High,54.95,10103
Aydın,Herşey Dahil,Low,33.68,473
Aydın,Oda + Kahvaltı,High,30.39,27
Aydın,Oda + Kahvaltı,Low,44.45,11


In [50]:
# Şehir-Concept-CInday kırılımında ücret ortalamalarına bakalım;
df.groupby(by=["SaleCityName", "ConceptName", "CInDay"]).agg({"Price": ["mean", "count"]})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Price,Price
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean,count
SaleCityName,ConceptName,CInDay,Unnamed: 3_level_2,Unnamed: 4_level_2
Antalya,Herşey Dahil,Friday,62.66,4136
Antalya,Herşey Dahil,Monday,63.26,6831
Antalya,Herşey Dahil,Saturday,64.42,4741
Antalya,Herşey Dahil,Sunday,65.85,3818
Antalya,Herşey Dahil,Thursday,62.89,3898
Antalya,Herşey Dahil,Tuesday,66.77,3760
Antalya,Herşey Dahil,Wednesday,67.17,3609
Antalya,Oda + Kahvaltı,Friday,63.13,114
Antalya,Oda + Kahvaltı,Monday,57.17,66
Antalya,Oda + Kahvaltı,Saturday,58.01,117


In [51]:
# İki önceki kısımdaki çıktıyı çıktıyı daha iyi görebilmek için price'ı azalan bir şekilde sıralayalım;

agg_df = df.groupby(["SaleCityName", "ConceptName", "Seasons"]).agg({"Price": "mean"}). \
    sort_values("Price", ascending=False)

agg_df.head(20)


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Price
SaleCityName,ConceptName,Seasons,Unnamed: 3_level_1
Girne,Herşey Dahil,High,103.94
Girne,Herşey Dahil,Low,90.94
İzmir,Yarım Pansiyon,High,87.66
Diğer,Herşey Dahil,Low,87.31
Diğer,Herşey Dahil,High,83.79
İzmir,Herşey Dahil,High,74.75
İzmir,Herşey Dahil,Low,74.31
Antalya,Yarım Pansiyon,High,73.26
Antalya,Oda + Kahvaltı,High,66.27
Antalya,Herşey Dahil,High,64.92


In [52]:
# agg_df'deki indeksleri değişkene çevirelim;

agg_df.reset_index(inplace=True)
agg_df.head()

Unnamed: 0,SaleCityName,ConceptName,Seasons,Price
0,Girne,Herşey Dahil,High,103.94
1,Girne,Herşey Dahil,Low,90.94
2,İzmir,Yarım Pansiyon,High,87.66
3,Diğer,Herşey Dahil,Low,87.31
4,Diğer,Herşey Dahil,High,83.79


In [55]:
# Yeni level based satışları tanımlayalım ve veri setine değişken olarak ekleyelim;

agg_df['sales_level_based'] = agg_df[["SaleCityName", "ConceptName", "Seasons"]].   \
    agg(lambda x: '_'.join(x).upper(), axis=1)
agg_df.head(10)

Unnamed: 0,SaleCityName,ConceptName,Seasons,Price,sales_level_based
0,Girne,Herşey Dahil,High,103.94,GIRNE_HERŞEY DAHIL_HIGH
1,Girne,Herşey Dahil,Low,90.94,GIRNE_HERŞEY DAHIL_LOW
2,İzmir,Yarım Pansiyon,High,87.66,İZMIR_YARIM PANSIYON_HIGH
3,Diğer,Herşey Dahil,Low,87.31,DIĞER_HERŞEY DAHIL_LOW
4,Diğer,Herşey Dahil,High,83.79,DIĞER_HERŞEY DAHIL_HIGH
5,İzmir,Herşey Dahil,High,74.75,İZMIR_HERŞEY DAHIL_HIGH
6,İzmir,Herşey Dahil,Low,74.31,İZMIR_HERŞEY DAHIL_LOW
7,Antalya,Yarım Pansiyon,High,73.26,ANTALYA_YARIM PANSIYON_HIGH
8,Antalya,Oda + Kahvaltı,High,66.27,ANTALYA_ODA + KAHVALTI_HIGH
9,Antalya,Herşey Dahil,High,64.92,ANTALYA_HERŞEY DAHIL_HIGH


In [56]:
#  Personları PRICE'a göre segmentlere ayıralım;

agg_df["SEGMENT"] = pd.qcut(agg_df["Price"], 4, labels=["D", "C", "B", "A"])
agg_df

Unnamed: 0,SaleCityName,ConceptName,Seasons,Price,sales_level_based,SEGMENT
0,Girne,Herşey Dahil,High,103.94,GIRNE_HERŞEY DAHIL_HIGH,A
1,Girne,Herşey Dahil,Low,90.94,GIRNE_HERŞEY DAHIL_LOW,A
2,İzmir,Yarım Pansiyon,High,87.66,İZMIR_YARIM PANSIYON_HIGH,A
3,Diğer,Herşey Dahil,Low,87.31,DIĞER_HERŞEY DAHIL_LOW,A
4,Diğer,Herşey Dahil,High,83.79,DIĞER_HERŞEY DAHIL_HIGH,A
5,İzmir,Herşey Dahil,High,74.75,İZMIR_HERŞEY DAHIL_HIGH,A
6,İzmir,Herşey Dahil,Low,74.31,İZMIR_HERŞEY DAHIL_LOW,A
7,Antalya,Yarım Pansiyon,High,73.26,ANTALYA_YARIM PANSIYON_HIGH,A
8,Antalya,Oda + Kahvaltı,High,66.27,ANTALYA_ODA + KAHVALTI_HIGH,A
9,Antalya,Herşey Dahil,High,64.92,ANTALYA_HERŞEY DAHIL_HIGH,B


In [66]:
# Segment kırılımında fiyatları inceleyelim;
agg_df.groupby("SEGMENT").agg({"Price": ["mean", "max", "sum"]}).sort_values(by="SEGMENT", ascending=False)

Unnamed: 0_level_0,Price,Price,Price
Unnamed: 0_level_1,mean,max,sum
SEGMENT,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,82.47,103.94,742.21
B,60.27,64.92,542.47
C,44.89,54.14,403.99
D,33.37,39.48,300.3


In [68]:
# agg_df'yi price'a göre sıralayalım;
agg_df.sort_values(by="Price", ascending=False)

Unnamed: 0,SaleCityName,ConceptName,Seasons,Price,sales_level_based,SEGMENT
0,Girne,Herşey Dahil,High,103.94,GIRNE_HERŞEY DAHIL_HIGH,A
1,Girne,Herşey Dahil,Low,90.94,GIRNE_HERŞEY DAHIL_LOW,A
2,İzmir,Yarım Pansiyon,High,87.66,İZMIR_YARIM PANSIYON_HIGH,A
3,Diğer,Herşey Dahil,Low,87.31,DIĞER_HERŞEY DAHIL_LOW,A
4,Diğer,Herşey Dahil,High,83.79,DIĞER_HERŞEY DAHIL_HIGH,A
5,İzmir,Herşey Dahil,High,74.75,İZMIR_HERŞEY DAHIL_HIGH,A
6,İzmir,Herşey Dahil,Low,74.31,İZMIR_HERŞEY DAHIL_LOW,A
7,Antalya,Yarım Pansiyon,High,73.26,ANTALYA_YARIM PANSIYON_HIGH,A
8,Antalya,Oda + Kahvaltı,High,66.27,ANTALYA_ODA + KAHVALTI_HIGH,A
9,Antalya,Herşey Dahil,High,64.92,ANTALYA_HERŞEY DAHIL_HIGH,B


In [69]:
# "ANTALYA_HERŞEY DAHIL_HIGH" hangi segmenttedir ve ne kadar ücret beklenmektedir?

new_user = "ANTALYA_HERŞEY DAHIL_HIGH"
agg_df[agg_df["sales_level_based"] == new_user]

Unnamed: 0,SaleCityName,ConceptName,Seasons,Price,sales_level_based,SEGMENT
9,Antalya,Herşey Dahil,High,64.92,ANTALYA_HERŞEY DAHIL_HIGH,B
