# Kural Tabanlı Sınıflandırma ile Potansiyel Müşteri Getirisi Hesaplama

* Bir oyun şirketi müşterilerinin bazı özelliklerini kullanarak seviye tabanlı (level based) yeni müşteri tanımları (persona) oluşturmak ve bu yeni müşteri tanımlarına göre segmentler oluşturup bu segmentlere göre yeni gelebilecek müşterilerin şirkete ortalama ne kadar kazandırabileceğini tahmin etmek istemektedir.
* Örneğin: Türkiye’den IOS kullanıcısı olan 25 yaşındaki bir erkek kullanıcının ortalama ne kadar kazandırabileceği belirlenmek isteniyor.

## Veri Seti Hikayesi

* Persona.csv veri seti uluslararası bir oyun şirketinin sattığı ürünlerin fiyatlarını ve bu ürünleri satın alan kullanıcıların bazı demografik bilgilerini barındırmaktadır. Veri seti her satış işleminde oluşan kayıtlardan meydana gelmektedir. Bunun anlamı tablo tekilleştirilmemiştir. Diğer bir ifade ile belirli demografik özelliklere sahip bir kullanıcı birden fazla alışveriş yapmış olabilir.

* PRICE SOURCE SEX COUNTRY AGE
* 39 android male bra 17
* 39 android male bra 17
* 49 android male bra 17
* 29 android male tur 17
* 49 android male tur 17

## Değişkenler

* persona.csv
* PRICE – Müşterinin harcama tutarı
* Değişkenler
* SOURCE – Müşterinin bağlandığı cihaz türü
* SEX – Müşterinin cinsiyeti
* COUNTRY – Müşterinin ülkesi
* AGE – Müşterinin yaşı

In [1]:
import seaborn as sns
import pandas as pd

## Proje Görevleri

### Görev 1: Aşağıdaki Soruları Yanıtlayınız

##### Soru 1: persona.csv dosyasını okutunuz ve veri seti ile ilgili genel bilgileri gösteriniz.

In [2]:
df = pd.read_csv("persona.csv")
df.head()

Unnamed: 0,PRICE,SOURCE,SEX,COUNTRY,AGE
0,39,android,male,bra,17
1,39,android,male,bra,17
2,49,android,male,bra,17
3,29,android,male,tur,17
4,49,android,male,tur,17


##### Soru 2: Kaç unique SOURCE vardır ? Frekansları nedir ?

In [3]:
print(df["SOURCE"].nunique())
print(df["SOURCE"].unique())

2
['android' 'ios']


##### Soru 3: Kaç unique PRICE vardır ?

In [4]:
df["PRICE"].nunique()

6

##### Soru 4: Hangi PRICE'dan kaçar tane satış gerçekleşmiş ?

In [5]:
df["PRICE"].value_counts()

29    1305
39    1260
49    1031
19     992
59     212
9      200
Name: PRICE, dtype: int64

##### Soru 5: Hangi ülkeden kaçar tane satış olmuş ?

In [6]:
df["COUNTRY"].value_counts()

usa    2065
bra    1496
deu     455
tur     451
fra     303
can     230
Name: COUNTRY, dtype: int64

##### Soru 6: Ülkelere göre satışlardan toplam ne kadar kazanılmış ?

In [7]:
df.groupby("COUNTRY").agg({"PRICE" : "sum"})

Unnamed: 0_level_0,PRICE
COUNTRY,Unnamed: 1_level_1
bra,51354
can,7730
deu,15485
fra,10177
tur,15689
usa,70225


##### Soru 7: SOURCE türlerine göre satış sayıları nedir ?

In [8]:
df.groupby("SOURCE").agg({"PRICE" : "count"})

Unnamed: 0_level_0,PRICE
SOURCE,Unnamed: 1_level_1
android,2974
ios,2026


##### Soru 8: Ülkelere göre PRICE ortalamaları nedir ?

In [9]:
df.groupby("COUNTRY").agg({"PRICE" : "mean"})

Unnamed: 0_level_0,PRICE
COUNTRY,Unnamed: 1_level_1
bra,34.32754
can,33.608696
deu,34.032967
fra,33.587459
tur,34.78714
usa,34.007264


##### Soru 9: SOURCE'lara göre PRICE ortalamaları nedir ?

In [10]:
df.groupby("SOURCE").agg({"PRICE" : "mean"})

Unnamed: 0_level_0,PRICE
SOURCE,Unnamed: 1_level_1
android,34.174849
ios,34.069102


##### Soru 10: COUNTRY-SOURCE kırılımında PRICE ortalamaları nedir ?

In [11]:
df.groupby(["SOURCE","COUNTRY"]).agg({"PRICE" : "mean"})

Unnamed: 0_level_0,Unnamed: 1_level_0,PRICE
SOURCE,COUNTRY,Unnamed: 2_level_1
android,bra,34.387029
android,can,33.330709
android,deu,33.869888
android,fra,34.3125
android,tur,36.229437
android,usa,33.760357
ios,bra,34.222222
ios,can,33.951456
ios,deu,34.268817
ios,fra,32.776224


### Görev 2: COUNTRY, SOURCE, SEX, AGE kırılımında ortalama kazançlar nedir ?

In [12]:
df.groupby(["SOURCE","COUNTRY","SEX","AGE"]).agg({"PRICE" : "mean"})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
SOURCE,COUNTRY,SEX,AGE,Unnamed: 4_level_1
android,bra,female,15,38.714286
android,bra,female,16,35.944444
android,bra,female,17,35.666667
android,bra,female,18,32.255814
android,bra,female,19,35.206897
...,...,...,...,...
ios,usa,male,42,30.250000
ios,usa,male,50,39.000000
ios,usa,male,53,34.000000
ios,usa,male,55,29.000000


### Görev 3: Çıktıyı PRICE’a göre sıralayınız.

* Önceki sorudaki çıktıyı daha iyi görebilmek için sort_values metodunu azalan olacak şekilde PRICE’a göre uygulayınız.
* Çıktıyı agg_df olarak kaydediniz.

In [13]:
agg_df = df.groupby(["SOURCE","COUNTRY","SEX","AGE"]).agg({"PRICE" : "mean"}).sort_values("PRICE", ascending=False)
agg_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
SOURCE,COUNTRY,SEX,AGE,Unnamed: 4_level_1
android,fra,female,24,59.0
android,usa,male,36,59.0
android,bra,male,46,59.0
ios,usa,male,32,54.0
android,deu,female,36,49.0
android,...,...,...,...
android,fra,male,18,19.0
ios,tur,male,47,19.0
android,can,female,27,19.0
ios,usa,female,38,19.0


### Görev 4: Indekste yer alan isimleri değişken ismine çeviriniz.

* Üçüncü sorunun çıktısında yer alan PRICE dışındaki tüm değişkenler index isimleridir. Bu isimleri değişken isimlerine çeviriniz.

In [14]:
agg_df = agg_df.reset_index()
agg_df

Unnamed: 0,SOURCE,COUNTRY,SEX,AGE,PRICE
0,android,fra,female,24,59.0
1,android,usa,male,36,59.0
2,android,bra,male,46,59.0
3,ios,usa,male,32,54.0
4,android,deu,female,36,49.0
...,...,...,...,...,...
343,android,fra,male,18,19.0
344,ios,tur,male,47,19.0
345,android,can,female,27,19.0
346,ios,usa,female,38,19.0


### Görev 5: Age değişkenini kategorik değişkene çeviriniz ve agg_df’e ekleyiniz.

* Age sayısal değişkenini kategorik değişkene çeviriniz.
* Aralıkları ikna edici şekilde oluşturunuz.
* Örneğin: ‘0_18', ‘19_23', '24_30', '31_40', '41_70'


In [15]:
agg_df["AGE"].describe()

count    348.000000
mean      28.258621
std       11.379075
min       15.000000
25%       19.000000
50%       25.000000
75%       34.000000
max       66.000000
Name: AGE, dtype: float64

In [16]:
bins = [0,18,23,30,40,agg_df["AGE"].max()]

In [17]:
mylabels = ["0_18","19_23","24_30","31_40","41_"+str(agg_df["AGE"].max())]

In [18]:
agg_df["age_cat"] = pd.cut(agg_df["AGE"], bins, labels = mylabels)

In [19]:
agg_df.head()

Unnamed: 0,SOURCE,COUNTRY,SEX,AGE,PRICE,age_cat
0,android,fra,female,24,59.0,24_30
1,android,usa,male,36,59.0,31_40
2,android,bra,male,46,59.0,41_66
3,ios,usa,male,32,54.0,31_40
4,android,deu,female,36,49.0,31_40


### Görev 6: Yeni seviye tabanlı müşterileri (persona) tanımlayınız.

* Yeni seviye tabanlı müşterileri (persona) tanımlayınız ve veri setine değişken olarak ekleyiniz.
* Yeni eklenecek değişkenin adı: customers_level_based
* Önceki soruda elde edeceğiniz çıktıdaki gözlemleri bir araya getirerek customers_level_based değişkenini oluşturmanız gerekmektedir.

In [20]:
agg_df.columns

Index(['SOURCE', 'COUNTRY', 'SEX', 'AGE', 'PRICE', 'age_cat'], dtype='object')

In [24]:
agg_df["customers_level_based"] = [row[0].upper() + "_" + row[1].upper() + "_" + row[2].upper() + "_" + row[5].upper() for row in agg_df.values]

In [25]:
agg_df.head()

Unnamed: 0,SOURCE,COUNTRY,SEX,AGE,PRICE,age_cat,customers_level_based
0,android,fra,female,24,59.0,24_30,ANDROID_FRA_FEMALE_24_30
1,android,usa,male,36,59.0,31_40,ANDROID_USA_MALE_31_40
2,android,bra,male,46,59.0,41_66,ANDROID_BRA_MALE_41_66
3,ios,usa,male,32,54.0,31_40,IOS_USA_MALE_31_40
4,android,deu,female,36,49.0,31_40,ANDROID_DEU_FEMALE_31_40


In [26]:
agg_df = agg_df[["customers_level_based","PRICE"]]
agg_df.head()

Unnamed: 0,customers_level_based,PRICE
0,ANDROID_FRA_FEMALE_24_30,59.0
1,ANDROID_USA_MALE_31_40,59.0
2,ANDROID_BRA_MALE_41_66,59.0
3,IOS_USA_MALE_31_40,54.0
4,ANDROID_DEU_FEMALE_31_40,49.0


In [27]:
agg_df["customers_level_based"].value_counts()

IOS_USA_FEMALE_24_30        7
ANDROID_BRA_FEMALE_24_30    7
ANDROID_BRA_MALE_24_30      7
ANDROID_USA_MALE_24_30      7
ANDROID_USA_MALE_41_66      7
                           ..
IOS_FRA_MALE_41_66          1
ANDROID_TUR_MALE_41_66      1
IOS_BRA_MALE_24_30          1
IOS_TUR_FEMALE_41_66        1
ANDROID_CAN_FEMALE_24_30    1
Name: customers_level_based, Length: 109, dtype: int64

In [29]:
agg_df = agg_df.groupby("customers_level_based").agg({"PRICE": "mean"})
agg_df.reset_index()
agg_df

Unnamed: 0_level_0,PRICE
customers_level_based,Unnamed: 1_level_1
ANDROID_BRA_FEMALE_0_18,35.645303
ANDROID_BRA_FEMALE_19_23,34.077340
ANDROID_BRA_FEMALE_24_30,33.863946
ANDROID_BRA_FEMALE_31_40,34.898326
ANDROID_BRA_FEMALE_41_66,36.737179
...,...
IOS_USA_MALE_0_18,33.983495
IOS_USA_MALE_19_23,34.901872
IOS_USA_MALE_24_30,34.838143
IOS_USA_MALE_31_40,36.206324


### Görev 7: Yeni müşterileri (personaları) segmentlere ayırınız.

* Yeni müşterileri (Örnek: USA_ANDROID_MALE_0_18) PRICE’a göre 4 segmente ayırınız.
* Segmentleri SEGMENT isimlendirmesi ile değişken olarak agg_df’e ekleyiniz.
* Segmentleri betimleyiniz (Segmentlere göre group by yapıp price mean, max, sum’larını alınız).

In [31]:
agg_df["SEGMENT"] = pd.qcut(agg_df["PRICE"], 4, labels = ["D","C","B","A"])
agg_df.head()

Unnamed: 0_level_0,PRICE,SEGMENT
customers_level_based,Unnamed: 1_level_1,Unnamed: 2_level_1
ANDROID_BRA_FEMALE_0_18,35.645303,B
ANDROID_BRA_FEMALE_19_23,34.07734,C
ANDROID_BRA_FEMALE_24_30,33.863946,C
ANDROID_BRA_FEMALE_31_40,34.898326,B
ANDROID_BRA_FEMALE_41_66,36.737179,A


In [33]:
agg_df.groupby("SEGMENT").agg({"PRICE" : ["mean","max","sum"]})

Unnamed: 0_level_0,PRICE,PRICE,PRICE
Unnamed: 0_level_1,mean,max,sum
SEGMENT,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
D,29.20678,32.333333,817.789833
C,33.509674,34.07734,904.761209
B,34.999645,36.0,944.990411
A,38.691234,45.428571,1044.663328


### Görev 8: Yeni gelen müşterileri sınıflandırıp, ne kadar gelir getirebileceklerini tahmin ediniz.

* 33 yaşında ANDROID kullanan bir Türk kadını hangi segmente aittir ve ortalama ne kadar gelir kazandırması beklenir?
* 35 yaşında IOS kullanan bir Fransız kadını hangi segmente aittir ve ortalama ne kadar gelir kazandırması beklenir?

In [47]:
yeni_musteri = "ANDROID_TUR_FEMALE_31_40"

In [48]:
agg_df = agg_df.reset_index()

In [49]:
agg_df[agg_df["customers_level_based"] == yeni_musteri]

Unnamed: 0,index,customers_level_based,PRICE,SEGMENT
39,39,ANDROID_TUR_FEMALE_31_40,41.833333,A


In [50]:
yeni_musteri = "IOS_FRA_FEMALE_31_40"

In [51]:
agg_df[agg_df["customers_level_based"] == yeni_musteri]

Unnamed: 0,index,customers_level_based,PRICE,SEGMENT
83,83,IOS_FRA_FEMALE_31_40,32.818182,C
