# Kural Tabanlı Sınıflandırma ile Potansiyel Müşteri Getirisi Hesaplama

# İş Problemi
Bir oyun şirketi müşterilerinin bazı özelliklerini kullanarak
seviye tabanlı (level based) yeni müşteri tanımları (persona)
oluşturmak ve bu yeni müşteri tanımlarına göre segmentler
oluşturup bu segmentlere göre yeni gelebilecek müşterilerin
şirkete ortalama ne kadar kazandırabileceğini tahmin etmek
istemektedir.

Örneğin:
Türkiye’den IOS kullanıcısı olan 25 yaşındaki bir erkek
kullanıcının ortalama ne kadar kazandırabileceği belirlenmek
isteniyor.

# Veri Seti Hikayesi
Persona.csv veri seti uluslararası bir oyun şirketinin sattığı ürünlerin fiyatlarını ve bu
ürünleri satın alan kullanıcıların bazı demografik bilgilerini barındırmaktadır. Veri
seti her satış işleminde oluşan kayıtlardan meydana gelmektedir. Bunun anlamı
tablo tekilleştirilmemiştir. Diğer bir ifade ile belirli demografik özelliklere sahip bir
kullanıcı birden fazla alışveriş yapmış olabilir.

# Değişkenler
- PRICE – Müşterinin harcama tutarı
- SOURCE – Müşterinin bağlandığı cihaz türü
- SEX – Müşterinin cinsiyeti
- COUNTRY – Müşterinin ülkesi
- AGE – Müşterinin yaşı

# GÖREV 1 

Soru 1: persona.csv dosyasını okutunuz ve veri seti ile ilgili genel bilgileri gösteriniz.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv("persona.csv")
df.head()

Unnamed: 0,PRICE,SOURCE,SEX,COUNTRY,AGE
0,39,android,male,bra,17
1,39,android,male,bra,17
2,49,android,male,bra,17
3,29,android,male,tur,17
4,49,android,male,tur,17



Soru 2: Kaç unique SOURCE vardır? Frekansları nedir?

In [2]:
df["SOURCE"].nunique()

2

Soru 3: Kaç unique PRICE vardır?


In [4]:
df["PRICE"].nunique()

6

Soru 4: Hangi PRICE'dan kaçar tane satış gerçekleşmiş?


In [5]:
df["PRICE"].value_counts()

29    1305
39    1260
49    1031
19     992
59     212
9      200
Name: PRICE, dtype: int64

Soru 5: Hangi ülkeden kaçar tane satış olmuş?


In [6]:
df.groupby("COUNTRY").PRICE.count()

COUNTRY
bra    1496
can     230
deu     455
fra     303
tur     451
usa    2065
Name: PRICE, dtype: int64

Soru 6: Ülkelere göre satışlardan toplam ne kadar kazanılmış?


In [7]:
df.groupby("COUNTRY").PRICE.sum()

COUNTRY
bra    51354
can     7730
deu    15485
fra    10177
tur    15689
usa    70225
Name: PRICE, dtype: int64

Soru 7: SOURCE türlerine göre satış sayıları nedir?


In [8]:
df["SOURCE"].value_counts()

android    2974
ios        2026
Name: SOURCE, dtype: int64

Soru 8: Ülkelere göre PRICE ortalamaları nedir?


In [9]:
df.groupby("COUNTRY").agg({"PRICE": "mean"})

Unnamed: 0_level_0,PRICE
COUNTRY,Unnamed: 1_level_1
bra,34.32754
can,33.608696
deu,34.032967
fra,33.587459
tur,34.78714
usa,34.007264


Soru 9: SOURCE'lara göre PRICE ortalamaları nedir?


In [10]:
df.groupby("SOURCE").agg({"PRICE": "mean"})

Unnamed: 0_level_0,PRICE
SOURCE,Unnamed: 1_level_1
android,34.174849
ios,34.069102


Soru 10: COUNTRY-SOURCE kırılımında PRICE ortalamaları nedir?


In [12]:
df.groupby(["COUNTRY","SOURCE"]).agg({"PRICE": "mean"})

Unnamed: 0_level_0,Unnamed: 1_level_0,PRICE
COUNTRY,SOURCE,Unnamed: 2_level_1
bra,android,34.387029
bra,ios,34.222222
can,android,33.330709
can,ios,33.951456
deu,android,33.869888
deu,ios,34.268817
fra,android,34.3125
fra,ios,32.776224
tur,android,36.229437
tur,ios,33.272727


## Görev 2
COUNTRY, SOURCE, SEX, AGE kırılımında ortalama kazanç nedir?


In [13]:
df.groupby(["COUNTRY", "SOURCE", "SEX", "AGE"]).agg({"PRICE": "mean"})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
COUNTRY,SOURCE,SEX,AGE,Unnamed: 4_level_1
bra,android,female,15,38.714286
bra,android,female,16,35.944444
bra,android,female,17,35.666667
bra,android,female,18,32.255814
bra,android,female,19,35.206897
...,...,...,...,...
usa,ios,male,42,30.250000
usa,ios,male,50,39.000000
usa,ios,male,53,34.000000
usa,ios,male,55,29.000000


## Görev 3
Önceki sorudaki çıktıyı daha iyi görebilmek için sort_values metodunu azalan olacak şekilde PRICE'a göre uygulayınız.
Çıktıyı agg_df olarak kaydediniz.

In [14]:
agg_df = df.groupby(["COUNTRY", "SOURCE", "SEX", "AGE"]).agg({"PRICE": "mean"}).sort_values("PRICE", ascending=False)
agg_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
COUNTRY,SOURCE,SEX,AGE,Unnamed: 4_level_1
bra,android,male,46,59.0
usa,android,male,36,59.0
fra,android,female,24,59.0
usa,ios,male,32,54.0
deu,android,female,36,49.0
...,...,...,...,...
usa,ios,female,38,19.0
usa,ios,female,30,19.0
can,android,female,27,19.0
fra,android,male,18,19.0


### Görev 4 
Üçüncü sorunun çıktısında yer alan PRICE dışındaki tüm değişkenler index isimleridir. Bu isimleri değişken isimlerine çeviriniz.


In [15]:
agg_df = agg_df.reset_index()
agg_df

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE
0,bra,android,male,46,59.0
1,usa,android,male,36,59.0
2,fra,android,female,24,59.0
3,usa,ios,male,32,54.0
4,deu,android,female,36,49.0
...,...,...,...,...,...
343,usa,ios,female,38,19.0
344,usa,ios,female,30,19.0
345,can,android,female,27,19.0
346,fra,android,male,18,19.0


## Görev 5: 
Age değişkenini kategorik değişkene çeviriniz ve agg_df’e ekleyiniz.

 • Aralıkları ikna edici şekilde oluşturunuz.
 
 • Örneğin: ‘0_18', ‘19_23', '24_30', '31_40', '41_70'

In [16]:
myLabels = ["0_18", "19_23", "24_30", "31_40", "41_70"]
agg_df["AGE_CAT"] = pd.cut(agg_df.AGE, bins=[0, 18, 23, 30, 40, 70], labels=myLabels)
agg_df.head()

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE,AGE_CAT
0,bra,android,male,46,59.0,41_70
1,usa,android,male,36,59.0,31_40
2,fra,android,female,24,59.0,24_30
3,usa,ios,male,32,54.0,31_40
4,deu,android,female,36,49.0,31_40


## Görev 6
Yeni seviye tabanlı müşterileri (persona) tanımlayınız.

• Yeni seviye tabanlı müşterileri (persona) tanımlayınız ve veri setine değişken olarak ekleyiniz.

• Yeni eklenecek değişkenin adı: customers_level_based

• Önceki soruda elde edeceğiniz çıktıdaki gözlemleri bir araya getirerek customers_level_based değişkenini oluşturmanız gerekmektedir.

In [17]:
agg_df["customer_level_based"] = agg_df[["COUNTRY", "SOURCE", "SEX", "AGE_CAT"]].apply("_".join, axis=1)
agg_df.customer_level_based.value_counts()
new_persona = agg_df.groupby("customer_level_based").agg({"PRICE": "mean"})
new_persona.reset_index(inplace=True)
new_persona.customer_level_based.value_counts()
new_persona["customer_level_based"] = new_persona.customer_level_based.apply(lambda x: x.upper())
new_persona.head()

Unnamed: 0,customer_level_based,PRICE
0,BRA_ANDROID_FEMALE_0_18,35.645303
1,BRA_ANDROID_FEMALE_19_23,34.07734
2,BRA_ANDROID_FEMALE_24_30,33.863946
3,BRA_ANDROID_FEMALE_31_40,34.898326
4,BRA_ANDROID_FEMALE_41_70,36.737179


## Görev 7
Yeni müşterileri (personaları) segmentlere ayırınız.

• Yeni müşterileri (Örnek: USA_ANDROID_MALE_0_18) PRICE’a göre 4 segmente ayırınız.

• Segmentleri SEGMENT isimlendirmesi ile değişken olarak agg_df’e ekleyiniz.

• Segmentleri betimleyiniz (Segmentlere göre group by yapıp price mean, max, sum’larını alınız).

In [19]:
new_persona["SEGMENT"] = pd.qcut(new_persona["PRICE"], 4, labels=["D", "C", "B", "A"])
new_persona.groupby("SEGMENT").agg({"PRICE": ["mean", "max", "sum"]})

Unnamed: 0_level_0,PRICE,PRICE,PRICE
Unnamed: 0_level_1,mean,max,sum
SEGMENT,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
D,29.20678,32.333333,817.789833
C,33.509674,34.07734,904.761209
B,34.999645,36.0,944.990411
A,38.691234,45.428571,1044.663328


## Görev 8

Yeni gelen müşterileri sınıflandırıp, ne kadar gelir getirebileceklerini tahmin ediniz.

• 33 yaşında ANDROID kullanan bir Türk kadını hangi segmente aittir ve ortalama ne kadar gelir kazandırması beklenir?

• 35 yaşında IOS kullanan bir Fransız kadını hangi segmente aittir ve ortalama ne kadar gelir kazandırması beklenir?

In [21]:
user1 = "TUR_ANDROID_FEMALE_31_40"
new_persona[new_persona.customer_level_based == user1]

Unnamed: 0,customer_level_based,PRICE,SEGMENT
72,TUR_ANDROID_FEMALE_31_40,41.833333,A


In [22]:
user2 = "FRA_IOS_FEMALE_31_40"
new_persona[new_persona.customer_level_based == user2]


Unnamed: 0,customer_level_based,PRICE,SEGMENT
63,FRA_IOS_FEMALE_31_40,32.818182,C
