# Kural Tabanlı Sınıflandırma ile Potansiyel Müşteri Getirisi Hesaplama

## İş Problemi: Bir oyun şirketi müşterilerinin bazı özelliklerini kullanarak seviye tabanlı (level based) yeni müşteri tanımları (persona) oluşturmak ve bu yeni müşteri tanımlarına göre segmentler oluşturup bu segmentlere göre yeni gelebilecek müşterilerin şirkete ortalama ne kadar kazandırabileceğini tahmin etmek istemektedir.

## Örneğin: Türkiye’den IOS kullanıcısı olan 25 yaşındaki bir erkek kullanıcının ortalama ne kadar kazandırabileceği belirlenmek isteniyor.


### Görev 1: Aşağıdaki Soruları Yanıtlayınız


In [1]:
import pandas as pd
pd.set_option("display.max_rows", None)

In [2]:
# Soru 1: persona.csv dosyasını okutunuz ve veri seti ile ilgili genel bilgileri gösteriniz.

In [3]:
df = pd.read_csv("/content/persona.csv")

In [4]:
df.head()

Unnamed: 0,PRICE,SOURCE,SEX,COUNTRY,AGE
0,39,android,male,bra,17
1,39,android,male,bra,17
2,49,android,male,bra,17
3,29,android,male,tur,17
4,49,android,male,tur,17


In [5]:
df.shape

(5000, 5)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   PRICE    5000 non-null   int64 
 1   SOURCE   5000 non-null   object
 2   SEX      5000 non-null   object
 3   COUNTRY  5000 non-null   object
 4   AGE      5000 non-null   int64 
dtypes: int64(2), object(3)
memory usage: 234.4+ KB


In [7]:
# Soru 2: Kaç unique SOURCE vardır? Frekansları nedir?

In [8]:
df["SOURCE"].nunique()

2

In [9]:
df["SOURCE"].value_counts()

android    2974
ios        2026
Name: SOURCE, dtype: int64

In [10]:
# Soru 3: Kaç unique PRICE vardır?

In [11]:
df["PRICE"].nunique()

6

In [12]:
# Soru 4: Hangi PRICE'dan kaçar tane satış gerçekleşmiş?

In [13]:
df["PRICE"].value_counts()

29    1305
39    1260
49    1031
19     992
59     212
9      200
Name: PRICE, dtype: int64

In [14]:
# Soru 5: Hangi ülkeden kaçar tane satış olmuş?

In [15]:
df["COUNTRY"].value_counts()
# df.pivot_table(values="PRICE",index="COUNTRY",aggfunc="count")
# df.groupby("COUNTRY")["PRICE"].count()

usa    2065
bra    1496
deu     455
tur     451
fra     303
can     230
Name: COUNTRY, dtype: int64

In [16]:
# Soru 6: Ülkelere göre satışlardan toplam ne kadar kazanılmış?

In [17]:
df.groupby("COUNTRY").agg({"PRICE": "sum"})

Unnamed: 0_level_0,PRICE
COUNTRY,Unnamed: 1_level_1
bra,51354
can,7730
deu,15485
fra,10177
tur,15689
usa,70225


In [18]:
# Soru 7: SOURCE türlerine göre göre satış sayıları nedir?

In [19]:
df["SOURCE"].value_counts()

android    2974
ios        2026
Name: SOURCE, dtype: int64

In [20]:
# Soru 8: Ülkelere göre PRICE ortalamaları nedir?

In [21]:
df.groupby("COUNTRY").agg({"PRICE": "mean"})

Unnamed: 0_level_0,PRICE
COUNTRY,Unnamed: 1_level_1
bra,34.32754
can,33.608696
deu,34.032967
fra,33.587459
tur,34.78714
usa,34.007264


In [22]:
# Soru 9: SOURCE'lara göre PRICE ortalamaları nedir?

In [23]:
df.groupby("SOURCE").agg({"PRICE": "mean"})

Unnamed: 0_level_0,PRICE
SOURCE,Unnamed: 1_level_1
android,34.174849
ios,34.069102


In [24]:
# Soru 10: COUNTRY-SOURCE kırılımında PRICE ortalamaları nedir?

In [25]:
df.groupby(["COUNTRY","SOURCE"]).agg({"PRICE": "mean"})

Unnamed: 0_level_0,Unnamed: 1_level_0,PRICE
COUNTRY,SOURCE,Unnamed: 2_level_1
bra,android,34.387029
bra,ios,34.222222
can,android,33.330709
can,ios,33.951456
deu,android,33.869888
deu,ios,34.268817
fra,android,34.3125
fra,ios,32.776224
tur,android,36.229437
tur,ios,33.272727


### GÖREV 2: COUNTRY, SOURCE, SEX, AGE kırılımında ortalama kazançlar nedir?

In [26]:
df.groupby(["COUNTRY", 'SOURCE', "SEX", "AGE"]).agg({"PRICE": "mean"}).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
COUNTRY,SOURCE,SEX,AGE,Unnamed: 4_level_1
bra,android,female,15,38.714286
bra,android,female,16,35.944444
bra,android,female,17,35.666667
bra,android,female,18,32.255814
bra,android,female,19,35.206897


### GÖREV 3: Çıktıyı PRICE'a göre sıralayınız.

### NOTLAR
### Önceki sorudaki çıktıyı daha iyi görebilmek için sort_values metodunu azalan olacak şekilde PRICE’a göre uygulayınız.
### Çıktıyı agg_df olarak kaydediniz.

In [27]:
agg_df = df.groupby(["COUNTRY", 'SOURCE', "SEX", "AGE"]).agg({"PRICE": "mean"}).sort_values("PRICE", ascending=False)

In [28]:
agg_df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
COUNTRY,SOURCE,SEX,AGE,Unnamed: 4_level_1
bra,android,male,46,59.0
usa,android,male,36,59.0
fra,android,female,24,59.0
usa,ios,male,32,54.0
deu,android,female,36,49.0


### GÖREV 4: Indekste yer alan isimleri değişken ismine çeviriniz.

### NOT
### Üçüncü sorunun çıktısında yer alan PRICE dışındaki tüm değişkenler index isimleridir. Bu isimleri değişken isimlerine çeviriniz.
İpucu: reset_index()

In [29]:
agg_df.reset_index(inplace=True)

In [30]:
agg_df.head()

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE
0,bra,android,male,46,59.0
1,usa,android,male,36,59.0
2,fra,android,female,24,59.0
3,usa,ios,male,32,54.0
4,deu,android,female,36,49.0


### GÖREV 5: AGE değişkenini kategorik değişkene çeviriniz ve agg_df'e ekleyiniz.

### NOTLAR
### Age sayısal değişkenini kategorik değişkene çeviriniz.
### Aralıkları ikna edici şekilde oluşturunuz.
### Örneğin: ‘0_18', ‘19_23', '24_30', '31_40', '41_70'


In [31]:
# AGE değişkeninin nerelerden bölüneceğini belirtelim:
bins = [0, 18, 23, 30, 40, agg_df["AGE"].max()]

In [32]:
# Bölünen noktalara karşılık isimlendirmelerin ne olacağını ifade edelim:
mylabels = ['0_18', '19_23', '24_30', '31_40', '41_' + str(agg_df["AGE"].max())]

In [33]:
# age'i bölelim:
agg_df["age_cat"] = pd.cut(agg_df["AGE"], bins, labels=mylabels)

In [34]:
agg_df.head()

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE,age_cat
0,bra,android,male,46,59.0,41_66
1,usa,android,male,36,59.0,31_40
2,fra,android,female,24,59.0,24_30
3,usa,ios,male,32,54.0,31_40
4,deu,android,female,36,49.0,31_40


### GÖREV 6: Yeni level based müşterileri tanımlayınız ve veri setine değişken olarak ekleyiniz.

### NOTLAR
### customers_level_based adında bir değişken tanımlayınız ve veri setine bu değişkeni ekleyiniz.
### list comp ile customers_level_based değerleri oluşturulduktan sonra bu değerlerin tekilleştirilmesi gerekmektedir.
### Örneğin, birden fazla şu ifadeden olabilir: USA_ANDROID_MALE_0_18 Bunları groupby'a alıp price ortalamalarını almak gerekmektedir.

In [35]:
# değişken isimleri:
agg_df.columns

Index(['COUNTRY', 'SOURCE', 'SEX', 'AGE', 'PRICE', 'age_cat'], dtype='object')

In [36]:
# gözlem değerlerine nasıl erişiriz?
for row in agg_df.values:
    print(row)

['bra' 'android' 'male' 46 59.0 '41_66']
['usa' 'android' 'male' 36 59.0 '31_40']
['fra' 'android' 'female' 24 59.0 '24_30']
['usa' 'ios' 'male' 32 54.0 '31_40']
['deu' 'android' 'female' 36 49.0 '31_40']
['deu' 'android' 'female' 51 49.0 '41_66']
['deu' 'ios' 'male' 20 49.0 '19_23']
['usa' 'android' 'female' 47 49.0 '41_66']
['fra' 'ios' 'male' 20 49.0 '19_23']
['usa' 'ios' 'male' 59 46.5 '41_66']
['deu' 'android' 'male' 15 46.5 '0_18']
['bra' 'android' 'female' 30 45.666666666666664 '24_30']
['usa' 'android' 'female' 61 45.666666666666664 '41_66']
['tur' 'ios' 'male' 24 45.0 '24_30']
['deu' 'android' 'male' 34 45.0 '31_40']
['tur' 'ios' 'female' 18 44.0 '0_18']
['bra' 'android' 'female' 43 44.0 '41_66']
['bra' 'ios' 'female' 22 44.0 '19_23']
['tur' 'android' 'female' 32 43.0 '31_40']
['bra' 'android' 'female' 39 43.0 '31_40']
['tur' 'ios' 'male' 37 42.333333333333336 '31_40']
['tur' 'android' 'male' 15 42.333333333333336 '0_18']
['usa' 'ios' 'male' 28 42.333333333333336 '24_30']
['br

In [37]:
# COUNTRY, SOURCE, SEX ve age_cat değişkenlerinin DEĞERLERİNİ yan yana koymak ve alt tireyle birleştirmek istiyoruz.
# Bunu list comprehension ile yapabiliriz.
# Yukarıdaki döngüdeki gözlem değerlerinin bize lazım olanlarını seçecek şekilde işlemi gerçekletirelim:

In [38]:
[row[0].upper() + "_" + row[1].upper() + "_" + row[2].upper() + "_" + row[5].upper() for row in agg_df.values]

['BRA_ANDROID_MALE_41_66',
 'USA_ANDROID_MALE_31_40',
 'FRA_ANDROID_FEMALE_24_30',
 'USA_IOS_MALE_31_40',
 'DEU_ANDROID_FEMALE_31_40',
 'DEU_ANDROID_FEMALE_41_66',
 'DEU_IOS_MALE_19_23',
 'USA_ANDROID_FEMALE_41_66',
 'FRA_IOS_MALE_19_23',
 'USA_IOS_MALE_41_66',
 'DEU_ANDROID_MALE_0_18',
 'BRA_ANDROID_FEMALE_24_30',
 'USA_ANDROID_FEMALE_41_66',
 'TUR_IOS_MALE_24_30',
 'DEU_ANDROID_MALE_31_40',
 'TUR_IOS_FEMALE_0_18',
 'BRA_ANDROID_FEMALE_41_66',
 'BRA_IOS_FEMALE_19_23',
 'TUR_ANDROID_FEMALE_31_40',
 'BRA_ANDROID_FEMALE_31_40',
 'TUR_IOS_MALE_31_40',
 'TUR_ANDROID_MALE_0_18',
 'USA_IOS_MALE_24_30',
 'BRA_IOS_MALE_41_66',
 'DEU_ANDROID_MALE_19_23',
 'USA_IOS_MALE_24_30',
 'TUR_ANDROID_FEMALE_0_18',
 'USA_ANDROID_MALE_41_66',
 'TUR_ANDROID_MALE_24_30',
 'USA_IOS_FEMALE_41_66',
 'FRA_ANDROID_MALE_19_23',
 'USA_IOS_MALE_31_40',
 'TUR_ANDROID_FEMALE_0_18',
 'FRA_IOS_MALE_0_18',
 'TUR_IOS_FEMALE_19_23',
 'TUR_ANDROID_FEMALE_31_40',
 'TUR_ANDROID_MALE_24_30',
 'FRA_ANDROID_MALE_19_23',
 'BRA_AN

In [39]:
# Veri setine ekleyelim:
agg_df["customers_level_based"] = [row[0].upper() + "_" + row[1].upper() + "_" + row[2].upper() + "_" + row[5].upper() for row in agg_df.values]

In [40]:
agg_df.head()

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE,age_cat,customers_level_based
0,bra,android,male,46,59.0,41_66,BRA_ANDROID_MALE_41_66
1,usa,android,male,36,59.0,31_40,USA_ANDROID_MALE_31_40
2,fra,android,female,24,59.0,24_30,FRA_ANDROID_FEMALE_24_30
3,usa,ios,male,32,54.0,31_40,USA_IOS_MALE_31_40
4,deu,android,female,36,49.0,31_40,DEU_ANDROID_FEMALE_31_40


In [41]:
# Gereksiz değişkenleri çıkaralım:
agg_df = agg_df[["customers_level_based", "PRICE"]]

In [42]:
agg_df.head()

Unnamed: 0,customers_level_based,PRICE
0,BRA_ANDROID_MALE_41_66,59.0
1,USA_ANDROID_MALE_31_40,59.0
2,FRA_ANDROID_FEMALE_24_30,59.0
3,USA_IOS_MALE_31_40,54.0
4,DEU_ANDROID_FEMALE_31_40,49.0


In [44]:
# Birçok aynı segment olacak.
# örneğin USA_ANDROID_MALE_0_18 segmentinden birçok sayıda olabilir.
# kontrol edelim:

In [45]:
agg_df["customers_level_based"].value_counts()

BRA_ANDROID_MALE_24_30      7
USA_ANDROID_MALE_41_66      7
USA_IOS_FEMALE_24_30        7
BRA_ANDROID_FEMALE_24_30    7
USA_ANDROID_MALE_24_30      7
BRA_IOS_MALE_31_40          6
USA_ANDROID_FEMALE_24_30    6
USA_IOS_MALE_24_30          6
BRA_IOS_FEMALE_24_30        6
USA_ANDROID_MALE_31_40      6
BRA_ANDROID_FEMALE_31_40    6
USA_IOS_FEMALE_41_66        5
BRA_ANDROID_FEMALE_19_23    5
USA_ANDROID_FEMALE_31_40    5
TUR_IOS_FEMALE_19_23        5
BRA_IOS_MALE_41_66          5
BRA_ANDROID_MALE_19_23      5
USA_ANDROID_MALE_19_23      5
USA_ANDROID_FEMALE_19_23    5
DEU_ANDROID_MALE_31_40      5
BRA_IOS_FEMALE_31_40        5
USA_IOS_MALE_41_66          5
USA_ANDROID_FEMALE_41_66    5
USA_IOS_MALE_31_40          5
USA_IOS_FEMALE_19_23        5
DEU_IOS_FEMALE_0_18         4
USA_IOS_FEMALE_0_18         4
TUR_ANDROID_FEMALE_41_66    4
BRA_ANDROID_MALE_41_66      4
BRA_IOS_MALE_0_18           4
BRA_IOS_MALE_19_23          4
BRA_IOS_FEMALE_0_18         4
DEU_ANDROID_FEMALE_24_30    4
USA_ANDROI

In [46]:
# Bu sebeple segmentlere göre groupby yaptıktan sonra price ortalamalarını almalı ve segmentleri tekilleştirmeliyiz.
agg_df = agg_df.groupby("customers_level_based").agg({"PRICE": "mean"})

In [47]:
# customers_level_based index'te yer almaktadır. Bunu değişkene çevirelim.
agg_df = agg_df.reset_index()

In [48]:
agg_df.head()

Unnamed: 0,customers_level_based,PRICE
0,BRA_ANDROID_FEMALE_0_18,35.645303
1,BRA_ANDROID_FEMALE_19_23,34.07734
2,BRA_ANDROID_FEMALE_24_30,33.863946
3,BRA_ANDROID_FEMALE_31_40,34.898326
4,BRA_ANDROID_FEMALE_41_66,36.737179


In [49]:
# kontrol edelim. her bir persona'nın 1 tane olmasını bekleriz:
agg_df["customers_level_based"].value_counts()

BRA_ANDROID_FEMALE_0_18     1
TUR_ANDROID_FEMALE_0_18     1
TUR_IOS_FEMALE_19_23        1
TUR_IOS_FEMALE_0_18         1
TUR_ANDROID_MALE_41_66      1
TUR_ANDROID_MALE_31_40      1
TUR_ANDROID_MALE_24_30      1
TUR_ANDROID_MALE_19_23      1
TUR_ANDROID_MALE_0_18       1
TUR_ANDROID_FEMALE_41_66    1
TUR_ANDROID_FEMALE_31_40    1
TUR_ANDROID_FEMALE_24_30    1
TUR_ANDROID_FEMALE_19_23    1
FRA_IOS_MALE_41_66          1
FRA_ANDROID_FEMALE_31_40    1
FRA_IOS_MALE_31_40          1
FRA_IOS_MALE_24_30          1
FRA_IOS_MALE_19_23          1
FRA_IOS_MALE_0_18           1
FRA_IOS_FEMALE_31_40        1
FRA_IOS_FEMALE_24_30        1
FRA_IOS_FEMALE_0_18         1
FRA_ANDROID_MALE_41_66      1
FRA_ANDROID_MALE_31_40      1
FRA_ANDROID_MALE_24_30      1
FRA_ANDROID_MALE_19_23      1
TUR_IOS_FEMALE_24_30        1
TUR_IOS_FEMALE_31_40        1
TUR_IOS_FEMALE_41_66        1
TUR_IOS_MALE_0_18           1
USA_IOS_MALE_31_40          1
USA_IOS_MALE_24_30          1
USA_IOS_MALE_19_23          1
USA_IOS_MA

### GÖREV 7: Yeni müşterileri (USA_ANDROID_MALE_0_18) segmentlere ayırınız.

### NOTLAR
### Yeni müşterileri (Örnek: USA_ANDROID_MALE_0_18) PRICE’a göre 4 segmente ayırınız.
### Segmentleri SEGMENT isimlendirmesi ile değişken olarak agg_df’e ekleyiniz.
### Segmentleri betimleyiniz (Segmentlere göre group by yapıp price mean, max, sum’larını alınız).

In [50]:
agg_df["SEGMENT"] = pd.qcut(agg_df["PRICE"], 4, labels=["D", "C", "B", "A"])

In [51]:
agg_df.head(30)

Unnamed: 0,customers_level_based,PRICE,SEGMENT
0,BRA_ANDROID_FEMALE_0_18,35.645303,B
1,BRA_ANDROID_FEMALE_19_23,34.07734,C
2,BRA_ANDROID_FEMALE_24_30,33.863946,C
3,BRA_ANDROID_FEMALE_31_40,34.898326,B
4,BRA_ANDROID_FEMALE_41_66,36.737179,A
5,BRA_ANDROID_MALE_0_18,34.805861,B
6,BRA_ANDROID_MALE_19_23,31.673243,D
7,BRA_ANDROID_MALE_24_30,33.413919,C
8,BRA_ANDROID_MALE_31_40,34.327381,B
9,BRA_ANDROID_MALE_41_66,40.041667,A


In [52]:
agg_df.groupby("SEGMENT").agg({"PRICE": ["mean","max","sum"]})

Unnamed: 0_level_0,PRICE,PRICE,PRICE
Unnamed: 0_level_1,mean,max,sum
SEGMENT,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
D,29.20678,32.333333,817.789833
C,33.509674,34.07734,904.761209
B,34.999645,36.0,944.990411
A,38.691234,45.428571,1044.663328


### GÖREV 8: Yeni gelen müşterileri sınıflandırınız ne kadar gelir getirebileceğini tahmin ediniz.

In [53]:
# 33 yaşında ANDROID kullanan bir Türk kadını hangi segmente aittir ve ortalama ne kadar gelir kazandırması beklenir?

In [54]:
new_user = "TUR_ANDROID_FEMALE_31_40"
agg_df[agg_df["customers_level_based"] == new_user]

Unnamed: 0,customers_level_based,PRICE,SEGMENT
72,TUR_ANDROID_FEMALE_31_40,41.833333,A


In [None]:
# 22 yaşında IOS kullanan bir Türk erkeği hangi segmente aittir ve ortalama ne kadar gelir kazandırması beklenir?

In [55]:
new_user = "TUR_IOS_MALE_19_23"
agg_df[agg_df["customers_level_based"] == new_user]

Unnamed: 0,customers_level_based,PRICE,SEGMENT
85,TUR_IOS_MALE_19_23,24.833333,D


In [None]:
# 35 yaşında IOS kullanan bir Fransız kadını hangi segmente ve ortalama ne kadar gelir kazandırması beklenir?

In [57]:
new_user = "FRA_IOS_FEMALE_31_40"
agg_df[agg_df["customers_level_based"] == new_user]

Unnamed: 0,customers_level_based,PRICE,SEGMENT
63,FRA_IOS_FEMALE_31_40,32.818182,C
