# Kural Tabanlı Sınıflandırma ile Potansiyel Müşteri Getirisi Hesaplama

---------

Bir oyun şirketi müşterilerinin bazı özelliklerini kullanarak
seviye tabanlı (level based) yeni müşteri tanımları (persona)
oluşturmak ve bu yeni müşteri tanımlarına göre segmentler
oluşturup bu segmentlere göre yeni gelebilecek müşterilerin
şirkete ortalama ne kadar kazandırabileceğini tahmin etmek
istemektedir.

Örneğin:
Türkiye’den IOS kullanıcısı olan 25 yaşındaki bir erkek
kullanıcının ortalama ne kadar kazandırabileceği belirlenmek
isteniyor.

-------

In [2]:
# Pandas kütüphanesini import edelim;
import pandas as pd
import numpy as np

# pandas görüntü ayarlarını yapalım;

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.float_format', lambda x: '%.3f' % x)



In [3]:
# dataseti dahil edelim;

df_ = pd.read_csv(r"C:\Users\kkakt\Desktop\case's\dataset\persona.csv")

df = df_.copy()

df.head()

Unnamed: 0,PRICE,SOURCE,SEX,COUNTRY,AGE
0,39,android,male,bra,17
1,39,android,male,bra,17
2,49,android,male,bra,17
3,29,android,male,tur,17
4,49,android,male,tur,17


In [4]:
# veri setinin genel yapısını inceleyelim;

from et_analysis import check_df

check_df(df)

##################### Shape #####################
(5000, 5)
##################### Types #####################
PRICE       int64
SOURCE     object
SEX        object
COUNTRY    object
AGE         int64
dtype: object
##################### NA #####################
         # of N/A values
PRICE                  0
SOURCE                 0
SEX                    0
COUNTRY                0
AGE                    0
##################### Quantiles #####################
         count   mean    std    min     0%     5%    50%    95%    99%   100%  \
PRICE 5000.000 34.132 12.465  9.000  9.000 19.000 39.000 49.000 59.000 59.000   
AGE   5000.000 23.581  8.996 15.000 15.000 15.000 21.000 43.000 53.000 66.000   

         max  
PRICE 59.000  
AGE   66.000  


In [22]:
# kaç unique SOURCE olduğunu ve frekanslarını inceleyelim;

df["SOURCE"].nunique()

df["SOURCE"].unique()


array(['android', 'ios'], dtype=object)

In [12]:
# Unique Price değişkenini inceleyelim;

df["PRICE"].unique()

array([39, 49, 29, 19, 59,  9], dtype=int64)

In [15]:
# hangi fiyattan kaç tane satış gerçekleştiğini incelyelim;

df["PRICE"].value_counts()

29    1305
39    1260
49    1031
19     992
59     212
9      200
Name: PRICE, dtype: int64

In [16]:
# hangi ülke kaçar edet satış yaptığını inceyelim;

df["COUNTRY"].value_counts()

usa    2065
bra    1496
deu     455
tur     451
fra     303
can     230
Name: COUNTRY, dtype: int64

In [17]:
# ülkelerin satıştan ne kadar kazandığını hesaplayalım;

df.groupby("COUNTRY").agg({"PRICE":"sum"})

Unnamed: 0_level_0,PRICE
COUNTRY,Unnamed: 1_level_1
bra,51354
can,7730
deu,15485
fra,10177
tur,15689
usa,70225


In [20]:
# Source türlerine göre satış sayılarını hesaplayalım;

df["SOURCE"].value_counts()

android    2974
ios        2026
Name: SOURCE, dtype: int64

In [24]:
# Ülkelere göre price ortalamları nedir hesaplayalım;

df.groupby("COUNTRY").agg({"PRICE":"mean"})

Unnamed: 0_level_0,PRICE
COUNTRY,Unnamed: 1_level_1
bra,34.328
can,33.609
deu,34.033
fra,33.587
tur,34.787
usa,34.007


In [25]:
# Source'lara göre Price ortalalamarını hesaplayalım;

df.groupby("SOURCE").agg({"PRICE":"mean"})

Unnamed: 0_level_0,PRICE
SOURCE,Unnamed: 1_level_1
android,34.175
ios,34.069


In [26]:
# Country-Source kırılımında Price ortalamaları hesaplayalım;

df.groupby(["COUNTRY","SOURCE"]).agg({"PRICE":"mean"})

Unnamed: 0_level_0,Unnamed: 1_level_0,PRICE
COUNTRY,SOURCE,Unnamed: 2_level_1
bra,android,34.387
bra,ios,34.222
can,android,33.331
can,ios,33.951
deu,android,33.87
deu,ios,34.269
fra,android,34.312
fra,ios,32.776
tur,android,36.229
tur,ios,33.273


### Görev 2 

In [29]:
# Country-Source-Sex-Age kırılımında Price ortalamaları hesaplayalım;

df.groupby(["COUNTRY","SOURCE","SEX","AGE"]).agg({"PRICE":"mean"})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
COUNTRY,SOURCE,SEX,AGE,Unnamed: 4_level_1
bra,android,female,15,38.714
bra,android,female,16,35.944
bra,android,female,17,35.667
bra,android,female,18,32.256
bra,android,female,19,35.207
bra,android,female,20,31.0
bra,android,female,21,37.293
bra,android,female,22,34.946
bra,android,female,23,31.941
bra,android,female,24,36.5


In [43]:
# bir önceki işlemi değişkene atayıp fiyata göre sıralama işlemini yapalım;

agg_df = df.groupby(["COUNTRY","SOURCE","SEX","AGE"]).agg({"PRICE":"mean"})

agg_df.sort_values("PRICE",ascending=False,inplace=True)

# reset_index işlemini yapalım;

agg_df.reset_index(inplace=True)

In [56]:
# Age değişkenini kategorik değişkene çevirelim;
bins = [-1,18,23,30,40,70]
labels = ['0_18' ,'19_23', '24_30', '31_40', '41_70']

agg_df["AGE_CAT"] = pd.cut(x=df["AGE"],bins = bins,labels =labels)

agg_df.head()

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE,AGE_CAT
0,bra,android,male,46,59.0,0_18
1,usa,android,male,36,59.0,0_18
2,fra,android,female,24,59.0,0_18
3,usa,ios,male,32,54.0,0_18
4,deu,android,female,36,49.0,0_18


In [69]:
# seviye tanımlı persona ataması yapalım;



agg_df["customers_level_based"] = agg_df[["COUNTRY", "SOURCE", "SEX","AGE_CAT"]].agg(lambda x: "_".join(x.str.upper()),axis=1)

persona = agg_df.groupby("customers_level_based").agg({"PRICE":"mean"})

persona

Unnamed: 0_level_0,PRICE
customers_level_based,Unnamed: 1_level_1
BRA_ANDROID_FEMALE_0_18,35.748
BRA_ANDROID_FEMALE_19_23,34.399
BRA_ANDROID_FEMALE_24_30,34.571
BRA_ANDROID_FEMALE_31_40,30.875
BRA_ANDROID_FEMALE_41_70,36.683
BRA_ANDROID_MALE_0_18,37.18
BRA_ANDROID_MALE_19_23,32.633
BRA_ANDROID_MALE_24_30,29.956
BRA_ANDROID_MALE_31_40,33.771
BRA_ANDROID_MALE_41_70,35.95


In [76]:
# Müşterileri segmentlere göre ayıralım;

persona["segment"] = pd.qcut(persona["PRICE"],4,labels = ["D","C","B","A"])

persona.reset_index(inplace=True)

persona.head()

Unnamed: 0,customers_level_based,PRICE,segment
0,BRA_ANDROID_FEMALE_0_18,35.748,B
1,BRA_ANDROID_FEMALE_19_23,34.399,B
2,BRA_ANDROID_FEMALE_24_30,34.571,B
3,BRA_ANDROID_FEMALE_31_40,30.875,D
4,BRA_ANDROID_FEMALE_41_70,36.683,B


In [77]:
# Yeni gelen müşterileri sınıflandırıp, ne kadar gelir getireceğini tahmin edelim;

# Customer 1 : 33 yaşında ANDROID kullanan Türk bir KADIN 

new_customer = "TUR_ANDROID_FEMALE_31_40"

persona[persona["customers_level_based"] == new_customer]

Unnamed: 0,customers_level_based,PRICE,segment
65,TUR_ANDROID_FEMALE_31_40,31.0,D


In [82]:
# Cutomer 2 : 35 yaşında IOS kullanan bir Fransız kadın

new_customer = "FRA_IOS_FEMALE_31_40"
persona[persona["customers_level_based"] == new_customer]

Unnamed: 0,customers_level_based,PRICE,segment
57,FRA_IOS_FEMALE_31_40,33.0,C
