# Kural Tabanlı Sınıflandırma ile Potansiyel Müşteri Getirisi Hesaplama

Bir oyun şirketi müşterilerinin bazı özelliklerini kullanarak seviye tabanlı (level based) yeni müşteri tanımları (persona)
oluşturmak ve bu yeni müşteri tanımlarına göre segmentler oluşturup bu segmentlere göre yeni gelebilecek müşterilerin
şirkete ortalama ne kadar kazandırabileceğini tahmin etmek istemektedir.

**Örneğin:**
Türkiye’den IOS kullanıcısı olan 25 yaşındaki bir erkek
kullanıcının ortalama ne kadar kazandırabileceği belirlenmek
isteniyor.

## Veri Seti Hikayesi

**Persona.csv** veri seti uluslararası bir oyun şirketinin sattığı ürünlerin fiyatlarını ve bu ürünleri satın alan kullanıcıların bazı demografik bilgilerini barındırmaktadır. Veri seti her satışişleminde oluşan kayıtlardan meydana gelmektedir. Bunun anlamı tablo tekilleştirilmemiştir. Diğer bir ifade ile belirli demografik özelliklere sahip bir kullanıcı birden fazla alışveriş yapmış olabilir.


## Değişkenler

**PRICE** – Müşterinin harcama tutarı
**SOURCE** – Müşterinin bağlandığı cihaz türü
**SEX** – Müşterinin cinsiyeti
**COUNTRY** – Müşterinin ülkesi
**AGE** – Müşterinin yaş

## Proje Görevleri

## Görev 1: Aşağıdaki Soruları Yanıtlayınız


Soru 1: persona.csv dosyasını okutunuz ve veri seti ile ilgili genel bilgileri gösteriniz.

In [66]:
import pandas as pd;import numpy as np

In [67]:
df = pd.read_csv("persona.csv")

In [68]:
df.head()

Unnamed: 0,PRICE,SOURCE,SEX,COUNTRY,AGE
0,39,android,male,bra,17
1,39,android,male,bra,17
2,49,android,male,bra,17
3,29,android,male,tur,17
4,49,android,male,tur,17


In [69]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   PRICE    5000 non-null   int64 
 1   SOURCE   5000 non-null   object
 2   SEX      5000 non-null   object
 3   COUNTRY  5000 non-null   object
 4   AGE      5000 non-null   int64 
dtypes: int64(2), object(3)
memory usage: 234.4+ KB


In [70]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
PRICE,5000.0,34.132,12.464897,9.0,29.0,39.0,39.0,59.0
AGE,5000.0,23.5814,8.995908,15.0,17.0,21.0,27.0,66.0


Soru 2: Kaç unique SOURCE vardır? Frekansları nedir?

In [71]:
df["SOURCE"].head()

0    android
1    android
2    android
3    android
4    android
Name: SOURCE, dtype: object

In [72]:
df["SOURCE"].value_counts()

SOURCE
android    2974
ios        2026
Name: count, dtype: int64

Soru 3: Kaç unique PRICE vardır?

In [73]:
df["PRICE"].unique()

array([39, 49, 29, 19, 59,  9])

In [74]:
df["PRICE"].nunique()

6

Soru 4: Hangi PRICE’dan kaçar tane satış gerçekleşmiş?

In [75]:
df["PRICE"].value_counts()

PRICE
29    1305
39    1260
49    1031
19     992
59     212
9      200
Name: count, dtype: int64

Soru 5: Hangi ülkeden kaçar tane satış olmuş?

In [76]:
df["COUNTRY"].value_counts()

COUNTRY
usa    2065
bra    1496
deu     455
tur     451
fra     303
can     230
Name: count, dtype: int64

Soru 6: Ülkelere göre satışlardan toplam ne kadar kazanılmış?

In [77]:
df.groupby("COUNTRY")["PRICE"].sum()

COUNTRY
bra    51354
can     7730
deu    15485
fra    10177
tur    15689
usa    70225
Name: PRICE, dtype: int64

Soru 7: SOURCE türlerine göre satış sayıları nedir?

In [78]:
df["SOURCE"].value_counts()

SOURCE
android    2974
ios        2026
Name: count, dtype: int64

Soru 8: Ülkelere göre PRICE ortalamaları nedir?

In [79]:
df.groupby("COUNTRY")["PRICE"].mean()

COUNTRY
bra    34.327540
can    33.608696
deu    34.032967
fra    33.587459
tur    34.787140
usa    34.007264
Name: PRICE, dtype: float64

Soru 9: SOURCE’lara göre PRICE ortalamaları nedir?

In [80]:
df.groupby("SOURCE")["PRICE"].mean()

SOURCE
android    34.174849
ios        34.069102
Name: PRICE, dtype: float64

Soru 10: COUNTRY-SOURCE kırılımında PRICE ortalamaları nedir?

In [81]:
df.groupby(["COUNTRY","SOURCE"])["PRICE"].mean()

COUNTRY  SOURCE 
bra      android    34.387029
         ios        34.222222
can      android    33.330709
         ios        33.951456
deu      android    33.869888
         ios        34.268817
fra      android    34.312500
         ios        32.776224
tur      android    36.229437
         ios        33.272727
usa      android    33.760357
         ios        34.371703
Name: PRICE, dtype: float64

## Görev 2:  COUNTRY, SOURCE, SEX, AGE kırılımında ortalama kazançlar nedir?

In [104]:
df.groupby(["COUNTRY", "SOURCE", "SEX", "AGE"]).agg({"PRICE":"mean"}).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
COUNTRY,SOURCE,SEX,AGE,Unnamed: 4_level_1
bra,android,female,15,38.714286
bra,android,female,16,35.944444
bra,android,female,17,35.666667
bra,android,female,18,32.255814
bra,android,female,19,35.206897


## Görev 3:  Çıktıyı PRICE’a göre sıralayınız.

- Önceki sorudaki çıktıyı daha iyi görebilmek için sort_values metodunu azalan olacak şekilde PRICE’a göre uygulayınız.
- Çıktıyı agg_df olarak kaydediniz. 

In [83]:
agg_df = df.groupby(["COUNTRY", "SOURCE", "SEX", "AGE"]).agg({"PRICE":"mean"}).sort_values(by="PRICE", ascending=False)

In [84]:
agg_df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
COUNTRY,SOURCE,SEX,AGE,Unnamed: 4_level_1
bra,android,male,46,59.0
usa,android,male,36,59.0
fra,android,female,24,59.0
usa,ios,male,32,54.0
deu,android,female,36,49.0


## Görev 4:  Indekste yer alan isimleri değişken ismine çeviriniz.

- Üçüncü sorunun çıktısında yer alan PRICE dışındaki tüm değişkenler index isimleridir. Bu isimleri değişken isimlerine çeviriniz.

In [85]:
agg_df.reset_index(inplace=True)

In [86]:
agg_df.head()

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE
0,bra,android,male,46,59.0
1,usa,android,male,36,59.0
2,fra,android,female,24,59.0
3,usa,ios,male,32,54.0
4,deu,android,female,36,49.0


## Görev 5:  Age değişkenini kategorik değişkene çeviriniz ve agg_df’e ekleyiniz.

- Age sayısal değişkenini kategorik değişkene çeviriniz.
- Aralıkları ikna edici şekilde oluşturunuz.
- Örneğin: ‘0_18’, ‘19_23’, ’24_30’, ’31_40’, ’41_70’


In [87]:
agg_df["AGE_CAT"] = pd.cut(df["AGE"], bins=[0, 18, 23, 30, 40, agg_df["AGE"].max()],
                                        labels=["0_18", "19_23", "24_30", "31_40", "41_70"])
                

In [88]:
agg_df["AGE_CAT"].value_counts()

AGE_CAT
0_18     161
19_23     70
24_30     46
31_40     43
41_70     28
Name: count, dtype: int64

In [89]:
agg_df.sample(10)

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE,AGE_CAT
51,deu,ios,male,16,39.0,24_30
283,usa,android,female,24,30.052632,19_23
59,tur,android,male,17,39.0,41_70
130,usa,android,male,18,35.190476,0_18
69,can,ios,male,17,37.666667,0_18
264,deu,android,female,21,31.0,31_40
7,usa,android,female,47,49.0,0_18
155,fra,android,female,17,34.652174,0_18
187,usa,android,female,25,34.0,19_23
261,tur,ios,male,42,31.105263,24_30


## Görev 6:  Yeni seviye tabanlı müşterileri (persona) tanımlayınız.

- Yeni seviye tabanlı müşterileri (persona) tanımlayınız ve veri setine değişken olarak ekleyiniz.
- Yeni eklenecek değişkenin adı: customers_level_based
- Önceki soruda elde edeceğiniz çıktıdaki gözlemleri bir araya getirerek customers_level_based değişkenini oluşturmanız gerekmektedir.

In [90]:
# agg_df["sales_level_based"] = agg_df[["SaleCityName", "ConceptName", "Seasons"]].agg(lambda x: "_".join(x).upper(), axis=1)
agg_df["CUSTOMERS_LEVEL_BASED"] = agg_df[["COUNTRY", "SOURCE", "SEX", "AGE_CAT"]].agg(lambda x: "_".join(x).upper(), axis=1)

In [91]:
agg_df.head()

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE,AGE_CAT,CUSTOMERS_LEVEL_BASED
0,bra,android,male,46,59.0,0_18,BRA_ANDROID_MALE_0_18
1,usa,android,male,36,59.0,0_18,USA_ANDROID_MALE_0_18
2,fra,android,female,24,59.0,0_18,FRA_ANDROID_FEMALE_0_18
3,usa,ios,male,32,54.0,0_18,USA_IOS_MALE_0_18
4,deu,android,female,36,49.0,0_18,DEU_ANDROID_FEMALE_0_18


## Görev 7:  Yeni müşterileri (personaları) segmentlere ayırınız.

- Yeni müşterileri (Örnek: USA_ANDROID_MALE_0_18) PRICE’a göre 4 segmente ayırınız.
- Segmentleri SEGMENT isimlendirmesi ile değişken olarak agg_df’e ekleyiniz.
- Segmentleri betimleyiniz (Segmentlere göre group by yapıp price mean, max, sum’larını alınız).

In [92]:
agg_df["SEGMENT"] = pd.qcut(agg_df["PRICE"], 4, labels=["D", "C", "B", "A"])

In [94]:
agg_df.sample(15)

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE,AGE_CAT,CUSTOMERS_LEVEL_BASED,SEGMENT
1,usa,android,male,36,59.0,0_18,USA_ANDROID_MALE_0_18,A
294,can,ios,male,32,29.0,0_18,CAN_IOS_MALE_0_18,D
60,tur,android,female,49,39.0,41_70,TUR_ANDROID_FEMALE_41_70,A
39,can,android,male,30,40.25,19_23,CAN_ANDROID_MALE_19_23,A
223,tur,ios,female,22,32.636364,24_30,TUR_IOS_FEMALE_24_30,C
228,deu,android,male,18,32.333333,24_30,DEU_ANDROID_MALE_24_30,C
82,bra,ios,male,22,37.181818,0_18,BRA_IOS_MALE_0_18,A
134,usa,ios,female,20,35.0,0_18,USA_IOS_FEMALE_0_18,B
241,bra,android,female,18,32.255814,19_23,BRA_ANDROID_FEMALE_19_23,C
114,usa,ios,female,29,35.666667,41_70,USA_IOS_FEMALE_41_70,B


## Görev 8:  Yeni gelen müşterileri sınıflandırıp, ne kadar gelir getirebileceklerini  tahmin ediniz.

#### 33 yaşında ANDROID kullanan bir Türk kadını hangi segmente aittir ve ortalama ne kadar gelir kazandırması beklenir?

In [95]:
new_user = "TUR_ANDROID_FEMALE_31_40"

In [101]:
agg_df[agg_df["CUSTOMERS_LEVEL_BASED"]==new_user]


Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE,AGE_CAT,CUSTOMERS_LEVEL_BASED,SEGMENT
267,tur,android,female,19,31.0,31_40,TUR_ANDROID_FEMALE_31_40,D


#### 35 yaşında IOS kullanan bir Fransız kadını hangi segmente aittir ve ortalama ne kadar gelir kazandırması beklenir?

In [102]:
new_user = "FRA_IOS_FEMALE_31_40"

In [103]:
agg_df[agg_df["CUSTOMERS_LEVEL_BASED"]==new_user]

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE,AGE_CAT,CUSTOMERS_LEVEL_BASED,SEGMENT
208,fra,ios,female,40,33.0,31_40,FRA_IOS_FEMALE_31_40,C
