## **Kural Tabanlı Sınıflandırma ile Potansiyel Müşteri Getirisi Hesaplama**
### **İş Problemi**
* Bir oyun şirketi müşterilerinin bazı özelliklerini kullanarak seviye tabanlı (level based) yeni müşteri tanımları (persona) oluşturmak ve bu yeni müşteri tanımlarına göre segmentler oluşturup bu segmentlere göre yeni gelebilecek müşterilerin şirkete ortalama ne kadar kazandırabileceğini tahmin etmek istemektedir.

* Örneğin: Türkiye’den IOS kullanıcısı olan 25 yaşındaki bir erkek kullanıcının ortalama ne kadar kazandırabileceği belirlenmek isteniyor.

#### **Veri Seti Hikayesi**

* Persona.csv veri seti uluslararası bir oyun şirketinin sattığı ürünlerin fiyatlarını ve bu ürünleri satın alan kullanıcıların bazı demografik bilgilerini barındırmaktadır. Veri seti her satış işleminde oluşan kayıtlardan meydana gelmektedir. Bunun anlamı tablo tekilleştirilmemiştir. Diğer bir ifade ile belirli demografik özelliklere sahip bir kullanıcı birden fazla alışveriş yapmış olabilir.

#### **Veri Seti**

$\star$ **Price:** Müşterinin harcama tutarı

$\star$ **Source:** Müşterinin bağlandığı cihaz türü

$\star$ **Sex:** Müşterinin cinsiyeti

$\star$ **Country:** Müşterinin ülkesi

$\star$ **Age:** Müşterinin yaşı



### **GÖREV 1:** Aşağıdaki soruları yanıtlayınız.

#### **Soru 1:** persona.csv dosyasını okutunuz ve veri seti ile ilgili genel bilgileri gösteriniz.

In [None]:
from google.colab import drive 
drive.mount("/content/gdrive")

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv("/content/gdrive/My Drive/DSMLBC10/week_3 (13.10.22-19.10.22)/persona.csv")
df.head()

Unnamed: 0,PRICE,SOURCE,SEX,COUNTRY,AGE
0,39,android,male,bra,17
1,39,android,male,bra,17
2,49,android,male,bra,17
3,29,android,male,tur,17
4,49,android,male,tur,17


In [None]:
def check_df(dataframe, head=5):
    print("##################### Shape #####################")
    print(dataframe.shape)
    print("##################### Types #####################")
    print(dataframe.dtypes)
    print("##################### Head #####################")
    print(dataframe.head(head))
    print("##################### Tail #####################")
    print(dataframe.tail(head))
    print("##################### NA #####################")
    print(dataframe.isnull().sum())
    print("##################### Quantiles #####################")
    print(dataframe.quantile([0, 0.05, 0.50, 0.95, 0.99, 1]).T)

check_df(df)

##################### Shape #####################
(5000, 5)
##################### Types #####################
PRICE       int64
SOURCE     object
SEX        object
COUNTRY    object
AGE         int64
dtype: object
##################### Head #####################
   PRICE   SOURCE   SEX COUNTRY  AGE
0     39  android  male     bra   17
1     39  android  male     bra   17
2     49  android  male     bra   17
3     29  android  male     tur   17
4     49  android  male     tur   17
##################### Tail #####################
      PRICE   SOURCE     SEX COUNTRY  AGE
4995     29  android  female     bra   31
4996     29  android  female     bra   31
4997     29  android  female     bra   31
4998     39  android  female     bra   31
4999     29  android  female     bra   31
##################### NA #####################
PRICE      0
SOURCE     0
SEX        0
COUNTRY    0
AGE        0
dtype: int64
##################### Quantiles #####################
       0.00  0.05  0.50  0.95  0.99

#### **Soru 2:** Kaç unique SOURCE vardır? Frekansları nedir?

In [None]:
print(df["SOURCE"].nunique())
print(df["SOURCE"].unique())

2
['android' 'ios']


#### **Soru 3:** Kaç unique PRICE vardır?

In [None]:
df["PRICE"].nunique()

6

#### **Soru 4:** Hangi PRICE'dan kaçar tane satış gerçekleşmiş?

In [None]:
df["PRICE"].value_counts()

29    1305
39    1260
49    1031
19     992
59     212
9      200
Name: PRICE, dtype: int64

#### **Soru 5:** Hangi ülkeden kaçar tane satış olmuş?

In [None]:
df["COUNTRY"].value_counts()

usa    2065
bra    1496
deu     455
tur     451
fra     303
can     230
Name: COUNTRY, dtype: int64

#### **Soru 6:** Ülkelere göre satışlardan toplam ne kadar kazanılmış?





In [None]:
df.groupby("COUNTRY").agg({"PRICE": "sum"})

Unnamed: 0_level_0,PRICE
COUNTRY,Unnamed: 1_level_1
bra,51354
can,7730
deu,15485
fra,10177
tur,15689
usa,70225


#### **Soru 7:** SOURCE türlerine göre göre satış sayıları nedir?

In [None]:
df.groupby("SOURCE").agg({"PRICE":"count"})

Unnamed: 0_level_0,PRICE
SOURCE,Unnamed: 1_level_1
android,2974
ios,2026


#### **Soru 8:** Ülkelere göre PRICE ortalamaları nedir?

In [None]:
df.groupby("COUNTRY").agg({"PRICE":"mean"})

Unnamed: 0_level_0,PRICE
COUNTRY,Unnamed: 1_level_1
bra,34.32754
can,33.608696
deu,34.032967
fra,33.587459
tur,34.78714
usa,34.007264


#### **Soru 9:** SOURCE'lara göre PRICE ortalamaları nedir?

In [None]:
df.groupby("SOURCE").agg({"PRICE":"mean"})

Unnamed: 0_level_0,PRICE
SOURCE,Unnamed: 1_level_1
android,34.174849
ios,34.069102


#### **Soru 10:** COUNTRY-SOURCE kırılımında PRICE ortalamaları nedir?

In [None]:
df.groupby(["COUNTRY", "SOURCE"]).agg({"PRICE":"mean"})

Unnamed: 0_level_0,Unnamed: 1_level_0,PRICE
COUNTRY,SOURCE,Unnamed: 2_level_1
bra,android,34.387029
bra,ios,34.222222
can,android,33.330709
can,ios,33.951456
deu,android,33.869888
deu,ios,34.268817
fra,android,34.3125
fra,ios,32.776224
tur,android,36.229437
tur,ios,33.272727


### **GÖREV 2:** COUNTRY, SOURCE, SEX, AGE kırılımında ortalama kazançlar nedir?

In [None]:
df.groupby(["COUNTRY", "SOURCE","SEX","AGE"]).agg({"PRICE":"mean"})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
COUNTRY,SOURCE,SEX,AGE,Unnamed: 4_level_1
bra,android,female,15,38.714286
bra,android,female,16,35.944444
bra,android,female,17,35.666667
bra,android,female,18,32.255814
bra,android,female,19,35.206897
...,...,...,...,...
usa,ios,male,42,30.250000
usa,ios,male,50,39.000000
usa,ios,male,53,34.000000
usa,ios,male,55,29.000000


### **GÖREV 3:** Çıktıyı PRICE'a göre sıralayınız.
 * Önceki sorudaki çıktıyı daha iyi görebilmek için sort_values metodunu azalan olacak şekilde PRICE'a uygulayınız. 
 
 * Çıktıyı agg_df olarak kaydediniz.

In [None]:
agg_df = df.groupby(["COUNTRY", "SOURCE","SEX","AGE"]).agg({"PRICE":"mean"}).sort_values("PRICE", ascending=False)
agg_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
COUNTRY,SOURCE,SEX,AGE,Unnamed: 4_level_1
bra,android,male,46,59.0
usa,android,male,36,59.0
fra,android,female,24,59.0
usa,ios,male,32,54.0
deu,android,female,36,49.0
...,...,...,...,...
usa,ios,female,38,19.0
usa,ios,female,30,19.0
can,android,female,27,19.0
fra,android,male,18,19.0


### **GÖREV 4:** Indekste yer alan isimleri değişken ismine çeviriniz.

* Üçüncü sorunun çıktısında yer alan PRICE dışındaki tüm değişkenler index isimleridir.

* Bu isimleri değişken isimlerine çeviriniz.

* İpucu: reset_index()

* agg_df.reset_index(inplace=True)


In [None]:
agg_df.reset_index(inplace=True)
agg_df

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE
0,bra,android,male,46,59.0
1,usa,android,male,36,59.0
2,fra,android,female,24,59.0
3,usa,ios,male,32,54.0
4,deu,android,female,36,49.0
...,...,...,...,...,...
343,usa,ios,female,38,19.0
344,usa,ios,female,30,19.0
345,can,android,female,27,19.0
346,fra,android,male,18,19.0


#### **GÖREV 5:** AGE değişkenini kategorik değişkene çeviriniz ve agg_df'e ekleyiniz.

* Age sayısal değişkenini kategorik değişkene çeviriniz.

* Aralıkları ikna edici olacağını düşündüğünüz şekilde oluşturunuz.

* Örneğin: '0_18', '19_23', '24_30', '31_40', '41_70'

In [None]:
# AGE değişkeninin nerelerden bölüneceğini belirtelim:
#bins = [0, 18, 23, 30, 40, agg_df["AGE"].max()]

# Bölünen noktalara karşılık isimlendirmelerin ne olacağını ifade edelim:
#mylabels = ['0_18', '19_23', '24_30', '31_40', '41_' + str(agg_df["AGE"].max())]

# age'i bölelim:
#agg_df["age_cat"] = pd.cut(agg_df["AGE"], bins, labels=mylabels)
#agg_df.head()


In [None]:
agg_df["AGE"]=agg_df["AGE"].astype("category")

In [None]:
df["AGE"].astype("category")

0       17
1       17
2       17
3       17
4       17
        ..
4995    31
4996    31
4997    31
4998    31
4999    31
Name: AGE, Length: 5000, dtype: category
Categories (46, int64): [15, 16, 17, 18, ..., 59, 61, 65, 66]

In [None]:
agg_df["AGE"].dtype

CategoricalDtype(categories=[15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29,
                  30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44,
                  45, 46, 47, 49, 50, 51, 52, 53, 54, 55, 56, 57, 59, 61, 65,
                  66],
, ordered=False)

In [None]:
agg_df["AGE_CAT"]=pd.cut(agg_df["AGE"], [0,18,23,30,40,70], labels=["0_18","19_23","24_30","31_40","41_70"])
agg_df.head()

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE,AGE_CAT
0,bra,android,male,46,59.0,41_70
1,usa,android,male,36,59.0,31_40
2,fra,android,female,24,59.0,24_30
3,usa,ios,male,32,54.0,31_40
4,deu,android,female,36,49.0,31_40


#### **GÖREV 6:** Yeni level based müşterileri tanımlayınız ve veri setine değişken olarak ekleyiniz.

* customers_level_based adında bir değişken tanımlayınız ve veri setine bu değişkeni ekleyiniz.
* Dikkat!
* list comp ile customers_level_based değerleri oluşturulduktan sonra bu değerlerin tekilleştirilmesi gerekmektedir.
* Örneğin birden fazla şu ifadeden olabilir: USA_ANDROID_MALE_0_18
* Bunları groupby'a alıp price ortalamalarını almak gerekmektedir.


In [None]:
# [row[0].upper() + "_" + row[1].upper() + "_" + row[2].upper() + "_" + row[5].upper() for row in agg_df.values]


In [None]:
# 2. yol

#agg_df["customers_levelbased"] = [col[0].upper() + "" + col[1].upper() + 
#                                   "" + col[2].upper() + "" + col[5].upper() 
#                                  for col in agg_df.values]
#agg_df.head()

In [None]:
#for n, c in agg_df.items():
#    if pd.api.types.is_string_dtype(c):
#        agg_df[n] = c.str.upper()

In [None]:
for n, c in agg_df.items():
    if isinstance(c[0], str):
      agg_df[n] = c.str.upper()

In [None]:
agg_df

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE,AGE_CAT
0,BRA,ANDROID,MALE,46,59.0,41_70
1,USA,ANDROID,MALE,36,59.0,31_40
2,FRA,ANDROID,FEMALE,24,59.0,24_30
3,USA,IOS,MALE,32,54.0,31_40
4,DEU,ANDROID,FEMALE,36,49.0,31_40
...,...,...,...,...,...,...
343,USA,IOS,FEMALE,38,19.0,31_40
344,USA,IOS,FEMALE,30,19.0,24_30
345,CAN,ANDROID,FEMALE,27,19.0,24_30
346,FRA,ANDROID,MALE,18,19.0,0_18


In [None]:
agg_df["customer_level_based"] = agg_df[["COUNTRY", "SOURCE", "SEX", "AGE_CAT"]].apply("_".join,axis=1)
agg_df["customer_level_based"]

0        BRA_ANDROID_MALE_41_70
1        USA_ANDROID_MALE_31_40
2      FRA_ANDROID_FEMALE_24_30
3            USA_IOS_MALE_31_40
4      DEU_ANDROID_FEMALE_31_40
                 ...           
343        USA_IOS_FEMALE_31_40
344        USA_IOS_FEMALE_24_30
345    CAN_ANDROID_FEMALE_24_30
346       FRA_ANDROID_MALE_0_18
347      DEU_ANDROID_MALE_24_30
Name: customer_level_based, Length: 348, dtype: object

In [None]:
agg_df.customer_level_based.value_counts()

BRA_ANDROID_MALE_24_30      7
USA_ANDROID_MALE_41_70      7
USA_IOS_FEMALE_24_30        7
BRA_ANDROID_FEMALE_24_30    7
USA_ANDROID_MALE_24_30      7
                           ..
TUR_ANDROID_MALE_41_70      1
CAN_ANDROID_MALE_19_23      1
TUR_IOS_MALE_31_40          1
TUR_IOS_MALE_24_30          1
CAN_ANDROID_FEMALE_24_30    1
Name: customer_level_based, Length: 109, dtype: int64

In [None]:
agg_df = agg_df.groupby("customer_level_based").agg({"PRICE": "mean"})
agg_df

Unnamed: 0_level_0,PRICE
customer_level_based,Unnamed: 1_level_1
BRA_ANDROID_FEMALE_0_18,35.645303
BRA_ANDROID_FEMALE_19_23,34.077340
BRA_ANDROID_FEMALE_24_30,33.863946
BRA_ANDROID_FEMALE_31_40,34.898326
BRA_ANDROID_FEMALE_41_70,36.737179
...,...
USA_IOS_MALE_0_18,33.983495
USA_IOS_MALE_19_23,34.901872
USA_IOS_MALE_24_30,34.838143
USA_IOS_MALE_31_40,36.206324


In [None]:
agg_df=agg_df.reset_index()
agg_df

Unnamed: 0,customer_level_based,PRICE
0,BRA_ANDROID_FEMALE_0_18,35.645303
1,BRA_ANDROID_FEMALE_19_23,34.077340
2,BRA_ANDROID_FEMALE_24_30,33.863946
3,BRA_ANDROID_FEMALE_31_40,34.898326
4,BRA_ANDROID_FEMALE_41_70,36.737179
...,...,...
104,USA_IOS_MALE_0_18,33.983495
105,USA_IOS_MALE_19_23,34.901872
106,USA_IOS_MALE_24_30,34.838143
107,USA_IOS_MALE_31_40,36.206324


#### **GÖREV 7:** Yeni müşterileri (USA_ANDROID_MALE_0_18) segmentlere ayırınız.

* PRICE'a göre segmentlere ayırınız,
* segmentleri "SEGMENT" isimlendirmesi ile agg_df'e ekleyiniz,
* segmentleri betimleyiniz,

In [None]:
agg_df["SEGMENT"] =  pd.qcut(agg_df["PRICE"], 4 ,labels=["D", "C", "B", "A"])
agg_df["SEGMENT"]

0      B
1      C
2      C
3      B
4      A
      ..
104    C
105    B
106    B
107    A
108    B
Name: SEGMENT, Length: 109, dtype: category
Categories (4, object): ['D' < 'C' < 'B' < 'A']

In [None]:
agg_df.groupby("SEGMENT").agg({"PRICE":["mean","sum","max"]})

Unnamed: 0_level_0,PRICE,PRICE,PRICE
Unnamed: 0_level_1,mean,sum,max
SEGMENT,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
D,29.20678,817.789833,32.333333
C,33.509674,904.761209,34.07734
B,34.999645,944.990411,36.0
A,38.691234,1044.663328,45.428571


#### **GÖREV 8:** Yeni gelen müşterileri sınıflandırınız ne kadar gelir getirebileceğini tahmin ediniz.

* 33 yaşında ANDROID kullanan bir Türk kadını hangi segmente aittir ve ortalama ne kadar gelir kazandırması beklenir?


* 35 yaşında IOS kullanan bir Fransız kadını hangi segmente ve ortalama ne kadar gelir kazandırması beklenir?

In [None]:
new_user = "TUR_ANDROID_FEMALE_31_40"

In [None]:
agg_df[agg_df["customer_level_based"]== new_user]

Unnamed: 0,customer_level_based,PRICE,SEGMENT
72,TUR_ANDROID_FEMALE_31_40,41.833333,A


In [None]:
new_user = "FRA_IOS_FEMALE_31_40"

In [None]:
agg_df[agg_df["customer_level_based"]== new_user]

Unnamed: 0,customer_level_based,PRICE,SEGMENT
63,FRA_IOS_FEMALE_31_40,32.818182,C
