In [None]:
###############################
# Kural Tabanlı Sınıflandırma ile Potansiyel Müşteri Getirisi Hesaplama
###############################

############
# İş Problemi
############

# Bir oyun şirketi müşterilerinin bazı özelliklerini kullanarak
# seviye tabanlı (level based) yeni müşteri tanımları (persona)
# oluşturmak ve bu yeni müşteri tanımlarına göre segmentler
# oluşturup bu segmentlere göre yeni gelebilecek müşterilerin
# şirkete ortalama ne kadar kazandırabileceğini tahmin etmek
# istemektedir.
# Örneğin:
# Türkiye’den IOS kullanıcısı olan 25 yaşındaki bir erkek
# kullanıcının ortalama ne kadar kazandırabileceği belirlenmek
# isteniyor


# Veri seti Hikayesi:

# Persona.csv veri seti uluslararası bir oyun şirketinin sattığı ürünlerin fiyatlarını ve bu
# ürünleri satın alan kullanıcıların bazı demografik bilgilerini barındırmaktadır. Veri
# seti her satış işleminde oluşan kayıtlardan meydana gelmektedir. Bunun anlamı
# tablo tekilleştirilmemiştir. Diğer bir ifade ile belirli demografik özelliklere sahip bir
# kullanıcı birden fazla alışveriş yapmış olabilir


# DEĞİŞKENLER:

# PRICE – Müşterinin harcama tutarı
# SOURCE – Müşterinin bağlandığı cihaz türü
# SEX – Müşterinin cinsiyeti
# COUNTRY – Müşterinin ülkesi
# AGE – Müşterinin yaşı

In [118]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv("persona.csv")

In [119]:
# Soru 1: persona.csv dosyasını okutunuz ve veri seti ile ilgili genel bilgileri gösteriniz
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   PRICE    5000 non-null   int64 
 1   SOURCE   5000 non-null   object
 2   SEX      5000 non-null   object
 3   COUNTRY  5000 non-null   object
 4   AGE      5000 non-null   int64 
dtypes: int64(2), object(3)
memory usage: 234.4+ KB


Unnamed: 0,PRICE,SOURCE,SEX,COUNTRY,AGE
0,39,android,male,bra,17
1,39,android,male,bra,17
2,49,android,male,bra,17
3,29,android,male,tur,17
4,49,android,male,tur,17


In [120]:
# Soru 2: Kaç unique SOURCE vardır? Frekansları nedir?
df["SOURCE"].unique()
df["SOURCE"].value_counts()

android    2974
ios        2026
Name: SOURCE, dtype: int64

In [121]:
# Soru 3: Kaç unique PRICE vardır?
df["PRICE"].unique()

array([39, 49, 29, 19, 59,  9], dtype=int64)

In [122]:
# Soru 4: Hangi PRICE'dan kaçar tane satış gerçekleşmiş?
df["PRICE"].value_counts()

29    1305
39    1260
49    1031
19     992
59     212
9      200
Name: PRICE, dtype: int64

In [123]:
# Soru 5: Hangi ülkeden kaçar tane satış olmuş?
df["COUNTRY"].value_counts()

usa    2065
bra    1496
deu     455
tur     451
fra     303
can     230
Name: COUNTRY, dtype: int64

In [127]:
# Soru 6: Ülkelere göre satışlardan toplam ne kadar kazanılmış?
df.groupby("COUNTRY").agg({"PRICE": "sum"})

Unnamed: 0_level_0,PRICE
COUNTRY,Unnamed: 1_level_1
bra,51354
can,7730
deu,15485
fra,10177
tur,15689
usa,70225


In [128]:
# Soru 7: SOURCE türlerine göre satış sayıları nedir?
# df.groupby("SOURCE").agg({"PRICE": "sum"})
df["SOURCE"].value_counts()

android    2974
ios        2026
Name: SOURCE, dtype: int64

In [129]:
# Soru 8: Ülkelere göre PRICE ortalamaları nedir?
df.groupby("COUNTRY").agg({"PRICE": "mean"})

Unnamed: 0_level_0,PRICE
COUNTRY,Unnamed: 1_level_1
bra,34.32754
can,33.608696
deu,34.032967
fra,33.587459
tur,34.78714
usa,34.007264


In [130]:
# Soru 9: SOURCE'lara göre PRICE ortalamaları nedir?
df.groupby("SOURCE").agg({"PRICE": "mean"})

Unnamed: 0_level_0,PRICE
SOURCE,Unnamed: 1_level_1
android,34.174849
ios,34.069102


In [131]:
# Soru 10: COUNTRY-SOURCE kırılımında PRICE ortalamaları nedir?
df.groupby(["COUNTRY","SOURCE"]).agg({"PRICE": "mean"})

Unnamed: 0_level_0,Unnamed: 1_level_0,PRICE
COUNTRY,SOURCE,Unnamed: 2_level_1
bra,android,34.387029
bra,ios,34.222222
can,android,33.330709
can,ios,33.951456
deu,android,33.869888
deu,ios,34.268817
fra,android,34.3125
fra,ios,32.776224
tur,android,36.229437
tur,ios,33.272727


In [134]:
# Görev 2: COUNTRY, SOURCE, SEX, AGE kırılımında ortalama kazançlar nedir?
deneme = df.groupby(["COUNTRY","SOURCE","SEX","AGE"]).agg({"PRICE": "mean"})
deneme

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
COUNTRY,SOURCE,SEX,AGE,Unnamed: 4_level_1
bra,android,female,15,38.714286
bra,android,female,16,35.944444
bra,android,female,17,35.666667
bra,android,female,18,32.255814
bra,android,female,19,35.206897
...,...,...,...,...
usa,ios,male,42,30.250000
usa,ios,male,50,39.000000
usa,ios,male,53,34.000000
usa,ios,male,55,29.000000


In [136]:
# Görev 3: Önceki sorudaki çıktıyı daha iyi görebilmek için sort_values metodunu azalan olacak şekilde PRICE’a göre uygulayınız
agg_df = df.groupby(by=["COUNTRY", 'SOURCE', "SEX", "AGE"]).agg({"PRICE": "mean"}).sort_values("PRICE", ascending=False)
agg_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
COUNTRY,SOURCE,SEX,AGE,Unnamed: 4_level_1
bra,android,male,46,59.0
usa,android,male,36,59.0
fra,android,female,24,59.0
usa,ios,male,32,54.0
deu,android,female,36,49.0
...,...,...,...,...
usa,ios,female,38,19.0
usa,ios,female,30,19.0
can,android,female,27,19.0
fra,android,male,18,19.0


In [137]:
# Görev 4:Indekste yer alan isimleri değişken ismine çeviriniz
# Üçüncü sorunun çıktısında yer alan PRICE dışındaki tüm değişkenler index isimleridir. Bu isimleri değişken isimlerine çeviriniz.
agg_df.index
agg_df = agg_df.reset_index()
agg_df.head()

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE
0,bra,android,male,46,59.0
1,usa,android,male,36,59.0
2,fra,android,female,24,59.0
3,usa,ios,male,32,54.0
4,deu,android,female,36,49.0


In [138]:
# Görev 5: Age değişkenini kategorik değişkene çeviriniz ve agg_df’e ekleyiniz

bins = [0, 18, 23, 30, 40, agg_df["AGE"].max()]

# bölünen aralıkların isimlendirilmeleri
mylabels = ["0_18", "19_23", "24_30", "31_40", "41_" + str(agg_df["AGE"].max())]

# AGE'i bölme işlemi
agg_df["AGE_CAT"] = pd.cut(agg_df["AGE"], bins, labels=mylabels)
# agg_df["AGE"] = agg_df["AGE_CAT"]
agg_df.head()

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE,AGE_CAT
0,bra,android,male,46,59.0,41_66
1,usa,android,male,36,59.0,31_40
2,fra,android,female,24,59.0,24_30
3,usa,ios,male,32,54.0,31_40
4,deu,android,female,36,49.0,31_40


In [139]:
# Görev 6: Yeni seviye tabanlı müşterileri (persona) tanımlayınız.

# list comprehension ile COUNTRY, SOURCE, SEX, AGE_CAT değişkenlerinin değerlerinin isimlerini büyültüp
# yan yana koyup ve _ ile birleştirme işlemi
# ve yeni değere atama işlemi

# değişken isimleri
agg_df.columns

for row in agg_df.values:
    print(row)

# gözlem değişkenlerine erişim (for döngüsüyle)
for row in agg_df.values:
    print(row[1])


# list comprehension ile COUNTRY, SOURCE, SEX, AGE_CAT değişkenlerinin değerlerinin isimlerini büyültüp
# yan yana koyup ve _ ile birleştirme işlemi
# burda row[0] country, row[1] source, row[2] sex, row[5] age_cat değişkenlerinin değerlerini temsil ediyor.
[row[0].upper() + "_" + row[1].upper() + "_" + row[2].upper() + "_" + row[5].upper() for row in agg_df.values]


# veri setine ekleme işlemi
agg_df["customers_level_based"] = [row[0].upper() + "_" + row[1].upper() + "_" + row[2].upper() + "_" + row[5].upper() for row in agg_df.values]
agg_df.head()


# gereksiz değişkenleri çıkarma işlemi
agg_df = agg_df[["customers_level_based", "PRICE"]]
agg_df.head()

for i in agg_df["customers_level_based"].values:
    print(i.split("_"))


# bir çok aynı segment var burada. bunları groupby yapıp price ortalamalarını aldıktan sonra
# segmentleri tekilleştirme işlemi
agg_df["customers_level_based"].value_counts()

agg_df = agg_df.groupby("customers_level_based").agg({"PRICE": "mean"})
agg_df.head()

# customer_level_based index'te yer alıyor şuan. değişkene çevirme işlemi
agg_df = agg_df.reset_index()
agg_df.head()

# burada kontrol ettiğimizde segmentler tekilleşmiş olacak
agg_df["customers_level_based"].value_counts()
agg_df.head()


['bra' 'android' 'male' 46 59.0 '41_66']
['usa' 'android' 'male' 36 59.0 '31_40']
['fra' 'android' 'female' 24 59.0 '24_30']
['usa' 'ios' 'male' 32 54.0 '31_40']
['deu' 'android' 'female' 36 49.0 '31_40']
['deu' 'android' 'female' 51 49.0 '41_66']
['deu' 'ios' 'male' 20 49.0 '19_23']
['usa' 'android' 'female' 47 49.0 '41_66']
['fra' 'ios' 'male' 20 49.0 '19_23']
['usa' 'ios' 'male' 59 46.5 '41_66']
['deu' 'android' 'male' 15 46.5 '0_18']
['bra' 'android' 'female' 30 45.666666666666664 '24_30']
['usa' 'android' 'female' 61 45.666666666666664 '41_66']
['tur' 'ios' 'male' 24 45.0 '24_30']
['deu' 'android' 'male' 34 45.0 '31_40']
['tur' 'ios' 'female' 18 44.0 '0_18']
['bra' 'android' 'female' 43 44.0 '41_66']
['bra' 'ios' 'female' 22 44.0 '19_23']
['tur' 'android' 'female' 32 43.0 '31_40']
['bra' 'android' 'female' 39 43.0 '31_40']
['tur' 'ios' 'male' 37 42.333333333333336 '31_40']
['tur' 'android' 'male' 15 42.333333333333336 '0_18']
['usa' 'ios' 'male' 28 42.333333333333336 '24_30']
['br

Unnamed: 0,customers_level_based,PRICE
0,BRA_ANDROID_FEMALE_0_18,35.645303
1,BRA_ANDROID_FEMALE_19_23,34.07734
2,BRA_ANDROID_FEMALE_24_30,33.863946
3,BRA_ANDROID_FEMALE_31_40,34.898326
4,BRA_ANDROID_FEMALE_41_66,36.737179


In [140]:
# Görev 7: Yeni müşterileri (personaları) segmentlere ayırınız.
agg_df["SEGMENT"] = pd.qcut(agg_df["PRICE"], 4, labels=["D", "C", "B", "A"])

agg_df.head(30)

agg_df.groupby("SEGMENT").agg({"PRICE": "mean"})


Unnamed: 0_level_0,PRICE
SEGMENT,Unnamed: 1_level_1
D,29.20678
C,33.509674
B,34.999645
A,38.691234


In [141]:
# Görev 8: Yeni gelen müşterileri sınıflandırıp, ne kadar gelir getirebileceklerini tahmin ediniz.

new_user = "TUR_ANDROID_FEMALE_31_40"
agg_df[agg_df["customers_level_based"] == new_user]

new_user = "FRA_IOS_FEMALE_31_40"
agg_df[agg_df["customers_level_based"] == new_user]

Unnamed: 0,customers_level_based,PRICE,SEGMENT
63,FRA_IOS_FEMALE_31_40,32.818182,C
