In [65]:

#############################################
# Kural Tabanlı Sınıflandırma ile Potansiyel Müşteri Getirisi Hesaplama
#############################################

#############################################
# İş Problemi
#############################################
# Bir oyun şirketi müşterilerinin bazı özelliklerini kullanarak seviye tabanlı (level based) yeni müşteri tanımları (persona)
# oluşturmak ve bu yeni müşteri tanımlarına göre segmentler oluşturup bu segmentlere göre yeni gelebilecek müşterilerin şirkete
# ortalama ne kadar kazandırabileceğini tahmin etmek istemektedir.

# Örneğin: Türkiye’den IOS kullanıcısı olan 25 yaşındaki bir erkek kullanıcının ortalama ne kadar kazandırabileceği belirlenmek isteniyor.


#############################################
# Veri Seti Hikayesi
#############################################
# Persona.csv veri seti uluslararası bir oyun şirketinin sattığı ürünlerin fiyatlarını ve bu ürünleri satın alan kullanıcıların bazı
# demografik bilgilerini barındırmaktadır. Veri seti her satış işleminde oluşan kayıtlardan meydana gelmektedir. Bunun anlamı tablo
# tekilleştirilmemiştir. Diğer bir ifade ile belirli demografik özelliklere sahip bir kullanıcı birden fazla alışveriş yapmış olabilir.

# Price: Müşterinin harcama tutarı
# Source: Müşterinin bağlandığı cihaz türü
# Sex: Müşterinin cinsiyeti
# Country: Müşterinin ülkesi
# Age: Müşterinin yaşı

################# Uygulama Öncesi #####################

#    PRICE   SOURCE   SEX COUNTRY  AGE
# 0     39  android  male     bra   17
# 1     39  android  male     bra   17
# 2     49  android  male     bra   17
# 3     29  android  male     tur   17
# 4     49  android  male     tur   17

################# Uygulama Sonrası #####################

#       customers_level_based        PRICE SEGMENT
# 0   BRA_ANDROID_FEMALE_0_18  1139.800000       A
# 1  BRA_ANDROID_FEMALE_19_23  1070.600000       A
# 2  BRA_ANDROID_FEMALE_24_30   508.142857       A
# 3  BRA_ANDROID_FEMALE_31_40   233.166667       C
# 4  BRA_ANDROID_FEMALE_41_66   236.666667       C


#############################################
# PROJE GÖREVLERİ
#############################################

In [66]:
# libraries:
import numpy as np
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt

In [67]:
#############################################
# GÖREV 1: Aşağıdaki soruları yanıtlayınız.
#############################################

In [68]:
# Soru 1: persona.csv dosyasını okutunuz ve veri seti ile ilgili genel bilgileri gösteriniz.

data=pd.read_csv("persona.csv") 
df=data.copy()
df.head()

Unnamed: 0,PRICE,SOURCE,SEX,COUNTRY,AGE
0,39,android,male,bra,17
1,39,android,male,bra,17
2,49,android,male,bra,17
3,29,android,male,tur,17
4,49,android,male,tur,17


In [69]:
# Soru 2: Kaç unique SOURCE vardır? Frekansları nedir?

df["SOURCE"].unique()
df["SOURCE"].value_counts() 

android    2974
ios        2026
Name: SOURCE, dtype: int64

In [70]:
# Soru 3: Kaç unique PRICE vardır?

df["PRICE"].unique()

array([39, 49, 29, 19, 59,  9], dtype=int64)

In [71]:
# Soru 4: Hangi PRICE'dan kaçar tane satış gerçekleşmiş?

df["PRICE"].value_counts()

29    1305
39    1260
49    1031
19     992
59     212
9      200
Name: PRICE, dtype: int64

In [72]:
# Soru 5: Hangi ülkeden kaçar tane satış olmuş?

df["COUNTRY"].value_counts()

usa    2065
bra    1496
deu     455
tur     451
fra     303
can     230
Name: COUNTRY, dtype: int64

In [73]:
# Soru 6: Ülkelere göre satışlardan toplam ne kadar kazanılmış?

df.groupby("COUNTRY")[["PRICE"]].sum()

Unnamed: 0_level_0,PRICE
COUNTRY,Unnamed: 1_level_1
bra,51354
can,7730
deu,15485
fra,10177
tur,15689
usa,70225


In [74]:
# Soru 7: SOURCE türlerine göre göre satış sayıları nedir?

df["SOURCE"].value_counts()

android    2974
ios        2026
Name: SOURCE, dtype: int64

In [75]:
# Soru 8: Ülkelere göre PRICE ortalamaları nedir?

df.groupby("COUNTRY")[["PRICE"]].mean()


Unnamed: 0_level_0,PRICE
COUNTRY,Unnamed: 1_level_1
bra,34.32754
can,33.608696
deu,34.032967
fra,33.587459
tur,34.78714
usa,34.007264


In [76]:
# Soru 9: SOURCE'lara göre PRICE ortalamaları nedir?
df.groupby("SOURCE")[["PRICE"]].mean()


Unnamed: 0_level_0,PRICE
SOURCE,Unnamed: 1_level_1
android,34.174849
ios,34.069102


In [77]:
# Soru 10: COUNTRY-SOURCE kırılımında PRICE ortalamaları nedir?

df.groupby(["COUNTRY","SOURCE"])[["PRICE"]].mean()



Unnamed: 0_level_0,Unnamed: 1_level_0,PRICE
COUNTRY,SOURCE,Unnamed: 2_level_1
bra,android,34.387029
bra,ios,34.222222
can,android,33.330709
can,ios,33.951456
deu,android,33.869888
deu,ios,34.268817
fra,android,34.3125
fra,ios,32.776224
tur,android,36.229437
tur,ios,33.272727


In [78]:
# GÖREV 2: COUNTRY, SOURCE, SEX, AGE kırılımında ortalama kazançlar nedir?

agg_df=df.groupby(["COUNTRY", "SOURCE", "SEX", "AGE"])[["PRICE"]].mean()
agg_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
COUNTRY,SOURCE,SEX,AGE,Unnamed: 4_level_1
bra,android,female,15,38.714286
bra,android,female,16,35.944444
bra,android,female,17,35.666667
bra,android,female,18,32.255814
bra,android,female,19,35.206897
...,...,...,...,...
usa,ios,male,42,30.250000
usa,ios,male,50,39.000000
usa,ios,male,53,34.000000
usa,ios,male,55,29.000000


In [79]:
# GÖREV 3: Çıktıyı PRICE'a göre sıralayınız.
agg_df=agg_df.sort_values(by="PRICE",ascending=False)
agg_df


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,PRICE
COUNTRY,SOURCE,SEX,AGE,Unnamed: 4_level_1
bra,android,male,46,59.0
usa,android,male,36,59.0
fra,android,female,24,59.0
usa,ios,male,32,54.0
deu,android,female,36,49.0
...,...,...,...,...
usa,ios,female,38,19.0
usa,ios,female,30,19.0
can,android,female,27,19.0
fra,android,male,18,19.0


In [80]:
# GÖREV 4: Indekste yer alan isimleri değişken ismine çeviriniz.

agg_df.reset_index(inplace=True)
agg_df

Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE
0,bra,android,male,46,59.0
1,usa,android,male,36,59.0
2,fra,android,female,24,59.0
3,usa,ios,male,32,54.0
4,deu,android,female,36,49.0
...,...,...,...,...,...
343,usa,ios,female,38,19.0
344,usa,ios,female,30,19.0
345,can,android,female,27,19.0
346,fra,android,male,18,19.0


In [81]:
#############################################
# GÖREV 5: AGE değişkenini kategorik değişkene çeviriniz ve agg_agg_df'e ekleyiniz.

#############################################
# Age sayısal değişkenini kategorik değişkene çeviriniz.
# Aralıkları ikna edici olacağını düşündüğünüz şekilde oluşturunuz.
# Örneğin: '0_18', '19_23', '24_30', '31_40', '41_70'

agg_df["AGE"]=pd.cut(agg_df["AGE"],bins=[0,18,23,30,40,70],labels=["0_18","19_23","24_30","31_40","41_70"])
agg_df


Unnamed: 0,COUNTRY,SOURCE,SEX,AGE,PRICE
0,bra,android,male,41_70,59.0
1,usa,android,male,31_40,59.0
2,fra,android,female,24_30,59.0
3,usa,ios,male,31_40,54.0
4,deu,android,female,31_40,49.0
...,...,...,...,...,...
343,usa,ios,female,31_40,19.0
344,usa,ios,female,24_30,19.0
345,can,android,female,24_30,19.0
346,fra,android,male,0_18,19.0


In [82]:
# GÖREV 6: Yeni level based müşterileri tanımlayınız ve veri setine değişken olarak ekleyiniz.
# customers_level_based adında bir değişken tanımlayınız ve veri setine bu değişkeni ekleyiniz.
# Dikkat!
# list comp ile customers_level_based değerleri oluşturulduktan sonra bu değerlerin tekilleştirilmesi gerekmektedir.
# Örneğin birden fazla şu ifadeden olabilir: USA_ANDROID_MALE_0_18
# Bunları groupby'a alıp price ortalamalarını almak gerekmektedir.

agg_df["customers_level_based"]=[row[0].upper()+"_"+row[1].upper()+"_"+row[2].upper()+"_"+row[3] for row in agg_df.values]

agg_df=agg_df.groupby("customers_level_based").agg({"PRICE":"mean"})
agg_df



Unnamed: 0_level_0,PRICE
customers_level_based,Unnamed: 1_level_1
BRA_ANDROID_FEMALE_0_18,35.645303
BRA_ANDROID_FEMALE_19_23,34.077340
BRA_ANDROID_FEMALE_24_30,33.863946
BRA_ANDROID_FEMALE_31_40,34.898326
BRA_ANDROID_FEMALE_41_70,36.737179
...,...
USA_IOS_MALE_0_18,33.983495
USA_IOS_MALE_19_23,34.901872
USA_IOS_MALE_24_30,34.838143
USA_IOS_MALE_31_40,36.206324


In [85]:
# GÖREV 7: Yeni müşterileri (USA_ANDROID_MALE_0_18) segmentlere ayırınız.
#############################################
# PRICE'a göre segmentlere ayırınız,
# segmentleri "SEGMENT" isimlendirmesi ile agg_df'e ekleyiniz,
# segmentleri betimleyiniz,

agg_df["SEGMENT"]=pd.qcut(agg_df["PRICE"],4,labels=["D","C","B","A"])
agg_df.head()


Unnamed: 0_level_0,PRICE,SEGMENT
customers_level_based,Unnamed: 1_level_1,Unnamed: 2_level_1
BRA_ANDROID_FEMALE_0_18,35.645303,B
BRA_ANDROID_FEMALE_19_23,34.07734,C
BRA_ANDROID_FEMALE_24_30,33.863946,C
BRA_ANDROID_FEMALE_31_40,34.898326,B
BRA_ANDROID_FEMALE_41_70,36.737179,A


In [None]:
# GÖREV 8: Yeni gelen müşterileri sınıflandırınız ne kadar gelir getirebileceğini tahmin ediniz.
# 33 yaşında ANDROID kullanan bir Türk kadını hangi segmente aittir ve ortalama ne kadar gelir kazandırması beklenir?
# 35 yaşında IOS kullanan bir Fransız kadını hangi segmente ve ortalama ne kadar gelir kazandırması beklenir?