# Örnekleme(Sampling) Yöntemleri ve Çeşitleri

### Örnekleme (Sampling) Nedir?

** Örnekleme bir ana kütleden(population) daha küçük bir alt küme (sample) seçme işlemidir.Amaç ana kütlenin temel özelliklerini yansıtan ve ondan çıkarımlar yapabileceğimiz temsili bir örnek elde etmektir.Bu yöntem özellikle

* Büyük veri kümeleriyle çalışırken hesaplama maliyetini azaltır
* Veri toplama maliyetini ve zamanını azaltır
* Tüm populasyona ulaşmanın imkansız olduğu durumlarda kullanılır

## Temel Örnekleme Yöntemleri

### 1-) Basit Rastgele Örnekleme(Simple Random Sampling):

** Özellikler

* Her birime eşit seçilme şansı verilir
* Seçim süreci tamamen rastgeledir
* İstatistiksel analiz için en temek yöntemdir

** Örnek

* Bir okulda 1000 öğrenci varsa ve 100 öğrencilik bir anket çalışması yapacaksak tüm öğrencileri numaralandırıp rastgele sayı üretici kullanarak 100 öğrenci seçebiliriz

** Avantajları

* Uygulaması kolaydır
* Önyargı(bias) riski küçüktür
* Temsil gücü yüksektir

** Dezavantajları

* Farklı alt gruplar yeterince temsik edilmeyebilir
* Fiziksel olarak dağınık veri kaynaklarından örnekleme yapmak zor olaiblir

## 2-)Tabakalı Örnekleme (Strafied Sampling)

Ana kütle, belirli özelliklere göre farklı tabaka veya gruplara ayrılır ve her tabakadan ayrı ayrı rastgele örnekelr alınır

** Özellikler

* Ana kütle önce homojen alt gruplara(tabakalara) ayrılır
* Her tabakadan örnekler seçilir(orantılı veya orantısız)
* Her alt grup için belirli bir örnekleme oranı kullanılabilir

** Örnek

* Bir müşteri memnuniyeti araştırması yaparken , müşterileri yaş gruplarına(18-25,26-40,41-65) göre ayırıp, her gruptan temsili sayıda kişi seçebiliriz

** Avantajları

* Her alt grup temsil edilir
* Daha düşük örnekleme hatası
* Heterojen populasyonlarda daha doğru sonuç verir

** Dezavantajları

* Uygulama ve anakiz daha karmaşıktır
* Tabakaların doğru belirlenmesi gerekir


## 3-)Küme Örnekleme(Cluster Sampling)

Ana kütle önce kümelere ayrılır daha sonra rastgele seçilen kümelerin tüm birimleri örnekleme dahil edilir

** Özellikler

* Ana kütle doğal kümelere ayrılır(örn--> mahalleler, sınıflar,şehirler)
* Rastgele kümeler seçilir
* Seçilen kümelerdeki tüm birimler örnekleme dahil edilir

** Örnek

Bir ülkedeki vatandaşların sağlık durumunu araştırmak için rastgele 20 şehir seçip bu şehirlerdeki tüm kişileri örneklemimize dahil edebiliriz

** Avantajları

* Geniş coğrafi alanlarda uygulanması kolaydır
* Zaman ve maliyet tasarrufu sağlar
* Örnekleme çercevesi (sampling frame) gerektirmez

** Dezavantajları

* Örnekleme hatası yüksek olabilir
* Kümeler arası varyasyon yüksekse temsil gücü düşebilir

# E-Ticaret Platformu Müşteri Analizi Projesi

## Aşama 1:Basit Rastgele Örnekleme

** Senaryo--> Platformun genel kullanıcı davranışı hakkında fikir edinmek istiyoruz

** Uygulama

* 2 milyon kullanıcıdan 10 bin kullanıcı seç
* Bu kullanıcıların davranış verilerini topla ve analiz et
* Böylece genel kullanıcı eğilimlerini anlayabiliriz

In [87]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

#Tüm kullanıcı veritabanını temsil eden DataFrame
users_df=pd.DataFrame({"user_id":range(1,2000001),
                       "age":np.random.randint(18,80,size=2000000),
                       "gender":np.random.choice(["M","F"],size=2000000),
                       "purchase_frequency":np.random.exponential(scale=2.5,size=2000000),
                       "avg_order_value":np.random.normal(loc=50,scale=20,size=2000000)})

#Basit Rastgele Örnekleme
simple_random_sample=users_df.sample(n=10000,random_state=31)
print(f"Basit rastgele örnekleme boyutu :{len(simple_random_sample)}")
simple_random_sample.head(3)

Basit rastgele örnekleme boyutu :10000


Unnamed: 0,user_id,age,gender,purchase_frequency,avg_order_value
476414,476415,56,M,0.064827,85.836203
1121950,1121951,26,M,3.541081,70.245475
698441,698442,55,M,0.747142,61.717742


## Aşama 2:Tabakalı Örnekleme

** Senaryo:Farklı yaş gruplarının satın alma davranışları arasındaki farklılıkları incelemek istiyoruz

** Uygulama-->Kullanıcıları yaş gruplarına göre tabakalara ayırıyoruz

* 18-25 yaş:500.000 kullanıcı
* 26-35 yaş:700.000 kullanıcı
* 36-50 yaş:500.000 kullanıcı
* 51+ yaş:300.000 kullanıcı

** Her tabakadan orantılı şekilde örneklem alıyoruz
** Bu sayede her yaş grubunun temsil edildiğinden emin oluyoruz

In [88]:
# Yaş gruplarına göre tabakalar oluştur
users_df["age_group"]=pd.cut(users_df["age"],bins=[17,25,35,50,80]
                             ,labels=["18-25","26-35","36-50","51+"])
users_df["age_group"].head(3)

0    18-25
1      51+
2    18-25
Name: age_group, dtype: category
Categories (4, object): ['18-25' < '26-35' < '36-50' < '51+']

In [89]:
#Her tabakadan orantılı örnekleme
stratified_sample=users_df.groupby("age_group",group_keys=False).apply(
    lambda x:x.sample(int(10000 * len(x) / len(users_df)),random_state=31)
)
print(f"Tabakalı örnekleme boyutu: {len(stratified_sample)}")
print(stratified_sample.groupby("age_group").size())

Tabakalı örnekleme boyutu: 9998
age_group
18-25    1294
26-35    1616
36-50    2418
51+      4670
dtype: int64


## Aşama 3:Küme Örnekleme

** Senaryo-->Farklı coğrafi bölgelerdeki kullanıc davranışlarını incelemek istiyoruz

** Uygulama

* Kullanıcıları coğrafi bölgelere(kümeler) göre ayırıyoruz.(örneğin 30 farklı şehir)
* Rastgele 10 şehir seçiyoruz
* Bu şehirlerdeki tüm kullanıcıları örneklemimize dahil ediyoruz

In [90]:
#Şehirleri temsil eden kümeler oluştur(50 şehir)
cities=[f"City_{i}" for i in range(1,51)]
users_df["city"]=np.random.choice(cities,size=2000000)
users_df.head(2)

Unnamed: 0,user_id,age,gender,purchase_frequency,avg_order_value,age_group,city
0,1,19,M,0.857852,71.616448,18-25,City_13
1,2,61,F,1.541593,31.136006,51+,City_25


In [91]:
#Rastgele 10 şehir seç
selected_cities=np.random.choice(cities,size=10,replace=False)
#Seçilen şehirlerdeki tüm kullanıcılar
cluster_sample=users_df[users_df["city"].isin(selected_cities)]
len(cluster_sample["city"].unique())

10

In [92]:
print(f"Küme örnekleme boyutu {len(cluster_sample) }")
print("----"*31)
print(cluster_sample["city"].value_counts())

Küme örnekleme boyutu 399536
----------------------------------------------------------------------------------------------------------------------------
city
City_29    40308
City_15    40197
City_20    40089
City_41    40057
City_45    40000
City_27    39995
City_30    39878
City_23    39793
City_21    39634
City_13    39585
Name: count, dtype: int64


## Karşılaştırmali Analiz 

Her 3 örnekleme yöntemiyle elde ettiğimiz örneklemleri karşılaştıralım

In [93]:
#Her örneklemi kullanarak ortalama sipariş değerlerini hesapla
true_avg=users_df["avg_order_value"].mean()
simple_avg=simple_random_sample["avg_order_value"].mean()
strafied_avg=stratified_sample["avg_order_value"].mean()
cluster_avg=cluster_sample["avg_order_value"].mean()

print(f"Gerçek ortalama sipariş değeri: {true_avg:.2f}")
print(f"Basit rastgele örnekleme tahmini: {simple_avg:.2f}")
print(f"Tabakalı örnekleme tahmini: {strafied_avg:.2f}")
print(f"Küme örnekleme tahmini: {cluster_avg:.2f}")

Gerçek ortalama sipariş değeri: 49.97
Basit rastgele örnekleme tahmini: 49.83
Tabakalı örnekleme tahmini: 49.97
Küme örnekleme tahmini: 49.92


## Bir Makine Öğremesi Modeli (en iyi örnekleme ile)

Tabakalı örnekleme en iyi örnekleme yukarıda

In [94]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error


In [96]:
stratified_sample.head(3)

Unnamed: 0,user_id,age,gender,purchase_frequency,avg_order_value,age_group
7284,7285,25,F,1.117848,19.999675,18-25
1494757,1494758,20,F,2.065141,30.182386,18-25
1511769,1511770,21,F,2.288853,54.139177,18-25


In [99]:
X=stratified_sample[["age","purchase_frequency"]]
y=stratified_sample["avg_order_value"]

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=31)
model=RandomForestRegressor(n_estimators=100,random_state=31)
model.fit(X_train,y_train)
y_pred=model.predict(X_test)
mse=mean_squared_error(y_test,y_pred)
print(f"RMSE: {mse**(1/2)}")

RMSE: 22.058851152374828


In [101]:
mse

486.59291416262823