# Örnek Teorisi

Örnekleme teorisi, bir popülasyondan örnek alma ve bu örnekleri analiz etme yöntemlerini kapsar. Merkezi limit teoremi ise, örneklem büyüklüğüne bağlı olarak örneklem istatistiklerinin (örneğin, ortalama) normal bir dağılıma sahip olacağını ifade eder. Yani merkezi limit teoremi, örnekleme teorisinin daha özel bir durumudur.

Örneğin bir ilçedeki yaş ortalamasını bulmak istiyoruz. Tüm insanlara soramayacağımıza göre 100 kişilik bir örneklem çekip bunun üzerinden analiz yapmalıyız.

In [1]:
import numpy as np

In [2]:
populasyon = np.random.randint(0, 80, 10000)

In [3]:
populasyon[0:10]

array([47, 42, 15, 51, 62, 47, 61, 13, 77, 23])

In [4]:
# orneklem cekme

np.random.seed(115)
orneklem = np.random.choice(a=populasyon, size=100) # anakitleden 100 tane gozlem cektik
orneklem[0:10]

array([79, 45, 64, 79, 56,  7, 17, 50, 67, 37])

In [5]:
orneklem.mean()

41.64

In [6]:
populasyon.mean() # Orneklem teorisinin gucu

39.5976

In [7]:
# Orneklem dagilimi
# her orneklem cektigimizde farkli sonuclar alabiliriz. Bunun icin birden fazla orneklem kullanacagiz.
np.random.seed(10)
orneklem1 = np.random.choice(a=populasyon, size=100)
orneklem2 = np.random.choice(a=populasyon, size=100)
orneklem3 = np.random.choice(a=populasyon, size=100)
orneklem4 = np.random.choice(a=populasyon, size=100)
orneklem5 = np.random.choice(a=populasyon, size=100)
orneklem6 = np.random.choice(a=populasyon, size=100)
orneklem7 = np.random.choice(a=populasyon, size=100)
orneklem8 = np.random.choice(a=populasyon, size=100)
orneklem9 = np.random.choice(a=populasyon, size=100)
orneklem10 = np.random.choice(a=populasyon, size=100)

In [8]:
(orneklem1.mean() + orneklem2.mean() + orneklem3.mean() + orneklem4.mean() + orneklem5.mean() + orneklem6.mean()
 + orneklem7.mean() + orneklem8.mean() + orneklem9.mean() + orneklem10.mean()) / 10

38.68300000000001

Görüldüğü gibi sonuç oldukça popülasyon ortalamasına yaklaştı. Merkezi Limit Teoremi aracılığıyla popülasyonun ortalamasına yaklaşmış oluyoruz.

In [9]:
orneklem1.mean()

39.83

In [10]:
orneklem2.mean()

38.38

## Betimsel İstatistikler

In [11]:
import seaborn as sns
tips = sns.load_dataset('tips')
df = tips.copy()
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [12]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
total_bill,244.0,19.785943,8.902412,3.07,13.3475,17.795,24.1275,50.81
tip,244.0,2.998279,1.383638,1.0,2.0,2.9,3.5625,10.0
size,244.0,2.569672,0.9511,1.0,2.0,2.0,3.0,6.0


In [13]:
!pip install researchpy



In [14]:
import researchpy as rp
rp.summary_cont(df.select_dtypes(exclude=['category']))





  table_a.iloc[0,0] = ix
  table_a.iloc[0,0] = ix
  table_a.iloc[0,0] = ix


Unnamed: 0,Variable,N,Mean,SD,SE,95% Conf.,Interval
0,total_bill,244.0,19.7859,8.9024,0.5699,18.6633,20.9086
1,tip,244.0,2.9983,1.3836,0.0886,2.8238,3.1728
2,size,244.0,2.5697,0.9511,0.0609,2.4497,2.6896


In [15]:
rp.summary_cat(df[['day', 'sex', 'smoker']])

Unnamed: 0,Variable,Outcome,Count,Percent
0,day,Sat,87,35.66
1,,Sun,76,31.15
2,,Thur,62,25.41
3,,Fri,19,7.79
4,sex,Male,157,64.34
5,,Female,87,35.66
6,smoker,No,151,61.89
7,,Yes,93,38.11


In [16]:
df[['tip', 'total_bill']].cov()

Unnamed: 0,tip,total_bill
tip,1.914455,8.323502
total_bill,8.323502,79.252939


In [17]:
df[['tip', 'total_bill']].corr() # pozitif yonlu, orta siddetli bir iliski oldugu anlamina geliyor.

Unnamed: 0,tip,total_bill
tip,1.0,0.675734
total_bill,0.675734,1.0


## Price Strategy Example

In [18]:
import numpy as np 

fiyatlar = np.random.randint(10, 110, 1000)

In [19]:
import pandas as pd 
fiyat_df = pd.DataFrame(fiyatlar)

In [20]:
fiyat_df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
0,1000.0,58.492,29.207482,10.0,33.0,58.0,84.0,109.0


In [21]:
import statsmodels.stats.api as sms 

In [22]:
sms.DescrStatsW(fiyat_df).tconfint_mean()

(array([56.67953888]), array([60.30446112]))

In [23]:
# secilen orneklemlerin %95 inin ortalaması bu aralıkta olacak. buna gore fiyat bicebiliriz.