# Örnek Teorisi

* ***örneklem dağılımı:*** popülasyon içerisinden sadece bir tane değil de daha fazla örneklem çektiğimizde bu örneklemlerin dağılımıyla ilgilendiğimizde örneklem dağlılımı konusuyla ilgilenmiş oluyoruz.

* ***merkezi limit teoremi:*** Bağımsız ve aynı dağılıma sahip rassal değişkenlerin toplamı ya da aritmetik ortalaması yaklaşık olarak normal dağılmaktadır.

## Örnek Teorisi Uygulama

* Bir ilçedeki kişilerin yaşlarına ilişkin bir çıkarımda bulunmak istiyoruz. Yaş ortalamalarını merak ediyoruz. İlçede 10000 kişi yaşıyor. Bunun içerisinden 100 kişilik bir örneklem çekip ve bu 100 kişinin yaş ortalamasını inceleyip bu ilçeyle alakalı yaş ortalamasının ne olacağını tahmin etmek istiyoruz.

In [7]:
import numpy as np

In [8]:
populasyon = np.random.randint(0, 80, 10000) 
# bir rastgele int oluşturduk. 0 ile 80 yaş arasında 10000 tane kişi olacak şekilde oluşturduk.

In [9]:
populasyon[0:10]

array([43, 29, 77, 60, 43, 23, 35, 60, 79, 79])

In [10]:
# orneklem cekimi
np.random.seed(115) # yapılacak olan işlemlerin her tekrar edildiğinde aynı sonuçları getirmesini garanti altına alan bir işlem
orneklem = np.random.choice(a = populasyon, size = 100) # a: ana kitleyi ifade eder.
orneklem[0:10]

array([77, 59, 58, 38, 77, 71, 73, 17, 16, 71])

In [11]:
orneklem.mean()

39.74

In [12]:
populasyon.mean()

39.6059

## örneklem dağılımı

In [13]:
np.random.seed(10)
orneklem1 = np.random.choice(a = populasyon, size = 100)
orneklem2 = np.random.choice(a = populasyon, size = 100)
orneklem3 = np.random.choice(a = populasyon, size = 100)
orneklem4 = np.random.choice(a = populasyon, size = 100)
orneklem5 = np.random.choice(a = populasyon, size = 100)
orneklem6 = np.random.choice(a = populasyon, size = 100)
orneklem7 = np.random.choice(a = populasyon, size = 100)
orneklem8 = np.random.choice(a = populasyon, size = 100)
orneklem9 = np.random.choice(a = populasyon, size = 100)
orneklem10 = np.random.choice(a = populasyon, size = 100)

In [14]:
(orneklem1.mean() + orneklem2.mean() + orneklem3.mean() + orneklem4.mean() + orneklem5.mean() 
+ orneklem6.mean() + orneklem7.mean() + orneklem8.mean() + orneklem9.mean() + orneklem10.mean() )  / 10

38.739

In [15]:
orneklem1.mean()

42.06

In [16]:
orneklem2.mean()

37.12

# Betimsel İstatistikler

## ***KOVARYANS:*** 
* İki değişken arasındaki ilişkinin değişkenlik ölçüsüdür.

![Ekran Alıntısıjlb.PNG](attachment:3d1d2e49-3fbb-409e-8173-c3e6b139ec57.PNG)

* 2 rastgele değişkenin kendi ortalamalarından olan sapmaların çarpımlarının beklenen değeri.
* 2 değişkenin arasındaki ilişkiye ilişkin değişkenlik anlamında bir bilgi ihtiyacı olduğunda buna erişmek istediğimizde kovaryans kullanıyoruz.

## ***KORELASYON:***
* 2 değişken arasındaki ilişkiyi, ilişkinin anlamlı olup olmadığını, ilişkinin şiddetini ve yönünü ifade eden istatistiksel bir tekniktir.

![Ekran Alıntısı2e.PNG](attachment:342db357-d80a-40cc-81e2-3798b711a18e.PNG)

In [17]:
import seaborn as sns
tips = sns.load_dataset("tips")
df = tips.copy() 
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [18]:
df.describe().T # betimledik

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
total_bill,244.0,19.785943,8.902412,3.07,13.3475,17.795,24.1275,50.81
tip,244.0,2.998279,1.383638,1.0,2.0,2.9,3.5625,10.0
size,244.0,2.569672,0.9511,1.0,2.0,2.0,3.0,6.0


In [19]:
!pip install researchpy
import researchpy as rp



In [20]:
rp.summary_cont(df[["total_bill","tip","size"]])
# sürekli değişkenler, sayısal değişkenler için bu fonksiyon kullanılıyor.





Unnamed: 0,Variable,N,Mean,SD,SE,95% Conf.,Interval
0,total_bill,244.0,19.7859,8.9024,0.5699,18.6633,20.9086
1,tip,244.0,2.9983,1.3836,0.0886,2.8238,3.1728
2,size,244.0,2.5697,0.9511,0.0609,2.4497,2.6896


In [21]:
rp.summary_cat(df[["sex","smoker","day"]]) 
# kategorik değişkenler içinde yaptık.

Unnamed: 0,Variable,Outcome,Count,Percent
0,sex,Male,157,64.34
1,,Female,87,35.66
2,smoker,No,151,61.89
3,,Yes,93,38.11
4,day,Sat,87,35.66
5,,Sun,76,31.15
6,,Thur,62,25.41
7,,Fri,19,7.79


In [22]:
df[["tip","total_bill"]].cov()  # kovaryans

Unnamed: 0,tip,total_bill
tip,1.914455,8.323502
total_bill,8.323502,79.252939


In [23]:
df[["tip","total_bill"]].corr()  # korelasyon

Unnamed: 0,tip,total_bill
tip,1.0,0.675734
total_bill,0.675734,1.0


In [24]:
# tip ile ödenen hesap arasında 0.67 yani pozitif yönlü orta şiddetli bir korelasyon olduğunu  verir.

* ***güven aralığı nedir?***
* anakütle prametresinin tahmini değerini kapsayabilecek iki sayıdan oluşan bir aralık bulunmasıdır.
* ölçümün hassasiyetinin bir ölçümüdür.

In [25]:
# güven aralığı nasıl hesaplanır?

![Ekran Alıntısıe2ef.PNG](attachment:f78a8a54-1bd0-4a62-9e19-6489b41643fd.PNG)

* adım 1: n, ortalama ve standart sapmayı bul
  * n = 100, ortalama = 180, standart sapma = 40
* adım 2: Güven aralığına karar ver: 95 mi 99 mu?
  * Z tablo değerini hesapla(1,96-2,57)
* yukarıdaki değerleri kullanarak güven aralığını hesapla:

![Ekran Alıntısıfe.PNG](attachment:62a24171-8a00-4ff2-a472-628efd952b12.PNG)

![Ekran Alıntısıfd.PNG](attachment:a296a913-2ea9-44cd-8d41-1fa9c1b1c35c.PNG)

* sitede kalma süresi istatistiksel olarak %95 güvenilirlik ile bu aralıkta olacaktır.
* web sitemize gelen bir kişi 172 ile 188 sn arasında zaman geçirecektir. web sitemize gelen 100 kişiden ancak 5 tanesi 172 ile 188 sn dışında web sitemizde zaman geçirecektir. 

# İş Uygulaması: Fiyat Stratejisi Karar Destek

## Problem:
* CEO fiyat belirleme konusunda bilimsel bir dayanak ve esneklik isteniyor.
## Detaylar:
* Satıcı, alıcı ve bir ürün var.
* Alıcılara ürüne ne kadar ücret öderdiniz diye soruluyor.
* Optimum fiyat bilimsel ve esnek olarak bulunmak isteniyor.

In [39]:
import numpy as np
fiyatlar = np.random.randint(10,110, 1000)  # 10 TL ile 110 TL arası

In [40]:
fiyatlar.mean() # ortalama ödenmesi göze alınan miktar.

59.472

In [41]:
import statsmodels.stats.api as sms  # güven aralığı için

In [43]:
sms.DescrStatsW(fiyatlar).tconfint_mean()  
# %95 güvenirlik ile bu değerler arasında
# kullanıcıların % 5'i bu ürüne ödemek üzere 57 ile 61 aralığının dışında bir bedel ön görmektedir.

(57.66944543697184, 61.27455456302816)

# Olasılık Dağılımları

* ***Rassal Değişkenler ve Olasılık Dağılımları:***
* ***değerlerini bir deneyin sonuçlarından alan değişkene rassal değişken denir.***

## Kesikli OLasılık Dağılımları:          
* ***Bernoulli***
* ***Binom***
* ***Poisson***

## Sürekli Olasılık Dağılımları:
* ***Normal Dağılım***
* ***Üniform Dağılım***
* ***Üstel Dağılım***

## Bernoulli Dağılımı

In [None]:
# Başarılı-başarısız, olumlu-olumsuz şeklindeki 2 sonuçlu olaylar ile ilgilenildiğinde kullanılan kesikli olasılık dağılımıdır.

${\displaystyle f(k;p)=p^{k}(1-p)^{1-k}\quad {\text{for }}k\in \{0,1\}}$


${\displaystyle \operatorname {E} \left(X\right)=p}$

$\operatorname {Var} [X]=pq=p(1-p)$

* beklenen değer yani ortalamaya karşılık geliyor. merkezi eğilimi ifade ediyor. E(X)=p ilgili olayın gerçekleşmesi olasılığı beklenen değeri p yi ifade eder. varyans ise dağılımını yayılımını Var[X]

In [45]:
from scipy.stats import bernoulli

In [48]:
p = 0.6

rv = bernoulli(p)
rv.pmf(k = 0) # olasılık kütle fonk ifadesi true istesek k=1

0.4

## Büyük Sayılar Yasası
* Bir rassal değişkenin uzun vadeli kararlılığını tanımlayan olasılık teoremidir.

In [64]:
import numpy as np
rng = np.random.RandomState(123) # işlemleri sabitlemek için
for i in np.arange(1,21):
    deney_sayisi = 2**i
    yazi_turalar = rng.randint(0, 2, size = deney_sayisi)
    yazi_olasiliklari = np.mean(yazi_turalar)
    print("Atış Sayısı:",deney_sayisi,"---",'Yazı Olasılığı: %.2f' % (yazi_olasiliklari * 100))

Atış Sayısı: 2 --- Yazı Olasılığı: 50.00
Atış Sayısı: 4 --- Yazı Olasılığı: 0.00
Atış Sayısı: 8 --- Yazı Olasılığı: 62.50
Atış Sayısı: 16 --- Yazı Olasılığı: 43.75
Atış Sayısı: 32 --- Yazı Olasılığı: 46.88
Atış Sayısı: 64 --- Yazı Olasılığı: 56.25
Atış Sayısı: 128 --- Yazı Olasılığı: 50.78
Atış Sayısı: 256 --- Yazı Olasılığı: 52.73
Atış Sayısı: 512 --- Yazı Olasılığı: 52.93
Atış Sayısı: 1024 --- Yazı Olasılığı: 50.20
Atış Sayısı: 2048 --- Yazı Olasılığı: 48.58
Atış Sayısı: 4096 --- Yazı Olasılığı: 49.49
Atış Sayısı: 8192 --- Yazı Olasılığı: 49.58
Atış Sayısı: 16384 --- Yazı Olasılığı: 49.96
Atış Sayısı: 32768 --- Yazı Olasılığı: 50.00
Atış Sayısı: 65536 --- Yazı Olasılığı: 49.68
Atış Sayısı: 131072 --- Yazı Olasılığı: 49.97
Atış Sayısı: 262144 --- Yazı Olasılığı: 50.13
Atış Sayısı: 524288 --- Yazı Olasılığı: 50.01
Atış Sayısı: 1048576 --- Yazı Olasılığı: 50.09


In [60]:
rng.randint(0, 2, size = 5) # 4 tane yazı bir tane tura geldi

array([1, 0, 1, 1, 1])

In [65]:
1/5

0.2

## Binom Dağılımı
* Binom dağılımı, bağımsız n deneme sonucu k başarılı olma olasılığı ile ilgilenildiğinde kullanılan dağılımdır.

${\displaystyle f(k;n,p)={n \choose k}p^{k}(1-p)^{n-k}}$, k = 0, 1, 2, ...,n


${\displaystyle \operatorname {E} (X)=np}$


${\displaystyle \operatorname {Var} (X)=np(1-p)}$

# İş Uygulaması: Reklam Harcaması Optimizasyonu

## Porblem:
* Çeşitli mecralara reklam veriliyor, reklamların tıklanma ve geri dönüşüm oranları optimize edilmeye çalışılıyor. Buna yönelik olarak belirli bir mecrada çeşitli senaryolara göre reklama tıklama olasılıkları hesaplanmak isteniliyor.

## Detaylar:
* bir mecrada reklam verilecek
* Dağılım ve reklama tıklama olasılıkları biliniyor(0.01)

* ***soru:*** reklamı 100 kişi gördüğünde 1,5,10 tıklanması olasılığı nedir?

In [68]:
from scipy.stats import binom

In [71]:
p = 0.01 # olasılık değeri
n = 100  # deneme sayısı
rv = binom(n, p)
print(rv.pmf(1))
print(rv.pmf(5))
print(rv.pmf(10))

0.36972963764971983
0.0028977871237616114
7.006035693977161e-08


## Poisson Dağılımı

${\displaystyle f(x,\lambda )={\frac {\lambda ^{x}e^{-\lambda }}{x!}}\,\!}$,  x = 0,1,2,...,n

* Belirli bir zaman aralığında belirli bir alanda nadiren rastlanan olayların olasılıklarını hesaplamak için kullanılır.

* gözlem sayısının çok yüksek ve beklenen sonucun gelme olasılığının çok küçük olduğu zamanlarda kullanılır.

* ***n: büyük***
* ***p: küçük***

* lambda ifadesi bizim çalışmadan bulacak olduğumuz veya hesaplanmış olan değerler olacak. beklenilen sonucun ortalama gerçekleşme sayısıdır. hem ortalama hem de varyansı ifade ediyor.

* ***bir olayın nadir olay kabul edilebilmesi için genel kabul gören görüş:***
* rassal deneme sayısı n' nin n>50 ve n*p<5 yani lambdanın da 5 ten küçük olması demektir.

* ***Rassal denemeler iki sonuçlu olmalı***
* ***Aynı koşullar altında gerçekleştirilmelidir.***
* ***Rassal denemeler birbirinden bağımsız olmalıdır.***

* ***ÖRNEK:*** Bire üniversitede 5000 not girşinde 5 tane notun yanlış girilmesi olasılığı nedir?
* Dağılımın Poisson olduğu biliniyor ve Lambda=0.2

In [None]:
# n: gözlem sayısı
# p: olasılığı ifade eder.

![Ekran Alıntısıkv.PNG](attachment:6f787b72-af6a-43da-b0a0-e22e357c75e9.PNG)

## Problem: Hatalı ilan girişi olasılıkları hesaplanmak isteniyor.
## Detaylar:
* Bir yıl süresince ölçümler yapılıyor.
* Dağılım biliniyor(Poisson) ve Lambda 0.1(ortalama hata sayısı)
* Hiç hata olmaması, 3 hata olması ve 5 hata olması olasılıkları nedir?

In [72]:
from scipy.stats import poisson

In [73]:
lambda_ = 0.1

In [74]:
rv = poisson(mu = lambda_) # mu poissonun argümanı
print(rv.pmf(k = 0)) # hiç hata olmaması.

0.9048374180359595


In [75]:
print(rv.pmf(k = 3))

0.00015080623633932676


In [76]:
print(rv.pmf(k = 5))

7.54031181696634e-08


## Normal Dağılım

* Normal dağıldığı bilinen sürekli rassal değişkenler için olasılık hesaplanması için kullanılır.

${\displaystyle f(x\mid \mu ,\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}}$

* $\mu$  ortalama ya da dağılımın beklenen değeri

* ${\displaystyle \sigma }$  standart sapma

* ${\displaystyle \sigma ^{2}}$ varyans

## İş Uygulaması: Ürün Satış Olasılıklarının Hesaplanması

## Problem:
* Bir yatırım/toplantı öncesinde gelecek ay ile ilgili satışların belirli değerde gerçekleşmesi olasılıkları belirlenmek isteniyor.

## Detaylar:
* Dağılımın normal olduğu biliniyor.
* Aylık ortalama satış 80K, std 5K
* 90K' dan fazla satış yapma olasılığı nedir?

In [77]:
from scipy.stats import norm

![Ekran Alıntısısx.PNG](attachment:ba41a776-b9c9-49b5-964a-ba5a8947f861.PNG)

In [78]:
# 90'dan fazla olması 
1-norm.cdf(90, 80, 5) # kümülatif yoğunluk fonksiyonu:cdf

0.02275013194817921

![Ekran Alıntısıfqwdf.PNG](attachment:076dfcf0-0cfa-47d3-91aa-e024f4c1b11f.PNG)

In [79]:
# neden bir den çıkardı grafikteki alan 1 e eşit

In [80]:
# 70'den fazla olması
1-norm.cdf(70, 80, 5)

0.9772498680518208

![Ekran Alıntısıbd.PNG](attachment:1592ec34-d254-4cad-814b-affc98754d87.PNG)

In [81]:
# 73'den az olması
norm.cdf(73, 80, 5)

0.08075665923377107

![Ekran Alıntısıewofhqp.PNG](attachment:6abc3153-1530-43fb-9bb2-74a6727826eb.PNG)

In [82]:
# 85 ile 90 arasında olması

In [83]:
norm.cdf(90, 80, 5) - norm.cdf(85, 80, 5)
# üssteki değerden alttaki değeri çıkarrtık.

0.13590512198327787