In [1]:
import numpy as np

In [2]:
population = np.random.randint(0,80,10000)

In [3]:
population[0:10]

array([ 1, 63,  6, 73, 78, 68, 36, 16, 75, 18])

In [4]:
np.random.seed(42)
samp = np.random.choice(a = population, size = 100)
samp[:10]

array([72, 50, 29, 72, 27, 23, 25, 66, 21, 18])

In [5]:
print(f"Popülasyon ortalaması: {population.mean()}")

print(f"\nÖrneklem ortalaması: {samp.mean()}")

Popülasyon ortalaması: 39.3782

Örneklem ortalaması: 39.54


In [6]:
from typing import List, Tuple
def multiple_samples(
    population: np.ndarray,
    sample_size: int,
    n_samples: int,
    random_seed: int=42
)->Tuple[List[np.ndarray], float, float]:
    
    samples = [
        np.random.choice(a=population, size=sample_size)
        for _ in range(n_samples)
    ]

    sample_means = [sample.mean() for sample in samples]
    samples_mean = np.mean(sample_means)
    population_mean = population.mean()

    return samples, samples_mean, population_mean

population = np.random.randint(0, 80, 10000)
samples, samples_mean, population_mean = multiple_samples(
    population=population,
    sample_size=100,
    n_samples=10
)

print(f"Popülasyon Ortalaması: {population_mean:.2f}")
print(f"Örneklemlerin ortalamalarının aritmetik ortalaması: {samples_mean:.2f}") 

Popülasyon Ortalaması: 39.52
Örneklemlerin ortalamalarının aritmetik ortalaması: 39.38


Betimsel İstatistikler

In [7]:
import seaborn as sns
tips = sns.load_dataset("tips") # Seaborn örnek veri setlerinden olan "tips" veri setini yükler
df = tips.copy() # tips veri setinin bir kopyasını df adıyla kaydeder
df.head() # oluşturulan veri setinin ilk 5 elemanını çeker

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [8]:
df.describe().T # istatistikler bilgiler

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
total_bill,244.0,19.785943,8.902412,3.07,13.3475,17.795,24.1275,50.81
tip,244.0,2.998279,1.383638,1.0,2.0,2.9,3.5625,10.0
size,244.0,2.569672,0.9511,1.0,2.0,2.0,3.0,6.0


In [9]:
!pip install researchpy

Defaulting to user installation because normal site-packages is not writeable


In [10]:
import researchpy as rp
rp.summary_cont(df[["total_bill", "tip", "size"]])





  table_a.iloc[0,0] = ix
  table_a.iloc[0,0] = ix
  table_a.iloc[0,0] = ix


Unnamed: 0,Variable,N,Mean,SD,SE,95% Conf.,Interval
0,total_bill,244.0,19.7859,8.9024,0.5699,18.6633,20.9086
1,tip,244.0,2.9983,1.3836,0.0886,2.8238,3.1728
2,size,244.0,2.5697,0.9511,0.0609,2.4497,2.6896


In [11]:
rp.summary_cat(df[["sex","smoker","day"]])

Unnamed: 0,Variable,Outcome,Count,Percent
0,sex,Male,157,64.34
1,,Female,87,35.66
2,smoker,No,151,61.89
3,,Yes,93,38.11
4,day,Sat,87,35.66
5,,Sun,76,31.15
6,,Thur,62,25.41
7,,Fri,19,7.79


In [12]:
df[["tip","total_bill"]].cov() # Kovaryans, değişkenlik ölçüsü

Unnamed: 0,tip,total_bill
tip,1.914455,8.323502
total_bill,8.323502,79.252939


In [13]:
df[["tip", "total_bill"]].corr() # Korelasyon ölçüsü

Unnamed: 0,tip,total_bill
tip,1.0,0.675734
total_bill,0.675734,1.0


### Güven Aralığı

Anakütle parametresinin tahmini değerini kapsayabilecek iki sayıdan oluşan bir aralık bulunmasıdır.

İş uygulaması: Fiyat stratejisi karar destek ( Güven aralığı uygulaması )

Problem: 
- CEO fiyat belirleme konusunda bilimsel bir dayanak ve esneklik istiyor.

Detaylar:
 - Satıcı, alıcı ve bir ürün var.
 - Alıcılara ürüne ne kadar ücret öderdiniz diye soruluyor
 - Optimum fiyat bilimsel ve esnek olarak bulunmak isteniyor.

In [14]:
fiyatlar = np.random.randint(10,110,1000)

In [15]:
fiyatlar.mean()

59.449

In [16]:
import statsmodels.stats.api as sms

In [17]:
sms.DescrStatsW(fiyatlar).tconfint_mean()

(57.65188506384345, 61.246114936156545)

In [18]:
# Bernoulli Dağılımı Uygulama

from scipy.stats import bernoulli

p = 0.6

rv = bernoulli(p)

rv.pmf(k = 1) # olasılık kütle fonksiyonu

0.6

In [19]:
# Büyük sayılar yasayı
rng = np.random.RandomState(42)

for i in range(1,21):
    deney_sayisi = 2**i
    yazi_turalar = rng.randint(0,2,size=deney_sayisi)
    yazi_olasiliklari = np.mean(yazi_turalar)
    print(f"Atış sayısı: {deney_sayisi} --- Yazı olasılığı: {yazi_olasiliklari:.2f}")

Atış sayısı: 2 --- Yazı olasılığı: 0.50
Atış sayısı: 4 --- Yazı olasılığı: 0.25
Atış sayısı: 8 --- Yazı olasılığı: 0.12
Atış sayısı: 16 --- Yazı olasılığı: 0.81
Atış sayısı: 32 --- Yazı olasılığı: 0.47
Atış sayısı: 64 --- Yazı olasılığı: 0.66
Atış sayısı: 128 --- Yazı olasılığı: 0.41
Atış sayısı: 256 --- Yazı olasılığı: 0.52
Atış sayısı: 512 --- Yazı olasılığı: 0.50
Atış sayısı: 1024 --- Yazı olasılığı: 0.48
Atış sayısı: 2048 --- Yazı olasılığı: 0.51
Atış sayısı: 4096 --- Yazı olasılığı: 0.50
Atış sayısı: 8192 --- Yazı olasılığı: 0.49
Atış sayısı: 16384 --- Yazı olasılığı: 0.51
Atış sayısı: 32768 --- Yazı olasılığı: 0.50
Atış sayısı: 65536 --- Yazı olasılığı: 0.50
Atış sayısı: 131072 --- Yazı olasılığı: 0.50
Atış sayısı: 262144 --- Yazı olasılığı: 0.50
Atış sayısı: 524288 --- Yazı olasılığı: 0.50
Atış sayısı: 1048576 --- Yazı olasılığı: 0.50


In [20]:
# İş Uygulaması: Reklam Harcaması Optimizasyonu
# Problem: Çeşitli mecralarda reklam veriliyor, reklamların tıklanma ve geri dönüşüm oranları optimize edilmeye çalışılıyor.
# Buna yönelik olarak belirli bir mecrada çeşitli senaryolara göre reklama tıklama olasılıkları hesaplanmak isteniyor.
# Dağılım ve reklam tıklama olasılığı biliniyor(0.01)
# Bu reklamı 100 kişi gördüğünde 1, 5 ve 10 tıklanma olasılığı nelerdir?

from scipy.stats import binom

In [21]:
p = 0.01
n = 100
rv = binom(n, p)

print(rv.pmf(1))
print(rv.pmf(5))
print(rv.pmf(10))

0.36972963764972666
0.002897787123761478
7.006035693977194e-08


In [22]:
# Poisson Dağılımı
# Belirli bir zaman aralığında belirli bir alanda nadiren rastlanan olayların olasılıklarını hesaplamak için kullanılır.
# Örnek: Bir üniversitede 5000 not girişinde 5 tane notun yanlış girilmesi olasılığı nedir?
# Dağılımın poisson olduğun biliniyor ve Lambda = 0.2

import pandas as pd
import math

def calculate_poisson(lambda_deg, k):
    # e üzeri eksi lambda
    a = math.exp(-lambda_deg)

    # lambda üzeri k hesabı
    b = lambda_deg**k

    # k faktoriyel hesabı
    k_factorial = math.factorial(k)

    # Poisson formülü
    probability = (a * b) / k_factorial

    return probability

lambda_deg = 0.2 # ortalama hata sayısı
k = 5            # istenen hata sayısı

result = calculate_poisson(0.2, 5)

poisson = pd.DataFrame({
    'Parametre': ['Lambda (λ)', 'Hata Sayısı (k)', 'Olasılık'],
    'Değer': [lambda_deg, k, f'{result:.10f}'],
    'Açıklama': [
        'Ortalama hata sayısı',
        'İstenen hata sayısı',
        'Tam olarak 5 hata olma olasılığı'
    ]
})

print(poisson.to_string(index=False))

      Parametre        Değer                         Açıklama
     Lambda (λ)          0.2             Ortalama hata sayısı
Hata Sayısı (k)            5              İstenen hata sayısı
       Olasılık 0.0000021833 Tam olarak 5 hata olma olasılığı


In [23]:
# İş Uygulaması: İlan Giriş Hata Olasılıkları
"""
Detaylar:
- Bir yıl süresince ölçümler yapılıyor
- Dağılımın Poisson dağılımı olduğu biliniyor ve lambda değeri 0.1 (ortalama hata sayısı)
- Hiç hata olmaması, 3 hata olması ve 5 hata olması olasılıkları nedir?
"""
def hesapla_poisson(lmbda, k):
    a = math.exp(-lmbda)
    
    b = lmbda**k
    
    k_faktoriyel = math.factorial(k)

    olasilik = (a * b) / k_faktoriyel

    return olasilik

lmbda = 0.1
k1 = 0
k2 = 3
k3 = 5

sonuc1 = hesapla_poisson(lmbda, k1)
sonuc2 = hesapla_poisson(lmbda, k2)
sonuc3 = hesapla_poisson(lmbda, k3)

print("İlan Giriş Hata Olasılıkları\n")
print(f"Hiç hatalı ilan girilmeme olasılığı: {sonuc1}")
print(f"\nÜç hatalı ilan girişi olması olasılığı: {sonuc2}")
print(f"\nBeş hatalı ilan girişi olması olasılığı: {sonuc3}")

İlan Giriş Hata Olasılıkları

Hiç hatalı ilan girilmeme olasılığı: 0.9048374180359595

Üç hatalı ilan girişi olması olasılığı: 0.00015080623633932663

Beş hatalı ilan girişi olması olasılığı: 7.540311816966331e-08


 Normal Dağılım
 İş uygulaması, Satış olasılıklarının hesaplanması
 Problem:
 - Bir yatırım/toplantı öncesinde gelecek ay ile ilgili satışların
 belirli değerlerde gerçekleşmesi olasılıkları isteniyor.

 Detaylar:
 - Dağılımın normal dağılım olduğu biliniyor
 - Aylık ortalama satış sayısı 80k, standart sapması 5k
 - 90k'dan fazla satış yapma olasılığı nedir?

In [24]:
from scipy.stats import norm

In [25]:
# 90'dan fazla olması olasılığı
1-norm.cdf(90,80,5) #kümülatif yoğunluk fonksiyonu

0.02275013194817921

In [26]:
# 70'den fazla olması olaslığı
1-norm.cdf(70,80,5)

0.9772498680518208

In [27]:
# 73'den az olması olasılığı
norm.cdf(73,80,5)

0.08075665923377107

In [28]:
# 85k ile 90k arasında olma olasılığı

final_result = norm.cdf(90,80,5) - norm.cdf(85,80,5)
final_result

0.13590512198327787

In [29]:
"""
Bir futbolcunun penaltı atışları hakkında şu verilere ulaşılmıştır:
Penaltı vuruş sonuçları poisson dağılımı göstermektedir.
Ortalama hata sayısı (Lambda) 0.1 dir.
Penaltılarda hiç gol kaçırmama olasılığı nedir?
"""

from scipy.stats import poisson

lambda_ = 0.1

dist = poisson(mu=lambda_)

print(dist.pmf(k=0))

0.9048374180359595
