🏷️sec_statistics
Kuşkusuz, en iyi derin öğrenme uygulayıcılarından biri olmak için son teknoloji ürünü ve yüksek doğrulukta modelleri eğitme yeteneği çok önemlidir. Bununla birlikte, iyileştirmelerin ne zaman önemli olduğu veya yalnızca eğitim sürecindeki rastgele dalgalanmaların sonucu olduğu genellikle belirsizdir. Tahmini değerlerdeki belirsizliği tartışabilmek için biraz istatistik öğrenmemiz gerekir.
İstatistiğin en eski referansı, şifrelenmiş mesajları deşifre etmek için istatistiklerin ve sıklık analizinin nasıl kullanılacağına dair ayrıntılı bir açıklama veren
Daha özel olarak, istatistik tanımlayıcı istatistik ve istatistiksel çıkarım diye bölünebilir. İlki, örneklem olarak adlandırılan gözlemlenen verilerden bir koleksiyonunun özniteliklerini özetlemeye ve göstermeye odaklanır. Örneklem bir popülasyondan alınmıştır, benzer bireyler, öğeler veya deneysel ilgi alanlarımıza ait olayların toplam kümesini belirtir. Tanımlayıcı istatistiğin aksine istatistiksel çıkarım, örneklem dağılımının popülasyon dağılımını bir dereceye kadar kopyalayabileceği varsayımlarına dayanarak, bir popülasyonun özelliklerini verilen örneklemlerden çıkarsar.
Merak edebilirsiniz: "Makine öğrenmesi ile istatistik arasındaki temel fark nedir?" Temel olarak, istatistik çıkarım sorununa odaklanır. Bu tür problemler, nedensel çıkarım gibi değişkenler arasındaki ilişkiyi modellemeyi ve A/B testi gibi model parametrelerinin istatistiksel olarak anlamlılığını test etmeyi içerir. Buna karşılık, makine öğrenmesi, her bir parametrenin işlevselliğini açıkça programlamadan ve anlamadan doğru tahminler yapmaya vurgu yapar.
Bu bölümde, üç tür istatistik çıkarım yöntemini tanıtacağız: Tahmin edicileri değerlendirme ve karşılaştırma, hipotez (denence) testleri yürütme ve güven aralıkları oluşturma. Bu yöntemler, belirli bir popülasyonun özelliklerini, yani gerçek
İstatistikte, bir tahminci, gerçek
Tahmincilerin basit örneklerini daha önce şu bölümde görmüştük :numref:sec_maximum_likelihood
. Bir Bernoulli rastgele değişkeninden birkaç örneğiniz varsa, rastgele değişkenin olma olasılığı için maksimum olabilirlik tahmini, gözlemlenenlerin sayısını sayarak ve toplam örnek sayısına bölerek elde edilebilir. Benzer şekilde, bir alıştırma sizden bir miktar örnek verilen bir Gauss'un ortalamasının maksimum olabilirlik tahmininin tüm örneklerin ortalama değeriyle verildiğini göstermenizi istiyor. Bu tahminciler neredeyse hiçbir zaman parametrenin gerçek değerini vermezler, ancak ideal olarak çok sayıda örnek için tahmin yakın olacaktır.
Örnek olarak, ortalama sıfır ve varyans bir olan bir Gauss rasgele değişkeninin gerçek yoğunluğunu, bu Gauss'tan bir dizi örnek ile aşağıda gösteriyoruz. Her noktanın
from d2l import mxnet as d2l
from mxnet import np, npx
import random
npx.set_np()
# Örnek veri noktaları ve y koordinatı oluştur
epsilon = 0.1
random.seed(8675309)
xs = np.random.normal(loc=0, scale=1, size=(300,))
ys = [np.sum(np.exp(-(xs[:i] - xs[i])**2 / (2 * epsilon**2))
/ np.sqrt(2*np.pi*epsilon**2)) / len(xs) for i in range(len(xs))]
# Gerçek yoğunluğu hesapla
xd = np.arange(np.min(xs), np.max(xs), 0.01)
yd = np.exp(-xd**2/2) / np.sqrt(2 * np.pi)
# Sonuçları çiz
d2l.plot(xd, yd, 'x', 'density')
d2l.plt.scatter(xs, ys)
d2l.plt.axvline(x=0)
d2l.plt.axvline(x=np.mean(xs), linestyle='--', color='purple')
d2l.plt.title(f'sample mean: {float(np.mean(xs)):.2f}')
d2l.plt.show()
#@tab pytorch
from d2l import torch as d2l
import torch
torch.pi = torch.acos(torch.zeros(1)) * 2 #define pi in torch
# Örnek veri noktaları ve y koordinatı oluşturun
epsilon = 0.1
torch.manual_seed(8675309)
xs = torch.randn(size=(300,))
ys = torch.tensor(
[torch.sum(torch.exp(-(xs[:i] - xs[i])**2 / (2 * epsilon**2))\
/ torch.sqrt(2*torch.pi*epsilon**2)) / len(xs)\
for i in range(len(xs))])
# Gerçek yoğunluğu hesapla
xd = torch.arange(torch.min(xs), torch.max(xs), 0.01)
yd = torch.exp(-xd**2/2) / torch.sqrt(2 * torch.pi)
# Sonuçları çiz
d2l.plot(xd, yd, 'x', 'density')
d2l.plt.scatter(xs, ys)
d2l.plt.axvline(x=0)
d2l.plt.axvline(x=torch.mean(xs), linestyle='--', color='purple')
d2l.plt.title(f'sample mean: {float(torch.mean(xs).item()):.2f}')
d2l.plt.show()
#@tab tensorflow
from d2l import tensorflow as d2l
import tensorflow as tf
tf.pi = tf.acos(tf.zeros(1)) * 2 # define pi in TensorFlow
# Örnek veri noktaları ve y koordinatı oluşturun
epsilon = 0.1
xs = tf.random.normal((300,))
ys = tf.constant(
[(tf.reduce_sum(tf.exp(-(xs[:i] - xs[i])**2 / (2 * epsilon**2)) \
/ tf.sqrt(2*tf.pi*epsilon**2)) / tf.cast(
tf.size(xs), dtype=tf.float32)).numpy() \
for i in range(tf.size(xs))])
# Gerçek yoğunluğu hesapla
xd = tf.range(tf.reduce_min(xs), tf.reduce_max(xs), 0.01)
yd = tf.exp(-xd**2/2) / tf.sqrt(2 * tf.pi)
# Sonuçları çiz
d2l.plot(xd, yd, 'x', 'density')
d2l.plt.scatter(xs, ys)
d2l.plt.axvline(x=0)
d2l.plt.axvline(x=tf.reduce_mean(xs), linestyle='--', color='purple')
d2l.plt.title(f'sample mean: {float(tf.reduce_mean(xs).numpy()):.2f}')
d2l.plt.show()
$\hat{\theta}_n $ parametresinin bir tahmincisini hesaplamanın birçok yolu olabilir. Bu bölümde, tahmincileri değerlendirmek ve karşılaştırmak için üç genel yöntem sunuyoruz: Ortalama hata karesi, standart sapma ve istatistiksel yanlılık.
Tahmin edicileri değerlendirmek için kullanılan en basit ölçüt, bir tahmincinin ortalama hata karesi (MSE) (veya
eq_mse_est
Bu, gerçek değerden ortalama kare sapmayı ölçümlemizi sağlar. MSE her zaman negatif değildir. Eğer :numref:sec_linear_regression
içinde okuduysanız, bunu en sık kullanılan bağlanım (regresyon) kaybı işlevi olarak tanıyacaksınız. Bir tahminciyi değerlendirmek için bir ölçü olarak, değeri sıfıra ne kadar yakınsa, tahminci gerçek
MSE doğal bir ölçü sağlar, ancak onu büyük yapabilecek birden fazla farklı vakayı kolayca hayal edebiliriz. İki temel önemli olay veri kümesindeki rastgelelik nedeniyle tahmincideki dalgalanma ve tahmin prosedürüne bağlı olarak tahmincideki sistematik hatadır.
Öncelikle sistematik hatayı ölçelim. Bir $\hat{\theta}_n $ tahmincisi için istatistiksel yanlılığın matematiksel gösterimi şu şekilde tanımlanabilir:
eq_bias
Bununla birlikte, yanlı tahmin edicilerin pratikte sıklıkla kullanıldığının farkında olunması gerekir. Yansız tahmin edicilerin başka varsayımlar olmaksızın var olmadığı veya hesaplamanın zor olduğu durumlar vardır. Bu, bir tahmincide önemli bir kusur gibi görünebilir, ancak pratikte karşılaşılan tahmin edicilerin çoğu, mevcut örneklerin sayısı sonsuza giderken sapmanın sıfır olma eğiliminde olması açısından en azından asimptotik (kavuşma doğrusu) olarak tarafsızdır:
İkinci olarak tahmincideki rastgeleliği ölçelim. Eğer :numref:sec_random_variables
bölümünü anımsarsak, standart sapma (veya standart hata), varyansın kare kökü olarak tanımlanır. Bir tahmincinin dalgalanma derecesini, o tahmincinin standart sapmasını veya varyansını ölçerek ölçebiliriz.
eq_var_est
Şunları karşılaştırmak önemlidir :eqref:eq_var_est
ile :eqref:eq_mse_est
. Bu denklemde gerçek popülasyon değeri
Bu iki ana bileşenin ortalama hata karesine (MSE) katkıda bulunduğu sezgisel olarak açıktır. Biraz şok edici olan şey, bunun aslında ortalama hata karesinin bu iki ve ek üçüncü bir parçaya ayrıştırılması olduğunu gösterebilmemizdir. Yani, ortalama hata karesini yanlılığın (ek girdi) karesinin, varyansın ve indirgenemeyen hatanın toplamı olarak yazabiliriz.
Yukarıdaki formülü yanlılık-varyans ödünleşmesi olarak adlandırıyoruz. Ortalama hata karesi kesin olarak üç hata kaynağına bölünebilir: Yüksek yanlılıktan, yüksek varyanstan ve indirgenemez hatadan kaynaklı hata. Yanlılık hatası genellikle basit bir modelde (doğrusal bağlanım modeli gibi) görülür, çünkü öznitelikler ve çıktılar arasındaki yüksek boyutsal ilişkileri çıkaramaz. Bir model yüksek yanlılık hatasından muzdaripse, (:numref:sec_model_selection
) bölümünde açıklandığı gibi genellikle eksik öğrenme veya esneklik eksikliği olduğunu söylüyoruz. Yüksek varyans, genellikle eğitim verilerine öğrenen çok karmaşık bir modelden kaynaklanır. Sonuç olarak, aşırı öğrenen bir model, verilerdeki küçük dalgalanmalara duyarlıdır. Bir modelin varyansı yüksekse, genellikle (:numref:sec_model_selection
) içinde tanıtıldığı gibi aşırı öğrenme ve genelleme yoksunluğu olduğunu söyleriz. İndirgenemez hata,
Bir tahmincinin standart sapması, bir tensör a
için basitçe a.std()
çağırarak uygulandığından, onu atlayacağız ancak istatistiksel yanlılık ve ortalama hata karesini uygulayacağız.
# İstatistiksel yanlılık
def stat_bias(true_theta, est_theta):
return(np.mean(est_theta) - true_theta)
# Ortalama kare hatası
def mse(data, true_theta):
return(np.mean(np.square(data - true_theta)))
#@tab pytorch
# İstatistiksel yanlılık
def stat_bias(true_theta, est_theta):
return(torch.mean(est_theta) - true_theta)
# Ortalama kare hatası
def mse(data, true_theta):
return(torch.mean(torch.square(data - true_theta)))
#@tab tensorflow
# İstatistiksel yanlılık
def stat_bias(true_theta, est_theta):
return(tf.reduce_mean(est_theta) - true_theta)
# Ortalama kare hatası
def mse(data, true_theta):
return(tf.reduce_mean(tf.square(data - true_theta)))
Yanlılık-varyans ödünleşmesinin denklemini görsellemek için,
theta_true = 1
sigma = 4
sample_len = 10000
samples = np.random.normal(theta_true, sigma, sample_len)
theta_est = np.mean(samples)
theta_est
#@tab pytorch
theta_true = 1
sigma = 4
sample_len = 10000
samples = torch.normal(theta_true, sigma, size=(sample_len, 1))
theta_est = torch.mean(samples)
theta_est
#@tab tensorflow
theta_true = 1
sigma = 4
sample_len = 10000
samples = tf.random.normal((sample_len, 1), theta_true, sigma)
theta_est = tf.reduce_mean(samples)
theta_est
Tahmincimizin yanlılık karesi ve varyansının toplamını hesaplayarak ödünleşme denklemini doğrulayalım. İlk önce, tahmincimizin MSE'sini hesaplayın.
#@tab all
mse(samples, theta_true)
Ardından, aşağıdaki gibi
bias = stat_bias(theta_true, theta_est)
np.square(samples.std()) + np.square(bias)
#@tab pytorch
bias = stat_bias(theta_true, theta_est)
torch.square(samples.std(unbiased=False)) + torch.square(bias)
#@tab tensorflow
bias = stat_bias(theta_true, theta_est)
tf.square(tf.math.reduce_std(samples)) + tf.square(bias)
İstatistiksel çıkarımda en sık karşılaşılan konu hipotez testidir. Hipotez testi 20. yüzyılın başlarında popüler hale gelirken, ilk kullanım 1700'lerde John Arbuthnot'a kadar takip edilebilir. John, Londra'da 80 yıllık doğum kayıtlarını takip etti ve her yıl kadından daha fazla erkeğin doğduğu sonucuna vardı. Bunu takiben, modern anlamlılık testi,
Hipotez testi, bir popülasyon hakkındaki varsayılan ifadeye karşı bazı kanıtları değerlendirmenin bir yoludur. Varsayılan ifadeyi, gözlemlenen verileri kullanarak reddetmeye çalıştığımız, sıfır hipotezi,
Kimyager olduğunuzu hayal edin. Laboratuvarda binlerce saat geçirdikten sonra, kişinin matematiği anlama yeteneğini önemli ölçüde arttırabilecek yeni bir ilaç geliştiriyorsunuz. Sihirli gücünü göstermek için onu test etmeniz gerekir. Doğal olarak, ilacı almak ve matematiği daha iyi öğrenmelerine yardımcı olup olmayacağını görmek için bazı gönüllülere ihtiyacınız olabilir. Nasıl başlayacaksınız?
İlk olarak, dikkatle rastgele seçilmiş iki grup gönüllüye ihtiyacınız olacak, böylece bazı ölçütlerle ölçülen matematik anlama yetenekleri arasında hiçbir fark olmayacak. Bu iki grup genellikle test grubu ve kontrol grubu olarak adlandırılır. Test grubu (veya tedavi grubu) ilacı deneyimleyecek bir grup kişidir, kontrol grubu ise bir kıyaslama olarak bir kenara bırakılan kullanıcı grubunu temsil eder, yani, ilaç almak dışında aynı ortam şartlarına sahipler. Bu şekilde, bağımsız değişkenin tedavideki etkisi dışında tüm değişkenlerin etkisi en aza indirilir.
İkincisi, ilacı bir süre aldıktan sonra, iki grubun matematik anlayışını, yeni bir matematik formülü öğrendikten sonra gönüllülerin aynı matematik testlerini yapmasına izin vermek gibi aynı ölçütlerle ölçmeniz gerekecektir. Ardından, performanslarını toplayabilir ve sonuçları karşılaştırabilirsiniz. Bu durumda, sıfır hipotezimiz, muhtemelen iki grup arasında hiçbir fark olmadığı ve alternatifimiz olduğu şeklinde olacaktır.
Bu hala tam olarak resmi (nizamlara uygun) değil. Dikkatlice düşünmeniz gereken birçok detay var. Örneğin, matematik anlama yeteneklerini test etmek için uygun ölçütler nelerdir? İlacınızın etkinliğini iddia edebileceğinizden emin olabilmeniz için testinizde kaç gönüllü var? Testi ne kadar süreyle koşturmalısınız? İki grup arasında bir fark olup olmadığına nasıl karar veriyorsunuz? Yalnızca ortalama performansla mı ilgileniyorsunuz, yoksa puanların değişim aralığını da mı önemsiyorsunuz? Ve bunun gibi.
Bu şekilde, hipotez testi, deneysel tasarım ve gözlemlenen sonuçlarda kesinlik hakkında akıl yürütme için bir çerçeve sağlar. Şimdi sıfır hipotezinin gerçek olma ihtimalinin çok düşük olduğunu gösterebilirsek, onu güvenle reddedebiliriz.
Hipotez testiyle nasıl çalışılacağına dair hikayeyi tamamlamak için, şimdi bazı ek terminolojiyle tanışmamız ve yukarıdaki bazı kavramlarımızı kurallara uygun halde işlememiz gerekiyor.
İstatistiksel anlamlılık, sıfır hipotezin,
Aynı zamanda 1. tür hata veya yanlış pozitif olarak da anılır.
:numref:fig_statistical_significance
, iki örneklemli bir hipotez testinde gözlemlerin değerlerini ve belirli bir normal dağılımın gelme olasılığını gösterir. Gözlem veri örneği
🏷️fig_statistical_significance
İstatistiksel Güç (veya duyarlılık), reddedilmesi gerektiğinde sıfır hipotezin,
Bir 1. tür hatanın, doğru olduğunda sıfır hipotezin reddedilmesinden kaynaklanan bir hata olduğunu hatırlayın, oysa 2. tür hata yanlış olduğunda sıfır hipotezin reddedilmemesinden kaynaklanır. 2. tür hata genellikle
Sezgisel olarak, istatistiksel güç, testimizin istenen bir istatistiksel anlamlılık düzeyindeyken minimum büyüklükte gerçek bir tutarsızlığı ne kadar olasılıkla tespit edeceği şeklinde yorumlanabilir.
İstatistiksel gücün en yaygın kullanımlarından biri, ihtiyaç duyulan örnek sayısını belirlemektir. Sıfır hipotezini yanlış olduğunda reddetme olasılığınız, yanlış olma derecesine (etki boyutu olarak bilinir) ve sahip olduğunuz örneklerin sayısına bağlıdır. Tahmin edebileceğiniz gibi, küçük etki boyutları, yüksek olasılıkla tespit edilebilmesi için çok fazla sayıda örnek gerektirir. Ayrıntılı olarak türetmek için bu kısa ek bölümün kapsamı dışında, örnek olarak, örneğimizin sıfır ortalama bir varyanslı Gauss'tan geldiğine dair bir sıfır hipotezi reddedebilmek isterken, örneklemimizin ortalamasının aslında bire yakın olduğuna inanıyoruz, bunu yalnızca
Gücü bir su filtresi olarak hayal edebiliriz. Bu benzetmede, yüksek güçlü bir hipotez testi, sudaki zararlı maddeleri olabildiğince azaltacak yüksek kaliteli bir su filtreleme sistemi gibidir. Öte yandan, daha küçük bir tutarsızlık, bazı nispeten küçük maddelerin boşluklardan kolayca kaçabildiği düşük kaliteli bir su filtresine benzer. Benzer şekilde, istatistiksel güç yeterince yüksek güce sahip değilse, bu test daha küçük tutarsızları yakalayamayabilir.
Bir test istatistiği
Genellikle,
Normalde iki tür anlamlılık testi vardır: Tek taraflı test ve iki taraflı test. Tek taraflı test (veya tek kuyruklu test), sıfır hipotez ve alternatif hipotezin yalnızca bir tarafta olduğunda geçerlidir. Örneğin, sıfır hipotez
Yukarıdaki kavramlara aşina olduktan sonra, hipotez testinin genel adımlarından geçelim.
- Soruyu belirtin ve sıfır hipotezi,
$H_0$ , oluşturun. - İstatistiksel anlamlılık düzeyini
$\alpha$ 'yı ve bir istatistiksel güç ($1-\beta$ )'yı ayarlayın. - Deneyler yoluyla numuneler alın. İhtiyaç duyulan örnek sayısı istatistiksel güce ve beklenen etki büyüklüğüne bağlı olacaktır.
- Test istatistiğini ve
$p$ -değerini hesaplayın. -
$p$ -değeri ve istatistiksel anlamlılık düzeyi$\alpha$ bağlı olarak sıfır hipotezi tutma veya reddetme kararını verin.
Bir hipotez testi yapmak için, bir sıfır hipotez ve almaya istekli olduğumuz bir risk seviyesi tanımlayarak başlıyoruz. Sonra, sıfır hipotezine karşı kanıt olarak test istatistiğinin aşırı bir değerini alarak numunenin (örneklemin) test istatistiğini hesaplıyoruz. Test istatistiği reddetme bölgesi dahilindeyse, alternatif lehine sıfır hipotezi reddedebiliriz.
Hipotez testi, klinik araştırmalar ve A/B testi gibi çeşitli senaryolarda uygulanabilir.
Bir Neyman.1937
.
Faydalı olması için, belirli bir kesinlik derecesi için bir güven aralığı mümkün olduğu kadar küçük olmalıdır. Nasıl türetileceğini görelim.
Matematiksel olarak,
eq_confidence
Burada
Unutmayın :eqref:eq_confidence
Bu bilgiçlik gibi görünebilir, ancak sonuçların yorumlanmasında gerçek etkileri olabilir. Özellikle, çok nadiren yeterince yaptığımız sürece, neredeyse kesin gerçek değeri içermediğimiz aralıklar oluşturarak :eqref:eq_confidence
i tatmin edebiliriz. Bu bölümü cazip ama yanlış üç ifade sunarak kapatıyoruz. Bu noktaların derinlemesine bir tartışması şu adreste bulunabilir :cite:Morey.Hoekstra.Rouder.ea.2016
.
- Yanılgı 1. Dar güven aralıkları, parametreyi tam olarak tahmin edebileceğimiz anlamına gelir.
- Yanılgı 2. Güven aralığı içindeki değerlerin, aralığın dışındaki değerlere göre gerçek değer olma olasılığı daha yüksektir.
-
Yanılgı 3. Gözlemlenen belirli bir
$% 95$ güven aralığının gerçek değeri içerme olasılığı$% 95$ 'tir.
Güven aralıklarının narin nesneler olduğunu söylemek yeterli. Ancak yorumlamasını net tutarsanız, bunlar güçlü araçlar olabilir.
En klasik örneği, bilinmeyen ortalama ve varyansa sahip bir Gauss dağılımının ortalaması için güven aralığını tartışalım. Gauss dağılımdan,
Şimdi rastgele değişkeni düşünürsek
Bu dağılım çok iyi incelenmiştir ve örneğin,
Böylece, büyük $ n $ için diyebiliriz ki,
Bunu her iki tarafı da
Böylece, eq_gauss_confidence
Şunu söylemek güvenlidir: :eqref:eq_gauss_confidence
istatistikte en çok kullanılan formüllerden biridir. İstatistik tartışmamızı uygulama ile kapatalım. Basit olması için, asimptotik (kavuşma doğrusal) rejimde olduğumuzu varsayıyoruz. Küçük t_star
'ın doğru değerini içermelidir.
# Örnek sayısı
N = 1000
# Örnek veri kümesi
samples = np.random.normal(loc=0, scale=1, size=(N,))
# Öğrenci t-dağılımının c.d.f.'sine bak
t_star = 1.96
# Aralık oluştur
mu_hat = np.mean(samples)
sigma_hat = samples.std(ddof=1)
(mu_hat - t_star*sigma_hat/np.sqrt(N), mu_hat + t_star*sigma_hat/np.sqrt(N))
#@tab pytorch
# PyTorch, varsayılan olarak Bessel'in düzeltmesini kullanır;
# bu, numpy'de varsayılan ddof=0 yerine ddof=1 kullanılması anlamına gelir.
# ddof=0'ı taklit etmek için unbiased=False kullanabiliriz.
# Örnek sayısı
N = 1000
# Örnek veri kümesi
samples = torch.normal(0, 1, size=(N,))
# Öğrenci t-dağılımının c.d.f.'sine bak
t_star = 1.96
# Aralık oluştur
mu_hat = torch.mean(samples)
sigma_hat = samples.std(unbiased=True)
(mu_hat - t_star*sigma_hat/torch.sqrt(torch.tensor(N, dtype=torch.float32)),\
mu_hat + t_star*sigma_hat/torch.sqrt(torch.tensor(N, dtype=torch.float32)))
#@tab tensorflow
# Örnek sayısı
N = 1000
# Örnek veri kümesi
samples = tf.random.normal((N,), 0, 1)
# Öğrenci t-dağılımının c.d.f.'sine bak
t_star = 1.96
# Aralık oluştur
mu_hat = tf.reduce_mean(samples)
sigma_hat = tf.math.reduce_std(samples)
(mu_hat - t_star*sigma_hat/tf.sqrt(tf.constant(N, dtype=tf.float32)), \
mu_hat + t_star*sigma_hat/tf.sqrt(tf.constant(N, dtype=tf.float32)))
- İstatistik, çıkarım sorunlarına odaklanırken, derin öğrenme, açıkça programlamadan ve anlamadan doğru tahminler yapmaya vurgu yapar.
- Üç yaygın istatistik çıkarım yöntemi vardır: Tahmincileri değerlendirme ve karşılaştırma, hipotez testleri yürütme ve güven aralıkları oluşturma.
- En yaygın üç tahminci vardır: İstatistiksel yanlılık, standart sapma ve ortalama hata karesi.
- Bir güven aralığı, örneklerle oluşturabileceğimiz gerçek bir popülasyon parametresinin tahmini aralığıdır.
- Hipotez testi, bir popülasyonla ilgili varsayılan ifadeye karşı bazı kanıtları değerlendirmenin bir yoludur.
-
$X_1, X_2, \ldots, X_n \overset {\text{iid}}{\sim} \mathrm{Tekdüze} (0, \theta)$ olsun, burada "iid" bağımsız ve aynı şekilde dağılmış anlamına gelir. Aşağıdaki$\theta$ tahmincilerini düşünün:$$\hat{\theta} = \max {X_1, X_2, \ldots, X_n };$$ $$\tilde{\theta} = 2 \bar{X_n} = \frac{2}{n} \sum_{i=1}^n X_i.$$ -
$\hat{\theta}$ için istatistiksel yanlılığı, standart sapmayı ve ortalama hata karesini bulunuz. -
$\tilde{\theta}$ için istatistiksel yanlılığı, standart sapmayı ve ortalama hata karesini bulunuz. - Hangi tahminci daha iyi?
-
- Girişteki kimyager örneğimiz için, iki taraflı bir hipotez testi yapmak için 5 adımı türetebilir misiniz? İstatistiksel anlamlılık düzeyini
$\alpha = 0.05$ ve istatistiksel gücü$1 - \beta =0.8$ alınız. -
$100$ tane bağımsız olarak oluşturulan veri kümesi için güven aralığı kodunu$N = 2$ ve$\alpha = 0.5$ ile çalıştırın ve ortaya çıkan aralıkları çizin (bu durumdat_star = 1.0
). Gerçek ortalama olan$0$ 'ı içermekten çok uzak olan birkaç çok kısa aralık göreceksiniz. Bu, güven aralığının yorumlamasıyla çelişiyor mu? Yüksek hassasiyetli tahminleri belirtmek için kısa aralıklar kullanmakta kendinizi rahat hissediyor musunuz?
:begin_tab:mxnet
Tartışmalar
:end_tab:
:begin_tab:pytorch
Tartışmalar
:end_tab:
:begin_tab:tensorflow
Tartışmalar
:end_tab: