# **Betimsel İstatistik**

**Betimsel istatistik**, veri setlerini tanımlamak, özetlemek ve anlamak için kullanılan istatistiksel tekniklerin bir alt kümesidir. Temel amacı, veri setinin yapısal özelliklerini açıklamak ve özetlemektir, ancak genellikle verilerin derinlemesine analizine veya sonuçlar arasında neden-sonuç ilişkilerini çıkarmaya odaklanmaz.

Betimsel istatistiğin temel amacı, veri setinde bulunan bilgileri basit, anlaşılır ve özlü bir şekilde sunmaktır. Bu nedenle, betimsel istatistik, çeşitli özetleme tekniklerini kullanarak merkezi eğilim, dağılım, yayılım ve ilişki gibi temel özellikleri inceleyerek veri setinin genel yapısını tanımlar.

*Betimsel istatistikte kullanılan bazı yaygın teknikler şunlardır:*

*  **Merkezi Eğilim Ölçütleri:** Veri setinin merkezini temsil eden değerlerdir. Örneğin, ortalama (mean), medyan (median) ve mod (mode) gibi.
*  **Dağılım Ölçütleri:** Veri setinin ne kadar homojen veya heterojen olduğunu gösteren ölçütlerdir. Örneğin, standart sapma (standard deviation), varyans (variance) gibi.
*  **Yayılım Ölçütleri:** Veri setinin dağılımının ne kadar geniş olduğunu veya yoğun olduğunu gösteren ölçütlerdir. Örneğin, minimum ve maksimum değerler, çeyrekler (quartiles), yüzdelikler (percentiles) gibi.
*  **Grafiksel Özetler:** Veri setini görsel olarak temsil etmek için kullanılan grafiklerdir. Örneğin, histogramlar, çizgi grafikleri, kutu grafikleri gibi.

In [None]:
import numpy as np

# Örnek veri seti oluşturalım
veri_seti = np.random.randint(0, 100, 100)  # 0 ile 100 arasında 100 adet rastgele sayı

# Merkezi eğilim ölçütleri
ortalama = np.mean(veri_seti)
medyan = np.median(veri_seti)
mod = np.argmax(np.bincount(veri_seti))  # En sık tekrar eden değer

# Dağılım ölçütleri
standart_sapma = np.std(veri_seti)
varyans = np.var(veri_seti)

# Yayılım ölçütleri
minimum = np.min(veri_seti)
maksimum = np.max(veri_seti)
c1, c2, c3 = np.percentile(veri_seti, [25, 50, 75])  # Çeyrekler

# Veri setinin özetlenmiş bilgilerini yazdırma
print("Merkezi Eğilim Ölçütleri:")
print("Ortalama:", ortalama)
print("Medyan:", medyan)
print("Mod:", mod)

print("\nDağılım Ölçütleri:")
print("Standart Sapma:", standart_sapma)
print("Varyans:", varyans)

print("\nYayılım Ölçütleri:")
print("Minimum:", minimum)
print("Maksimum:", maksimum)
print("Çeyrekler:")
print("1. Çeyrek (Q1):", c1)
print("2. Çeyrek (Q2):", c2)
print("3. Çeyrek (Q3):", c3)


Merkezi Eğilim Ölçütleri:
Ortalama: 50.43
Medyan: 46.5
Mod: 28

Dağılım Ölçütleri:
Standart Sapma: 29.208990054433585
Varyans: 853.1651

Yayılım Ölçütleri:
Minimum: 1
Maksimum: 99
Çeyrekler:
1. Çeyrek (Q1): 27.0
2. Çeyrek (Q2): 46.5
3. Çeyrek (Q3): 79.25


# **Merkezi Eğilim Ölçütleri: Aritmetik Ortalama**

**Aritmetik ortalama**, bir veri kümesindeki tüm değerlerin toplamının, veri kümesindeki değerlerin sayısına bölünmesiyle elde edilen ortalama değerdir. Bu, veri setinin merkezi bir eğilim ölçüsüdür ve genellikle veri setinin temsil ettiği genel değeri yansıtmak için kullanılır.

In [None]:
import numpy as np

# Örnek veri seti
veri_seti = [5, 8, 10, 12, 6, 9, 11, 14, 7]

# Aritmetik ortalama hesaplama
ortalama = np.mean(veri_seti)

print("Aritmetik ortalama:", ortalama)


# **Merkezi Eğilim Ölçütleri: Medyan**

**Medyan**, bir veri kümesindeki değerlerin sıralandığında ortadaki değeri ifade eder. Eğer veri kümesindeki eleman sayısı tek ise, medyan direkt olarak ortadaki değer olur. Ancak, eleman sayısı çift ise, medyan iki ortadaki değerin aritmetik ortalaması olarak hesaplanır.

Medyan, bir veri setinin merkezi eğilimini belirlemek için kullanılan bir ölçüdür ve aykırı değerlerin etkisini azaltmada aritmetik ortalamaya kıyasla daha dirençlidir.

*Veri kümesindeki değerlerin sıralanması ve medyanın bulunması için bir algoritma şu adımları izler:*

*  Veri kümesini sırala.
*  Eğer veri kümesindeki eleman sayısı tek ise, ortadaki değer medyandır.
*  Eğer veri kümesindeki eleman sayısı çift ise, ortadaki iki değerin aritmetik ortalaması medyandır.

Not: Veri setinde uç değerlerin sıklığı az ise, medyan daha sağlıklı sonuçlar verebilir. Ancak, uç değerlerin sıklığı fazlaysa, aritmetik ortalama daha doğru sonuçlar verebilir.

In [10]:
import numpy as np

# Örnek veri seti
veri_seti = [5, 8, 10, 12, 6, 9, 11, 13, 7]

# Medyan hesaplama
medyan = np.median(veri_seti)

print("Medyan:", medyan)


Medyan: 9.0


# **Merkezi Eğilim Ölçütleri: Mod**

**Mod**, bir veri kümesinde en sık tekrar eden değeri ifade eder. Veri setindeki mod değeri, veri kümesindeki değerlerin sıklığını belirleyerek bulunur. Mod, bir veri kümesinin merkezi eğilimini tanımlamak için kullanılır ve genellikle kategorik veya sınıflandırılmış verilerle çalışırken özellikle faydalıdır.

Veri kümesinde birden fazla mod olabilir (eşit sıklıkla tekrar eden değerler). Aynı zamanda, bir veri kümesinde hiç mod olmayabilir (tüm değerler eşit sıklıkla tekrar eder).

Python'da modu hesaplamak için birkaç farklı yol bulunmaktadır. Örneğin, statistics modülündeki **mode()** fonksiyonu kullanılabilir veya NumPy kütüphanesindeki **np.argmax()** fonksiyonu kullanılarak hesaplanabilir.



In [1]:
import numpy as np

# Örnek veri seti
veri_seti = [5, 8, 10, 12, 6, 9, 11, 14, 7, 8, 8]

# Mod hesaplama
mod = np.argmax(np.bincount(veri_seti))

print("Mod:", mod)


Mod: 8


In [None]:
import statistics

# Örnek veri seti
veri_seti = [5, 8, 10, 12, 6, 9, 11, 14, 7, 8, 8]

# Mod hesaplama
mod = statistics.mode(veri_seti)

print("Mod:", mod)


# **Merkezi Eğilim Ölçütleri: Kartil**
**Kartiller**, bir veri setini dört eşit parçaya bölen istatistiksel ölçütlerdir. Bir veri setini dört eşit parçaya böldüklerinden, "çeyrekler" olarak da adlandırılırlar. Kartiller, veri setinin dağılımını anlamak ve dört eşit parçaya ayırmak için kullanılır.

Bir veri setindeki üç kartil bulunur:

**1.İlk Kartil (Q1):** Veri setini sıralandığında alt çeyreği temsil eder. Yani, veri setinin en küçük değerinden başlayarak %25'lik bir dilimi ifade eder.

**2.İkinci Kartil veya Medyan (Q2):** Veri setinin ortasını temsil eder. Yani, veri setini iki eşit parçaya böler. Eğer veri setinin eleman sayısı tek ise, medyan doğrudan ortadaki değerdir. Eğer eleman sayısı çift ise, medyan iki ortadaki değerin aritmetik ortalamasıdır.

**3.Üçüncü Kartil (Q3):** Veri setini sıralandığında üst çeyreği temsil eder. Yani, veri setinin en büyük değerinden başlayarak %75'lik bir dilimi ifade eder.

Kartiller, bir veri setinin dağılımını anlamak için kullanılır ve çeyrekler arası aralık gibi diğer istatistiksel ölçütlerin hesaplanmasına yardımcı olur. Ayrıca, kutu grafikleri gibi görselleştirmelerde de sıkça kullanılırlar.

Python'da, NumPy kütüphanesi gibi birçok istatistiksel kütüphane, kartilleri hesaplamak için işlevler içerir. Örneğin, **np.percentile()** fonksiyonu NumPy'da kullanılarak kartiller hesaplanabilir.

Başka bir alternatif olarak, numpy kütüphanesi yerine Python'ın yerleşik statistics modülünü kullanabiliriz. İşte aynı örneği statistics modülüyle gerçekleştiren bir örnek:


In [11]:
import numpy as np

# Örnek veri seti
veri_seti = [5, 8, 10, 12, 6, 9, 11, 14, 7, 8, 8, 20, 25, 22, 18]

# Kartilleri hesaplama
q1 = np.percentile(veri_seti, 25)  # İlk Kartil (Q1)
medyan = np.percentile(veri_seti, 50)  # Medyan (Q2)
q3 = np.percentile(veri_seti, 75)  # Üçüncü Kartil (Q3)

print("İlk Kartil (Q1):", q1)
print("Medyan (Q2):", medyan)
print("Üçüncü Kartil (Q3):", q3)


İlk Kartil (Q1): 8.0
Medyan (Q2): 10.0
Üçüncü Kartil (Q3): 16.0


In [3]:
import statistics

# Örnek veri seti
veri_seti = [5, 8, 10, 12, 6, 9, 11, 14, 7, 8, 8, 20, 25, 22, 18]

# Kartilleri hesaplama
q1 = statistics.quantiles(veri_seti, n=4)[0]  # İlk Kartil (Q1)
medyan = statistics.median(veri_seti)  # Medyan (Q2)
q3 = statistics.quantiles(veri_seti, n=4)[2]  # Üçüncü Kartil (Q3)

print("İlk Kartil (Q1):", q1)
print("Medyan (Q2):", medyan)
print("Üçüncü Kartil (Q3):", q3)


İlk Kartil (Q1): 8.0
Medyan (Q2): 10
Üçüncü Kartil (Q3): 18.0
