# Temel İstatistik 

## İçerik
1. [Temel Kavramlar ve Örneklem Teorisi](#1)
1. [Betimleyici İstatistikler](#2)
1. [Güven Aralığı](#3)
1. [Kaynaklar](#4)

-----

<a id=1></a>
### 1. Temel Kavramlar   

- Değişken ve Değişken Türleri 
    - Değişken: Her gözlem birimi için farklı değer alan niceliktir.
    - Değişken Türleri 
        * Sayısal Değişkenler (Nicel, kantitatif)
        * Kategorik Değişkenler (Nitel, kalitatif)
    - Ölçek Türleri 
        1. Sayısal Ölçek Türleri 
            1. Aralık
                * Başlangıç değeri sıfır olmayan değişkenlerdir. 
                * Örnek: Sıcaklık
            1. Oran
                * Başlangıç değeri sıfır olan değişkenlerdir.
                * Örnek: Yaş
        1. Kategorik ölçek türleri
             1. Nominal
                * Sıralanamazlar.
                * Örnek: Cinsiyet
             1. Ordinal
                * Sıralanabilirler.
                * Örnek: Eğitim durumu
                
                
- Polülasyon, Örneklem ve Gözlem Birimi
    - Popülasyon : İlgilenilen hedef kitle. 
    - Örneklem: Hedef kitle içerisinden seçilen altı kümedir.
        * Örneklem yansız olmalı.
        * Popülasyonu temsil etmesi gerekir.
    - Gözlem birimi: Örneklemin içindeki her bir elemana verilen isimdir.
    - Örnek: 
        * Popülasyon: Türkiyedeki tüm belediyeler
        * Örneklem: Türkiyedeki Büyük Şehir Belediyeleri
        * Gözlem Birimi: İstanbul Büyük Şehir Belediyesi   

In [1]:
# Kütüphaneleri dahil edelim
import numpy as np 
import pandas as pd
import seaborn as sns

In [2]:
tips = sns.load_dataset("tips") # Seaborn Tips veri setini çağıralım
df = tips.copy() # Veri setini olası bozulmalara karşı korumak için kopyalayalım
df.head() # Veri setinin ilk 5 satırını gözlemleylim

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


Veri setinin değişken türlerine bakalım.

In [3]:
df.info() # Veri seti hakkında genel bilgileri verir

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.3 KB


* 244 satır 7 sütundan oluşmaktadır.
* Veri setinde 4 kategorik 3 tane ise sayısal değişken bulunmaktadır. 
* Ölçek türlerine göre değerlendirecek olursak kategorik değişkenlerin hepsi nominal ölçek türüne, sayısal değişkenlerin hepsi ise oran ölçek türüne sahiptir.

------

<a id=2></a>
### 2. Betimleyici İstatistikler

- Merkezi Eğilim Ölçüleri
    * Aritmetik Ortalama
    
        - Tüm elemanların toplamının eleman sayısına bölümü ile elde edilir.
    
        ${\frac{\displaystyle \sum_{i=0}^n n_i}{\huge n}}$  
            
    * Medyan 
    
        - Elemanların küçükten büyüğe sıranlandıktan sonraki ortanca değeridir.
           
           Medyan indisi : 
           ${\frac{\displaystyle n+1}{2}}$  
    
    * Mod
    
        - Dizide frekansı en yüksek olan değerdir.
        
    * Ortalama ve Medyan Arasındaki Fark
        - Normal dağılım 
            * Normal dağılım, aynı zamanda Gauss dağılımı veya Gauss tipi dağılım olarak isimlendirilir.
            * İstatistiğin büyük bir kısmı normal dağılım temeli üzerine kurulmuştur. 
            * Normal dağılım gerçek hayata en uygun dağılım olduğundan örneklem üzerinden ana kitle tahminlemesi daha az hatayla olur. 
        ![title](normaldağılım.png)
            
        - Veri setinin normal dağılıma sahip olmadı durumlarda veri setini temsil ederken medyan kullanılmalıdır.
        - Ortalama aykırı değerlere dayanıklı değilken, medyan aykırı değerler dayanıklık. 
        ![title](mean_median.png)
    
    * Katriller
    
        - Çeyrekler olarak da bilinir.
        - Diziyi dört parçaya ayırır.
        - Meydan bulunduktan sonra medyandan önceki ve sonraki kısımların medyanın bulunmasıdır.
        
        ![title](ceyrekler.png)
    
    * Kovaryans
     
        - İki değişken arasındaki ilişkinin değişkenlik ölçüsüdür.
        
        ${ cov(X,Y) = E[ (X - E[X]) (Y - E[E]) ]}$
        
    * Koralasyon
        
        - İki değişken arasındaki ilişkiyi, ilişkinin yönünü, şiddetini ve anlamını belirtir.
        
        ${ r_{xy} = {\frac{ \sum x_i y_i - n \overline{\rm x} \: \overline{\rm y} }{ {\sqrt{\sum x_i^2 - \overline{\rm x}^2}  \sqrt{\sum y_i^2 - \overline{\rm y}^2}} }} }$ 
        
        

- Dağılım Ölçüleri
    * Değişim Aralığı
        - ${ Değişim \, Aralığı = Maksimum \, Değer - Minimum \, Değer}$
    * Standart Sapma
        - Ortalamadan olan sapmanın genel bir ölçüsüdür. Gözlemlerin ne kadar dağılmış olduğunu ifade eder.
        - ${s = {\sqrt{\frac{1}{n} {\sum_{i=1}^n } {(x_i - \overline{\rm x})\,^2} }}}$
        
        - ${ \large { \;\;\;\; \qquad \qquad \qquad \qquad Popülasyon \quad Örneklem \\
             Ortalama \;\;\;\;\; \qquad \qquad \qquad \mu \qquad \qquad \overline{\rm x} \\
             StandardSapma \qquad \qquad  \sigma \qquad \qquad s}}$
    * Varyans
        - Standart sapmanın karesidir.
        - Gözlemlerin değişkenliğini tanımlar.
        - Gözlemlerin örneklemde ne kadar yayıldığını gösteren değerdir.
        - Standart sapmadan farkı, standart sapma veri seti içerisindeki gözlemlerin ortalamadan ne kadar uzaklıkta olduğunu tanımlar varyans ise değişkenliğini tanımlar.
        - Birden fazla değişkenin dağılımını birbirleri ile kıyaslarken kullanılır.
        - ${s^2}$
    * Çarpıklık
        - Çarpıklık bir değişkenin dağılımının simetrik olup olmadığını anlamamızı sağlar.
        - Çarpıklık olması durumunda ortalama yerine medyan kullanılarak analiz yapılması daha doğru olur.
        - Çarpıklık durumu Pearson Çarpıklık Katsayısı ile belirlenir. 
        - Pearson Çarpıklık Katsayısı = ${{\frac {3(\,\overline{\rm x} - medyan)}{standart sapma}}}$
            - Pearson Çarpıklık katsayısı (-1,1) aralığında değer alır.
            - PÇK < 0 ise Negatif Çarpık (Soldan)
            - PÇK > 0 ise Pozitif Çarpık (Sağdan)
            - PÇK = 0 ise Simetrik
            ![title](çarpıklık.png)
        - Not: Pearson Çarpıklık Katsayısı aykırı değerler karşı dayanıklı değildir. Aykırı değerler sahip veri seti üzerinde çalışıyorsak Spearman Rank Katsayısı kullanılabilir.
    * Basıklık
        - Dağılımın sivri mi yoksa basık mı olduğunu belirtir.
        - Basıklık Katsayısı = ${\frac{\mu_4}{s^4}} $ 
        $\\ \\ \mu_4 \, -> Ortalama\, etrafındaki\, 4.\, moment$   
        $\\ s \, -> standart\, sapma$  
            - Basıklık Katsayısı < 3 ise dağılım basıktır.
            - Basıklık Katsayısı > 3 ise dağılım sivridir.
            - Basıklık Katsayısı = 3 ise standart normal dağılıma sahiptir.
        ![title](basıklık.png)

In [4]:
df.describe().T # describe fonsiyonu veri seti hakkındaki betimleyici istatistikleri bize sunar.

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
total_bill,244.0,19.785943,8.902412,3.07,13.3475,17.795,24.1275,50.81
tip,244.0,2.998279,1.383638,1.0,2.0,2.9,3.5625,10.0
size,244.0,2.569672,0.9511,1.0,2.0,2.0,3.0,6.0


In [5]:
# !pip install researcpy
# Resarchpy kütüphanesi betimleyici istatistikler hakkında daha fazla bilgi sunar
import researchpy as rp

In [6]:
rp.summary_cont(df.select_dtypes(exclude="category")) # summary_cont fonsiyonu sayısal değişkenler hakkında bilgi verir





Unnamed: 0,Variable,N,Mean,SD,SE,95% Conf.,Interval
0,total_bill,244.0,19.7859,8.9024,0.5699,18.6633,20.9086
1,tip,244.0,2.9983,1.3836,0.0886,2.8238,3.1728
2,size,244.0,2.5697,0.9511,0.0609,2.4497,2.6896


In [7]:
rp.summary_cat(df.select_dtypes(include="category")) # summary_cat fonsiyonu kategorik değişkenler hakkında bilgi verir

Unnamed: 0,Variable,Outcome,Count,Percent
0,sex,Male,157,64.34
1,,Female,87,35.66
2,smoker,No,151,61.89
3,,Yes,93,38.11
4,day,Sat,87,35.66
5,,Sun,76,31.15
6,,Thur,62,25.41
7,,Fri,19,7.79
8,time,Dinner,176,72.13
9,,Lunch,68,27.87


In [8]:
df[["tip", "total_bill"]].cov() # Değişlenlerin koveryans değerini verir.

Unnamed: 0,tip,total_bill
tip,1.914455,8.323502
total_bill,8.323502,79.252939


In [9]:
df[["tip", "total_bill"]].corr() # Değişlenlerin korelasyon değerini verir.

Unnamed: 0,tip,total_bill
tip,1.0,0.675734
total_bill,0.675734,1.0


---

<a id=3></a>
### 3. Güven Aralığı
- Güven aralığı, istatistik biliminde bir anakütle parametresi için bir çeşit aralık kestirimi olup bir çıkarımsal istatistik çözüm aracıdır. Bir anakütle parametre değerinin tek bir sayı ile kestirimi yapılacağına, bu parametre değerini kapsayabilecek iki (alt ve üst sınır) sayıdan oluşan bir aralık bulunur. Böylece güven aralıkları bir kestirimin ne kadar güvenilir olduğunu gösterir.
- Güven aralığı genel olarak %95 olarak kabul edilir. Yani 100 uygulamadan sadece 5'i bu aralığın dışında olabilir.
- Güven aralığının alt ve üst sınırı birbirine ne kadar yakın ise yani güven aralığı ne kadar darsa tüm popülasyonu tahmin etmede o kadar başarılıyız denilebilir.
- Örneklem büyüklüğü arttıkça, güven aralığı daralır.
- Güven aralığı standart hata kullanılarak hesaplanır, standart hata miktarı azaldıkça güven aralığı darlaşır. Standart hata, örneklem ortalamalarının dağılımını ölçer. 
    * ${Standart\, Hata \, (SE) = \large{ \frac{s}{\sqrt{n}}}}$
    * Standart Sapma ve Standart Hata Arasındaki farklar:
        - Standart sapma altta yatan popülasyondaki dağılmayı ölçer.
        - Standart hata, örneklem ortalamalarının dağılımını ölçer.
        - Standart hata ve standart sapma arasındaki bağlantı, Standart hata örneklem ortalamalarının standart sapmasıdır. Yani büyük bir standart hata, örneklem ortalamalarının popülasyon etrafında oldukça fazla bir şekilde dağılması; küçük bir standart hata ise daha sıkı bir dağılıma sahip olması demektir. 
- $Güven \, Aralığı \, = {\large \overline{\rm x} \pm z \frac{s}{\sqrt n} }$
    * ${ \overline{\rm x} -> Ortalama}$
    * ${ s -> Standart \, Sapma}$
    * ${ z -> Z \, Tablo \, Değeri\, (1.96)}$
    * ${ n -> Gözlem \, Sayısı}$  

In [10]:
# Tip veri setinde ne kadar bahşis bırakılabileceğini güven aralığını hesaplayalım
# İşlemi gerçekleştirmek için Statsmodels kütüphanesini kullanacağız
# !pip install statsmodels
import statsmodels.stats.api as sms

In [11]:
df.tip.mean()

2.9982786885245902

In [12]:
sms.DescrStatsW(df.tip).tconfint_mean() # Güven aralığını hesaplayan fonksiyon

(2.8237993062818205, 3.172758070767359)

<a id=4></a>
## Kaynaklar

#### Websiteleri

- https://tr.wikipedia.org/wiki/Anasayfa

#### Kitaplar

- https://web.stanford.edu/~hastie/ElemStatLearn/

#### Kurslar

- https://www.udemy.com/course/python-egitimi/
- https://www.udemy.com/course/istatistik-python-adan-zye-temel-istatistik-bilimi-6/
