# Parametrik Hipotez Testleri

## 1)Öğrencinin t-testi
- İki bağımsız numunenin ortalamalarının önemli ölçüde farklı olup olmadığını test eder.

**Soru 1 :** Bir biyolog, setosa ve versicolor türleri arasında sepal length (çanak uzunluğu) bakımından anlamlı bir fark olup olmadığını incelemek istemektedir. 
- (H₀): Setosa ve Versicolor türleri arasında sepal length (çanak uzunluğu) ortalamaları açısından anlamlı bir fark yoktur.
- (H1): Setosa ve Versicolor türleri arasında sepal length (çanak uzunluğu) ortalamaları açısından anlamlı bir fark vardır.

In [13]:
import seaborn as sns
from scipy import stats
import matplotlib.pyplot as plt

# Veri setini yükleme
df = sns.load_dataset('iris')
df.head()

# İki bağımsız grubun seçilmesi
setosa = df[df['species'] == 'setosa']['sepal_length']
versicolor = df[df['species'] == 'versicolor']['sepal_length']

In [76]:
# Normalliği kontrol edelim
from scipy.stats import shapiro
w_stat,p_value1 = stats.shapiro(setosa)
print('stat=%.3f, p=%.3f' % (w_stat, p_value1))
#Sonucu yorumlama
alpha = 0.05
if p_value1>alpha:
    print("H0 kabul edilir,veri normal dağılmıştır.")
else:
    print("H0 reddedilir,veri normal dağılmamıştır.")

stat=0.978, p=0.460
H0 kabul edilir,veri normal dağılmıştır.


In [78]:
# Normalliği kontrol edelim
from scipy.stats import shapiro
w_stat,p_value1 = stats.shapiro(versicolor)
print('stat=%.3f, p=%.3f' % (w_stat, p_value1))
#Sonucu yorumlama
alpha = 0.05
if p_value1>alpha:
    print("H0 kabul edilir,veri normal dağılmıştır.")
else:
    print("H0 reddedilir,veri normal dağılmamıştır.")

stat=0.978, p=0.465
H0 kabul edilir,veri normal dağılmıştır.


In [80]:
# T-Testi uygulama
t_stat, p_value = stats.ttest_ind(setosa, versicolor)

# Sonuçları yazdırma
print('T-Statistic:', t_stat)
print('P-Value:', p_value)

# Sonuçları yorumlama
alpha = 0.05
if p_value < alpha:
    print("Null Hipotez reddedilir; iki tür arasında anlamlı bir fark vardır.")
else:
    print("Null Hipotez reddedilemez; iki tür arasında anlamlı bir fark yoktur.")



T-Statistic: -10.52098626754911
P-Value: 8.985235037487079e-18
Null Hipotez reddedilir; iki tür arasında anlamlı bir fark vardır.


## 2)Eşleştirilmiş öğrenci t-testi

**Soru 2:** Aşağıdaki tabloda, tedavi gören bir grup hastada(16 kişi), ilaç almadan önce ve 6 hafta sonrası için ölçülen toplam kolesterol değerleri verilmiştir. İlacın toplam kolesterolde azalmaya yol açacağı sonucuna varmamız için α=0.01 anlamlılık düzeyinde yeterli kanıt var mı? Bu durumda null ve alternatif hipotezler nelerdir?
- H0: µ1 = µ2 ("eşleştirilmiş popülasyon ortalamaları eşittir")
- H1: µ1 ≠ µ2 ("eşleştirilmiş popülasyon ortalamaları eşit değildir")

In [15]:
before = [195, 208, 254, 226, 290, 239, 216, 286, 243, 217, 245, 257, 199, 277, 249, 197]
after = [125, 164, 152, 144, 212, 171, 164, 200, 190, 130, 170, 182, 153, 204, 174, 160]

In [19]:
import pandas as pd
data = pd.DataFrame({'Before': before, 'After': after})

# Calculate the differences
data['Difference'] = data['Before'] - data['After']

In [22]:
# Perform the paired t-test
t_stat, p_value = stats.ttest_rel(data['Before'], data['After'], alternative='greater')

In [25]:
# Print the results
print(f'Test statistic: {t_stat:.4f}')
print(f'P-value: {p_value:.4f}')

Test statistic: 15.4134
P-value: 0.0000


In [33]:
# Sonuçları yorumlama
alpha = 0.01
if p_value > alpha:
    print("H0 kabul edilir. µ1 = µ2 (eşleştirilmiş popülasyon ortalamaları eşittir")
else:
    print("H1 kabul edilir; eşleştirilmiş popülasyon ortalamaları eşit değildir.")

H1 kabul edilir; eşleştirilmiş popülasyon ortalamaları eşit değildir.


## 3)ANOVA Testi
- Normallik varsayımı: Tüm gruplar normal dağılımlı
kitlelerden çekilmiştir.
- Homojenlik varsayımı: Grup varyansları homojen
olmalıdır.

**Soru 3 :** Üç farklı bölgede oturan kişilerin boy ve kilo
ölçümleri yapılarak vücut kitle indeksi (VKİ)
değerleri hesaplanmıştır.
Bu üç farklı bölgede yaşayan kişilerin VKİ
ortalamaları arasında fark olup olmadığını
α=0,05 yanılma düzeyinde araştırınız.

In [46]:
import scipy.stats as stats

# Verilen değerler
x1 = 827.77
x2 = 586.04
x3 = 344.16
x = 1757.97

x1_sq = 47113.95
x2_sq = 25427.90
x3_sq = 10330.27
x_sq = 82872.12

mean1 = 48.69
mean2 = 34.47
mean3 = 20.24

std1 = 20.63
std2 = 18.07
std3 = 14.50

n1 = 17
n2 = 17
n3 = 17
n = 51

In [56]:
# Grup ortalamaları
mean_total = (x1 + x2 + x3) / n
# Grup içi (within-group) varyans
ss_within = (n1 - 1) * std1**2 + (n2 - 1) * std2**2 + (n3 - 1) * std3**2
df_within = n - 3
# Grup arası (between-group) varyans
ss_between = n1 * (mean1 - mean_total)**2 + n2 * (mean2 - mean_total)**2 + n3 * (mean3 - mean_total)**2
df_between = 2
# Varyanslar
ms_between = ss_between / df_between
ms_within = ss_within / df_within

In [60]:
# F-değeri
fvalue = ms_between / ms_within
print("ANOVA F değeri:", fvalue)

ANOVA F değeri: 10.723384818632466


In [63]:
# Kritik değer
alpha = 0.05
kritik_deger = stats.f.ppf(1 - alpha, df_between, df_within)
print("Kritik değer:", kritik_deger)

Kritik değer: 3.1907273359284987


In [66]:
# Sonucu yorumlayalım
if fvalue > kritik_deger:
    print("Sonuç: Bölgeler arasında istatistiksel olarak anlamlı fark vardır (H0 reddedilir).")
else:
    print("Sonuç: Bölgeler arasında istatistiksel olarak anlamlı fark yoktur (H0 kabul edilir).")


Sonuç: Bölgeler arasında istatistiksel olarak anlamlı fark vardır (H0 reddedilir).


- %95 güven düzeyinde en az bir bölgenin VKİ
(Vücut kitle indeksi) ortalamasının
diğerlerinden farklı olduğu söylenir.

## 4)Tekrarlı Ölçümler ANOVA

- İstatistiksel bir yöntemdir ve aynı grubun üyelerinin 3 veya daha fazla farklı zamanlardaki ölçümleri arasındaki anlamlı farkları belirlemek için kullanılır.

**Soru 1 :** Bir grup katılımcıya 3 çeşit (bira-şarap-su) içeceğin 3 farklıbetimlemesi(negatif-pozitif ve nötr) gösterildiği ve katılımcıların bu içeceklere karşı olan tutumlarının ölçüldüğü verimiz yanda verilmiştir.Toplamda aynı bireylere gösterilen 9 farklı durumu içeren 2 faktöre sahip olduğu için 2 faktör tekrarlı ölçümler ANOVA ile verimizi analiz edin.

In [88]:
import pandas as pd
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.stats.anova import AnovaRM

In [91]:
data = {
    'katılımcı': list(range(1, 21)),
    'beerpos': [1, 43, 15, 40, 8, 17, 30, 34, 30, 26, 1, 7, 22, 30, 40, 15, 20, 9, 14, 15],
    'beerneg': [6, 30, 15, 30, 12, 15, 21, 23, 27, 27, -19, -18, -8, -6, -6, -9, -17, -12, -11, -6],
    'beerneut': [5, 8, 19, 19, 8, 15, 21, 26, 20, 27, -10, -6, -4, 3, 6, 7, 9, -5, 7, 13],
    'winepos': [38, 20, 20, 28, 11, 17, 21, 27, 24, 23, 28, 26, 34, 32, 24, 29, 30, 24, 34, 23],
    'wineeng': [-5, -12, -15, -4, 6, 11, 15, -7, 24, -15, -13, -16, -23, -22, -20, -18, -17, -14, -15, -15],
    'wineneut': [4, 4, 6, 4, 6, 6, 2, 12, 10, -14, -13, -12, -14, -11, -10, -8, -6, -2, -1, -1],
    'waterpos': [10, 9, 6, 2, 9, 27, 9, 12, 23, 21, 33, 29, 29, 29, 31, 30, 31, 33, 32, 29],
    'waterneg': [-14, -10, -16, -10, -6, -5, -20, -12, -17, -6, -2, -17, -19, -11, -5, -7, -6, -4, 12, 10],
    'waterneut': [-2, -13, 1, 2, -5, -5, -9, -4, 8, -9, -9, 6, 0, 4, -11, -7, -14, -11, 1, 10]
}

df = pd.DataFrame(data)

In [94]:
# Veriyi uzun forma dönüştürme
df_long = pd.melt(df, id_vars=['katılımcı'], 
                  value_vars=['beerpos', 'beerneg', 'beerneut', 'winepos', 'wineeng', 'wineneut', 'waterpos', 'waterneg', 'waterneut'],
                  var_name='içecek_durum', value_name='tutum')


In [98]:
# 'katılımcı' ve 'içecek_durum' kategorik veri olarak belirleniyor
df_long['katılımcı'] = df_long['katılımcı'].astype('category')
df_long['içecek_durum'] = df_long['içecek_durum'].astype('category')

In [101]:
# 2-faktör Tekrarlı Ölçümler ANOVA'yı uygulama
aovrm2 = AnovaRM(df_long, 'tutum', 'katılımcı', within=['içecek_durum'])
res2 = aovrm2.fit()

In [104]:
# Sonuçların özeti
print(res2.summary())

                   Anova
             F Value Num DF  Den DF  Pr > F
-------------------------------------------
içecek_durum 30.8348 8.0000 152.0000 0.0000



In [107]:
# F ve p-değerlerini elde etme
f_value = res2.anova_table['F Value'].iloc[0]
p_value = res2.anova_table['Pr > F'].iloc[0]

# Anlamlılık düzeyi
alpha = 0.05

# Karar
if p_value < alpha:
    decision = "Null hipotezi reddediyoruz, içecek durumu arasında anlamlı bir fark var."
else:
    decision = "Null hipotezi reddedemiyoruz, içecek durumu arasında anlamlı bir fark yok."

print(f"F değeri: {f_value}")
print(f"p değeri: {p_value}")
print(decision)

F değeri: 30.83479156073963
p değeri: 2.856564207116835e-28
Null hipotezi reddediyoruz, içecek durumu arasında anlamlı bir fark var.
