# ANOVA

Varyans analizi, ikiden fazla örneklem olduğunda kullanılacak yaklaşımdır. Bu notebook'ta veri bilimine bakan kısmı ele alınmıştır.

Tanım: İki ya da daha fazla grup ortalaması arasında istatistiksel olarak anlamlı farklılık olup olmadığını öğrenilmek istenildiğinde kullanılır.

![image.png](imagee40.png)

![image.png](imagee41.png)

Burada test istatistiği F-istatistiği olarak geçer.

![image.png](imagee42.png)

### Bu analizin varsayımları:
* Gözlemlerin(grupların) birbirinden bağımsız olması
* Normal dağılım
* Varyans homojenliği

## Business Practice

 ![image.png](imagee43.png)

![image.png](imagee44.png)

Aynı haber 3 farklı şekilde 3 farklı gruba sunuluyor ve bunun üzerinden analiz yapılıyor.

In [1]:
import numpy as np 
import pandas as pd 

A = pd.DataFrame([28, 33, 30, 29, 28, 29, 27, 31, 30, 32, 28, 33, 25, 29, 27, 31, 31, 30, 31, 34, 30, 32, 31])

B = pd.DataFrame([31, 32, 30, 30, 33, 32, 34, 27, 36, 30, 31, 30, 38, 29, 30, 34, 34, 31, 35, 35, 33, 30, 28])

C = pd.DataFrame([40, 33, 38, 41, 42, 43, 38, 35, 39, 39, 36, 34, 35, 40, 38, 36, 39, 36, 33, 35, 38, 35, 40])

dfs = [A, B, C]

ABC = pd.concat(dfs, axis=1)
ABC.columns = ["GRUP_A", "GRUP_B", "GRUP_C"]
ABC.head()
# Bunlar inceledigimiz web sitesindeki gecirilen sureleri ifade ediyor.

Unnamed: 0,GRUP_A,GRUP_B,GRUP_C
0,28,31,40
1,33,32,33
2,30,30,38
3,29,30,41
4,28,33,42


### Varsayım Kontrolü

1. Grupların birbirinden bağımsız olduğunu varsayıyoruz. Zaten ayrı bir şekilde gruplarımızı oluşturduk.

In [2]:
from scipy.stats import shapiro
shapiro(ABC.GRUP_A)

ShapiroResult(statistic=0.9771650804769308, pvalue=0.8526755202981372)

In [3]:
shapiro(ABC.GRUP_B)

ShapiroResult(statistic=0.9653159538895948, pvalue=0.5784827260658594)

In [4]:
shapiro(ABC.GRUP_C)

ShapiroResult(statistic=0.9604301400354545, pvalue=0.4721079288826735)

In [5]:
# Tum gruplar normal dagilima sahiptir.

In [6]:
from scipy.stats import levene
levene(ABC.GRUP_A, ABC.GRUP_B, ABC.GRUP_C)

LeveneResult(statistic=0.9446786090621706, pvalue=0.39399787531140673)

In [7]:
# Varyanslar da homojen. Tum varsayimlarimiz saglaniyor.

### Hipotez Testi

In [8]:
from scipy.stats import f_oneway
f_oneway(ABC.GRUP_A, ABC.GRUP_B, ABC.GRUP_C)

F_onewayResult(statistic=53.46714172604916, pvalue=1.5662951887117957e-14)

H0 hipotezini (Gruplar arasında anlamlı bir farklılık yoktur) reddetmiş oluyoruz. En az bir grup farklıdır.

In [9]:
ABC.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
GRUP_A,23.0,29.956522,2.184205,25.0,28.5,30.0,31.0,34.0
GRUP_B,23.0,31.869565,2.701924,27.0,30.0,31.0,34.0,38.0
GRUP_C,23.0,37.521739,2.810202,33.0,35.0,38.0,39.5,43.0


Burada da görüyoruz ki C grubunda, yani ilgi çekici habercilikte, daha çok vakit geçirilmiş. Yani daha çok bu türde haberler yapılmalıdır.

## Nonparametrik Hipotez Testi

Kruskal-Wallis testi, parametrik olmayan bir istatistiksel testtir ve gruplar arasındaki farkları analiz etmek için kullanılır.

In [10]:
from scipy.stats import kruskal

In [12]:
kruskal(ABC.GRUP_A, ABC.GRUP_B, ABC.GRUP_C) # Burada da 'H0 hipotezi reddedilir.' diyebiliriz.

KruskalResult(statistic=41.41835051661897, pvalue=1.014190318754816e-09)