# Korelasyon Testleri
- Bu bölümde, iki örneğin ilişkili olup olmadığını kontrol etmek için kullanabileceğiniz istatistiksel testler listelenmektedir.
- Parametrik bir testtir.
- Normal dağılım şartı vardır.
- #### Kullanılacak Korelasyon Testleri
- Pearson Korelasyon Katsayısı
- Spearman'ın Sıra Korelasyonu
- Kendall'ın Sıra Korelasyonu
- Ki-Kare Testi

## 1)Pearson Korelasyon Katsayısı
- Pearson korelasyon katsayısı veya Pearson's r istatistikte iki değişken arasındaki ilişkinin gücünün ve birbirleriyle olan ilişkilerinin ölçümü olarak tanımlanır. 

In [9]:
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

In [14]:
#Normallik testinde normal dağılıma sahip çıkan air quality data setini kullanacağım.
#Hyderabad'taki Hava Kalitesi: Kirlilik Analizi veri seti ile çalışalım
df = pd.read_csv("AQI Data Set.csv")
df.head(2)

Unnamed: 0,Id,Mounths,PM10 in æg/m3,SO2 in æg/m3,NOx in æg/m3,PM2.5 in æg/m3,Ammonia - NH3 in æg/m3,O3 in æg/m3,CO in mg/m3,Benzene in æg/m3,AQI
0,1,Jan-17,174.0,26.4,35.0,79,25.0,107.6,0.9,0.7,149.0
1,2,Feb-17,143.0,35.1,40.3,75,31.0,103.0,0.9,0.9,129.0


**Soru 1:** Azot oksitlerin (NOx) konsantrasyonu ile hava kalitesi endeksi (AQI) arasındaki ilişki nedir? Bu iki değişken arasında anlamlı bir doğrusal ilişki var mı? **alpha=0.05**

- **H0:** AQI ile NOx arasında anlamlı bir doğrusal ilişki yoktur. (Pearson korelasyon katsayısı 0'dır)
- **H1:** AQI ile NOx arasında anlamlı bir doğrusal ilişki vardır. (Pearson korelasyon katsayısı 0'dan farklıdır)

In [68]:
df=df.dropna()

In [70]:
df.isnull().sum()

Id                         0
Mounths                    0
PM10 in æg/m3              0
SO2 in æg/m3               0
NOx  in æg/m3              0
 PM2.5  in æg/m3           0
Ammonia - NH3  in æg/m3    0
O3   in æg/m3              0
CO  in mg/m3               0
 Benzene  in æg/m3         0
AQI                        0
dtype: int64

In [72]:
#AQI (Air Quality Index): Hava kalitesini ölçen bir endeks.
#NOx (Nitrogen Oxides): Hava kirliliğinde önemli bir rol oynayan azot oksitleri.
#İkisi de normal dağılımdadır.
AQI = df['AQI']
Nox = df["NOx  in æg/m3"]

In [76]:
from scipy.stats import pearsonr
stat, p = pearsonr(AQI, Nox)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('H0 hipotezi kabul edilir.AQI ile NOx arasında anlamlı bir doğrusal ilişki yoktur.')
else:
 print('H1 hipotezi kabul edilir.AQI ile NOx arasında anlamlı bir doğrusal ilişki vardır.')

stat=0.255, p=0.038
H1 hipotezi kabul edilir.AQI ile NOx arasında anlamlı bir doğrusal ilişki vardır.


## 2) Spearman Sıra Korelasyon Katsayısı
- Parametrik değildir.
- Spearman korelasyon analizi, normal dağılım koşulunu gerektirmez.
- İstatistik analizi uygulamalarında verilerimiz nicel veya sıralayıcı (ordinal) ölçeğe sahip olduğunda Spearman korelasyon analizine başvurabiliriz.

In [86]:
#Öğrenci performans tahmini
df = pd.read_csv("exams.csv")
df.head(2)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group D,some college,standard,completed,59,70,78
1,male,group D,associate's degree,standard,none,96,93,87


**Soru 2 :** Matematik Notu (math score) ve Okuma Notu (reading score) arasındaki ilişki miktarını ve yönünü
0,05 anlamlılık düzeyinde araştırın.
- **H0:** Matematik Notu (math score) ve Okuma Notu (reading score) arasında anlamlı bir ilişki yoktur.
- **H1:** Matematik Notu (math score) ve Okuma Notu (reading score) arasında anlamlı bir ilişki vardır.

In [99]:
from scipy.stats import spearmanr
stat, p = spearmanr(df["math score"], df["reading score"])
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('H0 kabul edilir.Matematik Notu (math score) ve Okuma Notu (reading score) arasında anlamlı bir ilişki yoktur.')
else:
 print('H1 kabul edilir.Matematik Notu (math score) ve Okuma Notu (reading score) arasında anlamlı bir ilişki vardır.')

stat=0.803, p=0.000
Matematik Notu (math score) ve Okuma Notu (reading score) arasında anlamlı bir ilişki vardır.


**Soru 3 :** Yazma Notu (writing score) ve Okuma Notu (reading score) arasındaki ilişki miktarını ve yönünü
0,05 anlamlılık düzeyinde araştırın.
- **H0:** Yazma Notu (writing score) ve Okuma Notu (reading score) arasında anlamlı bir ilişki yoktur.
- **H1:** Yazma Notu (writing score) ve Okuma Notu (reading score) arasında anlamlı bir ilişki vardır.

In [107]:
from scipy.stats import spearmanr
stat, p = spearmanr(df["writing score"], df["reading score"])
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('H0 kabul edilir.Yazma Notu (writing score) ve Okuma Notu (reading score) arasında anlamlı bir ilişki yoktur.')
else:
 print('H1 kabul edilir.Yazma Notu (writing score) ve Okuma Notu (reading score) arasında anlamlı bir ilişki vardır.')

stat=0.945, p=0.000
H1 kabul edilir.Yazma Notu (writing score) ve Okuma Notu (reading score) arasında anlamlı bir ilişki vardır.


## 3)Kendall'ın Sıra Korelasyonu
- Kendall'ın Tau korelasyon katsayısı, değişkenler arasındaki sıralı ilişkiyi ölçer.
- Parametrik değildir.

In [116]:
#kalp hastalıkları
df = pd.read_csv("heart_disease_uci.csv")
df.head(3)

Unnamed: 0,id,age,sex,dataset,cp,trestbps,chol,fbs,restecg,thalch,exang,oldpeak,slope,ca,thal,num
0,1,63,Male,Cleveland,typical angina,145.0,233.0,True,lv hypertrophy,150.0,False,2.3,downsloping,0.0,fixed defect,0
1,2,67,Male,Cleveland,asymptomatic,160.0,286.0,False,lv hypertrophy,108.0,True,1.5,flat,3.0,normal,2
2,3,67,Male,Cleveland,asymptomatic,120.0,229.0,False,lv hypertrophy,129.0,True,2.6,flat,2.0,reversable defect,1


**Soru 4 :** Yaş ile ST depresyonu arasındaki ilişki miktarını ve yönünü
0,05 anlamlılık düzeyinde araştırın.
- **H0:**  Yaş ile ST depresyonu arasında sıralı bir ilişki yoktur.
- **H1:**  Yaş ile ST depresyonu arasında sıralı bir ilişki vardır.

In [120]:
df=df.dropna()

In [129]:
from scipy.stats import kendalltau
data1 = df["age"]
data2 = df["oldpeak"]
stat, p = kendalltau(data1, data2)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('H0 kabul edilir.Yaş ile ST depresyonu arasında sıralı bir ilişki yoktur.')
else:
 print('H1 kabul edilir.Yaş ile ST depresyonu arasında sıralı bir ilişki vardır.')

stat=0.179, p=0.000
H1 kabul edilir.Yaş ile ST depresyonu arasında sıralı bir ilişki vardır.


**Soru 5 :** Yaş ile Kolestrol arasındaki ilişki miktarını ve yönünü
0,05 anlamlılık düzeyinde araştırın.
- **H0:**  Yaş ile Kolestrol arasında sıralı bir ilişki yoktur.
- **H1:**  Yaş ile Kolestrol arasında sıralı bir ilişki vardır.

In [133]:
data1 = df["age"]
data2 = df["chol"]
stat, p = kendalltau(data1, data2)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('H0 kabul edilir.Yaş ile Kolestrol  arasında sıralı bir ilişki yoktur.')
else:
 print('H1 kabul edilir.Yaş ile Kolestrol  arasında sıralı bir ilişki vardır.')

stat=0.127, p=0.001
H1 kabul edilir.Yaş ile Kolestrol  arasında sıralı bir ilişki vardır.


## 4)Ki-kare Testi
- İki kategorik değişkenin ilişkili mi yoksa bağımsız mı olduğunu test eder.

**Soru 6 :**  Cinsiyet ile göğüs ağrısı türü arasındaki ilişki miktarını ve yönünü
0,05 anlamlılık düzeyinde araştırın.
- **H0:**   Cinsiyet ile göğüs ağrısı türü arasında bir ilişki yoktur.
- **H1:**   Cinsiyet ile göğüs ağrısı türü arasında bir ilişki vardır.

In [144]:
from scipy.stats import chi2_contingency
contingency_table = pd.crosstab(df['sex'], df['cp'])
stat, p, dof, expected = chi2_contingency(contingency_table)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
 print('H0 kabul edilir.Cinsiyet ile göğüs ağrısı türü arasında anlamlı bir ilişki yoktur.')
else:
 print('H0 reddedilir.Cinsiyet ile göğüs ağrısı türü arasında anlamlı bir ilişki vardır.')

stat=6.991, p=0.072
H0 kabul edilir.Cinsiyet ile göğüs ağrısı türü arasında anlamlı bir ilişki yoktur.
