## 1. Məlumatın Hazırlanması

In [1]:
import pandas as pd
import seaborn as sns
from scipy import stats

# Titanic datasetini yükləyək
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)

# İlk beş sətri yoxlayaq
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## 2.1 Z-Test  (İki qrupun ortalamalarının müqayisəsi)
- Sual: 1-ci və 3-cü sinif sərnişinlərinin yaş ortalamalarında fərq varmı?

In [2]:
from statsmodels.stats.weightstats import ztest

first_class = df[df['Pclass'] == 1]['Age'].dropna()
third_class = df[df['Pclass'] == 3]['Age'].dropna()

z_stat, p_value = ztest(first_class, third_class)

print(f"Z-Test nəticəsi: Z-statistic = {z_stat:.4f}, P-value = {p_value:.4f}")

Z-Test nəticəsi: Z-statistic = 10.8491, P-value = 0.0000


- Z-statistic = 10.8491 
- P-value = 0.0000

**Z-test nəticəsi göstərir ki, 1-ci və 3-cü sinif sərnişinləri arasında yaş ortalamaları arasında statistik olaraq əhəmiyyətli bir fərq mövcuddur, çünki Z-statistic çox yüksəkdir və P-value sıfıra yaxın olduğu üçün null hypothesis rədd edilir.**

## 2.2 T-Test Indpendent (İki qrupun ortalamalarının müqayisəsi)
- Sual: 1-ci və 3-cü sinif sərnişinlərinin yaş ortalamalarında fərq varmı?

In [2]:
# 1-ci və 3-cü sinif sərnişinlərinin yaş ortalamalarının fərqi
first_class = df[df['Pclass'] == 1]['Age'].dropna()
third_class = df[df['Pclass'] == 3]['Age'].dropna()

t_stat, p_value = stats.ttest_ind(first_class, third_class)

print(f"T-Test nəticəsi: T-statistic = {t_stat:.20f}, P-value = {p_value:.50f}")

T-Test nəticəsi: T-statistic = 10.84912260120103333350, P-value = 0.00000000000000000000000061344700078306254101521918


- T-statistic = 10.84912260120103333350
- P-value = 0.0000000000000000000000006134470007830625410152191
#### Bu nəticə göstərir ki, 1-ci və 3-cü sinif sərnişinlərinin yaş ortalamaları arasında statistik olaraq əhəmiyyətli fərq var (P-value çox kiçikdir).

## 3. T-Test Paired (bir qrupun ortalamalarının müqayisəsi)

Paired t-test (cüt t-testi) adətən eyni qrup üzvlərinin əvvəl və sonra nəticələrini müqayisə etmək üçün istifadə olunur. Bu test iki qrup arasında fərqi yoxlamır, əksinə eyni fərdlərin iki müxtəlif şəraitdə (məsələn, eyni sərnişinlərin əvvəl və sonra yaşları kimi) nəticələrini müqayisə edir.

Sizin Titanic datasetinizdə 1-ci və 3-cü sinif sərnişinləri müstəqil qruplardır, buna görə də paired t-test məntiqi olaraq uyğun deyil, çünki eyni sərnişinlərin müxtəlif şəraitdə yaş ortalamalarını müqayisə etmirik. Ancaq əgər siz bunu sadəcə məşq üçün etmək istəyirsinizsə, paired t-test tətbiqini aşağıdakı kimi yaza bilərsiniz:

In [3]:
# Əgər iki qrupda eyni sayda müşahidə yoxdursa, kəsilmə edə bilərik
min_length = min(len(first_class), len(third_class))

# Paired t-test üçün ilk və üçüncü siniflərdə bərabər uzunluqlu datanı götürürük
first_class_sample = first_class[:min_length]
third_class_sample = third_class[:min_length]

# Paired t-test
t_stat, p_value = stats.ttest_rel(first_class_sample, third_class_sample)
print(f"Paired T-Test nəticəsi: T-statistic = {t_stat:.10f}, P-value = {p_value:.50f}")

Paired T-Test nəticəsi: T-statistic = 8.9317784626, P-value = 0.00000000000000041691835791810592185209583275006671


##  4.  Chi-Square Test (Kateqorial dəyişənlər arasında əlaqə)
- Sual: Cinsiyyət və sağ qalma arasında əlaqə varmı?

In [4]:
# Cinsiyyət və sağ qalma arasındakı əlaqə
contingency_table = pd.crosstab(df['Sex'], df['Survived'])
chi2_stat, p_val, dof, expected = stats.chi2_contingency(contingency_table)

print(f"Chi-Square Test nəticəsi: Chi2-statistic = {chi2_stat:.5f}, P-value = {p_val:.60f}")


Chi-Square Test nəticəsi: Chi2-statistic = 260.71702, P-value = 0.000000000000000000000000000000000000000000000000000000000120


- Chi2-statistic = 260.71702
- P-value = 0.000000000000000000000000000000000000000000000000000000000120
#### Bu nəticə göstərir ki, cinsiyyət və sağ qalma arasında güclü əlaqə var (P-value çox kiçikdir).

## 5. ANOVA Testi (Bir neçə qrupun ortalamalarının müqayisəsi)
- Sual: 1-ci, 2-ci və 3-cü sinif sərnişinlərinin yaş ortalamalarında fərq varmı?

In [5]:
# ANOVA testi: Siniflər üzrə yaş ortalamaları
f_stat, p_value = stats.f_oneway(
    df[df['Pclass'] == 1]['Age'].dropna(),
    df[df['Pclass'] == 2]['Age'].dropna(),
    df[df['Pclass'] == 3]['Age'].dropna()
)
print(f"ANOVA nəticəsi: F-statistic = {f_stat:.10f}, P-value = {p_value:.50f}")

ANOVA nəticəsi: F-statistic = 57.4434843407, P-value = 0.00000000000000000000000748798417195990362379570657


- F-statistic = 57.4434843407
- P-value = 0.00000000000000000000000748798417195990362379570657
#### Bu nəticə göstərir ki, sərnişin siniflərinə görə yaş ortalamaları arasında statistik olaraq əhəmiyyətli fərq var.

## 6. Pearson Korrelyasiya Testi (İki dəyişən arasındakı əlaqə)
- Sual: Yaş və biletlərin qiyməti arasında əlaqə varmı?

In [6]:
# Yaş və biletlərin qiyməti arasındakı korrelyasiya
df_clean = df[['Age', 'Fare']].dropna()  # Hər iki sütundan NaN dəyərləri çıxarırıq

corr, p_value = stats.pearsonr(df_clean['Age'], df_clean['Fare'])

print(f"Pearson Korrelyasiya Testi nəticəsi: Correlation = {corr}, P-value = {p_value}")

Pearson Korrelyasiya Testi nəticəsi: Correlation = 0.0960666917690389, P-value = 0.010216277504447006


- Correlation = 0.09606669176903893
- P-value = 0.014676376252593772
#### Korrelyasiya əmsalı (0.096) çox zəif əlaqə olduğunu göstərir, lakin P-value 0.05-dən kiçik olduğu üçün bu zəif əlaqə statistik olaraq əhəmiyyətlidir.


## 7. Spearman Korrelyasiya Testi

In [7]:
# NaN dəyərləri olan sətrləri çıxarın
filtered_df = df[['Age', 'Fare']].dropna()

# Yaş və Bilet qiyməti məlumatlarını alın
age = filtered_df['Age']
fare = filtered_df['Fare']

# Spearman korrelyasiya testi
spearman_corr, p_value = stats.spearmanr(age, fare)

# Nəticələri çap edin
print(f"Spearman Correlation Coefficient: {spearman_corr:.4f}")
print(f"P-value: {p_value:.4f}")

Spearman Correlation Coefficient: 0.1351
P-value: 0.0003


### Spearman Korrelyasiya Testinin Nəticələri
- **Spearman Korrelasiya Koefisiyenti**: **0.1351**
- **P-value**: **0.0003**

### Nəticələrin İzahı
1. **Spearman Korrelasiya Koefisiyenti**: 0.1351 dəyəri, yaş və bilet qiyməti arasında müsbət, lakin zəif bir əlaqənin olduğunu göstərir. Bu, yaş artdıqca bilet qiymətinin da artma ehtimalının olduğunu göstərir.

2. **P-value**: 0.0003 dəyəri, 0.05-dən aşağı olduğu üçün, yaş və bilet qiyməti arasında statistik cəhətdən əhəmiyyətli bir əlaqənin olduğunu göstərir. Yəni, bu iki dəyişən arasında monotonic bir əlaqə vardır.

### Nəticə
Bu test, Titanic sərnişinlərinin yaş və bilet qiyməti arasında monotonic bir əlaqənin olduğunu ortaya qoyur. Hesablanmış koefisiyent, əlaqənin zəif olduğunu, amma statistik cəhətdən əhəmiyyətli olduğunu göstərir.

## 8. One Sample T-test

In [8]:
from scipy import stats

# Yaş məlumatlarını alın
ages = df['Age'].dropna()  # NaN dəyərləri çıxar

# Hipotez olunan ortalama
hypothesized_mean = 30

# One Sample T-Test
t_statistic, p_value = stats.ttest_1samp(ages, hypothesized_mean)

# Nəticələri çap edin
print(f"T-statistic: {t_statistic:.4f}")
print(f"P-value: {p_value:.4f}")

T-statistic: -0.5535
P-value: 0.5801


### One Sample T-Test Nəticələri
- **T-statistic**: -0.5535
- **P-value**: 0.5801

### Nəticələrin İzahı
1. **T-statistic**: Bu dəyər, nümunənin ortalamasının hipotez olunan ortalamadan nə qədər uzaq olduğunu göstərir. Negativ bir dəyər, nümunənin ortalamasının hipotez olunan ortalamadan (30 yaş) daha kiçik olduğunu göstərir.

2. **P-value**: Bu dəyər, hipotezi qəbul etmək və ya rədd etmək üçün istifadə olunur. Ümumiyyətlə, p-value 0.05-dən aşağı olduqda, sıfır hipotezini (burada yaş ortalamasının 30-dan fərqli olduğu) rədd edirik. Burada p-value 0.5801 olduğu üçün, sıfır hipotezini rədd edə bilmirik. Yəni, sərnişinlərin yaş ortalamasının 30 yaşdan fərqli olduğuna dair statistik cəhətdən əhəmiyyətli bir dəlil yoxdur.

### Nəticə
Bu test, Titanic sərnişinlərinin yaş ortalamasının 30 yaşdan fərqli olub olmadığını araşdırmaq üçün istifadə edilmişdir. Lakin, nəticələr göstərir ki, yaş ortalaması 30 yaşdan əhəmiyyətli dərəcədə fərqlənmir.