# Statistical Tests: Python Implementation

In [1]:
import numpy as np
import pandas as pd
from scipy.stats import ttest_1samp, ttest_ind, ttest_rel, chisquare, chi2_contingency
import matplotlib.pyplot as plt

# Setting random seed for reproducibility
np.random.seed(42)

## Example Data Generation

Tady si ukážeme, jak simulovat reálná data.

In [41]:

# Example data for all tests
test_scores = np.random.normal(loc=70, scale=10, size=20)  # Sample for one-sample t-test
group_A = np.random.normal(loc=70, scale=10, size=30)  # Group A for two-sample t-test
group_B = np.random.normal(loc=72, scale=10, size=30)  # Group B for two-sample t-test
observed = np.array([18, 22, 20])  # Observed frequencies for chi-square goodness-of-fit
expected = np.array([20, 20, 20])  # Expected frequencies for chi-square goodness-of-fit
contingency_table = np.array([[30, 10], [20, 40]])  # Contingency table for chi-square independence test


## One-Sample t-test

In [8]:
# One-sample t-test
t_stat, p_value = ttest_1samp(test_scores, popmean=75)
print(f"One-Sample t-test: t-statistic = {t_stat:.5f}, p-value = {p_value:.4f}")

One-Sample t-test: t-statistic = -3.11539, p-value = 0.0057


Nabízí se otázka, proč výstup testu přiřazujeme dvěma proměnným? Jde o to, že funkce ttest_1samp vrací tuple.

Co je tuple?

A tuple in Python is an ordered, immutable collection of elements. Think of it like a fixed-length list.

Konkrétně ttest_1samp vám vrací tuple o dvou elementech - t-statistiku a samotnou p-hodnotu.

Když voláte funkci, která vrací tuple, jak poznáte, jak je tuple dlouhý? Musíte si otevřít dokumentaci, kde je explicitně zapsáno, kolik toho tuple vrací. 
Dokumentaci otevřete pomocí ?ttest_1samp nebo help(ttest_1samp)

In [4]:
help(ttest_1samp)

Help on function ttest_1samp in module scipy.stats._stats_py:

ttest_1samp(a, popmean, axis=0, nan_policy='propagate', alternative='two-sided')
    Calculate the T-test for the mean of ONE group of scores.
    
    This is a test for the null hypothesis that the expected value
    (mean) of a sample of independent observations `a` is equal to the given
    population mean, `popmean`.
    
    Parameters
    ----------
    a : array_like
        Sample observation.
    popmean : float or array_like
        Expected value in null hypothesis. If array_like, then it must have the
        same shape as `a` excluding the axis dimension.
    axis : int or None, optional
        Axis along which to compute test; default is 0. If None, compute over
        the whole array `a`.
    nan_policy : {'propagate', 'raise', 'omit'}, optional
        Defines how to handle when input contains nan.
        The following options are available (default is 'propagate'):
    
          * 'propagate': returns 

Pojďme se trochu zamyslet nad tím, kdy používat jednostranný a kdy oboustranný t-test. Mějme proměnnou, na kterou má smysl aplikovat oboustranný t-test (ten má alespoň víceméně smysl vždy...) i jednostranný t-test. Použijme příklad s točenými pivy u stánkaře a pojďme zkoumat, zda stánkař točí podmíráky. Vytvořme data, která obsahují fiktivní stánkařovy objemy v mililitrech.

In [21]:
pivo = [482,487,504,495,483,472,499,498,508,476,512,504,489,506]
print("Počet pozorování: " + str(len(pivo)))

# oboustranny t-test: alternativni hypoteza je, ze prumerny objem je ruzny od 500ml
t_stat, p_value = ttest_1samp(pivo, popmean=500, alternative = "two-sided")
print(f"One-Sample t-test: t-statistic = {t_stat:.5f}, p-value = {p_value:.4f}")

# jednostranny t-test: alternativni hypoteza je, ze prumerny objem je mensi nez 500ml
t_stat, p_value = ttest_1samp(pivo, popmean=500, alternative = "less")
print(f"One-Sample t-test: t-statistic = {t_stat:.5f}, p-value = {p_value:.4f}")

Počet pozorování: 14
One-Sample t-test: t-statistic = -1.80776, p-value = 0.0938
One-Sample t-test: t-statistic = -1.80776, p-value = 0.0469


Na základě stejných dat máme u obou testů stejné t-statistic. Nicméně p-hodnoty jsou zásadně rozdílné! Proč to tak je? A není na jejich velikostech něco trochu podivného?

## Two-Sample t-test

In [24]:
# pojdme pogenerovat data a kouknout se na ne
group_A = np.random.normal(loc=70, scale=10, size=30)  # Group A for two-sample t-test
print("Data A")
print(group_A)
print("Data B")
group_B = np.random.normal(loc=72, scale=10, size=30)  # Group B for two-sample t-test
print(group_B)

Data A
[69.87753227 61.02745629 70.75804558 63.22838288 79.75119733 68.52942618
 61.74502803 66.78614158 74.12931454 64.36275447 61.77779604 72.43687211
 72.44966571 64.93056825 65.28961694 72.32049937 55.51915659 55.92536226
 62.81555779 67.86552848 73.10907566 84.75356217 78.57659623 68.4006147
 69.80983792 59.97470635 69.81486864 67.11341361 73.2271856  61.72769056]
Data B
[77.19346514 87.32738913 70.91239852 76.01711722 78.90143992 67.98779528
 74.24092482 72.12592401 72.97676099 64.26990216 72.24510174 76.97998291
 86.51143608 81.59270826 93.53182458 64.32652437 80.72320637 73.83342006
 93.89802933 63.91701715 63.60278158 66.00607355 50.76104276 66.74244978
 64.40867338 73.50393786 75.41755976 90.76170839 81.50423838 66.23096344]


Datasety A a B jsou náhodné proměnné o stejných směrodatných odchylkách. Oba datasety mají stejný počet pozorování. Liší se pouze svým průměrem. Použijeme teď tři two-sample t-testy se třemi různými alternativními hypotézami. Zajímá nás, jak se to projeví na p-hodnotách.

In [28]:
# Two-sample t-test - oboustranný
t_stat, p_value = ttest_ind(group_A, group_B, alternative = "two-sided")
print(f"Two-Sample t-test: t-statistic = {t_stat:.4f}, p-value = {p_value:.4f}")

# Two-sample t-test - oboustranný
t_stat, p_value = ttest_ind(group_A, group_B, alternative = "less")
print(f"Two-Sample t-test: t-statistic = {t_stat:.4f}, p-value = {p_value:.4f}")

# Two-sample t-test - oboustranný
t_stat, p_value = ttest_ind(group_A, group_B, alternative = "greater")
print(f"Two-Sample t-test: t-statistic = {t_stat:.4f}, p-value = {p_value:.4f}")

Two-Sample t-test: t-statistic = -2.8990, p-value = 0.0053
Two-Sample t-test: t-statistic = -2.8990, p-value = 0.0026
Two-Sample t-test: t-statistic = -2.8990, p-value = 0.9974


Počkat, takže jaké testy má smysl kdy používat? Odpověď není zřejmá: VŽDY ZÁLEŽÍ NA TOM, KOMU PREZENTUJETE SVOU PRÁCI.

## Paired t-test

Uděláme si párový t-test. Párový t-test se používá, když chceme měřit dopady nějakého treatmentu a nemáme žádné zavádějící faktory (confounding factors). Pokud by mohly existovat zavádějící faktory, chceme použít Randomized Control Trial.

Párový t-test je založený na principu, že pozorování z obou vzorků jsou navzájem závislá. Hodnoty jednoho z datasetů odečítáme od hodnot druhého a pak aplikujeme jednoduchý t-test. 
V tom případě si ukážeme tři věci:

1) Jak aplikovat párový t-test 

2) Jak aplikovat párový t-test pomocí odečtení hodnot a aplikování jednoduchého t-testu

3) Jak se výsledky liší oproti tomu, když použijeme párový t-test

Popis experimentu:

Zkoujmeme třeba vliv alkoholu na schopnost řídit. Já bych tento experiment nastavil tak, že účastníci projedou nějakou trasu vytyčenou kužely s cílem srazit co nejméně kuželů. Pak vypijí množství alkoholu (je otázka, jestli fixní množství nebo množství třeba podle váhy a pohlaví nebo úplně jinak) a podrobí se testu znovu (není od věci kužely zpřeházet a trasu změnit, aby se účastníci nemohli pouřit z chyb při prvním projezdu a test nebyl biased). Zase je cílem srazit co nejméně kuželů.
Předpokládáme, že alkoho zhorší řidičské schopnosti účastníků.
Pokládám:

$H_0$: kuzely_predtim = kuzely_potom (Není rozdíl v průměrných počtech sražených kuželů)

$H_A$: kuzely_predtim < kuzely_potom (Před vlivem alkoholu jich lidé sráželi spíše méně)

In [43]:
kuzely_predtim = [2,3,0,0,0,4,1,1,2,3,8,7,0,2,3,2]
kuzely_potom = [3,6,1,0,2,2,0,3,5,2,16,7,1,3,4,1]


# Paired t-test
print("Párový t-test")
t_stat, p_value = ttest_rel(kuzely_predtim, kuzely_potom, alternative = "less")
print(f"Paired t-test: t-statistic = {t_stat:.4f}, p-value = {p_value:.4f}")

Párový t-test
Paired t-test: t-statistic = -1.9276, p-value = 0.0365


Easy peasy lemon squeezy. Pojďme na to manuálně. V tom případě od hodnot jednoho listu odečítáme hodnoty druhého listu.

$H_0$: rozdíl = 0

$H_A$: rozdíl > 0 nebo rozdíl < 0 nebo rozdíl $\neq$ 0.

Já odečtu od hodnot předtím hodnoty potom. Tedy bych se měl dostat spíše do záporných čísel (protože potom jsem srazil více kuželů).

Nastavuji tedy pro one sample t-test:

$H_0$: rozdíl = 0

$H_A$: rozdíl < 0


In [42]:
# Input lists
kuzely_predtim = [2, 3, 0, 0, 0, 4, 1, 1, 2, 3, 8, 7, 0, 2, 3, 2]
kuzely_potom = [3, 6, 1, 0, 2, 2, 0, 3, 5, 2, 16, 7, 1, 3, 4, 1]

# Initialize an empty list for the differences
rozdil = []

# Use a for loop to calculate the differences
for i in range(len(kuzely_predtim)):
    rozdil.append(kuzely_predtim[i] - kuzely_potom[i])

# Print the result
print("Rozdil:", rozdil)

t_stat, p_value = ttest_1samp(rozdil, popmean=0, alternative = "less")
print(f"One-Sample t-test: t-statistic = {t_stat:.4f}, p-value = {p_value:.4f}")

Rozdil: [-1, -3, -1, 0, -2, 2, 1, -2, -3, 1, -8, 0, -1, -1, -1, 1]
One-Sample t-test: t-statistic = -1.9276, p-value = 0.0365


Vida, test vyšel úplně stejně. Pojďme se podívat na two-sample t-test aplikovaný na tato data, kde

$H_0$: kuzely_predtim = kuzely_potom (Není rozdíl v průměrných počtech sražených kuželů)

$H_A$: kuzely_predtim < kuzely_potom (Před vlivem alkoholu jich lidé sráželi spíše méně)

In [44]:
t_stat, p_value = ttest_ind(kuzely_predtim, kuzely_potom, alternative = "less")
print(f"Two-Sample t-test: t-statistic = {t_stat:.4f}, p-value = {p_value:.4f}")

Two-Sample t-test: t-statistic = -0.9871, p-value = 0.1657


Uf, testíček nám vychází mnohem hůř. Krindypindy, jak je to možné? Pointa je v tom, že při two sample t-testu nepředpokládáme, že datasety spolu nějak souvisí (dokonce nemusí mít stejné počty pozorování!). Tím pádem takto ztrácíme pro výpočet část informace, která je pro nás klíčová! Získáváme menší jistotu v náš test!

# Zajímavost navíc: Jak od píky nakódit t-test? 

Následující kód odpovídá tomu, co je v prezentaci na classroomu. My tohle museli dělat na škole za domácí úkol:)

Tohle je vzoreček pro výpočet směrodatné odchylky u vozku z populace, jejíž průměr neznáme:

$s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2}$



Tohle je vzorec pro t-statistics u one sample t-testu.

$t = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}}$




In [47]:
?t.ppf

In [52]:
import math
from scipy.stats import t

# Step 1: Sample Data and Hypothesized Population Mean
sample_data = [10, 12, 13, 11, 12, 14, 15, 10, 11, 13,6,8,1,6]
pop_mean = 12  # Hypothesized population mean
alpha = 0.05   # Significance level

# Step 2: Calculate the Sample Mean and Sample Size
sample_mean = sum(sample_data) / len(sample_data)
sample_size = len(sample_data)

# Step 3: Calculate the Sample Standard Deviation - tohle je vzoreček na výpočet směrodatné odchylky ze vzorku
# Formula: sqrt(sum((x_i - mean)^2) / (n - 1))
variance = sum((x - sample_mean) ** 2 for x in sample_data) / (sample_size - 1)
sample_std_dev = math.sqrt(variance)

# Step 4: Calculate the t-statistic
# Formula: t = (sample_mean - pop_mean) / (sample_std_dev / sqrt(sample_size))
t_statistic = (sample_mean - pop_mean) / (sample_std_dev / math.sqrt(sample_size))

# Step 5: Calculate the Critical t-value for a Two-Tailed Test
#KLÍČOVÉ - právě proto, abyste chápali tento krok a funkci t.ppf jsme dělali kumulativní distributivní funkce!
#KLÍČOVÉ - t.ppf je inverzní funkce ke kumulativní distributivní funkci - vložíte do ní percentil, ona vám vyhodí hodnotu pro data
df = sample_size - 1  # Degrees of freedom
critical_t = t.ppf(1 - alpha / 2, df)  # Two-tailed test

# Step 6: Calculate the p-value
# p-value for two-tailed test
#KLÍČOVÉ - právě proto, abyste chápali tento krok a funkci t.ppf jsme dělali kumulativní distributivní funkce!
p_value = 2 * (1 - t.cdf(abs(t_statistic), df))

# Print Results
print(f"Sample Mean: {sample_mean}")
print(f"Sample Standard Deviation: {sample_std_dev}")
print(f"T-Statistic: {t_statistic:.5f}")
print(f"Critical T-Value: ±{critical_t:.5f}")
print(f"P-Value: {p_value:.5f}")

# Step 7: Make a Decision
if abs(t_statistic) > critical_t:
    print("Reject the null hypothesis: The sample mean is significantly different from the population mean.")
else:
    print("Fail to reject the null hypothesis: The sample mean is not significantly different from the population mean.")


Sample Mean: 10.142857142857142
Sample Standard Deviation: 3.779644730092272
T-Statistic: -1.83848
Critical T-Value: ±2.16037
P-Value: 0.08894
Fail to reject the null hypothesis: The sample mean is not significantly different from the population mean.


In [50]:
?t.ppf

## Chi-Square Goodness of Fit

In [53]:
Test

In [54]:

# Chi-square goodness-of-fit test
chi2_stat, p_value = chisquare(observed, f_exp=expected)
print(f"Chi-square Goodness of Fit: chi2-statistic = {chi2_stat:.2f}, p-value = {p_value:.4f}")
print(observed)

Chi-square Goodness of Fit: chi2-statistic = 0.40, p-value = 0.8187
[18 22 20]


## Chi-Square Test for Independence

In [7]:

# Chi-square test for independence
chi2_stat, p_value, dof, expected = chi2_contingency(contingency_table)
print(f"Chi-square Independence Test: chi2-statistic = {chi2_stat:.2f}, p-value = {p_value:.4f}")
print("Expected Frequencies:")
print(expected)


Chi-square Independence Test: chi2-statistic = 15.04, p-value = 0.0001
Expected Frequencies:
[[20. 20.]
 [30. 30.]]
