<a href="https://colab.research.google.com/github/KamilBienias/data-science/blob/main/training/scipy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Testowanie hipotez**

In [14]:
# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html

# Oblicza T-test dla średnich dwóch niezależnych próbek.
# Test dwustronny dla hipotezy H0, że niezależne próbki mają tą samą śrenią (wartość oczekiwaną).
# Domyślnie zakłada że populacje mają tą samą wariancję equal_var=True

## T-test dwupróbkowy ttest_ind

In [15]:
# https://www.w3schools.com/python/scipy_statistical_significance_tests.asp

# Test dwustronny (two-sided) sprawdza czy jest znacząca różnica między średnimi
# dwóch próbek i czy są z tego samego rozkładu.
# Sprwdź czy dane wartości v1 i v2 są z tego samego rozkładu.

import numpy as np
from scipy.stats import ttest_ind

# dwie próbki 100 elementowe z rozkładu N(0, 1)
v1 = np.random.normal(size=100)
v2 = np.random.normal(size=100)

# pierwsza zwrócona wartość to statystyka t, a druga to p-value
statystyka_t, wartosc_p = ttest_ind(v1, v2)
print("Statystyka t:", round(statystyka_t, 2))
print("Wartość p:", round(wartosc_p, 2))

alpha = 0.05

# jesli p-value jest mniejsza niż alfa
if wartosc_p < alpha:
    print("Odrzucamy H0 mówiącą o równości średnich,")
    print("czyli próbki są z różnych rokładów.")
else:
    print("Nie ma podstaw do odrzucenia H0 mówiącej o równości średnich.")

Statystyka t: -0.47
Wartość p: 0.64
Nie ma podstaw do odrzucenia H0 mówiącej o równości średnich.


## T-test jednopróbkowy ttest_1samp

In [16]:
# Test dwustronny (two-sided) dla hipotezy H0 mówiącej, że próbka niezależnych 
# obserwacji ma średnią równą podaną jako średnia populacji (parametr popmean).

import numpy as np
from scipy.stats import ttest_1samp

# próbka 100 elementowa z rozkładu N(2, 4)
# czyli o średniej = 2 i odchyleniu standarwowym = 4
v = 2 + 4 * np.random.normal(size=100)

population_mean = 6.0

alpha = 0.05

# pierwsza zwrócona wartość to statystyka t, a druga to p-value
statystyka_t, wartosc_p = ttest_1samp(v, popmean=population_mean)
print("Statystyka t:", round(statystyka_t, 2))
print("Wartość p:", round(wartosc_p, 2))


# jesli p-value jest mniejsza niż alfa
if wartosc_p < alpha:
    print("Odrzucamy H0 mówiącą o równości średnich,")
    print("czyli próbka jest z innego rokładu.")
else:
    print("Nie ma podstaw do odrzucenia H0 mówiącej o równości średnich.")

Statystyka t: -10.33
Wartość p: 0.0
Odrzucamy H0 mówiącą o równości średnich,
czyli próbka jest z innego rokładu.


## Test zgodności Kołmogorowa-Smirnowa

In [17]:
# Test nieparametryczny używany do porównywania rozkładów
# jednowymiarowych cech statystycznych. 
# Istnieją dwie główne wersje tego testu – dla 1 i dla 2 prób (ten dla jednej).
# Dla jednej próby nazywany jest lambda-Kołmogorowa.

import numpy as np
from scipy.stats import kstest

v = np.random.normal(size=100)

statystyka, wartosc_p = kstest(v, 'norm')
print("Statystyka t:", round(statystyka, 2))
print("Wartość p:", round(wartosc_p, 2))


# jesli p-value jest mniejsza niż alfa
if wartosc_p < alpha:
    print("Odrzucamy H0 mówiącą o równości rozkładów,")
    print("czyli próbka jest z innego rokładu.")
else:
    print("Nie ma podstaw do odrzucenia H0 mówiącej o równości rozkładów.")


Statystyka t: 0.1
Wartość p: 0.29
Nie ma podstaw do odrzucenia H0 mówiącej o równości rozkładów.
