### Estymacje

In [1]:
# Estymacja punktowa
import pandas as pd
import numpy as np

In [2]:
np.random.seed(42)
# Próba z populacji o średniej 100 i odchyleniu 15
sample_data = np.random.normal(loc=100, scale=15, size=50)

mean_estimate = np.mean(sample_data)
print(f"Estymacja punktowa (srednia): {mean_estimate}")

Estymacja punktowa (srednia): 96.61789142115789


In [3]:
variance_estimate = np.var(sample_data, ddof=1)
print(f"Estymacja punktowa wariancji populacji: {variance_estimate:.2f}")

Estymacja punktowa wariancji populacji: 196.14


In [5]:
std_dev_estimate = np.std(sample_data, ddof=1)
print(f"Estymacja punktowwa (odchylenie standardowe): {std_dev_estimate:.2f}")

Estymacja punktowwa (odchylenie standardowe): 14.01


### Przedziały ufności

In [6]:
from scipy import stats

# poziom ufności
confidence_level = 0.95
alpha = 1 - confidence_level

In [7]:
mean_sample = np.mean(sample_data)
std_sample = np.std(sample_data, ddof=1)
n_sample = len(sample_data)

In [8]:
# bład standardowy średniej
standard_error = std_sample / np.sqrt(n_sample)

In [9]:
# obliczenie przedziału ufności
confidence_interval = stats.t.interval(confidence_level, df=n_sample - 1, loc=mean_sample, scale=std_sample)

In [11]:
print(f"95% przedziału ufności dla średniej: ({confidence_interval[0]:.2f}, {confidence_interval[1]:.2f})")

95% przedziału ufności dla średniej: (68.47, 124.76)


In [12]:
# Przykład dla proporcji
# np,: odsetek osób popierających kandydata
# załóżmy, że w próbie 100 osób, 60 popiera tego kandydata
n_prop = 100
x_prop = 60  # liczba sukcesów
p_hat = x_prop / n_prop  # proporcja z próby

# bład satandardowy proporcji
se_prop = np.sqrt((p_hat * (1 - p_hat)) / n_prop)

# wartość krytyczna dla rozkładu normalnego
z_critical = stats.norm.ppf(1 - alpha / 2)

In [13]:
# przedział ufności dla proporcji
ci_lower_prop = p_hat - z_critical * se_prop
ci_upper_prop = p_hat + z_critical * se_prop

In [14]:
print(f"Przedział ufności dla proporcji (95%): ({ci_lower_prop}, {ci_upper_prop})")

Przedział ufności dla proporcji (95%): (0.5039817664728938, 0.6960182335271061)


## Testowanie Hipotez Statystycznych

### Test t-Studenta

In [15]:
from scipy import stats

In [16]:
# Test t-Studenta dla jedej próby
# czy średnia z próby rózni od znanej wartości populacji

pop_mean_hyp = 100
t_stat_one, p_value_one = stats.ttest_1samp(sample_data, pop_mean_hyp)

print(f"Test t-Studenta dla jedej próby:")
print(f" Statystyka t: {t_stat_one:.2f}")
print(f" Wartosć p: {p_value_one:.3f}")

Test t-Studenta dla jedej próby:
 Statystyka t: -1.71
 Wartosć p: 0.094


In [17]:
if p_value_one < 0.05:
    print("Odrzucamy H0: Średnia z próby jest istotnie rózna od 100")
else:
    print("Srednia z próby nie rózni się istotnie od 100")

Srednia z próby nie rózni się istotnie od 100


In [18]:
# Test t-Studenta dla dwóch niezależnych prób
# czy średnie dwóch niezależnych grup róznią się istotnie?
# H0: srednia_grupy1 == srednia_grupy2
# H1: srednia_grupy1 != srednia_grupy2

np.random.seed(43)
group1 = np.random.normal(loc=50, scale=10, size=30)
group2 = np.random.normal(loc=55, scale=10, size=35)

t_stat_ind, p_value_ind = stats.ttest_ind(group1, group2)

In [19]:
print(f"Test t-Studenta dla dwóch prób niezależnych")
print(f"Statystyka t:{t_stat_ind:.2f}")
print(f"Wartość p:{p_value_ind:.3f}")

Test t-Studenta dla dwóch prób niezależnych
Statystyka t:-1.68
Wartość p:0.099


In [25]:
if p_value_ind < 0.05:
    print("Odrzucamy H0: Średnie z grup są istotnie rózne")
else:
    print("Nie ma podstaw do odrzucenia H0: Średnie z grup nie róznią się istotnie")

Nie ma podstaw do odrzucenia H0: Średnie z grup nie róznią się istotnie


In [21]:
# Test t-Studenta dla dwóch prób zależnych
# Czy średnie dwóch zależnych prob różnią się istotnie?
# H0: Średnia róznic = 0
# H1: Średnia róznic != 0

np.random.seed(43)
before_treatment = np.random.normal(loc=70, scale=5, size=25)
after_treatment = before_treatment + np.random.normal(loc=-2, scale=1, size=25)

In [22]:
t_stat_paired, p_value_paired = stats.ttest_rel(before_treatment, after_treatment)

In [23]:
print(f"Test t-Studenta dla dwóch prób zależnych")
print(f"Statystyka t:{t_stat_paired:.2f}")
print(f"Wartość p:{p_value_paired:.3f}")

Test t-Studenta dla dwóch prób zależnych
Statystyka t:7.96
Wartość p:0.000


In [26]:
if p_value_paired < 0.05:
    print("Odrzucamy H0: Lecznie miało istotny wpływ")
else:
    print("Nie ma podstaw do odrzucenia H0: Lecznie nie miało istotnego wpływy")

Odrzucamy H0: Lecznie miało istotny wpływ


## Test Shapiro-Wilka

In [27]:
# test na danych normalnych
shapiro_stat_norm, p_value_norm = stats.shapiro(sample_data)
print(f"Test Shapiro-wilka (dane normalne):")
print(f"Statystyka W:{shapiro_stat_norm:.2f}")
print(f"Wartość p:{p_value_norm:.3f}")

Test Shapiro-wilka (dane normalne):
Statystyka W:0.98
Wartość p:0.672


In [34]:
if p_value_norm < 0.05:
    print("Odrzucamy H0:Dane nie pochodzą z rozkładu normalnego")
else:
    print("Nie ma podstaw do odrzucenia H0: Dane pochodzą z rozkładu normalnego")

Nie ma podstaw do odrzucenia H0: Dane pochodzą z rozkładu normalnego


In [30]:
# test na danych nienormalnych (np.: wykładniczych)
np.random.seed(45)
non_norm_data = np.random.exponential(scale=1, size=50)

shapiro_stat_non_norm, p_value_non_norm = stats.shapiro(non_norm_data)


In [31]:
print(f"Test Shapiro-wilka (dane wykłądnicze):")
print(f"Statystyka W:{shapiro_stat_non_norm:.2f}")
print(f"Wartość p:{p_value_non_norm:.3f}")

Test Shapiro-wilka (dane wykłądnicze):
Statystyka W:0.75
Wartość p:0.000


In [33]:
if p_value_non_norm < 0.05:
    print("Odrzucamy H0:Dane nie pochodzą z rozkładu normalnego")
else:
    print("Nie ma podstaw do odrzucenia H0: Dane pochodzą z rozkładu normalnego")

Odrzucamy H0:Dane nie pochodzą z rozkładu normalnego


## Testy chi-kwadrat

In [35]:
from scipy.stats import chi2_contingency, chisquare

In [37]:
# testy niezalożności chi-kwadrat
# H0 - zmienne są niezależne
# H1 - zmienne są zależne

# Przykład: Czy płeć ma wpływ na preferencje dotyczące produktu?
# dane w formie tabeli kontyngencji
# rows: Płeć
# columns: Preferencje produktu
contingency_table = np.array([[50, 30, 20], [40, 60, 50]])

In [39]:
chi2_stat_ind, p_value_ind_chi2, dof, expected = chi2_contingency(contingency_table)

In [40]:
print("Test niezależności Chi-kwadrat:")
print(f"Statystyka Chi-kwadrat: {chi2_stat_ind:.2f}")
print(f"Wartość p: {p_value_ind_chi2:.2f}")
print(f"Stopnie swobody (dof) p: {p_value_ind_chi2:.2f}")
print(f"Oczekiwane częstości: {expected}")

Test niezależności Chi-kwadrat:
Statystyka Chi-kwadrat: 14.55
Wartość p: 0.00
Stopnie swobody (dof) p: 0.00
Oczekiwane częstości: [[36. 36. 28.]
 [54. 54. 42.]]


In [41]:
if p_value_ind_chi2 < 0.05:
    print("Odrzucamy H0: Płeć i preferencje produktu są zależne")
else:
    print("Nie ma podstaw do odrzucenia H0: Płeć i preferencje produktu są niezależne")

Odrzucamy H0: Płeć i preferencje produktu są zależne
