# T-test

Одно-выборочный t-тест: используется для сравнения среднего значения выборки с известным или предполагаемым значением.
Парный t-тест: используется для сравнения двух зависимых выборок (например, до и после лечения).
Независимый двухвыборочный t-тест: используется для сравнения двух независимых выборок (например, группы контроля и эксперимента).

In [28]:
import scipy.stats as stats
import numpy as np

8.4
Confidence interval - range of plausible scores that may or may not bracket the true population mean.

Confidence Interval:

##### CI = X +- t(alpha/2) * (s / sqrt(N))

X - average value of sample
t(alpha/2) - critical value t for confidence level alpha (Student распределение)
s - std of this sampling
N - size of sample

In [29]:
def confidence_interval(X_bar, s, N, confidence_level):
    alpha = 1 - confidence_level

    t_critical = stats.t.ppf(1 - alpha / 2, df =N - 1) # two-tailed

    '''
        ppf (percent point function) -> critical value
        это значение t, ниже которого находится определенная доля распределения.
    '''

    std_err = s / np.sqrt(N)

    margin_of_error = t_critical * std_err

    return X_bar - margin_of_error, X_bar + margin_of_error

In [30]:
X_bar = 25
N = 25
std = 15
confidence_level = 0.95
CI = confidence_interval(X_bar, std, N, confidence_level)
CI

(18.80830431511594, 31.19169568488406)

8.6 Одно-выборочный t-test

mu = 4.00
X = 3.76
std = 1.52
alpha = 0.05

Conduct a single-sample t-test to test the hypothesis:

1. Null hypothesis (H₀): the average value of students' political orientation is equal to the national average, mu = 4.00
2. Alternative hypothesis (h₁): the average value of students' political orientation differs from the national average.

t = (X - mu) / (s / sqrt(N) )



In [31]:
mu = 4.00
X_bar = 3.76
std = 1.52
N = 150
alpha = 0.05

t_stat = (X_bar - mu) / (std / np.sqrt(N))
p_value = 2 * (1 - stats.t.cdf(abs(t_stat), df=N - 1))

'''
    cdf (cumulative distribution function)
    возвращает вероятность того, что наблюдаемое значение t будет меньше или равно указанному значению t.
'''

t_stat, p_value

(-1.9338076916709317, 0.05503231032640987)

8.7  CI 99%


In [32]:
# 1981 по 2017
temps = [9.301, 8.788, 9.173, 8.824, 8.799, 8.985, 9.141, 9.345, 9.076, 9.378, 9.336, 8.974, 9.008, 9.175, 9.484, 9.168, 9.326, 9.66, 9.406, 9.542, 9.695, 9.649, 9.451, 9.829, 9.662, 9.876, 9.581, 9.657, 9.828, 9.65, 9.635, 9.753, 9.714, 9.962, 10.16, 10.049]

confidence_level = 0.99
N = len(temps)
mu = 8.79
mean = np.mean(temps)
std = np.std(temps, ddof = 1) # выборочное стандартное отклонение
alpha = 1 - confidence_level
t_crit = stats.t.ppf(1 - alpha / 2, df = N - 1) # two tailed t-test

std_err = std / np.sqrt(N)
margin_of_error = t_crit *std_err

ci_lower = mean - margin_of_error
ci_upper = mean + margin_of_error

print(f"Mean: {mean:.4f}°C")
print(f"STD: {std:.4f}")
print(f"T critical: {t_crit:.4f}")
print(f"STD Error: {std_err:.4f}")
print(f"99% CI: ({ci_lower:.4f}°C, {ci_upper:.4f}°C)")

if ci_lower <= mu <= ci_upper : print("Mu in this interval")
else: print("No")

Mean: 9.4456°C
STD: 0.3591
T critical: 2.7238
STD Error: 0.0599
99% CI: (9.2825°C, 9.6086°C)
No


8.8 Null Hypothesis

In [33]:
t = 2.58
N = 21
alpha = 0.05
t_test = stats.t.ppf(1 - alpha / 2, df = N - 1)

if abs(t) > t_test: print("Reject")
else: print("Accept")

Reject


8.9 one-tailed test

In [34]:
X = 1.10
mu = 0
s = 0.40
N = 55
alpha = 0.05

# t_statistic
t_stat = (X - mu) / (s / np.sqrt(N))
# t_critical_value
t_critical = stats.t.ppf(1 - alpha / 2, df=N - 1)

if abs(t_stat) > t_critical: print("Reject")
else: print("Accept")

Reject


8.10 one_tailed test

In [35]:
X = 13.11
mu = 12
std = 3.89
N = 25
alpha = 0.05

t_stat = (X - mu) / (std / np.sqrt(N))

t_critical = stats.t.ppf(1 - alpha / 2, df=N - 1) # two-tailed

if abs(t_stat) > t_critical: print("Reject")
else: print("Accept")

Accept


AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

## Practice Problems: t-tests


In [36]:
older_adults = np.array([45, 38, 52, 48, 25, 39, 51, 46, 55, 46])
younger_adults = np.array([34, 22, 15, 27, 37, 41, 24, 19, 26, 36])

mean_older = np.mean(older_adults)
mean_younger = np.mean(younger_adults)

std_older = np.std(older_adults, ddof=1)
std_younger = np.std(younger_adults, ddof=1)

var_older = np.var(older_adults, ddof=1)
var_younger = np.var(younger_adults, ddof=1)

print(f"Mean older: {mean_older:.2f}")
print(f"Mean younger: {mean_younger:.2f}")

print(f"STD older: {std_older:.2f}")
print(f"STD younger: {std_younger:.2f}")

print(f"Variance: {var_older:.2f}")
print(f"Variance: {var_younger:.2f}")

Mean older: 44.50
Mean younger: 28.10
STD older: 8.68
STD younger: 8.54
Variance: 75.39
Variance: 72.99


Нулевая гипотеза (H_0): Нет значимой разницы в удовлетворенности жизнью между пожилыми и молодыми взрослыми, то есть mu1 = mu2.

Альтернативная гипотеза (H_1): Существует значимая разница в удовлетворенности жизнью между пожилыми и молодыми взрослыми, то есть mu1 != mu2

In [37]:
# t-тест для двух независимых выборок
t_stat, p_value = stats.ttest_ind(older_adults, younger_adults, equal_var=False)

print(f"t-stat: {t_stat:.4f}")
print(f"p-value: {p_value:.4f}")

t-stat: 4.2575
p-value: 0.0005


In [38]:
alpha = 0.05 # it's standard from previous tasks

# 5% probability that result will be random with right null hypothesis

In [39]:
# df = ((s1^2 / n1) + (s2^2 / n2))^2 / ( ((s1^2 / n1)^2 / (n1 - 1)) + ((s2^2 / n2)^2 / (n2 - 1)) )
# Степени свободы по Саттерауэйту
df = ( ( std_older**2 / len(older_adults) ) + ( std_younger**2 / len(younger_adults) ) )**2 / ( ( ( std_older**2 / len(older_adults) )**2 / ( len(older_adults) - 1) ) + ( ( std_younger**2 / len(younger_adults) )**2 / ( len(younger_adults) - 1) ) )


t_critical = stats.t.ppf(1 - alpha / 2, df = df)
t_critical

2.100961440336392

In [40]:
if t_stat > t_critical and p_value < alpha:
    print("Reject Null Hypothesis")
else: print("Ninau")

Reject Null Hypothesis


#### Cуществует значимая разница в удовлетворенности жизнью между пожилыми и молодыми взрослыми. Мы нашли, что пожилые взрослые имеют значительно более высокую удовлетворенность жизнью по сравнению с молодыми взрослыми. Вероятность того, что эта разница случайна, крайне мала (p=0.0017).

#### Ошибка 1 типа возникает, когда мы отвергаем нулевую гипотезу, хотя на самом деле она верна.
#### Ошибка 2 типа возникает, когда мы не отвергаем нулевую гипотезу, хотя на самом деле она ложна.

In [41]:
# В данной случае мы выбираем ошибку певрого типа, если бы ошиблись, но мы же не ошиблись (верно?)