In [2]:
# импорт библиотек
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# Настройки отображения графиков
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12
sns.set_style("whitegrid")

# Установка seed для воспроизводимости результатов
rng = np.random.default_rng(42)

In [3]:
df = pd.read_csv('data_cts_prisons_and_prisoners.csv', sep=';')

## Верно ли, что в среднем на 100 000 населения в странах мира приходится 150 заключенных?

In [29]:
theory1_filtered = df[
    (df['Indicator'] == 'Persons held') &
    (df['Dimension'] == 'Total') &
    (df['Category'] == 'Total') &
    (df['Sex'] == 'Total') &
    (df['Age'] == 'Total') &
    (df['Unit of measurement'] == 'Rate per 100,000 population')
]
theory1 = theory1_filtered['VALUE']

In [35]:
def confidence_interval_mean(theory1, confidence=0.95):
    """
    Вычисляет доверительный интервал для математического ожидания.
    
    Параметры:
    ----------
    data : array-like
        Выборка данных
    confidence : float
        Уровень доверия (по умолчанию 0.95)
    
    Возвращает:
    -----------
    tuple : (нижняя_граница, верхняя_граница, выборочное_среднее)
    """
    n = len(theory1)
    mean = np.mean(theory1)
    se = stats.sem(theory1)  # Стандартная ошибка среднего = S / sqrt(n)
    
    # Критическое значение t-распределения
    alpha = 1 - confidence
    t_crit = stats.t.ppf(1 - alpha/2, df=n-1)
    
    # Границы доверительного интервала
    margin = t_crit * se
    lower = mean - margin
    upper = mean + margin
    
    return lower, upper, mean


In [44]:
mu_0 = 150
alpha = 0.05

In [45]:
t_stat, p_value = stats.ttest_1samp(theory1, popmean=mu_0)

In [46]:
ci_lower, ci_upper, sample_mean = confidence_interval_mean(theory1, confidence=0.95)

In [49]:
print("Верно ли, что в среднем на 100 000 населения в странах мира приходится 150 заключенных?")
print("=" * 60)
print(f"\nИсходные данные:")
print(f"  Объём выборки: n = {len(theory1)}")
print(f"  Выборочное среднее: x̄ = {sample_mean:.3f} чел/100к")
print(f"  Выборочное станд. откл.: s = {np.std(theory1, ddof=1):.3f} чел/100к")
print(f"  Номинальное значение: μ₀ = {mu_0} чел/100к")

print(f"\nРезультаты t-теста:")
print(f"  t-статистика: t = {t_stat:.4f}")
print(f"  p-значение (двусторонний): p = {p_value:.4f}")

print(f"\n95% доверительный интервал для μ:")
print(f"  ({ci_lower:.3f}, {ci_upper:.3f}) мм")

print(f"\nВывод при α = {alpha}:")
if p_value < alpha:
    print(f"  p = {p_value:.4f} < α = {alpha}")
    print("  → Отвергаем H₀: среднее количество заключенных на 100 000 населения отличается от 150")
else:
    print(f"  p = {p_value:.4f} ≥ α = {alpha}")
    print("  → Не отвергаем H₀: нет оснований считать, что среднее количество заключённых на 100 000 населения")
    print("    отличается от 150 человек на 100 000 населения")

Верно ли, что в среднем на 100 000 населения в странах мира приходится 150 заключенных?

Исходные данные:
  Объём выборки: n = 3244
  Выборочное среднее: x̄ = 182.668 чел/100к
  Выборочное станд. откл.: s = 180.302 чел/100к
  Номинальное значение: μ₀ = 150 чел/100к

Результаты t-теста:
  t-статистика: t = 10.3195
  p-значение (двусторонний): p = 0.0000

95% доверительный интервал для μ:
  (176.461, 188.875) мм

Вывод при α = 0.05:
  p = 0.0000 < α = 0.05
  → Отвергаем H₀: среднее количество заключенных на 100 000 населения отличается от 150


In [48]:
print(f"\nРезультаты t-теста:")
print(f"  t-статистика: t = {t_stat:.4f}")
print(f"  p-значение (двусторонний): p = {p_value:.4f}")


Результаты t-теста:
  t-статистика: t = 10.3195
  p-значение (двусторонний): p = 0.0000


### Можно ли утверждать, что среднее число смертей в тюрьмах одной страны за год составляет 20 случаев?

In [None]:
theory1_filtered = df[
    (df['Indicator'] == 'Persons held') &
    (df['Dimension'] == 'Total') &
    (df['Category'] == 'Total') &
    (df['Sex'] == 'Total') &
    (df['Age'] == 'Total') &
    (df['Unit of measurement'] == 'Rate per 100,000 population')
]
theory1 = theory1_filtered['VALUE']