In [None]:
# --------------------------------------------------------------------------------
# Задача:
# 1) Скопировать и преобразовать данные выборки в столбец "A" на лист "Лист2" (в Excel).
# 2) Очистить выборку от NA.
# 3) Ответить на вопросы, используя Python (имитация работы в Jupyter Notebook).
# --------------------------------------------------------------------------------

# Для удобства, предположим, что данные уже скопированы в Excel или мы можем считать их напрямую в Python.

# Ниже приводится код на Python, который:
# - Создает список с данными (в том же порядке, что и в задаче),
# - Очищает их от NA,
# - Отвечает на поставленные вопросы,
# - Строит гистограмму (пример в matplotlib, которую вы можете адаптировать при необходимости).



In [None]:
# --------------------------------------------------------------------------------
# Блок 1: Формирование данных и очистка
# --------------------------------------------------------------------------------

import pandas as pd
import numpy as np
import math

# Исходные данные
data_raw = [
    None, 'W3','W2','W2','W2','W1','W2','W2','W1', None, None,'W2','W3','W2','W2', None,
    'W1','W2','W1','W2','W2','W1','W1','W2','W1','W1','W3','W1','W1', None,'W1','W2',
    'W1','W1','W2', None,'W3','W2','W2','W2','W1','W1', None,'W3','W2','W3','W3','W1',
    'W2','W2','W3','W1','W2','W3','W2','W1','W2','W2','W1','W1','W2','W3','W3','W3',
    None,'W2','W2','W2','W2','W1','W2','W2','W1','W3','W3','W3','W1','W1','W2','W2',
    'W1','W2','W1','W3','W1','W2','W1','W3','W2','W2','W1','W2','W1','W1','W2','W2',
    'W1','W2','W2','W1','W1','W2','W2','W3','W2','W2','W1', None,'W2','W2','W2','W3',
    None, None,'W3','W2','W1','W2','W2','W3','W1','W2','W2','W2','W3', None,'W2', None,
    'W1','W2','W2','W2','W2','W2','W2','W3','W1','W2','W1','W2','W2','W3','W3','W2',
    'W1','W1', None,'W3','W1','W2','W2','W2','W1', None,'W2','W3','W1','W2','W1','W2',
    'W2','W3','W2','W2','W2','W2','W1','W2','W3','W2','W2','W1','W1','W2','W2','W2',
    'W2','W1','W1', None,'W3','W1','W2','W3','W2','W2','W2','W1','W2','W1','W1','W3',
    'W2','W2','W1','W3','W1','W1','W2','W2','W2','W1', None,'W2','W2','W1','W2','W2',
    'W2','W1','W3','W3','W1','W3','W1','W3','W2','W2','W2','W1','W3','W1','W2','W3',
    'W1','W1','W3','W3','W1','W2','W1','W2','W2','W1','W3','W2','W3','W2','W1','W3',
    'W3','W2','W2', None,'W3','W2','W2','W2','W1','W1','W2','W2','W2','W3','W1','W2',
    'W3','W1','W2','W2','W1','W3','W1','W3','W2','W2','W3','W2','W2','W2','W2', None,
    'W2','W1','W1','W1','W2','W2','W3','W2','W2','W2','W3','W1','W3','W2','W3','W2',
    'W3','W2','W2','W2','W3','W2','W2','W1','W3','W2','W1','W1','W1','W1','W2','W3',
    'W1','W2','W1','W1','W3','W2','W1', None,'W2','W1','W3','W3','W3','W2','W2','W1'
]

# Создадим DataFrame для удобства
df = pd.DataFrame(data_raw, columns=['Answer'])

# Очистим от NA (None)
df_clean = df.dropna()

# Список очищенных ответов
answers_clean = df_clean['Answer'].tolist()

# Вычислим нужные величины
unique_answers = df_clean['Answer'].unique()
count_unique = len(unique_answers)               # Количество различных вариантов ответов
n_clean = len(df_clean)                          # Объем очищенной выборки
n_na = len(df) - len(df_clean)                   # Количество пропущенных (NA)

# Частоты для каждого ответа
counts = df_clean['Answer'].value_counts()       # Серия: индекс = W1/W2/W3, значение = частота
count_W2 = counts.get('W2', 0)                   # Сколько раз ответили W2
share_W2 = count_W2 / n_clean if n_clean>0 else 0# Доля ответов W2


In [None]:
# --------------------------------------------------------------------------------
# Блок 2: Ответы на первые вопросы (1-4)
# --------------------------------------------------------------------------------

print("1) Количество различных вариантов ответов:", count_unique)
print("2) Объем очищенной выборки:", n_clean)
print("3) Количество пропущенных данных 'NA':", n_na)
print("4) Доля респондентов, которые дали ответ 'W2':", share_W2)


In [None]:
# --------------------------------------------------------------------------------
# Блок 3: 0.99-доверительный интервал для доли ответов W2
# --------------------------------------------------------------------------------
# Используем нормальное приближение для доверительного интервала доли:
# p_hat = count_W2 / n_clean
# доверительный интервал  p_hat +/- z_(alpha/2) * sqrt( p_hat*(1 - p_hat)/n_clean )
#
# Для 0.99-доверительного интервала z_(alpha/2) = z_(0.005) ~ 2.5758 (округлённое значение)

z_99 = 2.5758

p_hat = share_W2
n = n_clean

se = math.sqrt(p_hat * (1 - p_hat) / n) if n>0 else 0
margin_99 = z_99 * se

ci_left_99 = max(0, p_hat - margin_99)  # левая граница
ci_right_99 = min(1, p_hat + margin_99) # правая граница

print("5) Правая граница 0.99-ДИ для доли 'W2':", ci_right_99)
print("6) Левая граница 0.99-ДИ для доли 'W2':", ci_left_99)


In [None]:
# --------------------------------------------------------------------------------
# Блок 4: Критерий согласия хи-квадрат Пирсона на уровне значимости alpha = 0.01
# --------------------------------------------------------------------------------
# Гипотеза H0: Распределение (W1, W2, W3) равновероятно, т.е. p1=p2=p3=1/3
# Против HA: Распределение неравномерно.
#
# Статистика: chi2 = sum( (O_i - E_i)^2 / E_i ),  i = 1..k
# k = 3 категории (W1, W2, W3)
# E_i = n_clean / 3   (ожидаемое число для каждой категории)
#
# df (число степеней свободы) = k - 1 = 2
# При alpha=0.01, критическое значение chi2_crit для df=2 ~ 9.2103 (можно уточнить через scipy)

from scipy.stats import chi2

# Считаем наблюденные частоты:
obs_W1 = counts.get('W1', 0)
obs_W2 = counts.get('W2', 0)
obs_W3 = counts.get('W3', 0)

obs = np.array([obs_W1, obs_W2, obs_W3], dtype=float)
expected = np.array([n_clean/3.0, n_clean/3.0, n_clean/3.0], dtype=float)

# Вычисляем статистику
chi2_stat = np.sum((obs - expected)**2 / expected)

# Степени свободы
df_chi2 = 2

# Критическое значение при alpha=0.01 и df=2
chi2_crit = chi2.ppf(1 - 0.01, df_chi2)

# Решение: если chi2_stat > chi2_crit => отвергаем H0, иначе не отвергаем
reject = 1 if chi2_stat > chi2_crit else 0

print("7) Критическое значение статистики хи-квадрат при alpha=0.01 и df=2:", chi2_crit)
print("8) Количество степеней свободы:", df_chi2)
print("9) Наблюдаемое значение хи-квадрат:", chi2_stat)
print("10) Отвергаем ли гипотезу о равновероятности? (1 - да, 0 - нет):", reject)


In [None]:
# --------------------------------------------------------------------------------
# Блок 5: Построение гистограммы очищенной выборки
# --------------------------------------------------------------------------------
# Пример кода с matplotlib (если бы мы делали это в Python).
# В RStudio или Excel, естественно, другой способ визуализации.

import matplotlib.pyplot as plt

plt.figure(figsize=(6,4))
plt.hist(answers_clean, bins=np.arange(1, 4+1)-0.5, edgecolor='black', alpha=0.7)
plt.title("Гистограмма ответов (W1, W2, W3), без NA")
plt.xlabel("Варианты ответов")
plt.ylabel("Частота")
plt.xticks([1,2,3], ['W1','W2','W3'])
plt.show()

# Если построение будет в Excel или R, нужно перенести график на "Лист2" соответствующим образом.
