In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import math
import statistics as stats
import scipy.stats as sts

arr = 'C; E; B; B; C; E'
data = arr.split('; ')
clean_data = [x for x in data if x != "NA"]
len(data), len(clean_data)

# 1 количество различных вариантов ответов респондентов
categories, count, = np.unique(clean_data, return_counts=True)
len(categories)

# 2 объем очищенной от "NA" выборки
clean_data.count('B')+clean_data.count('E')+clean_data.count('A')+clean_data.count('C')+clean_data.count('D')+clean_data.count('F')

# 3 объем удаленных "NA" из выборки
len(data) - len(clean_data)

# 4 доля ответов "B" в очищенной выборке
clean_data.count('B')/len(clean_data)

# 5 правая граница 0.9-доверительного интервала для истинной доли ответов  "B"
n = len(clean_data)      # объем очищенной выборки
x = clean_data.count('B')       # количество B

p_hat = x / n
z = stats.NormalDist().inv_cdf(0.95)   # для 0.9-ДИ

right = p_hat + z * math.sqrt(p_hat * (1 - p_hat) / n)
right


# 6 правую границу 0.9-доверительного интервала для истинной доли ответов  "B"
left = p_hat - z * math.sqrt(p_hat * (1 - p_hat) / n)
left



# ----
# ожидаемые частоты при равновероятном распределении
expected = [n / len(categories)] * len(categories)

# расчет статистики хи-квадрат
chi2_stat = sum((o - e)**2 / e for o, e in zip(count, expected))

# степени свободы
df = len(categories) - 1

# p-значение
p_value = 1 - sts.chi2.cdf(chi2_stat, df)

# проверка гипотезы
alpha = 0.05
if p_value < alpha:
    print("Отвергаем H0: распределение не равновероятно 1")
else:
    print("Не отвергаем H0: распределение может быть равновероятным 0")
# ----


# 7 критическое значение статистики хи-квадрат
chi2_crit = sts.chi2.ppf(1 - alpha, df)
chi2_crit

# 8 количество степеней свободы 
df = len(categories) - 1

# 9 наблюдаемое значение хи-квадрат
chi2_stat = sum((o - e)**2 / e for o, e in zip(count, expected))
chi2_stat

plt.hist(clean_data, bins=range(7), align='left', rwidth=0.8, color='skyblue', edgecolor='black')
plt.xticks(range(6), ["A","B","C","D","E","F"])
plt.xlabel("Ответы")
plt.ylabel("Количество")
plt.title("Гистограмма ответов (без NA)")
plt.show()