In [None]:
# --------------------------------------------------------------------------------
# Задача:
# 1) Скопировать и преобразовать данные выборки в столбец "A" на лист "Лист1" (в Excel).
#    (В Python мы просто считаем эти данные как список, имитируя, что они уже в Excel)
# 2) Очистить выборку от NA, преобразовать в вариационный ряд и далее работать с очищенными данными.
# 3) Ответить на вопросы, используя Python (или аналогичные действия в Excel/RStudio).
# 4) Построить гистограмму и диаграмму "ящик с усами" на листе "Лист1", используя очищенную выборку без выбросов.
# --------------------------------------------------------------------------------
# Ниже приводится пример кода на Python (для Jupyter Notebook), 
# который показывает, как можно выполнить расчеты, аналогичные тем, 
# которые можно сделать в Excel или R.



In [None]:
# --------------------------------------------------------------------------------
# БЛОК 1: Исходные данные и очистка
# --------------------------------------------------------------------------------
import pandas as pd
import numpy as np
import math
from scipy.stats import t, chi2, kurtosis, skew

# Исходная выборка (из условия), где NA обозначены None в Python
data_raw = [
    None, 220.07, 230.23, 185.29, 192.85, 206.97, 209.64, 231.46, 219.04, None,
    None, None, None, 230.95, 194.87, 185.11, 169.08, 242.34, 215.61, 167.19,
    189.43, None, 223.94, 149.21, 196.53, 268.55, 122.87, 192.81, 191.44,
    166.83, 204.11, 204.9, 181.76, 188.29, 186.41, 173.16, 191.96, 233.37,
    171.08, 190.85, 195.15, 221.51, 179.28, 248.22, 189.47, 210.93, 190.36,
    230.65, 153.5, 181.75, None, 235.42, 219.26, 176.1, None, 218.17, 189.54,
    None, 223.7, None, 196.96, 226.84, 156.58, 178.79, 192.52, 222.89, 191.34,
    213.94, 215.86, 187.67, 175.87, 194.28, 234.14, 187.81, 254.38, 226.66,
    170.49, 245.32, 121.76, 229.11, None, 208.67, 166.04, 200.29, 194.48,
    202.33, 227.07, 173.2, 223.33, None, 177.3, 224.15, 240.64, None, 161.93,
    214.8, 200.45, 181.23, 205.1, 225.72, 206.63, 163.15, 197.9, 234.6, 206.17,
    166.2, 173.35, 200.94, 186.01, 236.52, 203.27, 209.54, 234.36, 267.79,
    None, 171.67, 212.73, 195.91, None, 166.07, 219.6, 153.7, None, 154.7,
    None, 33.49375, 219.09, 249.07, 220.73, 152.98, 132.77, 172.1, 189.77,
    203.76, 183.38, 215.52, None, 175.4, 135.72, 224.45, 229.93, 139.7, 184.41,
    213.13, 161.72, 126.59, 202.78, 183.51, None, 237.67, 197.84, 185.56,
    241.02, 184.56, 204.07, 172.9, 223.9, 201.41, 219.25, None, 195.46, 172.27,
    226.42, 197.59, 208.08, 164.52, None, 188.86, 258.81, None, 247.64, 178.73,
    168.85, 184.07, 225.3, None, 235.68, 209.73, 207.85, 152.16, 240.33,
    238.71, 136.65, 184.19, 240.96, 176.49, 236.24, 210.23, None, 230.12,
    228.88, 177.57, 227.15, 237.84, 228.97, 205.48, 237.23, 197.98, 175.81,
    180.79, 182.71, 200, 150.02, 199.6, 203.44, 189.57, 233.13, 215.46, 163.87,
    205.66, None, 213.77, 199.43, 182.62, None, 205.04, None, None, 205.13,
    215.7, None, 177.35, 236.34, 169.68, 230.47, None, 183.77, 184.18, 232.32,
    171.48, 187.9, 204.29, 189, 195.22, 197.65, 209.56, 234.9, 187.65, 236.34,
    None, 75.74125, 214.13, 225.5, 154.32, 201.74, 208.44, 164.53, 178.54,
    None, None, 201.19, 148.87, 156.51, 238.55, 217.4, 228.73, 237.05, 150.43,
    213.89, 197.87, 179.87, 170.67, 336.89, 226.55, 220.9, 205.5, 143.81,
    183.94, 152.65, 229.98, 231.62, 196.61, 224.44, 188.98, 206.29, 226.54,
    195.05, 196.71, 248.6, 190.23, None, 206.64, 185.72, 235.71, 196.16, 158.01,
    206, 209.11, None, 156.97
]

df = pd.DataFrame(data_raw, columns=['X'])

# 1) Количество пропущенных значений
n_na = df['X'].isna().sum()
print("1) Количество пропущенных значений:", n_na)

# Очистка от NA
df_clean = df.dropna().copy()

# Преобразование в вариационный ряд (сортировка)
df_clean.sort_values(by='X', inplace=True)
df_clean.reset_index(drop=True, inplace=True)

# 2) Объем очищенной выборки
n = len(df_clean)
print("2) Объем очищенной выборки:", n)


In [None]:
# --------------------------------------------------------------------------------
# БЛОК 2: Вычисление требуемых статистик
# --------------------------------------------------------------------------------

import math

X = df_clean['X'].values  # Набор чисел (numpy array), уже отсортирован

# 3) Среднее значение
x_mean = X.mean()
# 4) Стандартное отклонение (исправленное = sample std, ddof=1)
s = X.std(ddof=1)
# 5) Несмещенная дисперсия (ddof=1)
var = s**2

# 6) Первая квартиль (Q1, 25-й перцентиль)
q1 = np.percentile(X, 25)
# 7) Третья квартиль (Q3, 75-й перцентиль)
q3 = np.percentile(X, 75)
# 8) Медиана (50-й перцентиль)
median = np.percentile(X, 50)
# 9) Макc
x_max = X.max()
# 10) Мин
x_min = X.min()
# 11) Размах
rng = x_max - x_min

print("3) Среднее значение:", x_mean)
print("4) Стандартное отклонение (исправленное):", s)
print("5) Несмещенная дисперсия:", var)
print("6) Первая квартиль (Q1):", q1)
print("7) Третья квартиль (Q3):", q3)
print("8) Медиана:", median)
print("9) Максимальное значение:", x_max)
print("10) Минимальное значение:", x_min)
print("11) Размах выборки:", rng)


In [None]:
# --------------------------------------------------------------------------------
# БЛОК 3: Эксцесс и асимметрия (формулы Excel по умолчанию аналогичны scipy.stats.moment ?)
# --------------------------------------------------------------------------------
# По умолчанию Excel для Эксцесса и Асимметрии использует статистические оценки с делением на (n-1).
# В scipy.stats есть функции kurtosis, skew, по умолчанию (bias=True) они дают:
#   Fisher’s definition of kurtosis => эксцесс = 0 для нормального распределения.
# Excel использует ту же формулу для расчета выборочного эксцесса и асимметрии,
# но нужно проверить, совпадает ли параметр bias=True/False.
# Обычно "формула по умолчанию" в Excel = bias=False в scipy. 
# Проверим: 
#   kurtosis(X, fisher=True, bias=False)   => это скорее всего повтор Excel
#   skew(X, bias=False)                    => это то же самое

excess = kurtosis(X, fisher=True, bias=False)
asymm = skew(X, bias=False)

print("12) Эксцесс (Excel по умолчанию):", excess)
print("13) Коэффициент асимметрии (Excel по умолчанию):", asymm)


In [None]:
# --------------------------------------------------------------------------------
# БЛОК 4: Значение ошибки выборки (Standard Error = s / sqrt(n))
# --------------------------------------------------------------------------------

se_mean = s / math.sqrt(n)
print("14) Значение ошибки выборки (Standard Error):", se_mean)

# 95%-ный доверительный интервал для E(X):
# x_mean +/- t_(alpha/2, n-1) * s / sqrt(n)
alpha = 0.05
df_t = n - 1  # степени свободы
t_crit = t.ppf(1 - alpha/2, df_t)

left_95_mean = x_mean - t_crit * se_mean
right_95_mean = x_mean + t_crit * se_mean

print("15) Левая граница 0.95-ДИ для E(X):", left_95_mean)
print("16) Правая граница 0.95-ДИ для E(X):", right_95_mean)


In [None]:
# --------------------------------------------------------------------------------
# БЛОК 5: Доверительный интервал для дисперсии
# --------------------------------------------------------------------------------
# Для несмещенной дисперсии:
#   ( (n-1)*s^2 ) / chi2_(1 - alpha/2, n-1 ) < Var(X) < ( (n-1)*s^2 ) / chi2_( alpha/2, n-1 )
# где chi2_(p, df) - квантиль распределения хи-квадрат

chi2_left = chi2.ppf(alpha/2, df_t)      # chi2_(alpha/2)
chi2_right = chi2.ppf(1 - alpha/2, df_t) # chi2_(1-alpha/2)

left_95_var = ( (n-1)*var ) / chi2_right
right_95_var = ( (n-1)*var ) / chi2_left

print("17) Левая граница 0.95-ДИ для Var(X):", left_95_var)
print("18) Правая граница 0.95-ДИ для Var(X):", right_95_var)


In [None]:
# --------------------------------------------------------------------------------
# БЛОК 6: Поиск выбросов
# --------------------------------------------------------------------------------
# "Ниже нормы" и "Выше нормы" - обычно используют "правило 1.5 * IQR":
# IQR = Q3 - Q1
# cutoff_low = Q1 - 1.5 * IQR
# cutoff_high = Q3 + 1.5 * IQR
# Число выбросов снизу - кол-во < cutoff_low
# Число выбросов сверху - кол-во > cutoff_high

IQR = q3 - q1
cutoff_low = q1 - 1.5 * IQR
cutoff_high = q3 + 1.5 * IQR

below_outliers = np.sum(X < cutoff_low)
above_outliers = np.sum(X > cutoff_high)

print("19) Количество выбросов ниже нормы:", below_outliers)
print("20) Количество выбросов выше нормы:", above_outliers)


In [None]:
# --------------------------------------------------------------------------------
# БЛОК 7: Гистограмма и "ящик с усами" (Boxplot) для очищенной выборки БЕЗ выбросов
# --------------------------------------------------------------------------------
# Если нужно построить диаграммы без выбросов, то удалим их по "правилу 1.5*IQR".

import matplotlib.pyplot as plt

X_no_outliers = X[(X >= cutoff_low) & (X <= cutoff_high)]

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(10,4))

# Гистограмма
ax1.hist(X_no_outliers, bins=20, edgecolor='black', alpha=0.7)
ax1.set_title("Гистограмма без выбросов")
ax1.set_xlabel("X")
ax1.set_ylabel("Частота")

# Boxplot (ящик с усами)
ax2.boxplot(X_no_outliers, vert=True, patch_artist=True, labels=['X (no outliers)'])
ax2.set_title("Ящик с усами (без выбросов)")

plt.tight_layout()
plt.show()

# В Excel: вставить гистограмму и boxplot на "Лист1".
# В RStudio: аналогичные функции hist() и boxplot().
# Графики затем скопировать на "Лист1".
