<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/Mathematics/Statics/%D0%94%D0%B8%D1%81%D0%BF%D0%B5%D1%80%D1%81%D0%B8%D1%8F.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Дисперсия



## Введение

Дисперсия — это ключевой статистический показатель, который измеряет разброс данных относительно их среднего значения. Она играет важную роль в анализе данных, статистике и машинном обучении (ML). В данной лекции мы подробно рассмотрим определение дисперсии, её математические основы, примеры применения, а также её значение в контексте ML.

---

## 1. Определение и формула дисперсии

### Что такое дисперсия?
Дисперсия — это мера, которая показывает, насколько сильно значения в наборе данных "разбросаны" вокруг их среднего значения. Чем больше дисперсия, тем больше разброс данных; чем меньше дисперсия, тем ближе данные к своему среднему значению.

### Математическая формула
Для набора данных $ X = \{x_1, x_2, \dots, x_n\} $:
1. **Среднее значение** ($ \mu $):
   $$
   \mu = \frac{1}{n} \sum_{i=1}^n x_i
   $$
2. **Дисперсия** ($ \sigma^2 $):
   $$
   \sigma^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2
   $$
   Здесь:
   - $ x_i $ — отдельное значение в наборе данных,
   - $ \mu $ — среднее значение,
   - $ n $ — количество элементов в наборе данных.

Альтернативная запись через математическое ожидание:
$$
\text{Var}(X) = E[(X - \mu)^2] = E[X^2] - (E[X])^2
$$

### Выборочная дисперсия
В практических задачах часто работают с выборками данных. Для несмещённой оценки дисперсии используется формула:
$$
s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2
$$
Здесь знаменатель $n-1$ обеспечивает корректность оценки для выборки.

### Пример расчета
Рассмотрим набор данных: $ X = \{2, 4, 6, 8, 10\} $.
1. Среднее значение:
   $$
   \mu = \frac{2 + 4 + 6 + 8 + 10}{5} = 6
   $$
2. Разности от среднего:
   $$
   (2-6)^2 = 16, \quad (4-6)^2 = 4, \quad (6-6)^2 = 0, \quad (8-6)^2 = 4, \quad (10-6)^2 = 16
   $$
3. Дисперсия:
   $$
   \sigma^2 = \frac{16 + 4 + 0 + 4 + 16}{5} = \frac{40}{5} = 8
   $$

Таким образом, дисперсия данного набора данных равна **8**.

---

## 2. Интерпретация дисперсии

### Физический смысл
Дисперсия показывает, насколько данные "рассеяны" вокруг среднего значения. Низкая дисперсия указывает на то, что данные сконцентрированы близко к среднему, тогда как высокая дисперсия говорит о большом разбросе.

### Единицы измерения
Дисперсия измеряется в квадратных единицах исходных данных. Например, если данные представлены в метрах, то дисперсия будет выражена в квадратных метрах. Для более удобной интерпретации часто используется стандартное отклонение ($ \sigma $), которое является квадратным корнем из дисперсии:
$$
\sigma = \sqrt{\sigma^2}
$$

### Альтернативные меры разброса
1. **Размах**:
   $$
   \text{Range} = \max(X) - \min(X)
   $$
2. **Межквартильный размах (IQR)**:
   $$
   \text{IQR} = Q_3 - Q_1
   $$
3. **Среднее абсолютное отклонение (MAD)**:
   $$
   \text{MAD} = \frac{1}{n} \sum_{i=1}^n |x_i - \mu|
   $$

---

## 3. Примеры применения дисперсии

### Пример 1: Анализ успеваемости студентов
Предположим, у нас есть два класса, где средняя оценка составляет 7 баллов. Однако:
- В первом классе оценки: $ \{6, 7, 7, 8\} $. Дисперсия мала, так как все оценки близки к среднему.
- Во втором классе оценки: $ \{4, 5, 9, 10\} $. Дисперсия велика, так как оценки сильно различаются.

Это позволяет сделать вывод о том, что первый класс демонстрирует более стабильную успеваемость.

### Пример 2: Контроль качества продукции
На заводе измеряют вес деталей. Если дисперсия веса мала, это означает, что производство стабильно и все детали имеют практически одинаковый вес. Высокая дисперсия может указывать на проблемы с оборудованием или процессом производства.

---

## 4. Дисперсия в контексте машинного обучения

### 4.1. Роль дисперсии в моделировании
В машинном обучении дисперсия имеет двойственную природу:
1. **Дисперсия данных**: Это мера разброса входных данных. Например, если данные имеют высокую дисперсию по некоторым признакам, это может усложнить обучение модели.
2. **Дисперсия модели**: Это мера чувствительности модели к изменениям в обучающем наборе данных. Высокая дисперсия модели приводит к переобучению (overfitting).

### 4.2. Проблема bias-variance tradeoff
Bias (смещение) и variance (дисперсия) — это две ключевые характеристики модели, которые влияют на её качество:
- **Bias**: Ошибка, возникающая из-за того, что модель слишком проста и не может точно описать данные.
- **Variance**: Ошибка, возникающая из-за того, что модель слишком сложна и чрезмерно подстраивается под обучающие данные.

Идеальная модель должна находить баланс между bias и variance. Например:
- Линейная регрессия обычно имеет низкую дисперсию, но высокое смещение.
- Глубокие нейронные сети могут иметь низкое смещение, но высокую дисперсию.

### 4.3. Пример: Деревья решений
Деревья решений — это пример модели с высокой дисперсией. Они могут идеально подстроиться под обучающие данные, но плохо обобщают новые данные. Чтобы снизить дисперсию, используются методы, такие как:
- **Бэггинг** (например, Random Forest): Объединение нескольких деревьев для уменьшения разброса предсказаний.
- **Прунинг**: Удаление лишних ветвей дерева для упрощения модели.

### 4.4. Дисперсия как инструмент анализа признаков
В задачах предобработки данных дисперсия помогает оценить информативность признаков:
- Признаки с низкой дисперсией (например, почти все значения одинаковы) могут быть удалены, так как они не несут полезной информации.
- Признаки с высокой дисперсией часто являются более значимыми для модели.

---

## 5. Практические рекомендации

### Как управлять дисперсией в ML?
1. **Увеличение объема данных**: Больше данных помогает уменьшить дисперсию модели.
2. **Регуляризация**: Методы, такие как L1/L2-регуляризация, снижают сложность модели и, следовательно, её дисперсию.
3. **Ансамбли моделей**: Использование ансамблей (например, Random Forest, Gradient Boosting) помогает сбалансировать bias и variance.
4. **Кросс-валидация**: Позволяет оценить, насколько модель стабильна на разных подвыборках данных.

### Практический пример в Python
Используем библиотеку `pandas` и `sklearn` для анализа дисперсии:

```python
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.feature_selection import VarianceThreshold

# Загрузка данных
data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)

# Расчет дисперсии
variances = df.var()
print("Дисперсии признаков:\n", variances)

# Удаление признаков с низкой дисперсией
selector = VarianceThreshold(threshold=0.2)
selected_features = selector.fit_transform(df)
print("Количество выбранных признаков:", selected_features.shape[1])
```

---

## 6. Графическая иллюстрация

### Пример графиков:
1. **Распределение с низкой и высокой дисперсией**  
   На графике можно показать два нормальных распределения: одно с узким пиком (низкая дисперсия), другое с широким разбросом (высокая дисперсия).

   ![График распределений](https://via.placeholder.com/600x300?text=Low+and+High+Variance)

2. **Bias-Variance Tradeoff**  
   Классический график ошибок в зависимости от сложности модели:
   - Ошибка на обучающих данных уменьшается с ростом сложности.
   - Ошибка на тестовых данных имеет U-образную форму, достигая минимума при оптимальной сложности.

   ![Bias-Variance Tradeoff](https://via.placeholder.com/600x300?text=Bias-Variance+Tradeoff)



## Заключение

Дисперсия — это фундаментальный статистический показатель, который широко применяется как в классической статистике, так и в машинном обучении. Она помогает понять разброс данных и оценить качество моделей. Управление дисперсией через техники, такие как регуляризация и ансамблирование, является ключевым аспектом успешного решения задач ML.

### Итоговые выводы:
1. Дисперсия измеряет разброс данных вокруг среднего значения.
2. В ML дисперсия связана с проблемой переобучения и требует баланса с bias.
3. Правильное управление дисперсией помогает создавать более точные и устойчивые модели.


##Примеры

### **Пример 1: Анализ успеваемости студентов**

**Данные:**  
У нас есть две группы студентов, где средняя оценка составляет $ \mu = 7 $:
- Группа A: $ \{6, 7, 7, 8\} $
- Группа B: $ \{4, 5, 9, 10\} $

**Шаг 1: Вычисление среднего значения ($ \mu $):**
$$
\mu_A = \frac{6 + 7 + 7 + 8}{4} = 7, \quad \mu_B = \frac{4 + 5 + 9 + 10}{4} = 7
$$

**Шаг 2: Вычисление дисперсии ($ \sigma^2 $):**
$$
\sigma_A^2 = \frac{(6-7)^2 + (7-7)^2 + (7-7)^2 + (8-7)^2}{4} = \frac{1 + 0 + 0 + 1}{4} = 0.5
$$
$$
\sigma_B^2 = \frac{(4-7)^2 + (5-7)^2 + (9-7)^2 + (10-7)^2}{4} = \frac{9 + 4 + 4 + 9}{4} = 6.5
$$

**Интерпретация:**  
Группа A имеет низкую дисперсию ($ \sigma_A^2 = 0.5 $), что указывает на стабильную успеваемость. Группа B имеет высокую дисперсию ($ \sigma_B^2 = 6.5 $), что говорит о большом разбросе оценок.

---

### **Пример 2: Контроль качества продукции**

**Данные:**  
На заводе измеряют вес деталей (в граммах):
- Детали A: $ \{100, 101, 99, 100, 100\} $
- Детали B: $ \{95, 105, 90, 110, 100\} $

**Шаг 1: Вычисление среднего значения ($ \mu $):**
$$
\mu_A = \frac{100 + 101 + 99 + 100 + 100}{5} = 100, \quad \mu_B = \frac{95 + 105 + 90 + 110 + 100}{5} = 100
$$

**Шаг 2: Вычисление дисперсии ($ \sigma^2 $):**
$$
\sigma_A^2 = \frac{(100-100)^2 + (101-100)^2 + (99-100)^2 + (100-100)^2 + (100-100)^2}{5} = \frac{0 + 1 + 1 + 0 + 0}{5} = 0.4
$$
$$
\sigma_B^2 = \frac{(95-100)^2 + (105-100)^2 + (90-100)^2 + (110-100)^2 + (100-100)^2}{5} = \frac{25 + 25 + 100 + 100 + 0}{5} = 50
$$

**Интерпретация:**  
Детали A имеют низкую дисперсию ($ \sigma_A^2 = 0.4 $), что указывает на высокую точность производства. Детали B имеют высокую дисперсию ($ \sigma_B^2 = 50 $), что может свидетельствовать о проблемах с оборудованием.

---

### **Пример 3: Анализ доходов населения**

**Данные:**  
Рассматриваются два региона с одинаковой средней зарплатой ($ \mu = 50,000 $ рублей):
- Регион A: $ \{45,000, 50,000, 55,000\} $
- Регион B: $ \{20,000, 30,000, 100,000\} $

**Шаг 1: Вычисление среднего значения ($ \mu $):**
$$
\mu_A = \frac{45,000 + 50,000 + 55,000}{3} = 50,000, \quad \mu_B = \frac{20,000 + 30,000 + 100,000}{3} = 50,000
$$

**Шаг 2: Вычисление дисперсии ($ \sigma^2 $):**
$$
\sigma_A^2 = \frac{(45,000-50,000)^2 + (50,000-50,000)^2 + (55,000-50,000)^2}{3} = \frac{25,000,000 + 0 + 25,000,000}{3} = 16,666,667
$$
$$
\sigma_B^2 = \frac{(20,000-50,000)^2 + (30,000-50,000)^2 + (100,000-50,000)^2}{3} = \frac{900,000,000 + 400,000,000 + 2,500,000,000}{3} = 1,066,666,667
$$

**Интерпретация:**  
Регион A имеет низкую дисперсию ($ \sigma_A^2 = 16,666,667 $), что говорит о равномерном распределении доходов. Регион B имеет высокую дисперсию ($ \sigma_B^2 = 1,066,666,667 $), что указывает на значительное неравенство доходов.

---

### **Пример 4: Отбор признаков в машинном обучении**

**Данные:**  
Признаки:  
- Признак 1: $ \{1, 1, 1, 1, 1\} $  
- Признак 2: $ \{1, 2, 3, 4, 5\} $  
- Признак 3: $ \{10, 20, 30, 40, 50\} $

**Шаг 1: Вычисление среднего значения ($ \mu $):**
$$
\mu_1 = \frac{1 + 1 + 1 + 1 + 1}{5} = 1, \quad \mu_2 = \frac{1 + 2 + 3 + 4 + 5}{5} = 3, \quad \mu_3 = \frac{10 + 20 + 30 + 40 + 50}{5} = 30
$$

**Шаг 2: Вычисление дисперсии ($ \sigma^2 $):**
$$
\sigma_1^2 = \frac{(1-1)^2 + (1-1)^2 + (1-1)^2 + (1-1)^2 + (1-1)^2}{5} = 0
$$
$$
\sigma_2^2 = \frac{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2}{5} = \frac{4 + 1 + 0 + 1 + 4}{5} = 2
$$
$$
\sigma_3^2 = \frac{(10-30)^2 + (20-30)^2 + (30-30)^2 + (40-30)^2 + (50-30)^2}{5} = \frac{400 + 100 + 0 + 100 + 400}{5} = 200
$$

**Интерпретация:**  
Признак 1 имеет нулевую дисперсию ($ \sigma_1^2 = 0 $), что делает его бесполезным для модели. Признак 2 ($ \sigma_2^2 = 2 $) и признак 3 ($ \sigma_3^2 = 200 $) являются информативными, причём признак 3 более значимый.

---

### **Пример 5: Оценка рисков в инвестициях**

**Данные:**  
Доходности двух активов за последние 5 лет (в процентах):
- Актив A: $ \{5, 6, 5, 6, 5\} $
- Актив B: $ \{2, 10, -3, 15, 0\} $

**Шаг 1: Вычисление среднего значения ($ \mu $):**
$$
\mu_A = \frac{5 + 6 + 5 + 6 + 5}{5} = 5.4, \quad \mu_B = \frac{2 + 10 + (-3) + 15 + 0}{5} = 4.8
$$

**Шаг 2: Вычисление дисперсии ($ \sigma^2 $):**
$$
\sigma_A^2 = \frac{(5-5.4)^2 + (6-5.4)^2 + (5-5.4)^2 + (6-5.4)^2 + (5-5.4)^2}{5} = \frac{0.16 + 0.36 + 0.16 + 0.36 + 0.16}{5} = 0.24
$$
$$
\sigma_B^2 = \frac{(2-4.8)^2 + (10-4.8)^2 + (-3-4.8)^2 + (15-4.8)^2 + (0-4.8)^2}{5} = \frac{7.84 + 27.04 + 60.84 + 104.04 + 23.04}{5} = 42.8
$$

**Интерпретация:**  
Актив A имеет низкую дисперсию ($ \sigma_A^2 = 0.24 $), что указывает на стабильную доходность. Актив B имеет высокую дисперсию ($ \sigma_B^2 = 42.8 $), что говорит о высоком уровне риска.

---

### **Пример 6: Анализ времени выполнения задач**

**Данные:**  
Время выполнения задач (в минутах) двумя работниками:
- Работник A: $ \{30, 32, 28, 31, 30\} $
- Работник B: $ \{20, 40, 15, 45, 30\} $

**Шаг 1: Вычисление среднего значения ($ \mu $):**
$$
\mu_A = \frac{30 + 32 + 28 + 31 + 30}{5} = 30.2, \quad \mu_B = \frac{20 + 40 + 15 + 45 + 30}{5} = 30
$$

**Шаг 2: Вычисление дисперсии ($ \sigma^2 $):**
$$
\sigma_A^2 = \frac{(30-30.2)^2 + (32-30.2)^2 + (28-30.2)^2 + (31-30.2)^2 + (30-30.2)^2}{5} = \frac{0.04 + 3.24 + 4.84 + 0.64 + 0.04}{5} = 1.76
$$
$$
\sigma_B^2 = \frac{(20-30)^2 + (40-30)^2 + (15-30)^2 + (45-30)^2 + (30-30)^2}{5} = \frac{100 + 100 + 225 + 225 + 0}{5} = 130
$$

**Интерпретация:**  
Работник A имеет низкую дисперсию ($ \sigma_A^2 = 1.76 $), что указывает на стабильное время выполнения задач. Работник B имеет высокую дисперсию ($ \sigma_B^2 = 130 $), что говорит о нестабильности работы.



### **Пример 1: Анализ успеваемости студентов**

```python
import numpy as np
import matplotlib.pyplot as plt

# Данные
group_A = [6, 7, 7, 8]
group_B = [4, 5, 9, 10]

# Вычисление среднего и дисперсии
mean_A = np.mean(group_A)
variance_A = np.var(group_A, ddof=0)  # Генеральная дисперсия
mean_B = np.mean(group_B)
variance_B = np.var(group_B, ddof=0)

# Вывод результатов
print(f"Группа A: Среднее = {mean_A}, Дисперсия = {variance_A}")
print(f"Группа B: Среднее = {mean_B}, Дисперсия = {variance_B}")

# Визуализация
plt.figure(figsize=(10, 5))
plt.bar(['Группа A', 'Группа B'], [variance_A, variance_B], color=['blue', 'orange'])
plt.title("Дисперсия оценок")
plt.ylabel("Дисперсия")
plt.show()
```

---

### **Пример 2: Контроль качества продукции**

```python
# Данные
parts_A = [100, 101, 99, 100, 100]
parts_B = [95, 105, 90, 110, 100]

# Вычисление среднего и дисперсии
mean_A = np.mean(parts_A)
variance_A = np.var(parts_A, ddof=0)
mean_B = np.mean(parts_B)
variance_B = np.var(parts_B, ddof=0)

# Вывод результатов
print(f"Детали A: Среднее = {mean_A}, Дисперсия = {variance_A}")
print(f"Детали B: Среднее = {mean_B}, Дисперсия = {variance_B}")

# Визуализация
plt.figure(figsize=(10, 5))
plt.bar(['Детали A', 'Детали B'], [variance_A, variance_B], color=['green', 'red'])
plt.title("Дисперсия веса деталей")
plt.ylabel("Дисперсия")
plt.show()
```

---

### **Пример 3: Анализ доходов населения**

```python
# Данные
region_A = [45000, 50000, 55000]
region_B = [20000, 30000, 100000]

# Вычисление среднего и дисперсии
mean_A = np.mean(region_A)
variance_A = np.var(region_A, ddof=0)
mean_B = np.mean(region_B)
variance_B = np.var(region_B, ddof=0)

# Вывод результатов
print(f"Регион A: Среднее = {mean_A}, Дисперсия = {variance_A}")
print(f"Регион B: Среднее = {mean_B}, Дисперсия = {variance_B}")

# Визуализация
plt.figure(figsize=(10, 5))
plt.bar(['Регион A', 'Регион B'], [variance_A, variance_B], color=['purple', 'brown'])
plt.title("Дисперсия доходов")
plt.ylabel("Дисперсия")
plt.show()
```

---

### **Пример 4: Отбор признаков в машинном обучении**

```python
# Данные
feature_1 = [1, 1, 1, 1, 1]
feature_2 = [1, 2, 3, 4, 5]
feature_3 = [10, 20, 30, 40, 50]

# Вычисление среднего и дисперсии
mean_1 = np.mean(feature_1)
variance_1 = np.var(feature_1, ddof=0)
mean_2 = np.mean(feature_2)
variance_2 = np.var(feature_2, ddof=0)
mean_3 = np.mean(feature_3)
variance_3 = np.var(feature_3, ddof=0)

# Вывод результатов
print(f"Признак 1: Среднее = {mean_1}, Дисперсия = {variance_1}")
print(f"Признак 2: Среднее = {mean_2}, Дисперсия = {variance_2}")
print(f"Признак 3: Среднее = {mean_3}, Дисперсия = {variance_3}")

# Визуализация
plt.figure(figsize=(10, 5))
plt.bar(['Признак 1', 'Признак 2', 'Признак 3'], [variance_1, variance_2, variance_3], color=['cyan', 'magenta', 'yellow'])
plt.title("Дисперсия признаков")
plt.ylabel("Дисперсия")
plt.show()
```

---

### **Пример 5: Оценка рисков в инвестициях**

```python
# Данные
asset_A = [5, 6, 5, 6, 5]
asset_B = [2, 10, -3, 15, 0]

# Вычисление среднего и дисперсии
mean_A = np.mean(asset_A)
variance_A = np.var(asset_A, ddof=0)
mean_B = np.mean(asset_B)
variance_B = np.var(asset_B, ddof=0)

# Вывод результатов
print(f"Актив A: Среднее = {mean_A}, Дисперсия = {variance_A}")
print(f"Актив B: Среднее = {mean_B}, Дисперсия = {variance_B}")

# Визуализация
plt.figure(figsize=(10, 5))
plt.bar(['Актив A', 'Актив B'], [variance_A, variance_B], color=['teal', 'gold'])
plt.title("Дисперсия доходности активов")
plt.ylabel("Дисперсия")
plt.show()
```

---

### **Пример 6: Анализ времени выполнения задач**

```python
# Данные
worker_A = [30, 32, 28, 31, 30]
worker_B = [20, 40, 15, 45, 30]

# Вычисление среднего и дисперсии
mean_A = np.mean(worker_A)
variance_A = np.var(worker_A, ddof=0)
mean_B = np.mean(worker_B)
variance_B = np.var(worker_B, ddof=0)

# Вывод результатов
print(f"Работник A: Среднее = {mean_A}, Дисперсия = {variance_A}")
print(f"Работник B: Среднее = {mean_B}, Дисперсия = {variance_B}")

# Визуализация
plt.figure(figsize=(10, 5))
plt.bar(['Работник A', 'Работник B'], [variance_A, variance_B], color=['navy', 'lime'])
plt.title("Дисперсия времени выполнения задач")
plt.ylabel("Дисперсия")
plt.show()
```

#Задачи для самостоятельной работы


### **Часть 1: Базовые задачи**

1. Вычислите дисперсию набора данных: $ \{2, 4, 6, 8, 10\} $.
2. Найдите дисперсию следующего набора: $ \{10, 12, 15, 18, 20\} $.
3. Рассчитайте выборочную дисперсию для данных: $ \{5, 7, 9, 11, 13\} $.
4. Дана выборка: $ \{1, 1, 1, 1, 1\} $. Какова её дисперсия? Почему?
5. Найдите дисперсию данных: $ \{-5, -3, 0, 3, 5\} $.
6. Вычислите стандартное отклонение для набора: $ \{1, 2, 3, 4, 5\} $.
7. Дана выборка: $ \{10, 20, 30, 40, 50\} $. Найдите коэффициент вариации.
8. Сравните дисперсию двух наборов: $ A = \{1, 2, 3, 4, 5\} $ и $ B = \{10, 20, 30, 40, 50\} $.
9. Найдите дисперсию для данных: $ \{0, 0, 1, 1, 1\} $.
10. Рассчитайте дисперсию для набора: $ \{100, 101, 99, 100, 100\} $.

---

### **Часть 2: Прикладные задачи**

11. В классе учатся 5 студентов. Их оценки: $ \{3, 4, 5, 4, 3\} $. Найдите дисперсию оценок.
12. На заводе измеряют вес деталей (в граммах): $ \{99, 100, 101, 100, 99\} $. Определите дисперсию веса.
13. Доходы сотрудников компании (в тыс. рублей): $ \{50, 60, 70, 80, 90\} $. Найдите дисперсию доходов.
14. Время выполнения задач (в минутах): $ \{30, 35, 40, 45, 50\} $. Рассчитайте дисперсию времени.
15. Температура воздуха за неделю (в °C): $ \{20, 22, 21, 23, 20, 22, 21\} $. Найдите дисперсию температуры.
16. В магазине продано товаров за 5 дней: $ \{100, 120, 110, 130, 140\} $. Определите дисперсию продаж.
17. Время загрузки веб-страницы (в секундах): $ \{2, 3, 2, 4, 3\} $. Найдите дисперсию времени загрузки.
18. Зарплаты работников (в тыс. рублей): $ \{30, 35, 40, 45, 50\} $. Найдите стандартное отклонение.
19. Количество шагов за день: $ \{5000, 6000, 7000, 8000, 9000\} $. Рассчитайте дисперсию.
20. Доходность акций за 5 дней (в %): $ \{2, 3, -1, 4, 5\} $. Найдите дисперсию доходности.

---

### **Часть 3: Продвинутые задачи**

21. Даны данные о возрасте сотрудников: $ \{25, 30, 35, 40, 45\} $. Найдите дисперсию и сравните её с размахом.
22. В двух регионах средняя зарплата одинакова ($ \mu = 50 $ тыс. рублей), но дисперсия различна:  
   - Регион A: $ \{45, 50, 55, 50, 50\} $  
   - Регион B: $ \{30, 40, 60, 70, 50\} $.  
   Какой регион более равномерный по доходам?
23. Для набора данных $ \{1, 2, 3, 4, 5\} $ найдите дисперсию, а затем добавьте к каждому элементу 10. Как изменится дисперсия?
24. Для набора данных $ \{1, 2, 3, 4, 5\} $ найдите дисперсию, а затем умножьте каждый элемент на 2. Как изменится дисперсия?
25. В портфеле два актива с доходностями:  
   - Актив A: $ \{5, 6, 5, 6, 5\} $  
   - Актив B: $ \{2, 10, -3, 15, 0\} $.  
   Какой актив более рискованный?
26. У компании есть два цеха. Время выполнения задач (в минутах):  
   - Цех 1: $ \{30, 32, 28, 31, 30\} $  
   - Цех 2: $ \{20, 40, 15, 45, 30\} $.  
   Какой цех более стабильный?
27. Для набора данных $ \{1, 1, 1, 1, 1\} $ найдите дисперсию. Что можно сказать о данных?
28. В таблице представлены признаки:  
   - Признак 1: $ \{1, 1, 1, 1, 1\} $  
   - Признак 2: $ \{1, 2, 3, 4, 5\} $  
   - Признак 3: $ \{10, 20, 30, 40, 50\} $.  
   Какой признак наиболее значимый?
29. В таблице представлены цены на товары в двух магазинах:  
   - Магазин A: $ \{100, 101, 99, 100, 100\} $  
   - Магазин B: $ \{95, 105, 90, 110, 100\} $.  
   Где цены более стабильные?
30. Для набора данных $ \{1, 2, 3, 4, 5\} $ найдите дисперсию, а затем вычтите из каждого элемента среднее значение. Как изменится дисперсия?
