In [None]:
%pip install matplotlib

import matplotlib.pyplot as plt
import numpy as np

# Preparing the dataset for visualization after filtering out outliers

# Define a function to remove extreme outliers using IQR method
def remove_outliers(data):
    q1, q3 = np.percentile(data, [25, 75])
    iqr = q3 - q1
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr
    return [x for x in data if lower_bound <= x <= upper_bound]

# Extracted raw data for Lab 2 and Lab 3

# Lab 2 - Parallel Processing
lab2_sequential_raw = [
    14431700, 6395800, 3816400, 2482800, 2454800, 1860200, 423400, 1362800, 1516400, 1921700
]
lab2_parallel_raw = [
    17450600, 421400, 3010700, 2481000, 1625700, 1962900, 1627200, 1040300, 2174300, 1448700
]
lab2_optimized_parallel_raw = [
    11303400, 2616400, 3458900, 3181700, 2243200, 2229500, 2254600, 2419300, 2149700, 2145400
]

# Lab 3 - Reactive Processing
lab3_reactive_raw = [
    150496900, 2141300, 1612300, 2390000, 1414400, 1237200, 361600, 1073700, 1073200, 1601600
]
lab3_backpressure_raw = [
    9879600, 1559400, 1556200, 1493100, 1424300, 999300, 1176000, 955600, 959800, 1464200
]
lab3_controlled_raw = [
    9068200, 1265100, 1610000, 1716600, 1221800, 1122700, 1521300, 887100, 980300, 1252500
]

# Filter out outliers
lab2_sequential = remove_outliers(lab2_sequential_raw)
lab2_parallel = remove_outliers(lab2_parallel_raw)
lab2_optimized_parallel = remove_outliers(lab2_optimized_parallel_raw)
lab3_reactive = remove_outliers(lab3_reactive_raw)
lab3_backpressure = remove_outliers(lab3_backpressure_raw)
lab3_controlled = remove_outliers(lab3_controlled_raw)

# Compute means for visualization
counts = [500]  # We are focusing on 500 elements as requested
lab2_means = [np.mean(lab2_sequential), np.mean(lab2_parallel), np.mean(lab2_optimized_parallel)]
lab3_means = [np.mean(lab3_reactive), np.mean(lab3_backpressure), np.mean(lab3_controlled)]

# Plot the filtered data
plt.figure(figsize=(12, 6))
plt.bar(["Lab 2 - Sequential", "Lab 2 - Parallel", "Lab 2 - Optimized Parallel"],
        lab2_means, label="Lab 2", alpha=0.7, color='blue')

plt.bar(["Lab 3 - Reactive", "Lab 3 - Reactive with Backpressure", "Lab 3 - Reactive Controlled Flow"],
        lab3_means, label="Lab 3", alpha=0.7, color='red')

plt.ylabel("Execution Time (ns)")
plt.title("Comparison of Lab 2 and Lab 3 after Removing Outliers")
plt.legend()
plt.xticks(rotation=20)
plt.grid(axis='y', linestyle="--")

# Show the plot
plt.show()

# Зависимость времени выполнения от количества данных

Этот раздел сравнивает время выполнения различных подходов при увеличении объема данных. Рассматриваются следующие методы:

- **Lab 2 - Последовательный**: Обычная последовательная обработка.
- **Lab 2 - Параллельный**: Параллельная обработка с использованием потоков.
- **Lab 2 - Оптимизированный параллельный**: Улучшенная реализация параллельных потоков.
- **Lab 3 - Реактивный**: Реактивные потоки без управления потоком (`Backpressure`).
- **Lab 3 - Реактивный с Backpressure**: Реактивные потоки с контролируемой нагрузкой.
- **Lab 3 - Реактивный с управляемым потоком**: Реактивная обработка с контролем потока.

## График
![График зависимости времени выполнения от количества данных](./output.png)

## Наблюдения
1. **Небольшие объемы данных (500-2000)**
   - Последовательные подходы (`Lab 2 - Последовательный`) работают стабильно, но медленно.
   - Параллельные методы (`Lab 2 - Параллельный`, `Lab 2 - Оптимизированный параллельный`) быстрее реактивных при небольших объемах данных.

2. **Большие объемы данных (250 000)**
   - Реактивные методы (`Lab 3`) с `Backpressure` и управляемым потоком показывают производительность, близкую к оптимизированным параллельным методам.
   - Чистый `Reactive` без `Backpressure` нестабилен и демонстрирует сильные колебания времени выполнения.

3. **Общие тенденции**
   - Последовательная обработка плохо масштабируется при увеличении данных.
   - Параллельные методы обеспечивают предсказуемые результаты для всех объемов.
   - Реактивные методы, использующие `Backpressure` и управляемый поток, стабилизируют производительность при больших объемах данных.

## Рекомендации
- Для небольших объемов данных (до 2000 записей) **Lab 2 - Параллельный** или **Оптимизированный параллельный** работают быстрее всего.
- Для больших объемов данных (250 000 и более) **Lab 3 - Реактивный с Backpressure** ил