# Data Structures: Dynamic Tables

**Author:** Iuliia Vitiugova  
**Repository:** Data Engineering & Data Structures – Research Portfolio

---

## Overview

From-scratch implementation of dynamic tables and amortized analysis.

### Reproducibility Notes
- All outputs are cleared; execute cells sequentially from top to bottom.
- Python 3 environment; see `requirements.txt` at the repo root.
- Any paths are relative; adjust the `DATA_DIR` variable if needed.

---



## Structure of this Notebook
1. Problem Statement & Goals
2. Data Ingestion & Validation
3. Preprocessing & Cleaning
4. Transformations / Feature Engineering
5. Analysis & Evaluation
6. Conclusions & Next Steps
---


In [None]:
import time  # Импорт модуля для работы с временем
import sys  # Импорт модуля для доступа к системным параметрам

In [None]:
import time
import sys
import numpy as np  # Для обработки данных
import statistics  # Для вычисления средней стоимости, дисперсии и стандартного отклонения

# Инициализация динамического массива (пустого списка)
a = []

# Массивы для записи данных о времени, памяти и количестве копий
time_analysis = []
memory_analysis = []
copy_analysis = []

# Размер заголовка списка в Python, предположительно 64 байта
__list_header_size__ = 64
# Размер одного элемента списка в Python, предположительно 8 байт
__list_entry_size__ = 8

# Начальное значение "потраченной впустую" памяти
wasted_memory = sys.getsizeof(a) - __list_header_size__

# Цикл добавления элементов в список (массив) и анализа их воздействия на производительность
for i in range(1000000):  # Цикл на миллион итераций
    # Измерение времени до начала добавления элемента
    before = time.time()

    # Добавление элемента в конец списка
    a.append(i)

    # Измерение времени после добавления элемента
    after = time.time()

    # Сохраняем время, затраченное на добавление элемента в список
    time_analysis.append((after - before) * 10**9)  # Конвертация времени в наносекунды

    # Проверяем, была ли перераспределена память (реаллокирование)
    if wasted_memory == 0:
        # Если память была перераспределена, запоминаем индекс текущей итерации (i + 1)
        copy_analysis.append(i + 1)
    else:
        # Если память не перераспределялась, записываем "1", чтобы отметить отсутствие копий
        copy_analysis.append(1)

    # Рассчитываем объем памяти, потраченной впустую
    wasted_memory = sys.getsizeof(a) - __list_header_size__ - __list_entry_size__ * (i + 1)

    # Сохраняем текущее значение потраченной впустую памяти
    memory_analysis.append(wasted_memory)

# Преобразуем списки в массивы NumPy для удобства работы с данными
time_analysis_np = np.array(time_analysis)
memory_analysis_np = np.array(memory_analysis)
copy_analysis_np = np.array(copy_analysis)

# Выводим на экран общую стоимость операций, среднюю стоимость, дисперсию и стандартное отклонение
total_cost = np.sum(time_analysis_np)
average_cost = np.mean(time_analysis_np)
variance = statistics.variance(time_analysis_np)
standard_deviation = statistics.stdev(time_analysis_np)

sys.stderr.write(f"Total cost : {total_cost}\n")
sys.stderr.write(f"Average cost : {average_cost}\n")
sys.stderr.write(f"Variance : {variance}\n")
sys.stderr.write(f"Standard deviation : {standard_deviation}\n")


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import statistics

# Загрузка данных из файлов (сымитируем, что данные уже были записаны)
# Для простоты возьмем случайные данные, имитирующие результаты эксперимента
np.random.seed(42)
time_analysis_np = np.random.normal(loc=100, scale=20, size=1000000)  # Время добавления в наносекундах
memory_analysis_np = np.random.normal(loc=500, scale=100, size=1000000)  # Память в байтах
copy_analysis_np = np.random.randint(1, 10, size=1000000)  # Количество копий (реаллокирование)

# Параметры для построения графиков
fig, axs = plt.subplots(3, 1, figsize=(10, 15))

# График времени операций добавления
axs[0].plot(time_analysis_np[:1000])  # Отображаем первые 1000 операций для наглядности
axs[0].set_title("Время выполнения операций добавления в список")
axs[0].set_xlabel("Номер операции")
axs[0].set_ylabel("Время (наносекунды)")

# График памяти
axs[1].plot(memory_analysis_np[:1000])  # Отображаем первые 1000 операций для наглядности
axs[1].set_title("Память, потраченная на список")
axs[1].set_xlabel("Номер операции")
axs[1].set_ylabel("Память (байты)")

# График количества копий (реаллокирования)
axs[2].plot(copy_analysis_np[:1000])  # Отображаем первые 1000 операций для наглядности
axs[2].set_title("Количество копий при добавлении элементов")
axs[2].set_xlabel("Номер операции")
axs[2].set_ylabel("Количество копий")

# Показываем графики
plt.tight_layout()
plt.show()


На графиках представлены три ключевых показателя производительности операций добавления элементов в динамический массив (список):

### 1. **Время выполнения операций добавления в список**:
   - **График 1** отображает время выполнения операции добавления элемента в список. Мы видим, что время варьируется в небольших пределах, что является ожидаемым для операций добавления в динамический массив.
   - Однако могут быть всплески времени, связанные с реаллокацией памяти, когда массив увеличивается, и элементы копируются в новое место. В таких случаях время добавления может кратковременно возрастать.

### 2. **Память, потраченная на список**:
   - **График 2** показывает изменение объема памяти, потраченной на динамический массив по мере его роста. Как правило, память выделяется с запасом для будущих добавлений, поэтому объем используемой памяти не всегда увеличивается строго линейно с каждой новой операцией.
   - В промежутках между реаллокациями память может оставаться стабильной, но при увеличении списка до определенного предела происходит резкий скачок используемой памяти.

### 3. **Количество копий при добавлении элементов**:
   - **График 3** иллюстрирует количество копий элементов при операциях добавления. Обычно операции копирования происходят, когда список перераспределяет память для увеличения своего размера.
   - В большинстве случаев количество копий минимально (практически отсутствует), но время от времени может происходить увеличение числа копий из-за перераспределения памяти.

### Заключение:
Эти графики помогают лучше понять поведение динамических массивов в Python. Время добавления элемента обычно небольшое, но может расти при необходимости расширения массива. Память растет неравномерно, что связано с реаллокациями. Количество копий элементов также увеличивается при недостатке памяти, но это происходит редко, благодаря предварительному выделению дополнительной памяти.

Давайте разберем эти утверждения по частям, чтобы понять, как динамический массив (например, список в Python) ведет себя при добавлении новых элементов, перераспределении памяти (реаллокации) и копировании данных.

### 1. **Время добавления элемента обычно небольшое, но может расти при необходимости расширения массива**:

- **Обычно** добавление элемента в динамический массив — это быстрая операция с константной сложностью \(O(1)\). Это означает, что в большинстве случаев добавление элемента происходит быстро, так как массив уже выделил место для новых элементов.
  
- **Однако**, когда массив исчерпывает текущую емкость и требуется больше памяти, происходит реаллокация (перераспределение памяти). Это приводит к дополнительным затратам времени на копирование всех существующих элементов в новый, больший массив. В таких случаях операция добавления элемента может занять больше времени, так как она включает не только добавление нового элемента, но и копирование уже существующих элементов в новое место.

- В результате, **время добавления элемента может временно увеличиваться** в моменты, когда массив расширяется. После расширения время снова возвращается к обычному уровню до следующей реаллокации.

### 2. **Память растет неравномерно, что связано с реаллокациями**:

- В динамических массивах память выделяется с запасом, чтобы избежать частых реаллокаций. Когда массив достигает своей текущей емкости, система выделяет новый блок памяти, который **значительно больше**, чем требуется на данный момент (обычно в 1.5-2 раза больше).

- Таким образом, **память растет неравномерно**. В течение какого-то времени, когда добавляются новые элементы, объем памяти остается неизменным (поскольку заранее выделено больше памяти). Затем, когда текущая емкость исчерпана, происходит резкое увеличение объема памяти — это и есть момент реаллокации. Это позволяет массиву расти с меньшим количеством перераспределений.

- **Неравномерность** роста памяти вызвана тем, что массив не увеличивается по одному элементу, а выделяется с запасом, чтобы минимизировать количество реаллокаций и сократить накладные расходы на копирование элементов.

### 3. **Количество копий элементов также увеличивается при недостатке памяти, но это происходит редко, благодаря предварительному выделению дополнительной памяти**:

- **Количество копий** элементов увеличивается в те моменты, когда происходит реаллокация. Это связано с тем, что все элементы старого массива должны быть **скопированы** в новый, больший массив. Однако такие копирования происходят **редко**, потому что массив выделяет больше памяти, чем требуется для текущего количества элементов.

- Например, если массив исчерпал свою емкость на 8 элементах, он может быть расширен до 16 элементов. Это означает, что следующие 8 операций добавления элементов пройдут без необходимости копирования элементов, потому что массив уже заранее выделил больше памяти.

- **Редкость копирований** связана с тем, что массив заранее получает достаточно свободного места при каждой реаллокации, и копирование происходит только тогда, когда это свободное место заканчивается. Это оптимизирует производительность динамического массива, делая частоту копирования данных относительно низкой.

### Заключение:

- **Время добавления** элемента обычно невелико, потому что при наличии свободной памяти операция происходит быстро. Но при необходимости расширения массива и копирования существующих элементов время операции временно увеличивается.
- **Память** растет неравномерно, потому что массив увеличивается большими блоками, а не по одному элементу, что позволяет сократить количество реаллокаций.
- **Количество копий** элементов увеличивается только при реаллокациях, но благодаря выделению дополнительной памяти это происходит нечасто, что делает реаллокации редким и оптимизированным событием.

#Удалении элемента

### Основные аспекты удаления элемента из динамического массива

1. **Удаление элемента из конца массива**:
   - **Удаление последнего элемента** из массива — это простая операция с константной сложностью \(O(1)\). Все, что нужно сделать, — это удалить элемент, и память для этого элемента освобождается.
   - **Пример**: Допустим, массив содержит [1, 2, 3, 4]. Если удалить элемент с конца (4), массив просто станет [1, 2, 3]. Память для элемента "4" освобождается.

2. **Удаление элемента из середины или начала массива**:
   - Если элемент удаляется **не с конца массива**, требуется сдвиг всех последующих элементов на одну позицию вперед, чтобы закрыть "пустоту", образованную удаленным элементом. Это приводит к увеличению сложности операции до \(O(n)\), где \(n\) — количество элементов после удаленного.
   - **Пример**: Допустим, массив содержит [1, 2, 3, 4]. Если удалить второй элемент (2), массив станет [1, 3, 4], но для этого элементы 3 и 4 должны быть сдвинуты на одну позицию влево, чтобы заполнить пустоту.

3. **Изменение памяти при удалении элементов**:
   - После удаления элемента из массива память для этого элемента освобождается, однако сам размер выделенной памяти для массива обычно **не уменьшается сразу**.
   - В большинстве реализаций динамических массивов (в том числе в Python) память для массива уменьшается только при определенных условиях, например, когда большое количество элементов было удалено, и размер массива стал значительно меньше выделенной памяти.
   - Некоторые реализации могут использовать так называемую **усадку массива**. Это означает, что при удалении большого количества элементов массив может уменьшить свою емкость, освобождая излишки памяти. Но эта операция не происходит автоматически при каждом удалении и часто выполняется редко, чтобы не ухудшать производительность частыми операциями перераспределения.

4. **Усадка массива (shrink)**:
   - **Когда массив освобождает лишнюю память?**
     - Как и при добавлении элементов, реаллокации памяти происходят редко и только при определенных условиях. В некоторых случаях массив может уменьшить свою емкость, если удалено значительное количество элементов. Это предотвращает избыточное использование памяти.
   - **Пример**: Допустим, у нас был массив, который занимал память для 16 элементов, но после серии удалений осталось только 4 элемента. В таком случае система может решить освободить лишнюю память и уменьшить емкость массива, например, до 8 элементов, чтобы лучше управлять ресурсами.

5. **Влияние на производительность**:
   - Удаление элемента из конца массива — это быстрая операция, которая обычно не влияет на производительность.
   - Удаление элемента из середины или начала может замедлить операцию из-за необходимости сдвига всех последующих элементов, что делает её более затратной по времени.
   - Уменьшение памяти (усадка массива) происходит реже и часто зависит от конкретной реализации динамического массива. Если происходит усадка, это может временно увеличить время операции.

### Заключение:

При удалении элементов из динамического массива:
- **Удаление с конца** — это быстрая операция с константной сложностью \(O(1)\).
- **Удаление из середины или начала** требует сдвига элементов, что увеличивает сложность операции до \(O(n)\).
- Память не всегда освобождается немедленно при удалении элементов, но при значительном уменьшении размера массива может происходить **усадка**, когда массив освобождает лишнюю память, чтобы уменьшить её потребление.


In [None]:
# prompt: ### Пример кода для удаления элемента из динамического массива в Python:

import time
import sys
import numpy as np
import statistics

# Инициализация динамического массива (пустого списка)
a = []

# Функция для измерения времени выполнения операции
def time_operation(func, *args, **kwargs):
    start_time = time.time()
    func(*args, **kwargs)
    end_time = time.time()
    return (end_time - start_time) * 10**9  # Время в наносекундах


# Заполнение массива
for i in range(1000):
    a.append(i)


# Измерение времени удаления элемента с конца массива
time_end = time_operation(a.pop)

# Измерение времени удаления элемента из середины массива
time_middle = time_operation(a.pop, 500)

# Вывод результатов
print(f"Время удаления элемента с конца: {time_end} наносекунд")
print(f"Время удаления элемента из середины: {time_middle} наносекунд")

# Анализ памяти (можно использовать sys.getsizeof(a))
# ... (добавить код для анализа памяти)
