# Введение в структуры данных

## Определение и классификация структур данных

**Определение:** Структура данных — это способ организации данных в компьютере для эффективного использования. Формально, структура данных $S$ может быть определена как упорядоченная пара $S = (D, F)$, где $D$ — множество элементов данных, а $F$ — множество операций над этими данными.

Структуры данных можно классифицировать по различным критериям:

1. **По типу организации данных:**
   - Линейные структуры (массивы, списки, стеки, очереди)
   - Нелинейные структуры (деревья, графы, хеш-таблицы)

2. **По способу размещения в памяти:**
   - Статические структуры (размер фиксирован при создании)
   - Динамические структуры (размер может изменяться во время выполнения)

3. **По типу доступа к элементам:**
   - Структуры с последовательным доступом (списки, стеки, очереди)
   - Структуры с произвольным доступом (массивы, хеш-таблицы)

**Теорема 1:** Для любой структуры данных $S = (D, F)$ существует минимальное множество операций $F_{min} \subseteq F$, такое что любая операция из $F$ может быть выражена через композицию операций из $F_{min}$.

**Доказательство:** Рассмотрим множество $F$ всех операций над структурой данных. Построим граф зависимостей $G = (F, E)$, где ребро $(f_i, f_j) \in E$ означает, что операция $f_j$ использует операцию $f_i$ в своей реализации. Выберем в качестве $F_{min}$ множество вершин графа $G$, не имеющих входящих рёбер. Тогда любая операция $f \in F$ может быть выражена через композицию операций из $F_{min}$, что следует из ациклического характера графа зависимостей для корректно определённых операций. ■


## Абстрактные типы данных

**Определение:** Абстрактный тип данных (АТД) — это математическая модель для типов данных, определяемая поведением с точки зрения пользователя данных, а именно через возможные значения, возможные операции над данными этого типа и поведение этих операций.

Формально, АТД можно определить как тройку $A = (D, F, P)$, где:
- $D$ — множество допустимых значений данных
- $F$ — множество операций над данными
- $P$ — множество аксиом (свойств), которым должны удовлетворять операции

**Пример:** Рассмотрим АТД "Стек". Формально его можно определить следующим образом:

$\text{Stack} = (D, F, P)$, где:
- $D = \{S | S \text{ — последовательность элементов}\}$
- $F = \{\text{create}, \text{push}, \text{pop}, \text{top}, \text{isEmpty}\}$
- $P$ содержит следующие аксиомы:
  - $\text{isEmpty}(\text{create()}) = \text{true}$
  - $\text{isEmpty}(\text{push}(S, x)) = \text{false}$
  - $\text{top}(\text{push}(S, x)) = x$
  - $\text{pop}(\text{push}(S, x)) = S$

Реализация стека на Python:


In [None]:
class Stack:
    def __init__(self):
        self.items = []
    
    def push(self, item):
        self.items.append(item)
    
    def pop(self):
        if not self.is_empty():
            return self.items.pop()
        raise IndexError("Попытка извлечения из пустого стека")
    
    def top(self):
        if not self.is_empty():
            return self.items[-1]
        raise IndexError("Попытка доступа к вершине пустого стека")
    
    def is_empty(self):
        return len(self.items) == 0
    
    def size(self):
        return len(self.items)

# Пример использования
stack = Stack()
stack.push(1)
stack.push(2)
stack.push(3)
print(stack.top())  # Выведет: 3
print(stack.pop())  # Выведет: 3
print(stack.top())  # Выведет: 2


## Анализ эффективности структур данных

Эффективность структуры данных оценивается по нескольким критериям:

1. **Временная сложность** — количество элементарных операций, необходимых для выполнения операции над структурой данных.
2. **Пространственная сложность** — объем памяти, необходимый для хранения структуры данных.

Для формального анализа временной сложности используются асимптотические обозначения:

- $O(f(n))$ — верхняя граница сложности (наихудший случай)
- $\Omega(f(n))$ — нижняя граница сложности (наилучший случай)
- $\Theta(f(n))$ — точная асимптотическая сложность

**Теорема 2 (О нижней границе сложности поиска):** Для любого алгоритма поиска элемента в неупорядоченном массиве из $n$ элементов временная сложность в худшем случае составляет $\Omega(n)$.

**Доказательство:** Рассмотрим произвольный алгоритм поиска $A$ и неупорядоченный массив $X$ из $n$ элементов. Пусть искомый элемент $e$ отсутствует в массиве. Тогда алгоритм $A$ должен проверить все $n$ элементов массива, чтобы убедиться в отсутствии $e$. Если алгоритм проверит менее $n$ элементов, то существует такое размещение элемента $e$ в непроверенной части массива, при котором алгоритм даст неверный результат. Следовательно, временная сложность алгоритма $A$ в худшем случае составляет $\Omega(n)$. ■

**Теорема 3 (О нижней границе сложности сортировки сравнениями):** Любой алгоритм сортировки, основанный на сравнениях элементов, имеет временную сложность $\Omega(n \log n)$ в худшем и среднем случаях.

**Доказательство:** Рассмотрим задачу сортировки массива из $n$ различных элементов. Количество возможных перестановок элементов равно $n!$. Алгоритм сортировки, основанный на сравнениях, можно представить в виде бинарного дерева решений, где каждый внутренний узел соответствует сравнению двух элементов, а листья — возможным перестановкам. Для корректной работы алгоритма дерево должно иметь не менее $n!$ листьев. Высота такого дерева не менее $\log_2(n!)$. Используя формулу Стирлинга, получаем:

$\log_2(n!) \approx \log_2(\sqrt{2\pi n} \cdot (n/e)^n) = \log_2(\sqrt{2\pi n}) + n\log_2(n/e) = \Omega(n \log n)$

Таким образом, любой алгоритм сортировки, основанный на сравнениях, имеет временную сложность $\Omega(n \log n)$. ■


## Базовые структуры данных

### Массивы

**Определение:** Массив — это структура данных, представляющая собой набор элементов одного типа, расположенных в памяти непрерывно и индексируемых целыми числами.

Формально, массив $A$ размера $n$ можно определить как отображение $A: I \rightarrow V$, где $I = \{0, 1, 2, ..., n-1\}$ — множество индексов, а $V$ — множество значений элементов.

**Свойства массивов:**
1. Все элементы имеют один и тот же тип данных.
2. Элементы расположены в памяти последовательно.
3. Доступ к элементу по индексу осуществляется за $O(1)$.
4. Размер массива фиксирован при создании (для статических массивов).

**Пример реализации динамического массива:**


In [None]:
class DynamicArray:
    def __init__(self, capacity=1):
        self.capacity = capacity
        self.size = 0
        self.array = [None] * capacity
    
    def append(self, element):
        if self.size == self.capacity:
            self._resize(2 * self.capacity)
        
        self.array[self.size] = element
        self.size += 1
    
    def _resize(self, new_capacity):
        new_array = [None] * new_capacity
        for i in range(self.size):
            new_array[i] = self.array[i]
        
        self.array = new_array
        self.capacity = new_capacity
    
    def get(self, index):
        if 0 <= index < self.size:
            return self.array[index]
        raise IndexError("Индекс вне допустимого диапазона")
    
    def set(self, index, element):
        if 0 <= index < self.size:
            self.array[index] = element
        else:
            raise IndexError("Индекс вне допустимого диапазона")
    
    def remove(self, index):
        if 0 <= index < self.size:
            for i in range(index, self.size - 1):
                self.array[i] = self.array[i + 1]
            self.size -= 1
        else:
            raise IndexError("Индекс вне допустимого диапазона")
    
    def __len__(self):
        return self.size

# Пример использования
dynamic_array = DynamicArray()
for i in range(10):
    dynamic_array.append(i)
print([dynamic_array.get(i) for i in range(len(dynamic_array))])  # Выведет: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


**Теорема 4 (Об амортизированной сложности операций динамического массива):** При использовании стратегии удвоения размера при переполнении, амортизированная временная сложность операции добавления элемента в динамический массив составляет $O(1)$.

**Доказательство:** Рассмотрим последовательность из $n$ операций добавления элемента в изначально пустой динамический массив с начальной ёмкостью 1. Пусть $c_i$ — стоимость $i$-й операции. Если $i$-я операция не требует изменения размера массива, то $c_i = 1$. Если требуется изменение размера, то $c_i = i$ (копирование $i-1$ элементов и добавление нового).

Изменение размера происходит при $i = 2^k$ для $k = 0, 1, 2, ..., \lfloor \log_2 n \rfloor$. Общая стоимость всех операций:

$\sum_{i=1}^{n} c_i = n + \sum_{k=0}^{\lfloor \log_2 n \rfloor} 2^k = n + (2^{\lfloor \log_2 n \rfloor + 1} - 1) < n + 2n = 3n$

Таким образом, амортизированная стоимость одной операции составляет $\frac{3n}{n} = 3 = O(1)$. ■


### Связные списки

**Определение:** Связный список — это структура данных, представляющая собой последовательность элементов, в которой каждый элемент содержит данные и ссылку (или ссылки) на следующий (и/или предыдущий) элемент списка.

Формально, односвязный список можно определить как кортеж $L = (V, next)$, где $V$ — множество узлов, а $next: V \rightarrow V \cup \{\text{null}\}$ — функция, сопоставляющая каждому узлу следующий узел или специальное значение null для последнего узла.

**Виды связных списков:**
1. Односвязный список — каждый узел содержит ссылку на следующий узел.
2. Двусвязный список — каждый узел содержит ссылки на следующий и предыдущий узлы.
3. Кольцевой список — последний узел содержит ссылку на первый узел.

**Пример реализации односвязного списка:**


In [None]:
class Node:
    def __init__(self, data):
        self.data = data
        self.next = None

class LinkedList:
    def __init__(self):
        self.head = None
        self.size = 0
    
    def append(self, data):
        new_node = Node(data)
        if not self.head:
            self.head = new_node
        else:
            current = self.head
            while current.next:
                current = current.next
            current.next = new_node
        self.size += 1
    
    def prepend(self, data):
        new_node = Node(data)
        new_node.next = self.head
        self.head = new_node
        self.size += 1
    
    def delete(self, data):
        if not self.head:
            return
        
        if self.head.data == data:
            self.head = self.head.next
            self.size -= 1
            return
        
        current = self.head
        while current.next and current.next.data != data:
            current = current.next
        
        if current.next:
            current.next = current.next.next
            self.size -= 1
    
    def search(self, data):
        current = self.head
        while current:
            if current.data == data:
                return True
            current = current.next
        return False
    
    def __len__(self):
        return self.size
    
    def __str__(self):
        values = []
        current = self.head
        while current:
            values.append(str(current.data))
            current = current.next
        return ' -> '.join(values)

# Пример использования
linked_list = LinkedList()
linked_list.append(1)
linked_list.append(2)
linked_list.prepend(0)
print(linked_list)  # Выведет: 0 -> 1 -> 2
linked_list.delete(1)
print(linked_list)  # Выведет: 0 -> 2
print(linked_list.search(2))  # Выведет: True


**Теорема 5 (О сравнении массивов и связных списков):** Пусть $A$ — массив, а $L$ — связный список, оба содержащие $n$ элементов. Тогда:

1. Доступ к $i$-му элементу в $A$ выполняется за $O(1)$, а в $L$ — за $O(i)$.
2. Вставка элемента в начало $A$ выполняется за $O(n)$, а в $L$ — за $O(1)$.
3. Удаление элемента из начала $A$ выполняется за $O(n)$, а из $L$ — за $O(1)$.

**Доказательство:**
1. В массиве $A$ адрес $i$-го элемента вычисляется как $\text{base} + i \cdot \text{size}$, где $\text{base}$ — базовый адрес массива, а $\text{size}$ — размер одного элемента. Это требует $O(1)$ операций. В связном списке $L$ для доступа к $i$-му элементу необходимо пройти по ссылкам от начала списка, что требует $i$ операций, т.е. $O(i)$.

2. Для вставки элемента в начало массива $A$ необходимо сдвинуть все существующие элементы на одну позицию вправо, что требует $n$ операций, т.е. $O(n)$. В связном списке $L$ достаточно создать новый узел и изменить ссылку head, что требует $O(1)$ операций.

3. Аналогично, для удаления элемента из начала массива $A$ необходимо сдвинуть все оставшиеся элементы на одну позицию влево, что требует $O(n)$ операций. В связном списке $L$ достаточно изменить ссылку head, что требует $O(1)$ операций. ■


### Стеки и очереди

**Определение (Стек):** Стек — это абстрактный тип данных, представляющий собой список элементов, организованных по принципу LIFO (Last In, First Out — последним пришёл, первым вышел).

**Определение (Очередь):** Очередь — это абстрактный тип данных, представляющий собой список элементов, организованных по принципу FIFO (First In, First Out — первым пришёл, первым вышел).

**Основные операции стека:**
- push(x) — добавить элемент x на вершину стека
- pop() — удалить и вернуть элемент с вершины стека
- top() — вернуть элемент с вершины стека без удаления
- isEmpty() — проверить, пуст ли стек

**Основные операции очереди:**
- enqueue(x) — добавить элемент x в конец очереди
- dequeue() — удалить и вернуть элемент из начала очереди
- front() — вернуть элемент из начала очереди без удаления
- isEmpty() — проверить, пуста ли очередь

**Пример реализации очереди:**


In [None]:
class Queue:
    def __init__(self):
        self.items = []
    
    def enqueue(self, item):
        self.items.append(item)
    
    def dequeue(self):
        if not self.is_empty():
            return self.items.pop(0)
        raise IndexError("Попытка извлечения из пустой очереди")
    
    def front(self):
        if not self.is_empty():
            return self.items[0]
        raise IndexError("Попытка доступа к началу пустой очереди")
    
    def is_empty(self):
        return len(self.items) == 0
    
    def size(self):
        return len(self.items)

# Пример использования
queue = Queue()
queue.enqueue(1)
queue.enqueue(2)
queue.enqueue(3)
print(queue.front())  # Выведет: 1
print(queue.dequeue())  # Выведет: 1
print(queue.front())  # Выведет: 2


**Теорема 6 (О реализации стека и очереди):** Стек и очередь могут быть реализованы с использованием как массива, так и связного списка, с временной сложностью $O(1)$ для всех основных операций.

**Доказательство:**
1. **Стек на основе массива:** Операции push и pop выполняются с конца массива, что требует $O(1)$ операций. Операция top также требует $O(1)$ операций для доступа к последнему элементу массива.

2. **Стек на основе связного списка:** Операции push и pop выполняются с начала списка, что требует $O(1)$ операций. Операция top также требует $O(1)$ операций для доступа к первому элементу списка.

3. **Очередь на основе массива с круговым буфером:** При использовании двух указателей (на начало и конец очереди) и кругового буфера, операции enqueue и dequeue требуют $O(1)$ операций.

4. **Очередь на основе связного списка:** При хранении указателей на начало и конец списка, операции enqueue и dequeue требуют $O(1)$ операций.

Таким образом, и стек, и очередь могут быть реализованы с временной сложностью $O(1)$ для всех основных операций. ■


## Заключение

В данном введении мы рассмотрели основные понятия теории структур данных, включая определение и классификацию структур данных, абстрактные типы данных, методы анализа эффективности и базовые структуры данных (массивы, связные списки, стеки и очереди).

Структуры данных играют фундаментальную роль в компьютерных науках, обеспечивая эффективное хранение и обработку данных. Выбор подходящей структуры данных для конкретной задачи может существенно повлиять на производительность алгоритма.

В последующих разделах мы рассмотрим более сложные структуры данных, такие как деревья, графы, хеш-таблицы и другие, а также алгоритмы для работы с ними.