
# Конспект: Теория графов, алгоритмы и использование в ML/DL

**Содержимое:**

1. Краткое введение в теорию графов — основные понятия.
2. Основные алгоритмы на графах и их практическое применение (краткие выжимки).
3. Использование графов в ML/DL: графовые модели и сети (GCN, GAT, GraphSAGE и пр.).
4. Практика: реализация класса `DecisionTree` (CART) для дальнейшего использования в RandomForest и Gradient Boosting.



> Формат: Jupyter Notebook с текстом, схемами/кодом и примерами использования.



## 1. Основные понятия теории графов

- **Граф** — набор вершин (nodes) и ребер (edges).
- **Ориентированный/неориентированный граф** — ребра имеют направление или нет.
- **Взвешенный граф** — ребра имеют веса (cost, distance, capacity).
- **Степень вершины (degree)** — число инцидентных ребер (для ориентированного — in-degree и out-degree).
- **Путь, простй путь, цикл, простой цикл**.
- **Компонента связности** — связная часть графа.
- **Дерево** — связный ациклический граф. Для дерева на N вершинах всегда N-1 ребер.
- **Лес** — набор деревьев.
- **Корень дерева, листья, уровень, глубина**.
- **Матрицы представления:** матрица смежности, матрица инцидентности, список смежности.



## 2. Основные алгоритмы на графах (выжимка)

Ниже — краткое описание алгоритмов и их практического применения.

### Поиск и обход
- **BFS (Breadth-First Search)**: поиск в ширину, находит кратчайшие пути в невзвешенных графах (применение: поиск по уровням, расстояние в соц. сетях, маршрутизация, проверка связности).
- **DFS (Depth-First Search)**: поиск в глубину, используется для топологической сортировки, обнаружения циклов, поиска компонент связности в ориентированных графах (с применением транспонированного графа — алгоритм Косараджу/Тарьяна для SCC).

### Кратчайшие пути
- **Dijkstra**: для неотрицательных весов, эффективно с кучей (priority queue). Применение: маршрутизация (GPS), планирование маршрутов, сетевая маршрутизация.
- **Bellman-Ford**: корректен при отрицательных ребрах, обнаруживает отрицательные циклы. Применение: модели экономических зависимостей, некоторые разновидности оптимизаций.
- **A\***: эвристический поиск, использует функцию оценки f = g + h; широко применяется в pathfinding (игры, робототехника).

### Остовные деревья (Minimum Spanning Tree)
- **Kruskal**: сортировка ребер + DSU (union-find). Применение: проектирование сетей (минимальная длина кабелей), кластеризация (agglomerative).
- **Prim**: растущий алгоритм, часто используется для плотных графов.

### Потоки в сетях
- **Edmonds-Karp / Ford-Fulkerson / Dinic**: максимальный поток, минимальный разрез. Применение: задачи распределения ресурсов, маршрутизация с ограничениями, вычисление пропускной способности.

### Другие важные
- **Топологическая сортировка** — для ориентированных ациклических графов (DAG); применение: планирование задач, разрешение зависимостей, сборка проектов.
- **Алгоритмы для SCC (Tarjan, Kosaraju)** — обнаружение сильно связных компонент.
- **PageRank** — ранжирование узлов (по ссылочной структуре), широко применяется в поисковых системах и анализе важности узлов в сетях.
- **Алгоритмы на графах для динамических/потоковых данных** — approximate / streaming algorithms (например, для больших социальных графов).

### Практическое применение (кейсы)
- Социальные сети: рекомендации, поиск сообществ, влияние (centrality) — алгоритмы обхода, PageRank, community detection (Louvain, Girvan-Newman).
- Транспорт и логистика: кратчайшие пути, оптимальные маршруты, пропускная способность дорог/сетей.
- Биология: анализ взаимодействий белков (PPI), метаболические сети — поиск кластеров, классификация узлов.
- Сети и телеком — маршрутизация, оптимизация трафика, отказоустойчивость.
- Компиляция/билд-системы — DAG, топологическая сортировка.
- Рекомендательные системы — графовые фичи и модели переходов.



## 3. Графы в ML/DL — основные идеи и модели

### Почему графы в ML важны?
- Данные часто имеют структуру связей: соц. сети, молекулы (атома — вершины, связи — ребра), знания (knowledge graphs), дорожные сети.
- Графовые подходы учитывают локальную структуру и зависимости между объектами.

### Основные задачи
- **Node classification** — классификация вершин (например, предсказание роли/типа в графе).
- **Link prediction** — предсказание появления ребра между вершинами (рекомендации, предсказание взаимодействий).
- **Graph classification** — классификация целого графа (например, токсичность молекулы).
- **Graph regression** — регрессия по графам (энергия молекулы).

### Популярные архитектуры (конспект)
- **GCN (Graph Convolutional Network)** — сверточный слой на графе (Kipf & Welling). Успешно применялись для node classification и semi-supervised learning.
- **GraphSAGE** — агрегация соседей (sample and aggregate) для работы с большими графами.
- **GAT (Graph Attention Network)** — attention-механизм между соседями, улучшает агрегацию взвешенных вкладов соседей.
- **Message Passing Neural Networks (MPNN)** — обобщённая схема, в которой узлы обмениваются сообщениями и обновляют состояния.
- **Graph Transformers / Graphormer** — transformer-подобные архитектуры, адаптированные под графы (актуальная тема с сильными результатами в некоторых задачах).
- **Graph Autoencoders / Variational GAE** — для встраивания вершин и задач link prediction.

### Успешность применений (кратко)
- GNNs дают значительный прирост на задачах, где структура графа критична: биоинформатика (включая предсказание взаимодействий и свойств молекул), социальная аналитика, системы рекомендаций (в комбинации с другими методами).
- Ограничения: трудности с выражением дальних зависимостей в больших графах (over-smoothing), масштабируемость и чувствительность к качеству графа и меток.
- Для реальных промышленных систем часто комбинируют графовые встраивания с классическими ML-фичами и используют методы масштабирования (GraphSAGE, sampling, mini-batching, Cluster-GCN).



## 4. Практическая часть — `DecisionTree` (CART) для классификации и регрессии

Задача: реализовать класс дерева решений, который можно переиспользовать как базовую модель в RandomForest и Gradient Boosting.
Требования к реализации (минимум):
- Поддержка задач классификации (критерий Gini или Entropy) и регрессии (MSE).
- Параметры: max_depth, min_samples_split, min_samples_leaf, max_features (опционально).
- Простая реализация разбиений для числовых признаков (threshold по значениям).
- Методы `fit(X, y)`, `predict(X)` и `predict_proba(X)` (для классификации).
- Чистый Python, понятный код и несколько примеров использования.


In [None]:

# Imports for examples and tests
import numpy as np
import math
from collections import Counter, defaultdict
import matplotlib.pyplot as plt
import networkx as nx
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, mean_squared_error


In [None]:

# Пример: рисуем маленький взвешенный граф для иллюстрации
G = nx.Graph()
G.add_weighted_edges_from([('A','B',2), ('A','C',1), ('B','C',4), ('C','D',3), ('B','D',5)])
pos = nx.spring_layout(G, seed=42)
plt.figure(figsize=(5,4))
nx.draw(G, pos, with_labels=True, node_size=600)
labels = nx.get_edge_attributes(G,'weight')
nx.draw_networkx_edge_labels(G, pos, edge_labels=labels)
plt.title('Пример взвешенного графа')
plt.show()


In [None]:

class DecisionTree:
    """
    Простая реализация CART-дерева для задач классификации и регрессии.

    Параметры:
    - task: 'classification' или 'regression'
    - max_depth, min_samples_split, min_samples_leaf, max_features (None или int/float)
    - criterion: 'gini' / 'entropy' (for classification) or 'mse' for regression
    """
    def __init__(self, task='classification', max_depth=6, min_samples_split=2, min_samples_leaf=1,
                 max_features=None, criterion=None):
        self.task = task
        self.max_depth = max_depth
        self.min_samples_split = min_samples_split
        self.min_samples_leaf = min_samples_leaf
        self.max_features = max_features
        if criterion is None:
            if task == 'classification':
                self.criterion = 'gini'
            else:
                self.criterion = 'mse'
        else:
            self.criterion = criterion
        self.root = None

    class Node:
        def __init__(self, *, feature=None, threshold=None, left=None, right=None, value=None, proba=None):
            self.feature = feature
            self.threshold = threshold
            self.left = left
            self.right = right
            self.value = value  # prediction at leaf (class or regression value)
            self.proba = proba  # for classification: class distribution at leaf

    def _gini(self, y):
        m = len(y)
        if m == 0: return 0.0
        counts = Counter(y)
        return 1.0 - sum((c/m)**2 for c in counts.values())

    def _entropy(self, y):
        m = len(y)
        if m == 0: return 0.0
        counts = Counter(y)
        ent = 0.0
        for c in counts.values():
            p = c/m
            if p > 0:
                ent -= p * math.log2(p)
        return ent

    def _mse(self, y):
        if len(y) == 0: return 0.0
        mu = sum(y)/len(y)
        return sum((yy-mu)**2 for yy in y) / len(y)

    def _impurity(self, y):
        if self.task == 'classification':
            if self.criterion == 'gini':
                return self._gini(y)
            else:
                return self._entropy(y)
        else:
            return self._mse(y)

    def _best_split(self, X, y):
        # returns (feature, threshold, best_gain, left_idx, right_idx)
        m, n = X.shape
        if m < self.min_samples_split:
            return None
        parent_impurity = self._impurity(y)
        best_gain = 0.0
        best_feat = None
        best_thresh = None
        best_left_idx = None
        best_right_idx = None

        feat_indices = list(range(n))
        if self.max_features is not None:
            if isinstance(self.max_features, float):
                k = max(1, int(self.max_features * n))
            else:
                k = int(self.max_features)
            np.random.shuffle(feat_indices)
            feat_indices = feat_indices[:k]

        for feat in feat_indices:
            vals = X[:, feat]
            # consider unique sorted thresholds (midpoints)
            uniq = np.unique(vals)
            if len(uniq) == 1:
                continue
            thresholds = (uniq[:-1] + uniq[1:]) / 2.0
            for thresh in thresholds:
                left_mask = vals <= thresh
                right_mask = ~left_mask
                if left_mask.sum() < self.min_samples_leaf or right_mask.sum() < self.min_samples_leaf:
                    continue
                y_left = y[left_mask]
                y_right = y[right_mask]
                w_left = len(y_left) / m
                w_right = 1 - w_left
                impurity_left = self._impurity(y_left)
                impurity_right = self._impurity(y_right)
                gain = parent_impurity - (w_left * impurity_left + w_right * impurity_right)
                if gain > best_gain:
                    best_gain = gain
                    best_feat = feat
                    best_thresh = thresh
                    best_left_idx = left_mask
                    best_right_idx = right_mask

        if best_feat is None:
            return None
        return best_feat, best_thresh, best_gain, best_left_idx, best_right_idx

    def _make_leaf(self, y):
        if self.task == 'classification':
            counts = Counter(y)
            total = len(y)
            proba = {k: v/total for k,v in counts.items()}
            # choose most common class as value
            value = counts.most_common(1)[0][0]
            return self.Node(value=value, proba=proba)
        else:
            value = float(sum(y)/len(y))
            return self.Node(value=value, proba=None)

    def _build(self, X, y, depth=0):
        # stopping criteria
        if depth >= self.max_depth or len(y) < self.min_samples_split or len(set(y)) == 1:
            return self._make_leaf(y)
        split = self._best_split(X, y)
        if split is None:
            return self._make_leaf(y)
        feat, thresh, gain, left_mask, right_mask = split
        left = self._build(X[left_mask], y[left_mask], depth+1)
        right = self._build(X[right_mask], y[right_mask], depth+1)
        return self.Node(feature=feat, threshold=thresh, left=left, right=right, value=None)

    def fit(self, X, y):
        X = np.asarray(X)
        y = np.asarray(y)
        # For classification, convert string labels to ints if needed
        if self.task == 'classification':
            self._classes = list(np.unique(y))
            # map to integers for internal handling
            self._label_to_int = {c:i for i,c in enumerate(self._classes)}
            self._int_to_label = {i:c for c,i in self._label_to_int.items()}
            y_mapped = np.array([self._label_to_int[v] for v in y])
            self.root = self._build(X, y_mapped, depth=0)
        else:
            self.root = self._build(X, y.astype(float), depth=0)
        return self

    def _predict_one(self, x, node):
        if node.value is not None:
            return node.value, node.proba
        if x[node.feature] <= node.threshold:
            return self._predict_one(x, node.left)
        else:
            return self._predict_one(x, node.right)

    def predict(self, X):
        X = np.asarray(X)
        preds = []
        for x in X:
            val, proba = self._predict_one(x, self.root)
            if self.task == 'classification':
                # val is int label
                return_label = self._int_to_label[val]
                preds.append(return_label)
            else:
                preds.append(val)
        return np.array(preds)

    def predict_proba(self, X):
        if self.task != 'classification':
            raise ValueError('predict_proba is only for classification')
        X = np.asarray(X)
        out = []
        for x in X:
            val, proba = self._predict_one(x, self.root)
            # convert proba dict with integer keys to original labels and vector
            vec = {self._int_to_label[k]: v for k,v in (proba or {}).items()}
            out.append(vec)
        return out


In [None]:

# Тест: классификация на Iris
iris = datasets.load_iris()
X = iris.data
y = iris.target  # already numeric labels 0,1,2
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
dt = DecisionTree(task='classification', max_depth=5, min_samples_split=2)
dt.fit(X_train, y_train)
y_pred = dt.predict(X_test)
print('Iris accuracy (simple DecisionTree):', accuracy_score(y_test, y_pred))

# Тест: регрессия на Diabetes
diabetes = datasets.load_diabetes()
X = diabetes.data
y = diabetes.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
dt_reg = DecisionTree(task='regression', max_depth=6, min_samples_split=5)
dt_reg.fit(X_train, y_train)
y_pred_reg = dt_reg.predict(X_test)
print('Diabetes MSE (simple DecisionTree):', mean_squared_error(y_test, y_pred_reg))



---

### Что вы получили в этом ноутбуке
- Краткий теоретический конспект по основам теории графов и популярным алгоритмам.
- Краткая сводка по графовым методам в ML/DL и их практическим применениям.
- Практическая реализация простого CART-дерева решений для классификации и регрессии, тесты на sklearn-данных.

---

Если хочешь, я могу:
- Добавить объяснительные диаграммы (развёрнутые схемы алгоритмов: Dijkstra, Kruskal, GCN flow) как встраиваемые изображения.
- Улучшить DecisionTree (поддержка категориальных признаков, ветвления по информационному приросту с энтропией, оптимизации скорости, компрессии узлов).
- Реализовать RandomForest поверх этого дерева и простой GB (градиентный бустинг) на его основе.
