Предыдущая глава заложила основу для понимания векторов и базовых
операций на векторах. Теперь вы расширите горизонты своих знаний в об-
ласти линейной алгебры, познакомившись с набором взаимосвязанных
понятий, включая линейную независимость, подпространства и базисы.
Каждая из этих тем имеет решающее значение для понимания операций
на матрицах.
Возможно, некоторые из представленных здесь тем покажутся абстракт-
ными и оторванными от приложений, но между ними существует очень ко-
роткий путь, например векторные подпространства и подгонка статисти-
ческих моделей к данным. Приложения в области науки о данных появятся
позже, поэтому, пожалуйста, продолжайте концентрировать свое внимание
на основах, чтобы продвинутые темы было легче понять.

### Множества векторов

В линейной алгебре **множество векторов** — это набор векторов, которые могут быть проанализированы на линейную зависимость, образовывать базис, порождать подпространство или определять размерность пространства.

#### **Множество векторов в Data Science**
В контексте Data Science векторы чаще всего представляют объекты в многомерном пространстве признаков. Например:

- **Признаковые векторы (Feature Vectors)** — векторы, представляющие данные в модели машинного обучения (например, вектор признаков пользователя: возраст, пол, доход, интересы).
- **Словесные представления (Word Embeddings)** — векторы, кодирующие смысл слов (например, Word2Vec, GloVe).
- **Глубинные представления (Deep Representations)** — векторы, полученные из нейросетей, которые кодируют сложные признаки данных (например, представления изображений или текстов).
- **Кластеризация (Clustering)** — анализ множества векторов для выявления схожих групп (например, метод k-means).
- **Пространственное сокращение (Dimensionality Reduction)** — преобразование множества векторов для уменьшения размерности (например, PCA, t-SNE, UMAP).

#### **Формальные свойства множества векторов**
- **Линейная зависимость/независимость** — важно при выборе базиса.
- **Линейное подпространство** — множество векторов может порождать подпространство в многомерном пространстве.
- **Размерность** — число линейно независимых векторов в множестве.
- **Ортонормированность** — полезно для оптимизации вычислений.

#### **Применение в Data Science**
1. **Обучение моделей**: векторное представление данных упрощает работу алгоритмов (например, логистическая регрессия, нейронные сети).
2. **Рекомендательные системы**: многомерные векторы предпочтений пользователей помогают находить схожие объекты.
3. **Поиск аномалий**: выявление выбросов среди множества векторов (например, метод локального фактора выброса — LOF).
4. **Обработка изображений**: каждый пиксель или участок изображения представляется вектором, а фильтры нейросетей извлекают из них признаки.

Таким образом, **множество векторов — это основа представления данных в Data Science**, и работа с ним позволяет находить закономерности, обучать модели и принимать решения на основе многомерных признаков.

### Линейно-взвешенная комбинация

**Определение:**  
Линейно-взвешенная комбинация — это выражение вида:  

$v = \alpha_1 v_1 + \alpha_2 v_2 + \dots + \alpha_n v_n$

где:  
- \$ v_1, v_2, ..., v_n \$ — исходные векторы,  
- \$ \alpha_1, \alpha_2, ..., \alpha_n \$ — скалярные коэффициенты (веса),  
- \$ v \$ — результирующий вектор.  

В Data Science и ML эта концепция встречается повсюду, поскольку многие модели представляют собой линейные комбинации признаков, параметров или базисных функций.

---

#### **Применение в Data Science и ML**  

##### **1. Линейная регрессия**  
В **линейной регрессии** предсказание \( y \) получается как линейно-взвешенная комбинация признаков:  

$y = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b$

где:  
- $ x_i $ — признаки объекта,  
- $ w_i $ — веса модели,  
- $ b $ — свободный член.  

Алгоритм обучения подбирает веса \( w \), минимизируя ошибку.

🔹 **Пример**: предсказание цены дома по площади, количеству комнат и расположению.

---

##### **2. Градиентный спуск и обновление весов**  
При обучении моделей **градиентный спуск** использует линейные комбинации для корректировки параметров:  

$w^{(t+1)} = w^{(t)} - \eta \cdot \nabla L$

где:  
- $ \eta $ — скорость обучения,  
- $ \nabla L $ — градиент функции потерь.  

Каждое обновление — это взвешенная сумма предыдущего значения \( w \) и изменения в сторону уменьшения ошибки.

---

##### **3. PCA (анализ главных компонент)**  
**Метод главных компонент** (PCA) проецирует данные на новые оси, представляя их в виде **линейных комбинаций** исходных признаков.  


$z_i = \sum_{j=1}^{n} \alpha_j x_j$

где:  
- \$ z_i \$ — новая главная компонента,  
- \$ \alpha_j \$ — коэффициенты проекции,  
- \$ x_j \$ — исходные признаки.  

🔹 **Пример**: уменьшение размерности данных перед кластеризацией.

---

##### **4. Нейронные сети (веса слоев)**  
В **нейронных сетях** выход нейрона — это линейная комбинация входных значений с весами, к которой применяется нелинейная функция активации:  

$z = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b$

$a = \sigma(z)$

где \$ \sigma \$ — активационная функция.  

🔹 **Пример**: сверточные нейросети используют линейные комбинации пикселей изображения для извлечения признаков.

---

##### **5. Ансамбли моделей (Bagging, Boosting, Stacking)**  
Методы ансамблей строят итоговый предсказатель как линейно-взвешенную комбинацию ответов базовых моделей.  

- **Bagging (например, Random Forest)**: простое усреднение прогнозов нескольких деревьев.  
- **Boosting (например, XGBoost, LightGBM)**: суммирование предсказаний слабых моделей с разными весами.  
- **Stacking**: метамодель комбинирует выходы нескольких моделей.  

🔹 **Пример**: XGBoost использует взвешенную сумму деревьев решений.

---

#### **Вывод**  
Линейно-взвешенная комбинация — это базовый инструмент Data Science, который используется в:
✅ Регрессиях и нейросетях  
✅ Оптимизации моделей (градиентный спуск)  
✅ Уменьшении размерности (PCA)  
✅ Ансамблях моделей (Boosting, Stacking)  

Она помогает агрегировать информацию, находить зависимости в данных и строить мощные предсказательные модели. 🚀

### Линейная независимость

#### **Определение**  
Множество векторов $ v_1, v_2, ..., v_n $ векторного пространства называют **линейно независимым**, если единственное решение уравнения  

$$
\alpha_1 v_1 + \alpha_2 v_2 + ... + \alpha_n v_n = 0
$$

это $ \alpha_1 = \alpha_2 = ... = \alpha_n = 0 $, то есть единственная возможность составить нулевой вектор — это взять все коэффициенты равными нулю.  

Если хотя бы один вектор выражается через линейную комбинацию других, то множество **линейно зависимо**.

---

#### **Применение в Data Science и машинном обучении**  

##### **1. Выбор информативных признаков (Feature Selection)**  
В задачах машинного обучения **избыточные или коррелированные признаки** приводят к переобучению и усложняют модель.  

🔹 **Пример**:  
Допустим, у нас есть датасет с признаками:  
- `площадь_квартиры`
- `количество_комнат`
- `цена`
- `цена_за_кв_метр`  

$$
\text{цена\_за\_кв\_метр} = \frac{\text{цена}}{\text{площадь\_квартиры}}
$$

Этот признак **линейно зависим** от `цены` и `площади_квартиры`, поэтому его можно удалить.  

✅ **Методы для устранения линейной зависимости**:  
- **Метод главных компонент (PCA)** — заменяет исходные коррелированные признаки на **линейно независимые компоненты**.  
- **Методы отбора признаков (Feature Selection)** — удаляют сильно коррелированные признаки (например, на основе коэффициента корреляции или VIF — Variance Inflation Factor).  

---

##### **2. Обратимость матриц (для оптимизации моделей)**  
В линейной регрессии коэффициенты модели находятся по формуле:  

$$
w = (X^T X)^{-1} X^T y
$$

Если матрица $ X^T X $ **вырожденная** (необратимая), то это означает, что **признаки линейно зависимы**, и модель не может найти уникальные коэффициенты.  

🔹 **Как исправить**:  
- **Добавить регуляризацию** (L2-регуляризация в Ridge Regression решает проблему).  
- **Удалить зависимые признаки** или использовать PCA.  

---

##### **3. Улучшение работы нейросетей**  
Линейно зависимые признаки могут **замедлять обучение** нейросетей, так как избыточная информация усложняет градиентный спуск.  

✅ **Решения**:  
- Нормализация и стандартизация данных.  
- Удаление сильно коррелированных признаков.  
- Использование **слоёв уменьшения размерности** (например, Bottleneck Layers в автоэнкодерах).  

---

##### **4. Кластеризация и расстояния между объектами**  
В задачах **кластеризации (k-means, DBSCAN)** или **поиска ближайших соседей (KNN)** важно, чтобы признаки были **размерно-значимыми** и независимыми.  

Если признаки линейно зависимы, то расстояния между объектами могут **искажаться**, и алгоритмы дают некорректные кластеры.  

✅ **Решения**:  
- PCA или Autoencoders для уменьшения размерности.  
- Проверка корреляции перед обучением модели.  

---

#### **Вывод**  
Линейная независимость — ключевой концепт в Data Science и ML:  
✅ Помогает выбирать информативные признаки.  
✅ Обеспечивает стабильность моделей (регрессии, нейросетей).  
✅ Улучшает вычислительную эффективность (ускоряет обучение).  
✅ Делает модели более интерпретируемыми.  

Перед обучением модели **проверяй признаки на зависимость** и используй методы уменьшения размерности, если это необходимо! 🚀

### Подпространство и охват

[Ссылка на 3blue1brown](https://www.youtube.com/watch?v=k7RM-ot2NWY&ab_channel=3Blue1Brown)

#### **Что такое подпространство?**  
Пусть есть векторное пространство $ V $. Его **подпространством** называется подмножество $ W \subseteq V $, которое само является векторным пространством, то есть удовлетворяет условиям:  
1. Если $ u, v \in W $, то их сумма $ u + v \in W $ (замкнутость относительно сложения).  
2. Если $ u \in W $ и $\alpha$ — скаляр, то $ \alpha u \in W $ (замкнутость относительно умножения на число).  

🔹 **Пример**:  
- В трехмерном пространстве $ \mathbb{R}^3 $ любое **двумерное** подпространство — это **плоскость**, проходящая через начало координат.  
- В ML множество всех **линейных комбинаций** признаков образует подпространство исходного пространства данных.  

---

#### **Что такое охват (Span)?**  
Пусть есть набор векторов $ v_1, v_2, ..., v_n $. Их **охват (span)** — это множество всех возможных линейных комбинаций этих векторов:  

$$
\text{Span}(v_1, v_2, ..., v_n) = \left\{ \alpha_1 v_1 + \alpha_2 v_2 + ... + \alpha_n v_n \mid \alpha_i \in \mathbb{R} \right\}
$$

🔹 **Пример**:  
- Если взять векторы $ (1,0) $ и $ (0,1) $ в $ \mathbb{R}^2 $, их **охват** — вся плоскость $ \mathbb{R}^2 $.  
- Если взять один вектор $ (1,1) $, его **охват** — прямая вдоль этого вектора.  

---
#### **В чем разница между подпространством и охватом?**  
Многих студентов смущает разница между охватом и подпространством. И это понятно,
потому что данные понятия тесно связаны и нередко относятся к одному и тому же. Я объясню разницу между ними, но не придавайте значения тонкостям – охват и подпространство так часто относятся к идентичным математическим объектам, что использовать эти термины взаимозаменяемо, как правило, совершенно правильно.

Я нахожу, что термин охват лучше использовать в глагольной форме, а термин подпространство – разумеется, как существительное, и это помогает понять их различие: **множество векторов** охватывает, и результатом охвата является **подпространство**. 

Теперь учтите, что подпространство может быть меньшей частью большего пространства. 

Подытоживая все сказанное: **охват – это механизм создания подпространства**. (С другой стороны, при использовании охвата в качестве существительного охват и подпространство относятся к одному и тому же бесконечному множеству векторов.)

---

#### **Применение в Data Science и ML**  

##### **1. PCA (Метод главных компонент) и снижение размерности**  
В **анализе главных компонент (PCA)** мы ищем **подпространство** меньшей размерности, которое **наилучшим образом описывает** данные.  

Алгоритм PCA:  
1. Вычисляет **направления (компоненты)**, вдоль которых данные имеют наибольшую дисперсию.  
2. Проецирует точки на новое подпространство, сокращая число признаков.  

Если исходные данные лежат в пространстве $ \mathbb{R}^{100} $, а основные направления дисперсии можно описать 10-ю компонентами, то PCA **уменьшает размерность** с 100 до 10.  

🔹 **Пример**: Уменьшение размерности изображений для ускорения работы нейросетей.  

---

##### **2. Линейная регрессия и пространство решений**  
В **линейной регрессии** предсказания модели находятся как линейная комбинация признаков:  

$$
\hat{y} = w_1 x_1 + w_2 x_2 + ... + w_n x_n + b
$$

Значения $ \hat{y} $ принадлежат подпространству, натянутому на признаки $ x_1, x_2, ..., x_n $.  

Если **признаки линейно зависимы**, то они описывают **то же самое подпространство**, что приводит к проблемам с решением уравнений.  

✅ **Решение**:  
- Удаление избыточных признаков (Feature Selection).  
- Регуляризация (L2-регуляризация в Ridge Regression).  

---

##### **3. Пространство весов в нейронных сетях**  
В **глубоком обучении** параметры модели образуют **векторное пространство весов**. Обучение сети — это **поиск оптимальной точки** в этом пространстве.  

Если нейросеть содержит **избыточные слои или нейроны**, веса могут стать **линейно зависимыми**, что приводит к переобучению.  

✅ **Решение**:  
- Использование **дропаута (Dropout)**.  
- Добавление L1/L2-регуляризации.  
- Глубокие архитектуры с BottleNeck-слоями.  

---

##### **4. Ансамбли моделей и пространства решений**  
Ансамбли (Bagging, Boosting, Stacking) работают лучше, если отдельные модели дают **разные решения** (то есть принадлежат разным подпространствам гипотез).  

Если все модели в ансамбле имеют схожую структуру и обучаются на одинаковых данных, их охват будет **ограничен одним подпространством**, и ансамбль не даст прироста точности.  

✅ **Решение**:  
- Использование **разных алгоритмов** (например, комбинация деревьев решений и линейных моделей).  
- Внесение разнообразия через **разные выборки** данных (Bagging).  

---

#### **Вывод**  
🔹 **Подпространство и охват** важны в ML, потому что:  
✅ Позволяют **уменьшать размерность** данных (PCA, Autoencoders).  
✅ Показывают, когда признаки **избыточны** и мешают обучению модели.  
✅ Объясняют, как работают ансамбли и регуляризация.  

Перед обучением моделей **проверяй данные на линейную зависимость** и используй методы уменьшения размерности, если это нужно! 🚀

### Базис

#### **Определение**  
Пусть есть векторное пространство $ V $. Его **базисом** называется такой набор линейно независимых векторов $ v_1, v_2, ..., v_n $, что любой вектор $ v \in V $ можно представить в виде их **линейной комбинации**:  

$$
v = \alpha_1 v_1 + \alpha_2 v_2 + ... + \alpha_n v_n
$$

Коэффициенты $ \alpha_1, \alpha_2, ..., \alpha_n $ называются **координатами вектора в этом базисе**.  

Число векторов в базисе называется **размерностью пространства**.  

🔹 **Примеры базисов**:  
- **Стандартный базис в $ \mathbb{R}^2 $**: $ e_1 = (1,0) $, $ e_2 = (0,1) $.  
- **Любая ортогональная система векторов** (например, главные компоненты в PCA).  

---

#### **Применение базиса в Data Science и ML**  

##### **1. PCA (Метод главных компонент) и новые базисы**  
В **PCA (анализе главных компонент)** мы заменяем исходный базис (признаки) на **новый базис**, натянутый на **главные компоненты**.  

Алгоритм:  
1. Находим **собственные векторы** матрицы ковариаций — они образуют **новый базис**.  
2. Проецируем данные в этот базис, оставляя только **наиболее значимые направления**.  

🔹 **Пример**:  
Допустим, у нас есть 100 признаков, но их можно выразить через 10 главных компонент. Тогда мы заменяем исходный базис 100-мерного пространства на 10-мерный **оптимальный базис**.  

✅ **Выигрыш**:  
- Уменьшается **размерность данных**.  
- Ускоряется **обучение моделей**.  

---

##### **2. Линейная регрессия и выбор правильного базиса**  
В линейной регрессии мы представляем целевую переменную как **линейную комбинацию признаков**:  

$$
\hat{y} = w_1 x_1 + w_2 x_2 + ... + w_n x_n
$$

Если признаки **линейно зависимы**, они **образуют плохой базис**, что делает матрицу $ X^T X $ необратимой.  

✅ **Решение**:  
- Удаление зависимых признаков (Feature Selection).  
- Использование регуляризации (L2-регуляризация Ridge Regression).  

---

##### **3. Нейросети и представление данных в новых базисах**  
Глубокие нейросети **автоматически находят новый базис** для данных.  

🔹 **Как это работает?**  
- Первые слои выделяют **базовые признаки** (градиенты, края, текстуры).  
- Глубокие слои строят **высокоуровневый базис**, приближая его к **идеальному** для задачи (например, для распознавания лиц).  

✅ **Выигрыш**:  
- **Автоэнкодеры** находят новый базис для сжатого представления данных.  
- **Transformer-модели** создают базис, оптимальный для обработки последовательностей.  

---

##### **4. One-Hot Encoding как выбор базиса**  
В категориальных данных **one-hot encoding** превращает категориальные признаки в **базисные векторы**.  

🔹 **Пример**:  
Допустим, у нас есть три категории: {Кошка, Собака, Лиса}. Их one-hot представление:  
- Кошка: $ (1,0,0) $  
- Собака: $ (0,1,0) $  
- Лиса: $ (0,0,1) $  

Эти векторы **образуют стандартный базис** в трехмерном пространстве.  

✅ **Выигрыш**:  
- Удобное представление категорий для линейных моделей.  
- Улучшение работы алгоритмов, работающих с расстояниями (KNN, SVM).  

---

##### **Вывод**  
🔹 **Базис — ключевая концепция в ML**:  
✅ Позволяет **уменьшать размерность** данных (PCA, автоэнкодеры).  
✅ Улучшает **устойчивость моделей** (убираем линейно зависимые признаки).  
✅ Используется для **кодирования данных** (one-hot encoding).  

Перед обучением модели **оцени базис признаков** — возможно, можно перейти в **лучшее пространство** для решения задачи!

### Резюме

#### Множество векторов
В линейной алгебре **множество векторов** — это набор векторов, которые могут быть проанализированы на линейную зависимость, образовывать базис, порождать подпространство или определять размерность пространства.

##### **Множество векторов в Data Science**
В контексте Data Science векторы чаще всего представляют объекты в многомерном пространстве признаков. Например:

- **Признаковые векторы (Feature Vectors)** — векторы, представляющие данные в модели машинного обучения (например, вектор признаков пользователя: возраст, пол, доход, интересы).
- **Словесные представления (Word Embeddings)** — векторы, кодирующие смысл слов (например, Word2Vec, GloVe).
- **Глубинные представления (Deep Representations)** — векторы, полученные из нейросетей, которые кодируют сложные признаки данных (например, представления изображений или текстов).
- **Кластеризация (Clustering)** — анализ множества векторов для выявления схожих групп (например, метод k-means).
- **Пространственное сокращение (Dimensionality Reduction)** — преобразование множества векторов для уменьшения размерности (например, PCA, t-SNE, UMAP).
---

#### Линейно-взвешенная комбинация 

**Определение:**  
Линейно-взвешенная комбинация — это выражение вида:  

$v = \alpha_1 v_1 + \alpha_2 v_2 + \dots + \alpha_n v_n$

где:  
- \$ v_1, v_2, ..., v_n \$ — исходные векторы,  
- \$ \alpha_1, \alpha_2, ..., \alpha_n \$ — скалярные коэффициенты (веса),  
- \$ v \$ — результирующий вектор.  

В Data Science и ML эта концепция встречается повсюду, поскольку многие модели представляют собой линейные комбинации признаков, параметров или базисных функций.

---

#### Линейная независимость

Множество векторов $ v_1, v_2, ..., v_n $ векторного пространства называют **линейно независимым**, если единственное решение уравнения  

$$
\alpha_1 v_1 + \alpha_2 v_2 + ... + \alpha_n v_n = 0
$$

это $ \alpha_1 = \alpha_2 = ... = \alpha_n = 0 $, то есть единственная возможность составить нулевой вектор — это взять все коэффициенты равными нулю.  

Если хотя бы один вектор выражается через линейную комбинацию других, то множество **линейно зависимо**.

---

#### **Что такое подпространство?**  
Пусть есть векторное пространство $ V $. Его **подпространством** называется подмножество $ W \subseteq V $, которое само является векторным пространством, то есть удовлетворяет условиям:  
1. Если $ u, v \in W $, то их сумма $ u + v \in W $ (замкнутость относительно сложения).  
2. Если $ u \in W $ и $\alpha$ — скаляр, то $ \alpha u \in W $ (замкнутость относительно умножения на число).  

🔹 **Пример**:  
- В трехмерном пространстве $ \mathbb{R}^3 $ любое **двумерное** подпространство — это **плоскость**, проходящая через начало координат.  
- В ML множество всех **линейных комбинаций** признаков образует подпространство исходного пространства данных.  

---

#### **Что такое охват (Span)?**  
Пусть есть набор векторов $ v_1, v_2, ..., v_n $. Их **охват (span)** — это множество всех возможных линейных комбинаций этих векторов:  

$$
\text{Span}(v_1, v_2, ..., v_n) = \left\{ \alpha_1 v_1 + \alpha_2 v_2 + ... + \alpha_n v_n \mid \alpha_i \in \mathbb{R} \right\}
$$

🔹 **Пример**:  
- Если взять векторы $ (1,0) $ и $ (0,1) $ в $ \mathbb{R}^2 $, их **охват** — вся плоскость $ \mathbb{R}^2 $.  
- Если взять один вектор $ (1,1) $, его **охват** — прямая вдоль этого вектора.  

---

#### Базис

Пусть есть векторное пространство $ V $. Его **базисом** называется такой набор линейно независимых векторов $ v_1, v_2, ..., v_n $, что любой вектор $ v \in V $ можно представить в виде их **линейной комбинации**:  

$$
v = \alpha_1 v_1 + \alpha_2 v_2 + ... + \alpha_n v_n
$$

Коэффициенты $ \alpha_1, \alpha_2, ..., \alpha_n $ называются **координатами вектора в этом базисе**.  

Число векторов в базисе называется **размерностью пространства**.  

🔹 **Примеры базисов**:  
- **Стандартный базис в $ \mathbb{R}^2 $**: $ e_1 = (1,0) $, $ e_2 = (0,1) $.  
- **Любая ортогональная система векторов** (например, главные компоненты в PCA).  

---

### Практика

В процессе разработки