Дисперсия — это мера того, насколько данные разбросаны вокруг их среднего значения в одномерном или многомерном пространстве. Чуть ниже вы увидите наглядный пример. Фактически дисперсия — один из важнейших показателей в машинном обучении. Она захватывает обобщенные закономерности в данных, а машинное обучение прежде всего ориентировано на распознавание закономерностей.
В основе многих алгоритмов машинного обучения лежит дисперсия в той или иной форме. Например, подбор правильного соотношения систематической ошибки и дисперсии — хорошо известная задача в машинном обучении: хитроумные модели машинного обучения подвержены риску переобучения (высокая дисперсия), но очень точно отражают обучающие данные (маленькая систематическая ошибка). С другой стороны, простые модели часто хорошо обобщаются (низкая дисперсия), но плохо отражают данные (большая систематическая ошибка).
По мере старения многие инвесторы стремятся сократить общий риск своего инвестиционного портфеля. Согласно доминирующей философии инвестиций, следует стремиться к акциям с более низкой дисперсией как менее рискованным инвестиционным активам. Проще говоря, риск потерять деньги будет ниже при инвестициях в стабильную, предсказуемую, крупную компанию, чем при вложениях в маленький технологический стартап.

In [1]:
import numpy as np 
## Данные (строки: акции / столбцы: курсы акций)
X = np.array([[25,27,29,30],
[1,5,3,2],
[12,11,8,3],
[1,1,2,2],
[2,6,2,2]])

min_row = min([(i, np.var(X[i,:])) for i in range(len(X))], key=lambda x:x[1])
print("Row with minimum variance: " + str(min_row[0]))
print("Variance: " + str(min_row[1]))


Row with minimum variance: 3
Variance: 0.25


In [24]:
var = np.var(X, axis=1)
min_row = (np.where(var==min(var)), min(var))
print("Var with minimum variance: " + str(var[0]))
print("Row with minimum variance: " + str(min_row[1]))

Var with minimum variance: 3.6875
Row with minimum variance: 0.25
