## Линейные модели

Уравнение прямой
 $$ y = ax+b $$
 
 Он же:
 - полином первой степени
 - многочлен с двумя членами
 - система линейных уравнений с одним неизвестным

Задачи лекции:
- обобщить уравнение прямой на случай нескольких неизвестных (вектора)
- свести изученные статистические методы к линейной форме
- дать понятие об обобщенных линейных моделях (привиденных)

О линейных моделях упоминают, чтобы отличить от нелинейных.

Большинство статистических моделей линейны.

**Мнемоника 1** - если в уравнении нет возведений в степень, то модель линейная.

**Мнемоника 2** - если нас интересует только среднее, то модель линейная.

Пример: расчет оценки за четверть

### Уравнение среднего


$$ G = \frac{g_1 + g_2 + g_3}{3} $$



### Уравнение среднего


$$ G = \frac{1}{3}g_1 + \frac{1}{3}g_2 + \frac{1}{3}g_3 $$



### Уравнение среднего

$$ G = \frac{1}{3}g_1 + \frac{1}{3}g_2 + \frac{2}{3}g_{control} $$


### Уравнение среднего

<span style="color:red">
$$ G = \frac{1}{3}g_1 + \frac{1}{3}g_2 + \frac{2}{3}g_{control} $$
</span>

У отличника максимум $$\frac{4}{3} > 100\%$$

### Уравнение среднего


$$ G = w_1 g_1 + w_2 g_2 + w_3 g_{control}, \ \ w_1 = w_2 , \ w_3 = 2 w_1$$



$$ w_1 + w_2 + w_3 = 1$$

$$ w_1 = w_2 = 0.25 ,  w_3 = 0.5 $$

### Коэффициенты

- веса, weights, множители, w, k

<b class=tag>средневзвешенная оценка</b>

### Пути усложнения:
- добавить переменных
- убрать требование, чтобы сумма коэффициентов равнялась 1.0
- преобразовать переменные с помощью заданной функции

## Погрешность измерений

***Статистическая погрешность*** связана с разбросом значений, которые получаются в эксперименте после серии измерений.

***Систематическая погрешность*** характеризует несовершенство самого измерительного инструмента или методики обработки данных, а точнее, недостаточное знание того, насколько «сбоит» инструмент или методика. Обычно в показаниях прибора уже исключена.

***Теоретическая/модельная погрешность*** — это неопределенность результата измерения, которая возникла потому, что методика обработки данных была сложная и в чем-то опиралась на теоретические предположения или результаты моделирования, которые тоже несовершенны. Характерна для физических или молекулярных моделей. Обычно включена в систематическую.

###  Редукция до линейной модели

1. Убрать избыточность
    - убрать шум
    - убрать ошибки
    - убрать дублирование данных (редукция размерности)
2. Найти максимальный разброс (variation)
    - метод главных компонент (PCA)
3. Оценить связи между показателями (корреляционный анализ)

## Effect size - размер эффекта при сравнении средних

Подход 1 - нормализованная разница

$$d = \frac{\mu_1 - \mu_2} \sigma,$$

| Эффект  |  d 
-|-
| Очень маленький |  0.01  
| Маленький       |   0.20 
| Средний         |   0.50 
| Большой         |   0.80 
| Очень большой   |  1.20  
| Огромный        |  2.0    

Cohen, 1988, Sawilowsky, 2009

![](Cohens_d_4panel.png)

### Подход 2 -  % объясненной вариации


Effect size| $\eta^2$
-|-
    Small | 0.01
    Medium| 0.059
    Large | 0.138

(Cohen, 1988) 

$R^2$ - оценка качества регрессионной модели.

## Системы линейных уравнений

Система линейных уравнений от трёх переменных определяет набор плоскостей. Точка пересечения является решением.

Если у кого-то плохое пространственное воображение - это не помешает решать сложные многомерные задачи. Все что требуетя - представление данных в табличке.

### OLS Ordinary least squares

$x_i$ | $y$
-|-
независимые переменные | зависимая переменная
features, характеристики | классовая принадлежность
факторы | результат
предиктор (предсказатель) | отклик (response)
измерения (dimensions) | интегральная характеристика

### Допущение об аддитивности

*Аддитивность* означает, что влияние изменений в одном показателе на общий отклик не зависит от значений других показателей.

Иными словами, предполагается несущественное взаимное влияния факторов.

### Корреляционная матрица

почти всегда есть ковариация

может быть влияние третьего неучтенного фактора (confound factor)

<b class=tag>confounding </b>

#### проблемы

1. Non-Linearity of the response-predictor relationships.
1. Correlation of the error terms.
1. Non-constant variance of error terms.
1. Outliers.
1. High -leverage points.
1. Multicollinearity.

http://nbviewer.jupyter.org/gist/RMDK/38aea576c3eda34b03a1

Взаимное влияние факторов $x_1$ и $x_2$?

- еще одно слагаемое в виде произведения факторов  $x_1 \cdot x_2$.

Если фактор $x_1$ сам себя усиливает? 

Например, больше ест -> больше силы -> больше спаривается -> тратит больше энергии -> больше ест

- еще одно слагаемое в виде произведения $x_1 \cdot x_1$.

### Хитрый Прием. Добавление показателей

Новые показатели в виде разных комбинаций имеющихся показателей дают возможность более гибких моделей.

Если взаимного влияния нет - коэффициент 0 исключит этот показатель.

### Пример. Окружность

## Обобщенные линейные модели

- Аппарат линейных моделей хорошо разработан.
- Просто и быстро обсчитываются на компьютере.
- Понятно визуализируются (интерпретируются).

#### НО:
- Не все процессы линейные (почти все нелинейные).

Исходно допустимо предположение (допущение), что данные распределены нормально (Gaussian distriduted)

### MANOVA
MANOVA - (англ. multivariate analysis of variance) - расширение ANOVA для случаев, когда в эксперименте набраны наблюдения нескольких типов и есть подозрения, что эти типы наблюдений как-то связаны между собой (скоррелированы).

### Пример. Аллометрия

>*Аллометрия* - (алло- + греч. metron мера) неравномерный рост отдельных частей тела.
<cite data-cite="">Большой медицинский словарь. 2000.</cite>

Аллометрию регистрируют, сравнивая организмы разного размера. 

### Пример. Аллометрия

По охвату выборки можно выделить такие формы аллометрии:

- *онтогенетическая аллометрия*, прослеживаемая в ходе онтогенеза особи или устанавливаемая при сравнении разновозрастных особей одного вида;
- *внутривидовая аллометрия*, обнаруживаемая при сравнении взрослых особей;
- *межвидовая аллометрия*, выявляемая при сравнении средних значений исследуемого признака, характерных для разных видов, принадлежащих к одной группе;
- *эволюционная аллометрия* — межвидовая аллометрия в ходе филогенеза.

### Аллометрические уравнения

$$ x_2 = ax_1^b$$

где $x$ — сравниваемые параметры, $a$ и $b$ — некоторые коэффициенты.

$$ \ln x_2 = \ln a + b \ln x_1 $$

### Логарифмирование

- Чтобы охватить большой диапазон данных, которые варьируют больше, чем на порядок.
- Чтобы преобразовать степенную зависимость в линейную.

### Пример. Росто-весовой коэффициент

Модель: вес прибавляется пропорционально квадрату прибавки роста 



### Пример. Коэффициент энцефализации

![](Brain_and_body_masses.png)


О. Снелл в 1891 году опубликовал известную работу о сравнении интеллекта различных видов животных.

Snell 0., Das Gewicht des Gehirnes und der Hirnmantels der Saugethiere in Beziehung zu deren geistigen Fähigkeiten, Sitzungsberichte der Gesellschafl für Morphologie und Physiologie in München, 7, 90-—94, 1891.

### Пример. Квартет Энскомба

![full](anscombe.png)


| Характеристика | $x$ | $y$
|:|-|
|Среднее значение | 9.0 | 7.5
|Дисперсия | 11.000 | 4.125
|Корреляция <td colspan=2> 0.816</td>
|Линия регрессия <td colspan=2> $ y = 3 + 0.5x $</td>

https://en.wikipedia.org/wiki/Anscombe's_quartet

3-й и 4-й наборы - примеры пагубного влияния выбросов.

2-й набор - образец квадратичной функции - параболы. 

## Выбросы: удалять или пристально изучать?

![](https://www.researchgate.net/profile/Tetsu_Sato/publication/45508576/figure/fig3/AS:277081624727554@1443072815210/Figure-5-a-Allometry-for-SSD-inconsistent-with-Rensch's-rule-in-L-callipterus-The.png)

(a) Allometry for SSD inconsistent with Rensch's rule in L . callipterus . The light line illustrates an isometric line (y=x), and the solid line represents the slope of the RMA regression of log (male size) on log (female size) across all the populations except Rumonge. 10 10 The linear relationship was broken when Rumonge (a blank circle) was included ( F =1.41, P >0.28), suggesting that Rumonge was out 1,5 of the allometric relationship. (b) Shell size well explained the interpopulation variation in SSD. A line represents a linear regression line across all the populations except Rumonge. The relationship was violated when Rumonge was included ( F =1.33, P >0.30). 1,5 

[Ota K., Kohda M., Sato T. Unusual allometry for sexual size dimorphism in a cichlid where males are extremely larger than females //Journal of Biosciences. – 2010. – Т. 35. – №. 2. – С. 257-265.](http://link.springer.com/article/10.1007/s12038-010-0030-6)

![](https://www.researchgate.net/profile/Tetsu_Sato/publication/45508576/figure/fig1/AS:277081620533258@1443072815003/Figure-1-Pictures-of-Lamprologus-callipterus-in-the-wild-a-A-pair-in-Wonzye-Point.png)

Pictures of Lamprologus callipterus in the wild. (a) A pair in Wonzye Point. The larger individual is a nest male. (b) He defends a clump of the shells (i.e. nest). (c) A female provides care for her brood in a shell. 

[Ota K., Kohda M., Sato T. Unusual allometry for sexual size dimorphism in a cichlid where males are extremely larger than females //Journal of Biosciences. – 2010. – Т. 35. – №. 2. – С. 257-265.](http://link.springer.com/article/10.1007/s12038-010-0030-6)

## Анализ главных компонент 

На практике часто возникает задача анализа данных большой размерности. Метод анализ главных компонент позволяет решить эту задачу за счет уменьшения общего числа переменных.

<b class=tag>редукция данных</b>

для того, чтобы получить «главные» и «некоррелирующие» переменные;
  – классификация переменных и наблюдений, при помощи строящегося факторного пространства.

Метод имеет сходство с факторным анализом в постановочной части решаемых задач, но имеет ряд существенных отличий:
   – при анализе главных компонент не используются итеративные методы для извлечения факторов;
   – наряду с активными переменными и наблюдениями, используемыми для извлечения главных компонент, можно задать вспомогательные переменные и/или наблюдения; затем вспомогательные переменные и наблюдения проектируются на факторное пространство, вычисленное на основе активных переменных и наблюдений;
   – перечисленные возможности позволяют использовать метод как мощное средство для классификации одновременно переменных и наблюдений.

Решение основной задачи метода достигается созданием векторного пространства латентных (скрытых) переменных (факторов) с размерностью меньше исходной. Исходная размерность определяется числом переменных для анализа в исходных данных.

Главный компонент - ось, совокупное расстояние до которой минимально.

![](PCA_rotation.png)

## Редукция размерности

![Примеры избыточной размерности](dimred1.png)

Данные предположительно лежат на d-мерном подпространстве

Оси этих подпространств, показанные красным, эффективно представляют данные

Минимальная размерность данных - ранг матрицы

Что такое ранг матрицы A?
    : Количество линейно незавимых столбцов A
    
Геометрически данные находятся в пространстве меньшей размерности - **базис**, но базис повернут так, что представление данных избыточно за счет использования дополнительных координат - **надстройка**

Данное направление активно развивалось в 60-х годах 20-го века. "Физикам" открывались невиданные горизонты использования методов линейной алгебры.
Стали применятся на практике уже давно доказанные теоремы о возможности сингулярного разложения матриц, о дискриминантах, о Гильбертовых пространствах, о неравенстве Фробениуса и о равенстве Парсеваля.

В 80-х были разработаны эффективные компьютерные библиотеки для решения задач линейной алгебры, например LAPACK.

В 00-х годах эти методы доступны во всех языках программирования примерно со сходной эффективностью. Но оказалось, что для манипулирования огромных массивов данных эти точные гарантированные методы слишком громоздки. Поэтому компьютерологи разрабатывают новые неточные, то эффективные методы для обращения с матрицами, в которых сотни миллионов строк и столбцов.

![thumb](dimred2.png)

Цель редукции размерности - обнаружение истинной оси данных!

Вместо того, чтобы представлять положение точки по двум координатам, мы может представлять положение каждой точки всего одной координатой (положение вдоль красной линии). 

При этом мы пренебрегаем небольшой ошибкой из-за того, что точки не лежат точно на данной линии.

### Зачем уменьшать размерность?


- обнаружить скрытые корреляции / кластеры

- убрать избыточные или неинформативные данные (шум)

- легче интерпретировать и визуализировать многомерные массивы

- удобнее хранить и обрабатывать большие данные

## Факторный анализ. 

*Факторный анализ* – один из наиболее популярных многомерных статистических методов. Если кластерный и дискриминантный методы классифицируют наблюдения, разделяя их на группы однородности, то факторный анализ классифицирует признаки (переменные), описывающие наблюдения. Поэтому главная цель факторного анализа – сокращение числа переменных на основе классификация переменных и определения структуры взаимосвязей между ними. Сокращение достигается путем выделения скрытых (латентных) общих факторов, объясняющих связи между наблюдаемыми признаками объекта, т.е. вместо исходного набора переменных появится возможность анализировать данные по выделенным факторам, число которых значительно меньше исходного числа взаимосвязанных переменных.

## Singular Value Decomposition

- Классическое SVD
- Ненегативное двойное - Nonnegative Double Singular Value Decomposition (NNDSVD) [Boutsidis2007]

## Matrix Factorization Methods¶

-        BD - Bayesian nonnegative matrix factorization Gibbs sampler [Schmidt2009]
-        BMF - Binary matrix factorization [Zhang2007]
-        ICM - Iterated conditional modes nonnegative matrix factorization [Schmidt2009]
-        LFNMF - Fisher nonnegative matrix factorization for learning local features [Wang2004], [Li2001]
-        LSNMF - Alternating nonnegative least squares matrix factorization using projected gradient method for subproblems [Lin2007]
-        NMF - Standard nonnegative matrix factorization with Euclidean / Kullback-Leibler update equations and Frobenius / divergence / connectivity cost functions [Lee2001], [Brunet2004]
-        NSNMF - Nonsmooth nonnegative matrix factorization [Montano2006]
-        PMF - Probabilistic nonnegative matrix factorization [Laurberg2008], [Hansen2008]
-        PSMF - Probabilistic sparse matrix factorization [Dueck2005], [Dueck2004], [Srebro2001], [Li2007]
-        SNMF - Sparse nonnegative matrix factorization based on alternating nonnegativity constrained least squares [Park2007]
-        SNMNMF - Sparse network-regularized multiple nonnegative matrix factorization [Zhang2011]
-        PMFCC - Penalized Matrix Factorization for Constrained Clustering [FWang2008]

http://nimfa.biolab.si/index.html


## ICA Independent Component Analysis

Наглядно разделение компонентов показано на 
[страничке разработчиков FastICA](http://research.ics.aalto.fi/ica/icademo/)

### &copy;

Brain_and_body_masses.png Автор: AdmiralHood - собственная работа, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=34938309