### Занятие 2 - ирисы Фишера (продолжение)
#### Регрессионный анализ

Продолжаем работать с набором данных по ирисам.  
Выберим один вид - *Iris setosa* Pall. ex Link 
<div align="center">    
<img src = 'https://static.inaturalist.org/photos/42186034/original.jpg?1560741530' width = 400 px><br>  
    <i>Фотография с лиценцией CC0 из iNaturalist</i>  
    </div>   

Используя глобальные ресурсы о биоразноооразии, можно увидеть, где этот вид встречается:  
[находки *Iris setosa* в GBIF](https://www.gbif.org/species/5298796)  
[наблюдения *Iris setosa* в iNaturalist](https://www.inaturalist.org/taxa/164134-Iris-setosa)

Теперь построим  регрессию  зависимость длины наружной доли околоцветника (***sepal length***) от ширины внутренной доли (***petal width***). 

Регрессионный анализ является широко используемым статистическим методом для установлении модели отношений между двумя переменными.  
Одна переменная называется предиктором (или независимой переменной), вторая - откликом (зависимой переменной или переменной ответа).   
Не всегда точно известно что от чего зависит, тоэтому регрессионных анализ можно использовать для обнаружения переменных, которые могут влиять на интересующий признак.   
В линейной регрессии две переменные связаны через уравнение, где показатель (степень) обеих переменных равен 1 и график уравнения представляет прямую. 

Для начала выберем данные по одному виду и только с нужными параметрами

In [None]:
setosa=iris[iris$Species=='setosa',c(4,1)]
setosa

После чего построим простой график - точечную диаграмму или график рассеяния (scatter plot),    
на котором увидим значения в двумерном пространстве "Ширина внутренней доли - Ширина наружной".  
Попробуйте изменить параметры графика, например, значок (pch), его размер и цвет (col и bg).  
Чтобы вызвать справку по данной функции, надо выполнить команду "? plot"



In [None]:
plot(setosa,
     pch=23, col='darkorchid4', bg='darkorchid1',     
     las=1, # ориентация значений по осям
     xlab='Ширина внутренней доли околоцветника, см', ylab='Длина нажурной доли околоцветника, см', # подписи осей
     main='Iris setosa',font.main=4 # заголовок графика курсивом
     )

Визуализация значений анализируемых переменных всегда полезна, так как уже этот предварительный этап даёт представление о том, выражена ли взаимосвязь между значениями переменных или не особо. 

***Простая линейная регрессия*** имеет формулу: `у = a + bx`  
в которой ширина внутренней доли околоцветника (***petal width***) будет предиктором (независимая переменная) - x ,  
длина наружной доли околоцветника (***sepal length***) будет откликом (зависимая переменная) - y

далее происходит вычисление модели и отображение её свойств

In [None]:
res=lm(setosa$Sepal.Length ~ setosa$Petal.Width) # зависимость первой переменной (sepal length) от второй (petal width)
summary(res) # результаты регрессионного анализа

Среди полученых значений находим:  
Intercept - это ***a*** (свободный член) в формуле регрессии: 4.78, это значение также называется *пересечение* (регрессионной прямой) и показывает предсказанное значение (У) когда предиктор (X) равен 0 
и ***b*** - это угловой коэффициент (или коэффициент регрессии) для предиктора (setosa$Petal.Width):  0.93, показывает на какое значение изменяется отклик, при изменении предиктора на 1 

Если нужны только коэффициенты, то можно воспользоваться следующей функцией

In [None]:
coefficients(res)

В результате можно составить формулу: `y = 4.78 + 0.93 * x` или   
`длина наружной доли = 4.78 + 0.93 * ширина внутренней доли` или  
`Sepal.Length = 4.78 + 0.93 * Petal.Width`

При этом по значению `Pr(>|t|)` ясно, что коэффициент регрессии значимо отличается от нуля (p < 0.001), то есть связь между переменными есть.  
Но при этом значение `Multiple R-squared` или множественного коэффициента детерминации означает, что полученная регрессионная модель объясняет только 7.7% дисперсии зависимой переменной, что очень мало.

Теперь визуализируем полученное уравнение,   
вместе с предыдущим графиком

In [None]:
x1 = min(setosa$Petal.Width)
x2 = max(setosa$Petal.Width)
y1 = 4.78 + x1 * 0.93
y2 = 4.78 + x2 * 0.93

plot(setosa,
     pch=23, col='darkorchid4', bg='darkorchid1',     
     las=1, # ориентация значений по осям
     xlab='Ширина внутренней доли околоцветника, см', ylab='Длина нажурной доли околоцветника, см', # подписи осей
     main='Iris setosa',font.main=4 # заголовок графика курсивом
     )
lines(c(x1, x2), c(y1, y2))
text(0.4, 4.3, labels='Sepal.Length = 4.78 + 0.93 * Petal.Width')

Важным свойством регрессии является распределение ***остатков*** (residuals).  
Это разница между наблюдаемыми и предсказанными значениями зависимой переменной.  
Собственно процесс вычисления линейной регрессионной модели заключается в минимизации суммы квадратов остатков (МНК - метод наименьших квадратов).

In [None]:
res$residuals
plot(res$residuals)
hist(res$residuals)

в результате видим, что остатки распределены не хаотично, т.е. линейная регрессия не очень хорошо объясняет наши данные

проверим остатки на нормальность распределения

In [None]:
shapiro.test(res$residuals)

Значение **p** больше 0.05, значит остатки следуют нормальному распределению.

Можно следать вывод, что несмотря на то, что зависимость длины наружной доли околоцветника от ширины внутренней для вида *Iris setosa* Pall. ex Link выявлена со статистической значимостью, ...

**Задание**: проведите регрессионный анализ взаимосвязи этих же переменных для другого вида ирисов (*Iris versicolor* L. или *Iris virginica* L.) или других переменных для того же вида

#### Дисперсионный анализ
Теперь посмотрим как различаются виды ирисов между собой по одному из признаков - ширине наружной доли околоцветника - ***sepal width***.    
Сначала построим ящиковую диаграмму.

In [None]:
boxplot(iris$Sepal.Width~iris$Species,
        las=1,
        xlab='Виды ирисов', ylab='Ширина наружной доли околоцветника, см',
        col=c('dodgerblue3','hotpink2','orange2')
        )

Как можно увидеть на графике - различия есть, при этом наиболее отличаются виды *I. setosa* и *I. versicolor*

Чтобы подтвердить или опровергнуть это предположение, проведем однофакторный дисперсионный анализ


In [None]:
summary(aov(iris$Sepal.Width~iris$Species))

Из результатов (p < 0.000) видно, что среди трех видов ирисов есть статистически значимые различия по ширине наружной доли околоцветника.
Теперь нужно выяснить, между какими парами есть различия.
Для этого используем post-hoc критерий Тьюки и визуализируем результат

In [None]:
plot(TukeyHSD (aov(iris$Sepal.Width~iris$Species)))

Видим, что все пары значимо различаются, т.к. ни один отрезок не пересекает 0

**Задание:** тепеть попробуйте проделать то же самое с тремя другими признаками: длина наружной доли, ширина и длина внутренней

#### МНОГОМЕРНЫЕ МЕТОДЫ
Далее перейдем к ординации.
Для этого установим необходимые пакеты (процесс может занять какое-то время)

In [None]:
install.packages('factoextra')
install.packages('rlang')

In [None]:
library('rlang')
library('factoextra')

создаем переменную, в которую записываем данные для ординации

In [None]:
data.iris=iris[,c(1:4)]

In [None]:
head(data.iris)

pca - анализ главных компонент

In [None]:
res.pca=prcomp(data.iris, scale=TRUE)

смотрим на результаты
диаграмма с собственными числами
она показывает, сколько процентов вариации объясняет каждая ось

In [None]:
fviz_eig(res.pca)

построим биплот, на котором покажем и объекты (отдельные растения ирисов) и переменные (измеренные у отдельных растений)

In [None]:
fviz_pca_biplot(res.pca, repel = TRUE,
                label='var', # подписываем только переменные
                col.var = "magenta", # цвет подписей переменных
                col.ind=iris[,5],palette='jco', # цвет объектов
                title='Fishers Iris: PCA', # заголовок
                addEllipses = TRUE, # добавляем эллипсы
                legend.title='Species' # заголовок легенды
)

Results for Variables

In [None]:
res.var <- get_pca_var(res.pca)
res.var$coord          # Coordinates
res.var$contrib        # Contributions to the PCs
res.var$cos2           # Quality of representation 

Results for individuals

In [None]:

res.ind <- get_pca_ind(res.pca)
res.ind$coord          # Coordinates
res.ind$contrib        # Contributions to the PCs
res.ind$cos2           # Quality of representation 