# Лист для самопроверки перед сдачей работ по линейным моделям

Предположим, что Вы выполняете работы "Сравнение выборок" и "Сравнение регрессионных моделей" на основании данных, полученных в приложении "Баланс внимания" (именно на основании этих данных приводятся примеры кода для демонстрации приемов обработки данных). 
Пояснения к пунктам самопроверки подразумевают, что Вы освоили все материалы с образцами кода и выбрали самый экономный по усилиям вариант (использование высокоуровневых библиотек, для таблиц - pandas, рисунков - seaborn, стат.анализа - statsmodels).

За что снимаются баллы от исходных 10:

- -2 использованы чужие данные
- -3 использованы чужие формулировки комментариев и выводов
- -1 за каждую логическую ошибку (несоответствие заявленной и выполненной операции, неправильный вывод)
- -5 отчет без обработки (Например, отчет в формате DOCX со скриншотами из приложения и статистическим анализом во внешнем приложении (сайте или Excel), при этом всё грамотно и с описанием выполненных шагов.)
- -3 не выполнена задача работы (не выполнено само сравнение с правильным выводом), притом что обоснованы причины неудачи.

За что начисляются бонусные баллы:
- +1 - данные из из собственного научного проекта.
- +1 - выполнены расширенные этапы анализа (проверка нормальности, подбор и [сравнение параметров нестандартных распределений](https://sherdim.github.io/mame/i_retivo.html))

Эти две работы основаны на одном наборе данных, поэтому начинаются сходным образом. Однако, дальнейшие этапы обработки отличаются, и выводы должны отвечать на главный вопрос, содержащийся в названии.

## 1. Задана логическая структура блокнота

Обычно блокнот начинают с заголовка первого уровня (один знак # в начале ячейки Markdown). Из заголовка должно быть понятно какая работа выполнялась.
Также созданы подзаголовки второго уровня по пунктам [требований к работе](https://sherdim.github.io/mame/w_granada.html#id3). Например, Указание на источник, Визуализация, Статистические расчеты.

## 2. Проведен импорт библиотек

Если мы рассмотриваем вариант работы с высокоуровневыми библиотеками, то образец кода можно взять в Task_balatte_condition. Для порядка все импорты библиотек собирают в начале блокнота.

In [1]:
%pylab inline
import pandas as pd
import seaborn as sns
from scipy import stats

Populating the interactive namespace from numpy and matplotlib


## 3. Описан источник данных

Дано понятное описание источника данных, приведена ссылка. Если данные нестандартные (чужие, несколько источников и т.д.), то приведено обоснование.

Сама загрузка данных сопровождается выводом с проверкой содержания загруженного массива. Можно пояснить в каких переменных какие данные содержатся по итогу загрузки.

Пример загрузки в одну строчку - в [Task_balatte](Task_balatte.ipynb)
Прямую ссылку на данные в формате TSV можно получить скопировав ссылку на иконке со значком Excel ![изображение.png](attachment:4e918f72-54da-4c2d-b558-226eb70755d1.png). Для вызова контекстного меню нажмите [Shift-Правая кнопка мыши] и выберите "Копировать ссылку".
Сама ссылка отличается от адреса страницы лишь добавлением ".tsv" после слова "result"

    Адрес страницы: http://balatte.stireac.com/result/emiliyamukina%40yandex.ru/UP6__4145445840150916
    Ссылка на TSV:  http://balatte.stireac.com/result.tsv/emiliyamukina%40yandex.ru/UP6__4145445840150916 

Если pandas импортирована как pd, то для вызова методов загрузки данных надо использовать эту переменную.

Поскольку мы уже знаем, что данные - это время стимула и время реакции, то для оценки объема выборки можем отложить все значения в двух координатах. (код берем из  Task_balatte, можем выбросить линию тренда)

Если вставляете рисунок - прокомментируйте количество и расположение точек. Если не хотите комментировать - не вставляйте рисунок (удалите код построение рисунка).

In [None]:
#код загрузки данных
D = pd.read_table('http://balatte.stireac.com/result.tsv/...')

#код построение рисунка
figsize(15,5);
plot(D.t, D.v, 'go')
grid()
xlabel('...')  # задайте подписи
ylabel('ВР, с')
title('Исходные данные');

## 4. Обосновано разделение выборки на группы
В Task_dataset_rt подробно описана работа с индексами (позициями в массиве, которые обозначают границы между группами в ряду значений).

Однако, если вы знаете состав данных (например, что всего 48 значений - и половина из них зрительные реакции, а оставшихся - слуховые), то можете непосредственно задать индекс (индекс считают от 0). Такой пример есть в [Task_dataset_rt](Task_dataset_rt.ipynb).

In [None]:
D['isi']=D.t.diff() 

iA=(D.isi.diff()>5).argmax()  #сохраняем позицию, где условие истинно.
iA

# создадим колонку с одним значением v - visual
D['mod']='v'
# значение после найденого индекса заменим на 'a' - audial
D.loc[iA:, 'mod'] = 'a'
D.tail()

## 5. Приведен рисунок эмпирического сравнения распределений

В колонке mod теперь есть признак модальности. Можно сравнить две подвыборки реакций - на стимулы разных модальностей. Перед расчетом статистики полезно визуализировать распределения значений в подвыборках.

> попробуйте разные форматы и оставьте наиболее понравившийся. Как задать свои цвета см. [Task_balatte_condition](Task_balatte_condition.ipynb)

    kind='violin'
    kind='boxen'
    kind='strip'
    
После рисунка сделан вывод о наличии различий "на глаз".

In [None]:
sns.catplot(x='mod', y='v', data=D, kind='box');

## 5b. Приведен рисунок эмпирического сравнения линий тренда

В колонке isi теперь есть значение межстимульного интервала (МСИ). Можно построить и сравнить два тренда зависимости ВР от МСИ.

Скатерограммы с наложенными линиями мы строили при изучении правила Ренча.

> Попробуйте поменять шкалу МСИ на логарифмическую (logx=False на logx=True). В каком случае линия тренда ближе к эмпирическим значениям?

> Подробнее о построении линейной модели см. [Task_modeline_trend](Task_modeline_trend.ipynb).

После рисунка сделан вывод о наличии различий "на глаз".

In [None]:
sns.lmplot(x='isi', y='v', data=D, hue='mod', logx=False);

## 6. Посчитан статистический критерий различий между группами

Простейший случай - сравнение средних двух выборок на основании анализа вариаций. Вариационный анализ для двух выборок также известен как тест Стьюдента.
Варианты выполнения в блокноте [Task_balatte_condition](Task_balatte_condition.ipynb).

Сделана оценка значимости различий по критерию - p < 0.05.

In [None]:
g = D.groupby(['mod'])
g['v'].count()

In [None]:
M=g.v.mean()
S=g.v.std()
N=g.v.count()

p = stats.ttest_ind_from_stats(M[0],S[0],N[0], M[1],S[1],N[1]).pvalue
p

## 6b. Посчитан показатель R2

Формулы приведены в [информации к практической работе](https://sherdim.github.io/mame/w_modeline.html#id4).

> Расскомментируйте код и убедитесь, что обе формулы дают одинаковый результат.

> Также можете сравнить качество детерминации линейной модели для МСИ и для логарифма МСИ (заменить поле D1.isi вместо D1.log2isi)

Сделан вывод по сравнению коэффициентов детерминации для разных модальностей. (Чем ближе значение коэффициента к 1, тем сильнее выражена зависимость.)

In [None]:
D['log2isi'] = log2(D.isi)

for mod in ['v','a']:
    D1 = g.get_group(mod).dropna()
    vv = D1.v
    xx = D1.log2isi
    p = polyfit(xx, vv, 1)
    yy = polyval(p, xx)
    R2 = 1 - (var(yy-vv)/var(vv))
    print(f'{mod}: R2={R2:.5f}')
#     R2 = corrcoef(D1.log2isi, D1.v)[0,1]**2
#     print(f'{mod}: R2={R2:.5f}')

## 7. Сделан вывод в соответствии с рекомендациями

Отделите вывод подзаголовком, например кодом Markdown:

```markdown
## Вывод
```

Рекомендации по выводам на страницах заданий [w_granada](https://sherdim.github.io/mame/w_granada.html) и [w_modeline](https://sherdim.github.io/mame/w_modeline.html).

## 8. Удалено всё лишнее

Перед сдачей прочитайте еще раз: исправьте ошибки, уберите инструкции, уберите временные ячейки с просмотром переменных и пр.
Отчет должен быть аккуратным, логичным.

## 9. Файл сохранен

Загрузите файл кнопкой ![изображение.png](attachment:75067105-30f0-46fa-b78d-fa0fa8063253.png) - он сохранится в Загрузки.
Оттуда можно загрузить его в Личные файлы на СКИФ и, если готов к сдаче - в качестве ответа на задание.