# Автоматизация анализа данных

In 1994, Altman and Goodman suggested that the following
new statistical methods were going to play a key role in
biomedical research over coming years: (i) bootstrap (and
other computer-intensive methods); (ii) Gibbs sampler (and
other Bayesian methods); (iii) generalized additive models;
(iv) classification and regression trees (CART); (v) models
for longitudinal data (general estimating equations); (vi)
models for hierarchical data; and (vii) neural networks.
In 1997, Houwelingen likewise suggested that the future
would be marked by new biomedical applications
(in epidemiology, historical data on oncological patients
and their families; in ecology, spatial data); by new philosophies
(causal models instead of randomized clinical
trials; prediction versus prognostic modelling); new models
(graphical chain models, random effects models); new
computational facilities (with an impact on the other aspects);
new techniques (graphic techniques, exact methods, pseudo-likelihood); and new forms of collaboration
(databases for meta-analysis, Internet software, Internet
publications).
Many of the predictions made by Altman, Goodman and
Houwelingen are already a reality, and many of the new
statistical techniques they argue for have already been
applied in studies published in prestigious biomedical journals.
However, while these new methods are already being
used in biomedical research, not all are being widely used.

http://ieeexplore.ieee.org/abstract/document/7801509/


## Что является стандартом?

![](SAS-python.png)

## [IDRE UCLA](https://stats.idre.ucla.edu/other/dae/) 
> прикоснись к уходящему...

UCLA = University of California Los Angeles

На странице представлены примеры выполнения разных видов анализа.

Представлены языки
 Stata 	SAS 	SPSS 	Mplus 	R
 
Такое состояние было в 90-х и 00-х. То что популярно сейчас, мы рассмотрим далее.

Начнем с последней колонки - `R`, который вполне жизнеспособен.

## R - для статистиков

https://www.kaggle.com/kernels

R used to be the language of choice on Kaggle, but 2016 has seen Python emerge as a clear winner. Will Python maintain its constrictive grip in the coming year?

![](kagglekernels.png)



## Модули

Изучите публикацию [Lomb-Scargle Algorithms](https://jakevdp.github.io/blog/2015/06/13/lomb-scargle-in-python/)

- Сколько модулей сравнивается в публикации?
- По каким показателям сравнивается работа модулей по реализации одного и того же алгоритма?
- Какой модуль выбрали ли вы для обработки данных о сезонных колебаниях в популяциях животных?


## Модули (расширения)

Общее правило: если вы пытаетесь что-то сделать теми средствами, которые уже освоили, и получается коряво и медленно, то надо поискать другой модуль, в котором это уже реализовано.

Например, модуль `mplot3d`, входящий в `matplotlib`, поддерживает трехмерные графики - можно нарисовать точечки в трехмерном пространстве, поверхности, даже любые фигуры. Но если вы захотите сделать 3D-анимацию, где белковые структуры мембранного канала трансформируются при посадке на них лиганда, да еще чтобы вокруг в цитозоле плавали/летали другие молекулы, то теоретически у вас может получиться, но практически придется создавать новую подбиблиотеку. Поэтому лучше поискать специальный модуль, например [Mayavi](http://code.enthought.com/projects/mayavi/) или [MDTraj](http://mdtraj.org).

## Среда разработки (IDE)

#### отчет на выходе
[Jupyter] - 
Beak
#### скрипт на выходе
- [Spyder]() - привыкшим работать в MATLAB - 
- [Rodeo](https://www.yhat.com/products/rodeo) - привыкшим работать в RStudio

#### модуль на выходе (21+)

### BioPython

http://biopython.org/DIST/docs/tutorial/Tutorial.html#htoc2

Пример алгоритмической работы.

Tan ZW, Guarnera E, Berezovsky IN (2018) Exploring chromatin hierarchical organization via Markov State Modelling. PLoS Comput Biol 14(12): e1006686. https://doi.org/10.1371/journal.pcbi.1006686
https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006686


<!--[](http://www.bii.a-star.edu.sg/img/research-groups/PEBM.png)-->
![](PEBM.png)

Метод Markov State Modelling уже известен (но не студентам биофака).
Авторы предлагают применить его к сложной биологической задаче исследования структурной организации хроматина и создают a foundation for chromatin structural reconstruction and the modelling of chromatin dynamics to explore the regulation of genome function.

Алгоритмы предлагаются в виде Python package `ChromaWalker`
List of required Python libraries (versions): Numpy (1.14) Scipy (1.0) Pandas (0.22) Matplotlib (2.0)

Сделал первый автор  Zhen Wah Tan, который и написал черновик статьи.
Roles: Data curation, Formal analysis, Investigation, Software, Validation, Visualization, Writing – original draft, Writing – review & editing 
до 2015 учился на физика в США

Второй автор Enrico Guarnera (с итальянскими корнями и хирш 11): Conceptualization, Formal analysis, Investigation, Methodology, Validation, Writing – review & editing 
учился в Италии на физика, потом в Германии на биофизика, работал во Франции, Германии, США

Курирует их Igor N. Berezovsky с русскими еврейскими корнями: Conceptualization, Data curation, Formal analysis, Funding acquisition, Investigation, Methodology, Project administration, Supervision, Validation, Writing – original draft, Writing – review & editing 
https://scholar.google.com/citations?hl=en&user=zQvaeIsAAAAJ&view_op=list_works&sortby=pubdate
с хиршем 28
до 1997 учился в МИФИ, работал в Институт молекулярной биологии имени В. А. Энгельгардта РАН, Израиле, США, Норвегии, Сингапуре (с 2014)

все это происходит в лаборатории Bioinformatics Institute в Сингапуре
http://www.bii.a-star.edu.sg/research/bmad/pebm.php

социальные роли и убеждения прекрасно передает фото


## Если нет компьютера?

[![](https://mybinder.org/static/logo.svg?v=f9f0d927b67cc9dc99d788c822ca21c0)](
https://mybinder.org/)

[![thumb](https://notebooks.azure.com/content/landing-page/WindowsAzure.png)](https://notebooks.azure.com/)

[![](https://cocalc.com/static/22a44ebc294424c3ea218fba1cb7c8df.svg)](https://cocalc.com/)

[**PaizaCloud**](https://paiza.cloud/en/jupyter-notebook-online)

Is mybinder 95% of the way to next-gen computational science publishing, or only 90%?
http://ivory.idyll.org/blog/2016-mybinder.html

Обновление 2017 года, после которого стало работать стабильно
https://blog.jupyter.org/binder-2-0-a-tech-guide-2017-fd40515a3a84

Любопытные могут посмотреть публикационную активность создателя из калифорнийского университета
https://scholar.google.com/citations?user=fJmcIEIAAAAJ&hl=en



## Оптимизация кода на Python

Язык `Python` относится к *динамически прототипируемым* языкам. Это означает, что в отличие от *компилируемых* языков (статически прототипируемых) инструкции в машинных кодах для процесора, формируются в процессе выполнения. На это тратится небольшое время, но если код содержит много циклов по выполнению однотипных операций, то в результате программа работает медленнее.

Однако, модули для работы с научными данными `numpy`, `scipy`, `pandas` уже оптимизированы, и если пользоваться ими правильно, то программы на `Python` практически не уступают в скорости программам на `C` и `Fortran`.

Если вы разработали собственный алгоритм, и хотите оптимизировать его для запуска на больших объемах данных, то есть следующие подходы для оптимизации научных вычислений:

- [Ctypes](http://docs.python.org/2/library/ctypes.html): утилиты обращения к библиотекам на `C` (например, системным библиотекам Windows), включенные в стандартную установку `Python`
- [F2Py](http://cens.ioc.ee/projects/f2py2e/usersguide/): утилита вызова программ на `Fortran`, входящая в состав `NumPy`
- [Cython](http://cython.org/): модуль, осуществляющий конверсию кода на `Python` с некоторыми расширениями в код на `C`
- [Numba](http://numba.pydata.org/): модуль компиляции функций на `Python` в машинный LLVM bytecode

Некоторые причины, по которым приходится прибегать к оптимизации:
1. Иногда попытка загрузить все данные в одном массиве для использования эффективных алгоритмов векторизации  может привести к чрезмерному использованию памяти, потому что в процессе обработки используются временные массивы для хранения промежуточных результатов. Памяти может просто не хватать.
2. Ряд задач (планирование, поиск решений) требует перебора разных заранее неизвестных вариантов, поэтому алгоритмы векторизации не подходят. Такие алгоритмы древовидно разветвляются, образуют циклы и т.д. Ради подобных сложных задач и строят высокопроизводительные компьютерные кластеры.
3. Иногда у вас есть унаследованный код, который не хочется переписывать заново, поэтому вы лишь вызываете этот функционал из своего кода, но при этом хотите, чтобы программа работала быстрее.

Если скорость выполнения компилированного кода недостаточна, то прибегают к паралелльным вычислениям, то есть выполнение кода разделяют между несколькими процессорами. Это могут быть: 
- ядра внутри одного многоядерного центрального процессора (CPU)
- вычислительные узлы, объединенные в кластер
- конвееры графической карты (GPU) - самое доступное решение через платформу [CUDA](https://en.wikipedia.org/wiki/CUDA).  См. [пример использования](http://nbviewer.ipython.org/gist/harrism/f5707335f40af9463c43), дающий 2000х ускорение.

## Хэширование


снижение разнообразия данных до размера хеша

к хэшированию прибегают, когда количество данных для обработки не помещается в доступной памяти компьютера.

Для получения хэшей используют хэш-функции.

```py
def hashStr(s, tableSize= 101):
    number = ''
    for c in s:
        number = number + str(ord(c))
    index = int(number)%tableSize
    return index
```

Если данных очень много, то рано или поздно для нескольких разных значений получатся одинаковые хэши.

пакеты, куда попадают одинаковые хэши - называются корзинки (ведра, bucket)

важное требование к хеш-функции: чтобы значения распределялись по корзинкам с равной вероятностью (uniform distribution)

Компромисс: 
- если количество корзинок больше:  обработка данных быстрее и точнее,
- если количество корзинок меньше: хранение хэшей требует меньше места.

**Рекомендация**: пользуйтесь наивным алгоритмом с перебором всех вариантов, и если метод работает слишком медленно - обращаться к специалистам по добыче данных (data mining).

## Шаги по решению исследовательской задачи

Найти рецепт - встроить его в свой скрипт

Скрипт и данные выложить на хостинг данных
Пригласить экспертов для улучшения анализа - возможно новая публикация

гипотеза - набор данных - проверка

в реальном времени становится просто проверкой

sequential detection with binary hypotheses (SDBH) asks at each trial if the accumulated $π_N$ is sufficient to make a decision before collecting more samples. At trial $N$, SDBH makes a decision based on $π_N$ as follows:

$$\begin{cases} If π_N ≥ π_H, choose H1 and stop; \\
        If π_N ≤ π_L, choose Ho and stop; \\
        Otherwise, collect another sample x_{N+1},\end{cases}$$

## Deep Learing

Например:

- [Xie R. et al. A predictive model of gene expression using a deep learning framework //Bioinformatics and Biomedicine (BIBM), 2016 IEEE International Conference on. – IEEE, 2016. – С. 676-681.](http://ieeexplore.ieee.org/abstract/document/7822599/)
- Larmuseau M. Epileptic Seizure Prediction using Deep Learning. – 2016.

## Единого решения нет

В конкурсах победителям приподнятся над середнячками помогает *комплексирование моделей*.
Общая идея *ансамбля* (ensemble) — научить на части данных много моделей 1-го уровня с разными параметрами и на разных субнаборах характеристик и на основании предсказаний этих моделей построить модель 2-го уровня.

## Сервисы размещения данных

[Mendeley Data](https://data.mendeley.com/datasets) - можно смотреть в Plotly-онлайн 

https://archive.ics.uci.edu/ml/index.html

[![](http://about.zenodo.org/static/img/logos/zenodo-gradient-round.svg)](http://about.zenodo.org)  с 2013 года при CERN


https://senselab.med.yale.edu/modeldb/default.cshtml - модели по нейронауке

***Open Science knows no borders!***

http://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.2001259

### FAIR Principles

Wilkinson, M. D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: 10.1038/sdata.2016.18 (2016).

1. To be **Findable**:
  -  F1: (meta)data are assigned a globally unique and persistent identifier
  -  F2: data are described with rich metadata (defined by R1 below)
  -  F3: metadata clearly and explicitly include the identifier of the data it describes
  -  F4: (meta)data are registered or indexed in a searchable resource

2. To be **Accessible**:
  -  A1: (meta)data are retrievable by their identifier using a standardized communications protocol
  -  A2: metadata are accessible, even when the data are no longer available

3. To be **Interoperable**:
  -  I1: (meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation.
  -  I2: (meta)data use vocabularies that follow FAIR principles
  -  I3: (meta)data include qualified references to other (meta)data
        
4. To be **Reusable**:
  -  R1: (meta)data are richly described with a plurality of accurate and relevant attributes
      -  R1.1: (meta)data are released with a clear and accessible data usage license
      -  R1.2: (meta)data are associated with detailed provenance
      -  R1.3: (meta)data meet domain-relevant community standards
        


## Инструменты и знания

"Плавильный котел" инструментария - Kaggle.com
1. Данные
2. Примеры анализа

Kaggle для даталога - Задачник с открытым решением.

Важно! Т.к. платят большие деньги за победу в конкурсах - реально лучшие специалисты в мире.
И бывает, что лучшие или в московском вузе работают, или в Индии в профтехучилище...

Рассмотрим пример:
https://www.kaggle.com/nirajvermafcb/d/primaryobjects/voicegender/support-vector-machine-detail-analysis#

и вот мерило активности

Выводы: 
1. прилежный индийский выпускник: изучил кросс-валидацию и логику анализа
2. понятия не имеет об анализе голоса
3. каждый может за неделю освоить инструментарий, но знания надо копить годами.

Рассмотрим описание набора данных
https://www.kaggle.com/primaryobjects/voicegender

#### CART Diagram
![](http://i.imgur.com/Npr2U7O.png)

- meanfreq: mean frequency (in kHz)
- IQR: interquantile range (in kHz)

А какие же еще вопросы остались?
- Какие другие характеристики различаются между мужским и женским голосами? 
- Можем ли мы найти разницу в резонансе между мужскими и женскими голосами?

Ответы:
- При помощи индийского мальчика не можем.
- Машина уже вытащила лучшую разницу - лучше не будет, поэтому надо возвращаться к исходным данным, пробовать изобретать новые показатели, динамические, не просто средний тон, но особенности переходов между фонемами, окончания слов и т.п.

Инструменты общедоступны - тысячи индийских мальчиков ими владеют - кто же выигрывает призы?



Другой пример:

курс [Прикладной статистический анализ данных](http://wiki.cs.hse.ru/%D0%9F%D1%80%D0%B8%D0%BA%D0%BB%D0%B0%D0%B4%D0%BD%D0%BE%D0%B9_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85)

преподаватель https://www.hse.ru/staff/riabenko

[мерило](https://www.kaggle.com/riabenko)



227th?

Давайте глянем на иллюстрацию победителя - биология?
https://www.kaggle.com/alexandrebarachant/grasp-and-lift-eeg-detection/visual-evoked-potential-vep#

algorithm xDAWN со ссылками

и его [мерило](https://www.kaggle.com/alexandrebarachant):

|year| prize | title
|--
|2015-02 | \$500 | [BCI Challenge @ NER 2015](https://www.kaggle.com/c/inria-bci-challenge)
|2015-08 | \$5000 | [Grasp-and-Lift EEG Detection](https://www.kaggle.com/c/grasp-and-lift-eeg-detection) 
|2016-12 | \$10,000 | [Predict seizures in long-term human intracranial EEG recordings](https://www.kaggle.com/c/melbourne-university-seizure-prediction)

Последний пример показателен
https://www.kaggle.com/c/melbourne-university-seizure-prediction

- Спонсор - MathWorks, разработчик MATLAB
- Подсунули MATLAB Tutorial
- Выиграл Python
- Порождение активности - [Перевод ЭЭГ в звук](https://www.kaggle.com/bzamecnik/melbourne-university-seizure-prediction/brain-sounds)


Платформа (биржа анализа данных) показала жизнеспособность.

Подобно рекламе - она выгодна и владельцем медиа (приносит прибыль), и рекламодателям (приносит продажи).

Kaggle и подобные платформы ( [codalab](https://competitions.codalab.org/competitions/15595) )
- выгодны заказчикам - народ наваливается и быстро решает проблему на лучшем уровне
- выгодны специалистам - они учатся и выигрывают призы, находят работу.
- открытость способствует прогрессу.

Kaggle in Class [Закрытый учебное соревнование для участников Школы Анализа Данных от Яндекс](
https://inclass.kaggle.com/c/classify-traffic-signs)

## Краудсорсинг на стероидах

коллективный разум тысяч участников генерирует большое количество решений реальных прикладных задач.

[InnoCentive Challenges](https://www.innocentive.com/ar/challenge/browse) 
[eg1](https://www.innocentive.com/ar/challenge/9933564)
[eg2](https://www.innocentive.com/ar/challenge/9933914)
[eg3](https://www.innocentive.com/ar/challenge/9933771)

В популяционной биологии сбор данных любителями в какой-то момент начинает превалировать над усилиями специалистов: [eBird](http://ebird.org/ebird/GuideMe?cmd=decisionPage&getLocations=hotspots&hotspots=L1960641&yr=all&m=), [Плантариум](http://www.plantarium.ru/) 

<b class=tag>Меритократия</b>

<b class=tag>crowdsourcing</b>

Мир меняется... с появлением интегрированных глобальных инструментов отбора и оценки разработок

1. Ученые "старой школы" защищаются, устраиваются преподавать, компилируют книги и учебники и читают лекции на школах юных ученых и ... отстают от прогресса
2. универсальные мотивированные специалисты решают задачи на переднем крае, быстро прогрессируют, становятся экспертами - создают свои или идут работать в крупные компании

Некоторые совмещают, помоту что первый вариант дает престиж, а второй вариант - деньги. 

Разрыв уже наметился, ибо "наукодателям" нужны специалисты, 
а факт, что человек написал книгу, не указывает ни на ум, ни на опыт, ни на высокие идеалы, разве что немного на трудолюбие.

При наличии мощных инструментов и целевого финансирования для **быстрого творческого** решения нужны не популярные "лекторы", а интроверты, готовые на месяц отключиться от всего внешнего ради мастерского решения задачи.

### Геймификация

https://eternagame.org/

https://phylo.cs.mcgill.ca/play.html

https://fold.it/portal/info/about

### Сервисы автоматизированного анализа
- обобщая опыт, заменяют эксперта-датолога
- сами подбирают алгоритм, который лучше всего подходит

 [DataRobot](https://www.datarobot.com/education/)
 
 [AutoModel (RapidMiner)](https://automodel.rapidminer.com)

### Традиционное обучение
![](The-old-fashioned-way.png)

### Практическое компетентностное обучение
![](The-DataRobot-approach.png)

Будем надеяться, что после освоения курса вы способны загрузить любые данные и попробовать их обработать...

Для поднятия патриотизма...

Международный студенческий конкурс по даталогии

![](datasciencegame.png)

http://www.datasciencegame.com/leaderboard

[Александр Дьяконов](https://www.kaggle.com/dyakonov) - [блог](https://alexanderdyakonov.wordpress.com)

[Станислав Семенов](https://www.kaggle.com/stasg7)

обращайтесь за помощью - ищите контакты

демонстрация остаточного патриотизма

http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005233

учите английский

http://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.2000933