<center>
    <h1>Narzędzia odtwarzalnej analizy danych</h1>
    <h2 style="margin-top: 10px">(a.k.a. Reproducible Research)</h2>
    <br />
    <br />
    <h4>Dariusz Brzeziński</h4>
</center>

Agenda
========================================================
- **Definicje**
    - Repeatable vs Reproducible research 
    - Literate Statistical Programming
- **Narzędzia**
    - Git i Github
    - Jupyter (i knitr)
    - Zenodo
- **Praktyczne przykłady**
    - Uruchamianie skryptu
    - Rysunki i wizualizacje
    - Odpytywanie bazy CSD
    - Analiza danych

# Definicje


### Powtarzalność (Repeatability)

<img src="images/cartoon.png" style="float: right; margin-top: 0; margin-left: 15px; width: 300px"/>
Eksperyment jest powtarzalny, jeżeli inny zespół jest w stanie powtórzyć ten sam eksperyment (w możliwie tych samych warunkach) i otrzymać te same wyniki. 

-------------------------------------------

### Odtwarzalność (Reproduciblity)

Wyniki eksperymentu są odtwarzalne, jeżeli autorzy eksperymentu dzielą się danymi i pozwalają odtworzyć wszystkie opublikowane wyniki.

-------------------------------------------

# Spostrzeżenia


**Eksperyment może być powtarzalny, ale jego wyniki nie muszą być odtwarzalne.**

<img src="images/yanomami.jpg" alt="yanomami" width="175" style="float: right; margin-top: 0;"/>

Przykład: autorzy nie podzielili się zebranymi danymi na temat członków plemienia Yanomami i zaprezentowali tylko wyniki swojej analizy. Eksperyment można powtórzyć (pojechać nad Amazonkę i zebrać nowe dane), ale analizy nie można odtworzyć na tych samych danych. 


**Eksperyment może być niepowtarzalny, ale jego wyniki mogą być odtwarzalne.** 

<img src="images/atakapa.jpg" alt="atakapa" width="110" style="float: right; margin-top: 0;"/>

Przykład: autorzy zbadali zwyczaje plemienia Atakapa. Eksperymentu nie można powtórzyć, bo plemię wymarło, ale ponieważ autorzy podzielili się zebranymi danymi i spisali wszystkie obliczeń analizę można w pełni odtworzyć. 



![images/reproducibility-spectrum.png](images/reproducibility-spectrum.png)

Dlaczego warto robić odtwarzalne analizy danych
========================================

- Niczego nie ukrywamy przed resztą świata naukowego (**transparentność**) <img src="images/ok.png" alt="knitr" style="float: right; margin-top: 0; margin-left: 15px; width: 175px"/>
- Inni naukowcy chętniej będą korzystali z naszych wyników (**cytowania**)
- Inne osoby łatwiej znajdą błędy w naszych badaniach (**dokładność**)
- Osoby z zespołu nie będą musiały nas pytać jak coś zrobiliśmy (**czas**)
- Wykonanie anlizy na nowych danych będzie dużo prostsze (**produktywność**)
- Nie boimy się powtórzyć własnej analizy (**pewność**)

*Podobne zyski dotyczą również [analiz wykonywanych w firmach](https://medium.com/airbnb-engineering/scaling-knowledge-at-airbnb-875d73eff091#.rf1fniree)*

Podstawy odtwarzalnej analizy danych
====================================

- **Zdecydować, że analiza będzie odtwarzalna**
- Korzystać z repozytorium
- Wykorzystać oprogramowanie, gdzie można zaprogramować kolejne kroki
- Pracować na surowych danych (nie edytować niczego ręcznie)
- Nie zapisywać wyników końcowych
- Korzystać z otwartych formatów danych

Literate Programming
==================

- Pomysł autorstwa [Donalda Knutha](https://pl.wikipedia.org/wiki/Donald_Knuth) <img src="images/knitr.png" alt="knitr" style="float: right; margin-left: 100px;"/>
- Artykuł jako strumień tekstu i kodu
- Potrzebny język programowania i język do dokumentacji
- Kod podzielony na fragmenty
- Opis tłumaczący co się po kolei dzieje
- Z artykułu można wyciągnąć tylko kod albo zostawić tylko opis
- Przykłady: [Sweave](https://www.statistik.lmu.de/~leisch/Sweave/), [knitr](http://yihui.name/knitr/), [Jupyter](https://jupyter.org/)

Git
====

- Git to **system kontroli wersji**
- Pomaga śledzić hietorię zmian w plikach
- Po edycji pliku potrafi pokazać **kto** zmienił **co** i **dlaczego**
- Ułatwia współpracę wielu osób nad jednym projektem 
- Typowo używany do pracy nad kodem, ale można go też wykorzystywać do prac nad:
    - projektem graficznym,
    - projektem architektonicznym,
    - analizą danych,
    - dokumentami,
    - materiałami dydaktycznymi...

Git
====

- Tradycyjnie obsługiwany z linii poleceń 
- Istnieją też narzędzia graficzne (np. [TortoiseGit](https://tortoisegit.org/) albo [GitHub Desktop](https://desktop.github.com/))
- Podstawowe operacje:
    - **commit** zrób checkpoint lokalnie na dysku <img src="images/git-shell.png" alt="git-shell" style="float: right; margin-left: 10px; width: 100px"/>
    - **push** zapisz zmiany na serwerze zewnętrznym
    - **pull** wczytanie zmian z serwera zewnętrznego
    - **revert** cofnięcie zmian do wybranego checkpointa
    - **diff** porównaj zmiany

Demo
=====

![demo](images/examples.png)

GitHub
======

- Najpopularniejsze otwarte repozytorium kodu  <a href="https://github.com"><img src="images/github.png" alt="github" style="float: right; margin-top: 0; margin-left: 15px;"/></a>
- Serwer zewnętrzny dla repozytoriów Git
- Darmowe dla publicznych projektów
- Standard współpracy nad otwartymi projektami informatycznymi
    - Możliwość zgłaszania błędów
    - Możliwość zgłaszanie poprawek
    - Wersjonowanie

Github
======

[![github-example.png](images/github-example.png)](https://github.com/dabrze/CheckMyBlob)

Jupyter
=======

<img src="images/jupyter.png" alt="jupyter" style="float: left; margin-top: 0; margin-left: 15px; width: 175px"/>
 
- Jedna z implementacji idei Literate Programming
- Najpopularniejsze narzędzie dla powtarzalnych analiz w języku Python
- Obsługuje tez inne języki (**Ju**=Julia, **pyt**=Python, **er**=R)
- Tekst i kod powiązane w **notatnikach** (ang. notebook)
- Do pisania tekstu wykorzystywany jest język **Markdown**
- Działa w przeglądarce

Jupyter (dashboard)
=================

![demo](images/jupyter-dashboard.png)

Jupyter (notebook)
================

![demo](images/jupyter-notebook.png)

Demo
=====

![demo](images/examples.png)

Zenodo
======

- Darmowe repozytorium danych naukowych <a href="https://zenodo.org/"><img src="images/zenodo.png" alt="zenodo" width="190" style="float: right; margin-top: 0; margin-left: 15px;"/></a>
- Serwery hostowane przez CERN
- Każdy wgrany element otrzymuje własne DOI
- Pliki wgrane na Zenodo będą dostępne i łatwo wyszukiwalne przez lata
- Integracja z GitHub

Przykłady
========

- Na kolejnych slajdach przedstawione zostaną przykłady wykorzystania notatników Jupyter
- Przykłady zostały dobrane tak, aby miały związek z krystalografią
- Można oczywiście wykorzystać notatniki do wielu innych zadań!

Uruchamianie skryptu
==================

Za pomocą jupyter notebooka można pokazać innym autorom kolejne kroki, które wykonano w trakcie analizy. Ponieważ notatniki można uruchamiać, inni naukowcy mogą łatwo powtórzyć te kroki samemu. Pomysły na wykorzystanie: REFMAC, XDS, pymol, ... 

In [13]:
# ls
!dir

 Volume in drive C has no label.
 Volume Serial Number is 242D-5AEE

 Directory of C:\Praca\Uczelnia\Praca naukowa\Seminaria\2019 Seminarium CBB - Reproducible research

05.06.2019  13:08    <DIR>          .
05.06.2019  13:08    <DIR>          ..
03.06.2019  23:14    <DIR>          .ipynb_checkpoints
19.08.2015  10:16            19˙994 cs.put.css
04.06.2019  10:31    <DIR>          data
05.06.2019  09:30    <DIR>          images
05.06.2019  13:08            20˙516 Reproducible research.ipynb
               2 File(s)         40˙510 bytes
               5 Dir(s)  133˙120˙712˙704 bytes free


In [27]:
# cat ./Reproducible research.ipynb | wc -l
!findstr /R /N "^" "Reproducible research.ipynb"  | find /c /v ""

1509


Rysunki i wizualizacje
==================

Notatniki pozwalają w łatwy sposób pokazać jak uzyskano daną wizualizację. Jest to sposób na udowodnienie, że wykresy są oparte na danych eksperymentalnych i nie były w żaden sposób ręcznie modyfikowane.

In [1]:
import nglview as nv
w = nv.show_pdbid("3pqr")
w

NGLWidget()

Odpytywanie baz danych
======================

W notatniku można pokazać jak działając na danych bezpośrednio z bazy danych (np. CSD albo PDB) uzyskano przedstawiane w pracy naukowej wyniki.

In [2]:
from ccdc import io
entry_reader = io.EntryReader('CSD')
first_entry = entry_reader[0]
print first_entry.identifier

AABHTZ


In [3]:
from ccdc.search import TextNumericSearch

text_numeric_search = TextNumericSearch()
text_numeric_search.add_compound_name('aspirin')
identifiers = [h.identifier for h in text_numeric_search.search()]
text_numeric_search.clear()
text_numeric_search.add_synonym('aspirin')
identifiers.extend([h.identifier for h in text_numeric_search.search()])
identifiers

['ACMEBZ',
 'ACSALA',
 'ACSALA01',
 'ACSALA02',
 'ACSALA03',
 'ACSALA04',
 'ACSALA05',
 'ACSALA06',
 'ACSALA07',
 'ACSALA08',
 'ACSALA09',
 'ACSALA10',
 'ACSALA11',
 'ACSALA12',
 'ACSALA13',
 'ACSALA14',
 'ACSALA15',
 'ACSALA16',
 'ACSALA17',
 'ACSALA18',
 'ACSALA19',
 'ACSALA20',
 'ACSALA21',
 'ACSALA22',
 'ACSALA23',
 'ACSALA24',
 'ACSALA25',
 'ARIFOX',
 'ASPRIN',
 'BEHWOA',
 'CUASPR',
 'CUASPR01',
 'CUASPR02',
 'DIFHOP',
 'DIFQAK',
 'DISXOU',
 'ECONOA',
 'EYOMEL',
 'EYOMIP',
 'EYOMOV',
 'EYOMUB',
 'EYONAI',
 'HUNJEH',
 'HUPPOX',
 'HUPPOX01',
 'IBOBUY',
 'IBOBUY01',
 'IBOCEJ',
 'IBOCEJ01',
 'IBOCOT',
 'IBOCOT01',
 'JIRNEE',
 'KEWNOQ',
 'KEWNOQ01',
 'KICVUP',
 'LAJVUO01',
 'NINFUN',
 'NUKXOH',
 'NUWTIJ01',
 'NUWTOP01',
 'NUWTOP02',
 'OKEZUZ',
 'PETZAQ',
 'PETZIY',
 'PETZOE',
 'PETZUK',
 'PIKYOA',
 'PIKYUG',
 'PIKZAN',
 'SIBYUA',
 'SIBYUA01',
 'TAZRAO',
 'TORQUM02',
 'UTUCIW',
 'VUGMIT',
 'XOJMOZ',
 'YIRPEW',
 'YOSMOI',
 'DIPJAQ',
 'TAZRAO01',
 'TAZRAO02',
 'ACMEBZ',
 'ACSALA',
 'ACSAL

Podsumowanie
============

- Warto aby badania były **powtarzalne** i **odtwarzalne**
- Dane (wraz z historią) łatwo przechowywać na **repozytorium**
- Analiza może być napisana w postaci **notatnika**
- Zbiory danych można wgrać na **Zenodo**
- Przykłady zastosowań **w krystalografii**:
    - Uruchamianie skryptów
    - Zapytania do bazy CSD
    - Wizualizacje danych
    
<br />
Kod prezentacji: https://github.com/dabrze/reproduciblity

Linki
======

- https://tortoisegit.org/ <img src="images/linki.png" alt="linki" style="float: right; margin-top: 0; margin-left: 50px; width: 200px"/>
- https://github.com/
- https://jupyter.org/
- https://zenodo.org/
- [CSD Python API](https://downloads.ccdc.cam.ac.uk/documentation/API/descriptive_docs/primer.html)
- https://bitmoji.com/