# Best Practices: Reprodutible Research

### Porque fazer pesquisa Reprodutível?

<p>A reprodutibilidade é um dos termos mais atraentes da ciência atualmente, afinal, a ciência por definição busca resultados de experimentos reproduzíveis. As pesquisas claramente avançam com mais rapidez quando os cientistas verificam e têm a possibilidade de observar os resultados uns dos outros, além de perderem menos tempo buscando pistas falsas.
<p>Em 2013, inicou-se o [Reproducibility Project: Cancer Biology of the Center for Open Science](https://osf.io/e81xl/wiki/home/), cujo objetivo é reproduzir 50 importantes estudos de câncer e analisar os resultados. Até o momento, os 5 primeiros trabalhos foram liberados, pelo menos uma vez em cada estudo analisado, um resultado alcançado não foi encontrado como o reportado. Em dois dos casos, as diferenças entre o estudo inicial e o replicado foram ainda mais impressionantes, dando motivo de preocupação para toda a comunidade científica.
<p>Em 2015, foi realizado pelo Open Science Colaboration um projeto de verificação de reprodutibilidade de 100 estudos da área de psicologia [confira aqui](https://www.nature.com/news/first-results-from-psychology-s-largest-reproducibility-test-1.17433), dos 100 estudos analisados apenas 39 foram replicados. O que nos mostra que diferentes áreas do conhecimento possuem dificuldade em reproduzir seus próprios trabalhos.
<p> Os gráficos abaixo mostram o crescimento do termo Reproducible Research nos trabalhos publicados nos últimos 20 anos.
 
![alternate text](https://github.com/suzanasvm/SmileFace/blob/master/figures/imagem_reprod.png?raw=true)
 




### Em que momento devo tornar minha pesquisa Reprodutível?

<p>Os pesquisadores geralmente começam a pensar em tornar seu trabalho reprodutível perto do final do processo de pesquisa quando eles escrevem seus resultados ou quando precisam compartilhar a pesquisa com algum colega de laboratório. Até este ponto, podem haver várias versões do conjunto de dados e registros das análises armazenadas em várias pastas no computador do pesquisador. Pode ser difícil e demorado pesquisar esses arquivos para criar uma ordem precisa de como os resultados foram alcançados. 
<p>Esperar até o final do processo de pesquisa para começar a pensar sobre a reprodutibilidade pode levar a documentação incompleta sem uma descrição  tão precisa de como foram feitas cada uma das descobertas. Portanto, é importante concentrar-se na reprodutibilidade **desde o início do processo** e continuar a seguir algumas orientações simples ao longo de sua pesquisa para evitar esses problemas. 
<p>Pense no processo de reprodutibilidade desde a concepção da sua proposta de pesquisa e garanta  que o trabalho seja facilmente reproduzido por qualquer outro pesquisador do mundo.


 

### Mas como tornar minha pesquisa Reprodutível?
<p>*Lembre-se que uma pesquisa parcialmente reprodutível é melhor que uma pesquisa não reprodutível. * 

<p> Na prática nem todos os projetos são 100% reprodutíveis. E ao dizer reprodutível quero dizer que um pesquisador consiga utilizar os dados originais do estudo, processados com  os mesmos scripts e obter resultados idênticos ou muito próximos do  original de seu colega. Mas aqui vão algumas dicas de como começar e algumas boas estratégias.

Imagine sua pesquisa em 5 âmbitos:

**- Workflow: ** Ofereça um overview do seu trabalho, ter uma visão de onde podemos chegar no final da jornada facilita ao observar cada parte do trabalho.
**<br>- Dados: ** Sempre que possível devem ser disponibilizados, com informações como: origem, tamanho e possíveis normalizações utilizadas.
**<br>- Código: **Se possível, disponibilize seus scripts, cuide para que eles sejam fácil de ser entendidos por humanos.
**<br>- Documentação: ** Além do seu paper por escrito, ofereça informações sobre cada etapa do trabalho, como os dados se relacionam com os códigos? ou como os gráficos do trabalho foram gerados? E como aqueles resultados foram alcançados?
**<br>- Ambiente:** Disponibilize informações do ambiente utilizado. A versão das bibliotecas e softwares utilizadas em sua pesquisa mudam ao longo do tempo e podem alterar o resultado final de reprodutibilidade.

<p> Alguns projetos são mais complexos do que outros e consequentemente podem tornar o processo de reprodutibilidade mais desafiador. Muitas ferramentas e técnicas estão disponíveis para ajudar a superar esses desafios. 
<p>Abaixo descrevemos detalhadamente as melhores ferramentas e boas práticas em cada um dos 5 âmbitos indicados.

### Primeiro Passo: Workflow

Imagine iniciar um passeio numa estrada. Iniciamos a caminhada mas ainda não sabemos exatamente onde vamos chegar; também não sabemos que dificuldades teremos pelo caminho, se teremos que atravessar um rio, um pântano ou uma montanha...Parece um pouco angustiante, não é mesmo?

<p>Essa é exatamente a mesma sensação ao tentar reproduzir uma pesquisa sem um Workflow. A ideia  do workflow é oferecer um "mapa" completo de toda sua pesquisa, indicando aos colegas todos os pontos mais importantes da jornada.

Existem várias ferramentas que podem lhe auxiliar na criação do Workflow.

**<br>- Taverna: **
**<br>- Loni Pipeline: **
**<br>- Pegasus: **

**Atenção: ** As ferramentas listadas acimas são indicadas em projetos específicos das áreas citadas ou projetos muito complexos, com muitos níveis de abstração. Caso seu trabalho não tenha tantas etapas utilize alguma ferramenta de edição de imagens ou de criação de fluxograma como:

**[- Draw IO ](https://www.draw.io/)**
**<br>[- Pixlr Editor ](https://pixlr.com/editor/)**


Em projetos mais complexos com várias etapas computacionais é importante oferecer um overview das etapas necessárias para reproduzir o projeto de forma eficiente. 
 - Interconexões com fontes de dados (sensores, bancos de dados web ou outras fontes de dados)
 - Mostrar e descrever as dependências, especialmente descobrir quais etapas de uma computação podem ser feitas de forma independente / em paralelo.
 - Estabelecer a proveniência dos resultados computacionais (ou seja, uma cadeia de evidências rigorosa que descreve de onde vem cada resultado.

**Dicas**
1. É importante que todo projeto ofereça um Workflow, para oferecer uma visão do todo para todas as pessoas. Mas observe o tamanho do seu projeto e veja se realmente é necessário lidar com uma ferramenta de gerenciamento de workflow, para alguns casos apenas uma imagem já oferece todas as informações necessárias.
2. Indique no worflow as saídas e entradas de dados: Assim é mais fácil para que outros pesquisadores identifiquem o que acontece em cada etapa.
3. Quando possível referencie as funções utilizadas em cada etapa.

### Segundo Passo: Dados

Os dados podem ser armazenados em vários repositórios

- Github
- Bitbucket
- Gitlab

**Dos and Dont's**

1. Se possível, disponibilize os dados. Estes podem ser de dois tipos: Dados Brutos ou Dados Normalizados, deixe explícito qual tipo de dado está sendo disponibilizado.
2. Caso utilize dados normalizados inclua os dados brutos e scripts que chegaram aquele resultado, juntamente com as sementes do gerador de números randômicos, caso seja utilizada.Os dados e scripts podem ser disponibilizados num ambiente de controle de versão.
3. Deixe o computador fazer o trabalho díficil: Caso precise realizar alguma tarefa repetitiva como numa base de dados de imagem cortá-las no mesmo tamanho específico, automatize esta tarefa. Isso garante dados mais consistentes e evita dados com erros ou fora do padrão especificado.
4. Informe as decisões do projeto: Alguns dados foram removidos da amostra utilizada?Além de disponibilizar os scripts que alteram a amostra, indique o motivo de utilizar aquele tipo de normalização. Através dessa informação outros pesquisadores podem ter visões diferentes do seu trabalho e até gerarem novas propostas.
5. Quando possível, ofereça a informação da procedência dos dados. Afinal de contas, não queremos fazer pesquisa com dados não confiáveis. Informar a origem dos seus dados dá mais transparência e confiança em seu projeto.

### Documentação

Nesta área uma série de softwares tem sido utilizados como: X, y, Z, entre tantos disponíveis o Jupyter Notebook se destaca por ser isso e isso.

#### Jupyter Notebook
<p>Utilizando o Jupyter Notebook é possível descrever a questão da pesquisa, a abordagem do projeto, narrar as etapas importantes na análise. Sempre mesclando explicações e o código de programação. Esses documentos podem ser construídos de forma dinâmica, escrevendo porções do código da narrativa e do software, visualizando os resultados no relatório e continuando a análise com narração e código adicionais ou resumindo os resultados. 
<p>Um documento completo de programação alfabetizada contém todos os componentes críticos de uma análise reprodutível: a descrição da análise, o código de programação usado para realizá-lo, os resultados e uma discussão. O documento e seu relatório, geralmente um arquivo PDF ou HTML, podem ser facilmente compartilhados com outros pesquisadores

**Dos and Dont's**

1. Crie um novo notebook para cada versão importante de seu projeto. Assim é possível entender a evolução do projeto como um todo.
2. Tenha atenção ao criar nomes para seus notebooks. Utilize algum tipo de padrão como a data + mes + ano + nome do notebook. Evite utilizar v01,v02,v03, pois estes nomes não transmitem nenhuma informação sobre o conteúdo ou alteração do notebook.
3. Faça da documentação do projeto uma rotina: É muito fácil escrever texto e código com o Jupyter Notebook, tenha disciplina e documente todas as alterações de seu projeto como um hábito.
4. Prefira utilizar gráficos vivos ou seja gerados através de código no Jupyter Notebook do que imagens de gráficos estáticas.

- Criar um enviroment para ter um ambiente limpo a disposição


### Code

Ao longo do desenvolvimento do projeto, os scripts vão evoluindo, recebendo alterações e correções de erros. É importante saber quando os scripts mudaram e por que foram alterados. Além disso em códigos de computador é muito comum fazer uma alteração trivial e todo o código se comportar de maneira inesperada, por isso é relevante ter a possibilidade de voltar a versões anteriores.  O controle de versão é crítico para projetos de vários autores, mas é considerado extremamente útil mesmo para projetos de autor único .

Os códigos podem ser armazenados em vários repositórios

- Github
- Bitbucket
- Gitlab

**Dos and Dont's**

1. Escreva seu código para pessoas, não para computadores: Um programa de computador por mais complexo que seja, não deve ser difícil de ser entendido, utilize nomes realmente significativos em suas variavéis,classes e funções, evite utilizar nomes como aux, x1 ou valor, pois não transmitem significado ao leitor do código.

2. Faça mudanças incrementais: A cada nova versão documente as alterações e utilize uma ferramenta de controle de versão para garantir a rastreabilidade do seu código. Faça pequenas alterações no código e registre cada uma com máximo de informações possíveis na descrição.

3. Evite Repetições: Sempre que possível divida seu código em funções específicas que façam apenas uma tarefa, desta forma seu código fica modularizado e eficiente.Caso precise realizar aquela função novamente basta chamar a função já criada, isto evita repetições desnecessárias e melhora a qualidade do seu código.

4. Tenho um arquivo Readme associado a seu projeto: Mesmo que você tenha organizado as pastas, os dados e todas as informações da melhor maneira possível. Ofereça no arquivo Readme uma documentação com uma visão geral do projeto além de dar informações sobre cada pasta. Não se esqueça de manter seu arquivo Readme atualizado a medida que o projeto vai sendo modificado.

5. Cuide da organização dos arquivos e diretórios como sugestão as pastas podem ser organizados da seguinte maneira:

 - data: Armazena os dados utilizados no projeto.
 - dev: Armazena os scripts e funções do projeto.
 - figures: Armazena as imagens utilizadas para ilustrar o projeto.
 - Readme: Exibe uma visão geral do projeto.

6. A cada commit faça um comentário da alteração realizada. Dessa forma todos que consultarem seu repositório terão uma pista da alteração realizada naquele ponto.

### Enviroment

Um dos grandes desafios em pesquisa reprodutível é de oferecer todas as dependências necessárias de maneira simples e prática.O processo de identificação, instalação e configuração dessas dependências consome uma quantidade considerável de tempo dos cientistas. Diferentes sistemas operacionais e suas versões podem exigir diferentes etapas de instalação e configuração. Além disso, as versões anteriores das dependências de software, que podem ser instaladas atualmente em um determinado computador, podem ser incompatíveis ou produzir saídas diferentes das versões mais novas.
<p>Existem alguns softwares no mercado que visam solucionar este problema:

<p>Uma solução é usar máquinas virtuais, que podem encapsular todo um sistema operacional e todos os softwares, scripts, códigos e dados necessários para executar uma análise computacional. Usando o software de virtualização, como VirtualBox ou VMWare, uma máquina virtual pode ser executada praticamente em qualquer desktop, laptop ou servidor, independentemente do sistema operacional principal do computador. Entretanto as máquinas virtuais na maioria dos casos são arquivos muito grandes e difíceis de serem compartihados

**Dos and Dont's**
1. Observe o funcionamento do Docker em ambientes Linux e Windows pois algumas funcionalidades são diferentes em cada sistema operacional.


### Referências

Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716-1-aac4716-8. doi: 10.1126/science.aac4716 