<a href="https://colab.research.google.com/github/GuilhermeBPinheiro/biofx_python/blob/main/Projetos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Introdução:**

**Ken Youens-Clark**, autor de Tiny Python Projetcs (link para acesso: https://tinypythonprojects.com/). Resolver criar um livro para demostrar como escrever códigos Python eficaz, além de como usar testes para escrever e refatorar programas científicos .

Então o Mastering Python for Bioinformatics surgiu (link para acesso: https://learning.oreilly.com/library/view/mastering-python-for/9781098100872/). É um guia prático mostra aos profissionais e estudantes de pós-doutorado em bioinformática como explorar as melhores partes do Python para resolver problemas em biologia enquanto criam software que tenha critérios de reprodutibilidade, logo que sejam reproduzíveis: validem seus  **parâmetros**, produzem  **documentação**, e sejam **testáveis** (falhem normalmente e funcionem de maneira confiável --> verificação de bugs).


# **Referência:**

Ken Youens-Clark. Mastering Python for Bioinformatics (Dominando Python para Bioinformática). 1ªEd. O’Reilly, May, 2021 – 454 pág. 978-1-098-10088-9. Disponível em: https://learning.oreilly.com/library/view/mastering-python-for/9781098100872/. Acesso em: 23 de Out de 2023.



# **Tópicos:**

*	Crie programas Python de linha de comando para documentar e validar parâmetros;
*	Escreva testes para verificar programas de refatoração e confirmar se estão corretos;
*	Abordar ideias de bioinformática usando estruturas de dados Python e módulos como Biopython;
*	Crie atalhos e fluxos de trabalho reproduzíveis usando makefiles;
*	Analise formatos de arquivo essenciais de bioinformática, como FASTA e FASTQ;
*	Encontre padrões de texto usando expressões regulares;
*	Use funções de ordem superior em Python como filter(), map() e reduzir().

# **Ferramentas:**

*	**Mypy:** é um verificador de tipo estático opcional para Python que visa combinar os benefícios da digitação dinâmica (ou "duck") e da digitação estática. Combina o poder expressivo e a conveniência do Python com um poderoso sistema de tipos e verificação de tipos em tempo de compilação. O tipo Mypy verifica programas Python padrão; execute-os usando qualquer VM Python basicamente sem sobrecarga de tempo de execução. Documentação: https://mypy.readthedocs.io/en/stable/.
* **Pytest:** estrutura facilita a gravação de testes pequenos e legíveis e pode ser dimensionada para suportar testes funcionais complexos para aplicativos e bibliotecas. Documentação: https://docs.pytest.org/en/7.4.x/.
* **Pylinkt:** é um verificador de bugs e qualidade de código fonte para a linguagem de programação Python. Ele segue o estilo recomendado pelo PEP 8, o guia de estilo do Python. É similar ao Pychecker mas inclui as seguintes funcionalidades: Verifica o comprimento de uma linha de código. Documentação: https://pylint.readthedocs.io/en/stable/.
*	**Flake8:** é uma ferramenta de linting Python que verifica sua base de código em busca de erros, problemas de estilo e complexidade. A biblioteca Flake8 é baseada em 3 ferramentas: PyFlakes (verifica se há erros em sua base de código Python), McCabe (verifica a complexidade de sua base de código Python) e pyCodestyle (verifica sua base de código Python em busca de problema de estilo em relação ao PEP8). Documentação: https://flake8.pycqa.org/en/latest/.
*	**BioPython:** é uma biblioteca ou uma suite de ferramentas escritas em Python para manipulação de dados biológicos. Documentação: https://biopython.org/wiki/Documentation.
* **Argparse:** é uma ferramenta do Python que serve como analisador sintático para opções de linha de comando, argumentos e subcomandos. Documentação: https://docs.python.org/pt-br/3/library/argparse.html.


# **Paradigma de Programação:**

* **Programação Funcional (FP):** em ciência da computação, programação funcional é um paradigma de programação que trata a computação como uma avaliação de funções matemáticas e que evita estados ou dados mutáveis. Ela enfatiza a aplicação de funções, em contraste da programação imperativa, que enfatiza mudanças no estado do programa. Referência: https://docs.python.org/3/howto/functional.html  apresenta um bom argumento sobre porque o Python é adequado para FP.

* **Desenvolvimento Orientado a Testes (TDD):** ideia explicada em um livro com esse título escrito por Kent Beck (Addison-Wesley, 2002). O TDD defende escrever testes para o código antes de escrevê-lo. O ciclo típico envolve o seguinte:

  I. Adicione um teste;

  II. Execute todos os testes e veja se o novo teste falha;

  III. Escreva o código;

  IV. Execute testes;

  V. Refatorar código;

  VI. Repita.


# **Regras:**

* **Evitar o uso de Exceções:** gerenciar exceções para que elas não interrompam o fluxo de um programa Se eu achar que uma exceção é justificada, muitas vezes optarei por não a capturar e deixarei o programa travar., adiciona outro nível de complexidade. *A esse respeito, estou seguindo uma ideia de Joe Armstrong, o criador da linguagem Erlang, que disse: “O jeito Erlang é escrever o caminho feliz, e não escrever pequenas passagens sinuosas cheias de código de correção de erros”. Se você optar por escrever programas e módulos para lançamento público, precisará aprender muito mais sobre exceções e tratamento de erros.*

* **Estrutura:** Autor: *“Embora o <Zen do Python> (https://peps.python.org/pep-0020/) diga “Deve haver uma – e de preferência apenas uma – maneira óbvia de fazer isso”, acredito que você pode aprender bastante tentando muitas abordagens diferentes para um problema. Perl foi minha porta de entrada para a bioinformática, e o espírito da comunidade Perl de “Há mais de uma maneira de fazer isso”; <TMTOWTDI> (https://en.wikipedia.org/wiki/Perl) ainda ressoa em mim.”*

* **Sem uso de Notebooks:** código-fonte dos Notebooks é armazenado em JavaScript Object Notation (JSON) e não como texto orientado a linhas. Isso torna muito difícil usar ferramentas como diffencontrar diferenças entre dois notebooks. Além disso, os Notebooks não podem ser parametrizados, o que significa que não posso passar argumentos de fora do programa para alterar o comportamento, mas sim alterar o próprio código-fonte. Isso torna os programas inflexíveis e os testes automatizados impossíveis. Embora eu incentive você a explorar Notebooks, especialmente como uma forma interativa de executar Python, vou me concentrar em como escrever programas de linha de comando.


# **Conceitos para Estudar:**

* Variáveis Globais x Locais. Referência: https://automacaoweb.wordpress.com/2020/09/18/variaveis-globais-x-variaveis-locais/.
* Programação Orientada a Objetos x Programação Estruturada. Referência: https://www.devmedia.com.br/programacao-orientada-a-objetos-e-programacao-estruturada/32813#:~:text=Portanto%2C%20como%20vimos%20no%20decorrer,e%20fun%C3%A7%C3%B5es%20definidas%20pelo%20usu%C3%A1rio.
* Servidores Linux. Referência: https://www.certificacaolinux.com.br/servidor-linux/.
* Distribuições Linux: Ubuntu x Debian. Referência: https://blog.betrybe.com/distribuicoes-linux/.
* Shell Script: é uma linguagem de script utilizada em alguns sistemas operacionais, principalmente em sistemas GNU/Linux. Atualmente existem vários programas tipo Shell. Além dos principais - sh e bash -, existem também: ksh, zsh, csh e tcsh. Um script em Shell necessita basicamente do interpretador Shell. Referência: https://www.devmedia.com.br/introducao-ao-shell-script-no-linux/25778.
* Computação de Alto Desempenho (HPC). Referência: https://www.oracle.com/br/cloud/hpc/what-is-hpc/.
* Docker. Referência: https://nelson-souza.medium.com/docker-virtualbox-linux-c57596256af6.
* Macintosh. Referência: https://www.google.com/search?q=Macintosh&rlz=1C1KNTJ_pt-BRBR999BR999&sourceid=chrome&ie=UTF-8.
* Shell Windows (CMD  PowerShell) x GNU/Linux (Bash). Referência: https://www.quora.com/What-is-the-difference-between-CMD-Git-Bash-and-PowerShell.
* Ambientes de Desenvolvimento Integrados (IDEs) - Ex.: VS Code, PyCharm ou Spyder. Referência: https://paulovasconcellos.com.br/quais-s%C3%A3o-as-melhores-ide-para-python-confira-a-lista-279b54bef301.
* Editores de Textos – Ex.: Vim Editor, Sublime, TextMate ou Notepad++. Referência: https://cursos.alura.com.br/forum/topico-notepad-ou-sublime-130108
* Gerenciador de Pacotes – Ex. Ubuntu (apt) e Mac (brew). Referências: https://br-mac.org/2012/09/apt-get-no-mac-gerenciadores-de-pacotes-para-o-os-x.html.
* Python. Referência: https://www.python.org/downloads/.
* Distribuição Anaconda Python. Referência: https://www.anaconda.com/ | http://leg.ufpr.br/~walmes/ensino/dsbd-linprog/instalacao-anaconda.html#:~:text=O%20Anaconda%20pode%20ser%20entendido,Python%3A%20python3.
* Google Colab x Jupyter. Referências: https://cursos.alura.com.br/forum/topico-quais-plataformas-sao-usadas-para-data-science-no-mercado-de-trabalho-176750.


# **Configuração do Ambiente Virtual:**

*	Ubuntu Windows Subsytem for Linux (WSL) – Version 1.0 --> tenha uma linha de comando Unix verdadeira.
* IDEs Visual Studio Code (VS Code) – Version 1.83 --> escrever, executar e testar programas.
*	Python – Version 3.86 e 3.9.1 --> linguagem de programação para executar os testes.
* Ubuntu Linux - Apt-Get --> gerenciador de pacotes.
* Google Colab --> divulgar e documentar informações.


# **Os “14” Desafios de Rosalind de Youens:**

* Plataforma: Rosalind. Link de acesso: https://rosalind.info/about/.
* Repositório: Biofx_Python. Link de acesso: https://github.com/GuilhermeBPinheiro/biofx_python.
* Se você tiver alguma dúvida técnica ou problema ao usar os exemplos de código, envie um e-mail para bookquestions@oreilly.com.
* Se você acha que o uso de exemplos de código está fora do uso justo ou da permissão dada acima, sinta-se à vontade para nos contatar em permissions@oreilly.com.
* Acessar o livro base: https://oreil.ly/mastering-bioinformatics-python.


# **Instalando Python:**

Você precisará instalar o Python para conseguir continuar rodando o pipeline.


In [6]:
!sudo apt install python3-pip

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following additional packages will be installed:
  python3-setuptools python3-wheel
Suggested packages:
  python-setuptools-doc
The following NEW packages will be installed:
  python3-pip python3-setuptools python3-wheel
0 upgraded, 3 newly installed, 0 to remove and 18 not upgraded.
Need to get 1,677 kB of archives.
After this operation, 8,965 kB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu jammy-updates/main amd64 python3-setuptools all 59.6.0-1.2ubuntu0.22.04.1 [339 kB]
Get:2 http://archive.ubuntu.com/ubuntu jammy-updates/universe amd64 python3-wheel all 0.37.1-2ubuntu0.22.04.1 [32.0 kB]
Get:3 http://archive.ubuntu.com/ubuntu jammy-updates/universe amd64 python3-pip all 22.0.2+dfsg-1ubuntu0.3 [1,305 kB]
Fetched 1,677 kB in 1s (1,548 kB/s)
debconf: unable to initialize frontend: Dialog
debconf: (No usable dialog-like program is installed, so the dialog

# **Instalando Módulos:**

Você precisará instalar vários módulos e ferramentas Python. Incluí um arquivo requisitos.txt no nível superior do repositório. Este arquivo lista todos os módulos necessários para executar os programas do livro.


## Listas de Módulos:
* biopython
* black
* csvkit
* csvchk
* flake8
* graphviz
* iteration_utilities
* mypy
* new-py
* pandas
* pylint
* pytest
* pytest-flake8
* pytest-mypy
* pytest-pylint
* requests
* rich
* tabulate
* yapf
* seqmagick

In [9]:
! python3 -m pip install -r requirements.txt

Collecting biopython (from -r requirements.txt (line 1))
  Downloading biopython-1.81-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m27.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting black (from -r requirements.txt (line 2))
  Downloading black-23.10.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m43.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting csvkit (from -r requirements.txt (line 3))
  Downloading csvkit-1.3.0-py2.py3-none-any.whl (43 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m43.3/43.3 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting csvchk (from -r requirements.txt (line 4))
  Downloading csvchk-0.3.2-py3-none-any.whl (7.8 kB)
Collecting flake8 (from -r requirements.txt (line 5))
  Downloading flake8-6.1.0-py2.py3-none-any.whl (5

# **Instalando o programa new.py**

O new.pyprograma criará um programa Python novo e bem estruturado que usa o argparsemódulo para interpretar argumentos de linha de comando. Deveria ter sido instalado na seção anterior com as dependências do módulo.

In [10]:
! python3 -m pip install new-py



Agora você deve conseguir executar new.pye ver algo assim:

In [12]:
! new.py

'''usage: new.py [-h] [-n NAME] [-e EMAIL] [-p PURPOSE] [-t] [-f] [--version]
              program
new.py: error: the following arguments are required: program'''

usage: new.py [-h] [-n NAME] [-e EMAIL] [-p PURPOSE] [-t] [-f] [--version] program
new.py: error: the following arguments are required: program


'usage: new.py [-h] [-n NAME] [-e EMAIL] [-p PURPOSE] [-t] [-f] [--version]\n              program\nnew.py: error: the following arguments are required: program'

Cada exercício irá sugerir que você use new.pypara começar a escrever seus novos programas. Por exemplo, no Desafio 1 você criará um programa chamado dna.py no <diretório 01_dna>, assim:

In [15]:
! cd /content/diretorio-01_dna
! new.py dna.py
# Done, see new script "dna.py"

"dna.py" exists.  Overwrite? [yN] N
Will not overwrite. Bye!


Se você executar o `./dna.py --help`, verá que ele gera documentação de ajuda sobre como usar o programa. Você deve abrir o `dna.py `programa em seu editor, modificar os argumentos e adicionar seu código para satisfazer os requisitos do programa e dos testes.

Observe que nunca é um requisito que você use o `new.py`. Ofereço isso apenas como uma ajuda para começar. É assim que inicio cada um dos meus programas, mas, embora eu ache útil, você pode preferir seguir um caminho diferente. Contanto que seus programas passem nos conjuntos de testes, você pode escrevê-los como quiser.

In [17]:
! ./dna.py --help

usage: dna.py [-h] [-a str] [-i int] [-f FILE] [-o] str

Rock the Casbah

positional arguments:
  str                   A positional argument

options:
  -h, --help            show this help message and exit
  -a str, --arg str     A named string argument (default: )
  -i int, --int int     A named integer argument (default: 0)
  -f FILE, --file FILE  A readable file (default: None)
  -o, --on              A boolean flag (default: False)


# **Ferramentas de Bioinformáticas:**

* **1. Gramene.org** [ref.: https://www.gramene.org/].

  É um recurso online de código aberto, e com curadoria para genômicas (anotações, variações e ferramentas) comparativa de plantas.


# **Referências Profissionais:**

* **1. Ken Youens-Clark** [ref.: https://www.linkedin.com/in/kycl4rk/].

  O autor responsável por escrever três livros: Tiny Python Projects - Learn coding and testing with puzzles and games (2020); Command-line Rust (2022); e Mastering Python for Bioinformatics (2021). Este último livro, foi o que deu a base para escrever esse estudo, no qual estou desenvolvendo conforme a leitura do mesmo.

* **2. Dr. Lincoln Stein** [ref.: https://oicr.on.ca/researchers/dr-lincoln-stein/].

  O Dr. Lincoln Stein se concentra em apoiar a pesquisa biomédica em Ontário e em todo o mundo, tornando grandes e complexos conjuntos de dados biológicos encontráveis, acessíveis e utilizáveis.


# **Cursos:**

* **1. CSHL (Cold Spring Harbor Laboratory)** [ref.: https://meetings.cshl.edu/courseshome.aspx].
