# Ferramentas de análise de dados

## Tópicos

1. [Objetivos da aula](#objetivos)
2. [Preparando o ambiente de trabalho](#preparando)
    1. [Instruções e comandos](#comandos)
3. [Ferramentas usadas nessa aula](#ferramentas)
    1. [Jupyter](#jupyter)
    2. [IPython](#ipython)
    3. [MarkDown](#markdown)
4. [Links úteis](#links)
5. [Outros comandos no Jupyter e/ou IPython](#maiscomandos)

<a id="objetivos"></a>
## 1. Objetivo da aula

Existe uma grande quantidade de pacotes, escritos na linguagem Python, capazes de representar e analisar dados complexos, biológicos ou não.

Nessa aula, nosso objetivo é aprender como usar algumas dessas bibliotecas e, no processo, esperamos que os alunos aprendam como usar o [Jupyter Notebook](#jupyter) e o Python como ferramentas poderosas para análise de dados.

Nosso foco, portanto, estará não na programação necessária para implementar objetos ou outros exemplos de código complexo em Python, mas em como utilizá-los.

Em especial, aprenderemos a executar tarefas básicas no [Jupyter NoteBook](#jupyter) e com a biblioteca [Pandas](https://pandas.pydata.org/).

A aula foi dividida em quatro partes:

1. Revisão da linguagem Python no Jupyter NoteBook ([Parte1](Parte1_Revisao_Python.ipynb))
2. Introdução à biblioteca Pandas e exemplos de análise de dados ([Parte2](Parte2_Introducao_Pandas.ipynb))
3. __Opcional__: introdução ao [BioPython](https://biopython.org/) ([Parte3](Parte3_Introducao_Biopython.ipynb))
4. [Exercício prático](Exercicio_Pratico.ipynb)

A terceira parte, mais avançada, __é opcional__ e mostra como integrar BioPython, Pandas e outras ferramentas na análise de dados de sequências biológicas.

<a id="preparando"></a>
## 2. Preparando o ambiente de trabalho

Como em outra aulas desse curso, vamos usar a linha de comando (*shell*) para iniciar nosso ambiente de trabalho e, em seguida, iniciaremos e migraremos para o ambiente Jupyter NoteBook.

<a id="comandos"></a>
### 2.A. Instruções e comandos

Para preparar o diretório de trabalho dessa aula, siga as instruções abaixo:

1. Acesse sua conta nos nossos servidores virtuais usando o [X2Go](https://youtu.be/uGzVO5fb9yQ)


2. Completado o acesso, abra um terminal, [como mostrado no tutorial de Linux](https://youtu.be/eKbA0xt4114), ou seja, no menu "Applications > System Tools > Mate Terminal".


3. No terminal, crie um diretório chamado `analise`, usando os comandos:

>`mkdir analise
cd analise
`

4. __Copie__ todos os arquivos usados nessa aula para o diretório corrente:

>`cp /databases/courses/bmp0216/2020/analise/* .`

5. __Inicie o Jupyter__

>`jupyter-notebook`

    Com a execução do comando acima, uma série de mensagens aparecerá no terminal.

    No fim dessas mensagens, aparece o endereço da página web onde o Jupyter pode ser acessado, por exemplo:

>`    To access the notebook, open this file in a browser:<br>
>        file:///home/rfsouza/.local/share/jupyter/runtime/nbserver-21289-open.html<br>
>    Or copy and paste one of these URLs:<br>
>        http://localhost:8888/?token=5cbe8d6bb70b828390bea08952b235b2a6eee395af82fd27<br>
>     or http://127.0.0.1:8888/?token=5cbe8d6bb70b828390bea08952b235b2a6eee395af82fd27`

    Note que as duas últimas linhas fornecem o endereço da página onde o Jupyter pode ser acessado com um navegador e incluem o *token* (senha) de autenticação.

    No entanto, __na maioria dos casos__, não será necessário copiar o endereço mostrado, pois o próprio Jupyter já abre um navegador no endereço certo.


6. __Quando a janela do navegador abrir__, você verá a lista de arquivos no diretório onde o Jupyter foi iniciado. Clique na versão *notebook* deste documento ([`Ferramentas de Analise de dados.ipynb`](Ferramentas_de Analise_de_dados.ipynb)) e continua seguindo as instruções na nova janela de seu navegador.


7. Após completar a revisão de Python ([Parte1](Parte1_Revisao_Python.ipynb)), abra o notebook da próxima parte da aula, que cobre a biblioteca Pandas ([Parte2](Parte2_Introducao_Pandas.ipynb))


8. Os mais aventurados, podem se aprofundar com uma introdução à biblioteca Biopython e em como usá-la com Pandas ([Parte3](Parte3_Introducao_Biopython.ipynb))

9. As instruções para o exercício prático encontram-se no *notebook* [Exercício Prático](Exercicio_Pratico.ipynb)

Uma vez aberto, cada notebook contém toda a informação correspondente àquela parte da aula, incluindo o caminho para os arquivos com dados e os comandos usados para processamento.

Cada notebook deve ser executado comando a comando, avaliando e interpretando as saídas e resultados.

O estudante é encorajado a adicionar novas célualas para fazer testes em comandos que possam não estar completamente claros e a discutir suas variações com os demais estudantes no Fórum dessa aula.

A solução dos problemas propostos no exercício prático devem ser __salvas na sua cópia do *notebook*__ [Exercício Prático](Exercicio_Pratico.ipynb).

<a id="ferramentas"></a>
## 3. Ferramentas usadas nessa aula

<a id="jupyter"></a>
### 3.A. Jupyter NoteBook

O [Jupyter NoteBook](https://jupyter.org/) é um *software* que permite ao usuário criar e compartilhar documentos contendo:

* código executável
* equações
* visualizações
* texto narrativo

Suas aplicações incluem

* pré-processamento, limpeza e transformação de dados
* simulações numéricas
* modelagem estatística
* visualização de dados
* aprendizado de máquina
* muitas outras!

O Jupyter Notebook é um aplicativo *web*, ou seja, um programa cuja interface com o usuário é uma ou mais páginas *Web*. Essas páginas são normalmente acessadas usando navegadores (*browsers*), tais como Firefox, Google Chrome e outros.

Embora, nesse curso, o Jupyter NoteBook seja usado apenas com a linguagem Python, esse *software* também suporta [outras linguagens de programação](https://github.com/jupyter/jupyter/wiki/Jupyter-kernels) (*i.e.* outros [*kernels*](https://jupyter.readthedocs.io/en/latest/projects/kernels.html)), tais como R, Julia e Scala.

<a id="ipython"></a>
### 3.B. IPython

[Interactive Python](https://ipython.org/) é uma infraestrutura que extende a linguagem Python, tornando mais fácil seu uso interativo.

O IPython inclui:

* uma interface de linha de comando que é superior à interface de linha de comando padrão da linguagem Python
* o *kernel* (núcleo) de Python para o Jupyter Notebook

<a id="markdown"></a>
### 3.C. Markdown

O Jupyter suporta a inserção de textos narrativos entre os comandos executáveis. As células com texto podem ser ricamente formatadas usando [MarkDown](https://daringfireball.net/projects/markdown/), uma linguagem de formatação de documentos extremamente simples e muito fácil de aprender.

Esse documento foi criado no Jupyter usando MarkDown.

<a id="links"></a>
## 4. Links úteis

[Markdown para Jupyter](https://medium.com/ibm-data-science-experience/markdown-for-jupyter-notebooks-cheatsheet-386c05aeebed): guia rápido de comandos básicos.

<a id="maiscomandos"></a>
## 5. Outros comandos e recursos no Jupyter e/ou IPython

O IPython, como interface interativa, incorpora algumas funções da *shell* (linha de comando), incluindo a capacidade de executar certos comandos de forma transparente. O Jupyter herda do IPython esses recursos.

* Informar qual o diretório de trabalho atual deste *notebook*

In [None]:
pwd

* Mudar o diretório de trabalho __apenas para este *notebook*__

In [None]:
cd ..

In [None]:
pwd

* Listar arquivos e diretórios:

In [None]:
ls

e voltamos ao diretório análise (veja se o nome do seu diretório é o mesmo!):

In [None]:
cd análise

In [None]:
pwd

* Imprimir o conteúdo de um arquivo

In [None]:
cat t1.tsv

* Comandos da *shell* que não são suportados diretamente pelo IPython podem ser executados usando o ponto de exclamação:

In [None]:
!whoami

e o resultado impresso por esses comandos na saída padrão (*stdout*) pode ser assinalado a uma variável:

In [None]:
a = !whoami
a

O Jupyter inclui ainda um terminal idêntico aos terminais para Linux e do Mac OS ou a programas como MobaXTerm ou Putty.

O terminal do Jupyter pode ser acessado a partir da página inicial do Jupyter, no menu *New*, item *Terminal*.