# Google Colab <img src = "https://miro.medium.com/max/512/1*dWlg8C46t_ZJ9P8rc-RyWg.png" width = 30>
*Tutorial feito por Luíza Zuvanov.*

<br>

Como bem descrito pela [Fiocruz](https://bigdata.icict.fiocruz.br/google-colab):


> "O Google Colaboratory é um ambiente de notebooks (...) que não requer configuração e é executado na nuvem. Escreva e execute códigos em Python, salve e compartilhe suas análises e acesse poderosos recursos de computação científica, tudo gratuitamente no seu navegador."


Opa, mas o que seria um "notebook"? É uma interface que mescla código e texto, de modo que o caderno fica dividio em "bloquinhos", chamados de células. A célula de texto permite que o usuário possa escrever textos, anexar imagens, fazer anotações (como estamos fazendo agora). Já nas células de código, o usuário programa! O legal é que esse conceito de "notebook" nos permite tornar o ambiente de programação mais dinâmico e descontraído, o que torna mais fácil o aprendizado e a codificação! 

Existem vários "notebooks", aqui vamos trabalhar com o Colab. Feito pela Google, o Colab vai nos ser útil já que todos os códigos serão executados na nuvem. Assim, mesmo que seu computador seja velhinho ou esteja com pouca memória, você não ficará para trás. Todos do curso estarão com o mesmo poder de processamento! Se tiver curiosidade, aconselhamos que você pesquise um pouco sobre o notebook Jupyter, mas não se preocupe com ele para o nosso curso.

<br>

---

Neste tutorial, vamos falar sobre:
- Bibliotecas;
- Upload de arquivos.

Ao final, colocaremos mão na massa! Depois, deixarei links para outros tutoriais legais caso vocês queiram saber um pouquinho mais.

---

## Bibliotecas

### Conceito
Biblioteca? O que é isso? Bom, quando formos programar, além de criatividade, normalmente vamos precisar de duas coisas: bibliotecas e dados. De maneira geral na biologia, iremos programar para analisar dados de algum experimento. Para fazer essa análise, utilizamos funções. Existem funções que já vem junto com a linguagem Python, ai não precisamos instalar nenhuma biblioteca. Entretanto, existem alguns programadores que utilizam as funções que já vem com o Python para fazer outras funções. Essas novas funções são armazenadas em uma biblioteca. Desse modo, a gente instala a biblioteca para não ter que criar essas novas funções do zero. 

<br>

Existem inúmeras bibliotecas, e cada uma pode ser útil para uma tarefa. Por exemplo, para fazer gráficos legais no Python, muitos usam a biblioteca [Matplotlib](https://matplotlib.org/). Assim, podemos criar um gráfico como este de maneira mais simples:

<br> 

<img src="https://matplotlib.org/_images/sphx_glr_scatter_demo2_001.png" width="400">

<br>

Já uma biblioteca bem famosa para analisar e manipular dados é o [Pandas](https://pandas.pydata.org/). Vamos usá-lo intensamente durante nosso curso! Com essa biblioteca, podemos ver nosso dados em forma de dataframe, que é como se fosse uma tabela, vocês entenderão melhor isso durante o curso. Veja um exemplo de dataframe usando dados de anotação de genoma:

<br>

| seqname        | source | feature | start | end | score | strand | phase | attributes                                        |
|----------------|--------|---------|-------|-----|-------|--------|-------|---------------------------------------------------|
| NW_020171334.1 | RefSeq | gene    | 121   | 544 | .     | -      | .     | ID=gene0;Dbxref=GeneID:36347034;Name=EGR_11329... |
| NW_020171334.1 | RefSeq | mRNA    | 121   | 544 | .     | -      | .     | ID=rna0;Parent=gene0;Dbxref=GeneID:36347034,Ge... |
| NW_020171334.1 | RefSeq | exon    | 488   | 544 | .     | -      | .     | ID=id4;Parent=rna0;Dbxref=GeneID:36347034,Genb... |
| NW_020171334.1 | RefSeq | exon    | 121   | 183 | .     | -      | .     | ID=id5;Parent=rna0;Dbxref=GeneID:36347034,Genb... |
| NW_020171334.1 | RefSeq | CDS     | 488   | 544 | .     | -      | 0     | ID=cds0;Parent=rna0;Dbxref=GeneID:36347034,Gen... |
| NW_020171334.1 | RefSeq | CDS     | 121   | 183 | .     | -      | 0     | ID=cds0;Parent=rna0;Dbxref=GeneID:36347034,Gen... |


<br>

### Instalação

A instalação de bibliotecas varia conforme aonde você esteja trabalhando com Python. No nosso caso, para instalar no Colab, basta você digitar o seguinte comando:



```
!pip install pandas==1.0.5
```


No exemplo acima, mostramos como instalar o pandas. Agora, vamos decifrar o que esse código quer dizer... Bem, o ```!pip install``` é o comando principal para dizer para o computador que queremos instalar uma biblioteca. O ```pandas``` é a biblioteca que queremos instalar. E o sinal ```==``` indica que queremos que a biblioteca do pandas a ser instalada seja a versão ```1.0.5```. Tranquilo não? 


<br>


### Importação

Bom, já temos a biblioteca instalada no nosso computador, ou melhor, como estamos usando o Colab, instalada na nuvem! Sem gastar nossa memória ROM! Porém, não basta só instalar a biblioteca se quisermos usá-la no nosso código. Para isso, temos que fazer como se fosse o "upload" dessa biblioteca, que chamamos de importação. Como analogia: imagine que você tenha uma foto no seu computador, mas para vê-la é preciso abrir o arquivo, correto? Então, a foto já está ocupando espaço no seu computador (assim como a bilioteca que já foi instalada), mas você só usufrui dela quando você a visualiza (como ao importar uma biblioteca). 

<br>

Para importar a biblioteca, basta você digitar:

```
import pandas
```

Acho que esse código nem precisa de explicação não é mesmo? Normalmente, você vai encontrar esse código também de outra maneira:

```
import pandas as pd
```

Nesse caso, o ```as```, do inglês significa "como". E o ```pd``` é o "apelido" do pandas. Costumamos escrever esse último comando, ao invés do primeiro, para facilitar nossa escrita de códigos, já que, toda vez que formos utilizar uma função da biblioteca pandas, teremos que indicar ao computador que a função vem desta biblioteca. Por exemplo, se quisermos fazer o upload de dados de um experimento para analisarmos, devemos digitar:

```
pd.read_table("dados.tsv")
```
Nesse comando, abrimos o arquivo ```dados.tsv``` usando a função do pandas ```pd``` chamada ```read_table```.

## Upload de arquivos

Como dito no tópico "Bibliotecas", precisamos dos dados para analisar! Para isso, temos que fazer o upload de arquivos no nosso código. Esse arquivo pode estar em diferentes lugares, no seu computador, no seu Google Drive ou em uma página na internet! Nesse exemplo, vamos utilizar a biblioteca pandas para ler um arquivo encontrado na internet, no repositório GitHub:

```
pd.read_csv('https://raw.githubusercontent.com/datapackage-examples/sample-csv/master/sample.csv')
```

Nesse comando, falamos para o computados que vamos utilizar a função ```read_csv``` que vem da biblioteca pandas, nosso ```pd```. Dentro da função, ou seja, dentro dos ```()```, eu indico aonde o meu arquivo está. Neste caso, ele está em uma página na internet. Faça o teste, abra o link em uma janela do seu navegador e veja para onde esse link te direciona. Você sabe o que significa o ```.csv``` do nosso arquivo? E o ```.tsv``` usado no exemplo anterior? Essas são extensões dos nossos arquivos, que indicam o formato deles. Existem vários outros tipos! Aposto que se eu te der um arquivo ```.png``` ou ```.jpeg``` você logo vai saber que se trata de uma imagem não é mesmo? Pois bem, o ```.csv``` significa que eu tenho uma tabela cujas colunas são separadas por vírgula (<i>comma</i> em inglês). Já no ```.tsv```, as colunas são separadas por tab.

## Mãos à obra!

Que tal testarmos para valer o que vimos nesse tutorial? Para testar os códigos a seguir, que se encontram em células especiais para código (lembre-se do que se trata um notebook), selecione a célula (apenas um clique esquerdo sob a célula) e pressione a tecla shift + enter. Caso não consiga ou seu computador mostre algum erro ao rodar as células, entre em contato conosco! Teremos o maior prazer em lhe ajudar!

Observação:
Após rodar a célula ```!pip install pandas==1.0.5```, caso o computador  pedir para que você reinincie o seu notebook, clique no aviso ```restart runtime``` que aparecerá. Depois, rode novamente a célula. Perceba que o resultado dessa célula será outro. O computador irá lhe dizer que a instalação foi feita com sucesso!

In [None]:
!pip install pandas==1.0.5

In [None]:
import pandas as pd

In [None]:
pd.read_csv('https://raw.githubusercontent.com/datapackage-examples/sample-csv/master/sample.csv')


## Tutoriais

Para saber mais sobre a ferramenta Colab, acesse alguns dos vários tutoriais, como:



* [Bem-vindo ao colab](https://colab.research.google.com/notebooks/intro.ipynb#);
* [Guia do iniciante](https://medium.com/machina-sapiens/google-colab-guia-do-iniciante-334d70aad531);
* [Guia - ferramenta de texto](https://colab.research.google.com/notebooks/markdown_guide.ipynb);
* [Guia 2 - ferramenta de texto](https://towardsdatascience.com/cheat-sheet-for-google-colab-63853778c093);
* [Comandos úteis para instalação, importação, exportação...](https://medium.com/@rahul.metangale/google-colaboratory-cheat-sheet-24b99813b0f0)


Se preferir vídeo, [clique aqui](https://youtu.be/_mIwsA2ddSc).

