# Módulo 1: Introdução aos notebooks e ao Unix

Bem-vindo ao curso!

## 1. *Notebooks* no Colab

Primeiro, vamos entender os elementos básicos dos *notebooks* do Google Colab.

***

O [Google Colab ou Collaboratory](https://colab.google/) é um ambiente de [análise de dados](https://pt.wikipedia.org/wiki/An%C3%A1lise_de_dados) para uso em navegadores *web*. Essa plataforma é baseada em máquinas virtuais disponibilizado para acesso remoto pela Google. A interface do Colab é uma versão adaptada do [Jupyter *notebook*](https://jupyter.org/), um software *open source* muito popular entre cientistas, programadores e analistas de dados.

***

O Google Colab permite:

1. Fazer anotações usando textos, código, imagens, *links*, etc.
2. Escrever e executar código nas linguagens R ou Python
3. Salvar o notebook para reuso ou exportar para outros formatos

## 2. Salvando seu trabalho

Antes de continuar, vamos **salvar uma cópia desse notebook** no Google Drive:

1.   Clique em Arquivo, no **canto superior esquerdo** (em inglês, *File*)
2.   Selecione Salvar uma cópia no Drive

Nota: **Suas alterações não serão salvas se você não seguir essas instruções**

## 3. Usando o Colab

Para começar, vamos entender os elementos básicos do Colab *notebook*.

A interface do Colab *notebook* é organizada em **células**, que podem ser de dois tipos:

1. **Células de texto**

  Células de texto são usadas para tomar notas, documentar ou fornecer instruções sobre o *notebook*.

  Este texto, que você está lendo, está em uma **célula de texto**. Texto no Colab (como no Jupyter) são preparados na linguagem [Markdown](https://colab.research.google.com/notebooks/markdown_guide.ipynb), uma linguagem muito simples, fácil de aprender, mas que gera documentos ricos, com fontes, imagens, *links*, etc.

## ====> **Clique duas vezes nesse texto** <==== e veja o código Markdown que formata essa célula para apresentação!

2. **Células de código**

  São células contendo código em uma das linguagens suportadas pelo *notebook*, como R ou Python, e que podem ser **executadas**.

  A célula abaixo é um exemplo de célula de código, com uma instrução na linguagem Python que produz uma animação, mostrando uma barra de progresso. Clique no botão *Play*, no canto esquerdo da célula ou clique na célula e use as teclas **Shift+Enter**, segurando Shift e apertando a tecla Enter.

  **Observação**: seu ambiente de execução será (re)conectado e ativado quando uma primeira célula de código for executada. Ele pode exibir a mensagem "falha no ambiente de execução", o que é normal, exige apenas que se aguarde a reconexão do *notebook* com o Google Colab.

In [None]:
# Demonstração de uma barra de progresso em python
from tqdm import tqdm
import time
for i in tqdm(range(20), desc = 'Barra de progresso'):
    time.sleep(0.1)

## 4. Acessando o Google Drive do *notebook*

O Google Drive interage muito bem com o Google Colab pois é possível acessar, em tempo real, os arquivos no Google Drive a partir de um *notebook* em execução. Nessa aula, esse acesso vai nos ajudar a compreender o sistema de arquivos do Linux.

O processo é simples, basta clicar no ícone da pasta ("Arquivos") que aparece do lado esquerdo do *notebook* e, em seguida, no ícone do Google Drive ("Montar Drive"). Ao clicar no ícone do Google Drive, uma célula igual à que aparece abaixo será adicionada:

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Passe o ponteiro do *mouse* sobre a célula acima. O ícone para execução (botão *play*) vai aparecer. Clique nesse ícone. Durante alguns segundos, uma animação vai substituit o botão para indicar que a célula está em execução, mas no fim, um número vai substituir a animação e ao lado poderemos ver quantos segundos levou. Com o fim da execução, a pasta *drive* estará acessivel na lista à esquerda.

# Introdução aos Notebooks e ao Unix
Dentro do Google Colab, o *notebook* é interface mais importante e permite a execução de quase todas as tarefas que poderiam ser realizadas pelo usuário em um computador Linux.

Embora o Google Colab disponibilize o equivalente a um computador completo, uma das suas limitações é a indisponibilidade de um ambiente *desktop*, ou seja, uma interface gráfica completa.

Felizmente, muito do trabalho em bioinformática é baseado no uso da [**linha de comando**](https://pt.wikipedia.org/wiki/Interface_de_linha_de_comandos), uma interface eficiente e popular, inteiramente baseada em comandos que devem ser digitados. Na interface gráfica do Linux, a janela onde os comandos são digitados é conhecida como [**emulador de terminal**](https://en.wikipedia.org/wiki/Terminal_emulator) ou, simplesmente, **terminal**.

Os comandos digitados em uma janela de terminal são primeiramente capturados e interpretados por um software chamado *shell*. A *shell* processa os comandos com uma linguagem própria e coloca em execução os programas solicitados em cada comando.

Há muitas opções de *shell*, cada uma com uma sintaxe e comportamentos diferentes, mas, neste curso, vamos nos concentrar na [**BASH**](https://www.gnu.org/software/bash/) (de *Bourne Again SHell*), a *shell* padrão na maioria das [distribuições de Linux](https://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%A3o_Linux).

Como o Google Colab só fornece acesso a um terminal na versão paga, será bom entendermos as diferenças entre executar comando no Colab e em um terminal do Linux.

# Python vs Bash: o ponto de exclamação

O Google Colab deriva do [Jupyter Notebook](https://jupyter.org/). O Jupyter foi criado para executar instruções da [linguagem Python](https://www.python.org/) e, só mais tarde, adaptado para usar outras linguagens, como o [ambiente estatístico R](https://www.r-project.org/).

A [linguagem Python](https://www.python.org/) é poderosa e muito adequada para tarefas de programação e análise de dados, mas é menos ágil que a *shell*, quando usada em um terminal, quando o objetivo é colocar em execução outros softwares. A *shell* também é excelente para combinar múltiplos comandos em uma linha de instrução.

Para os fins dessa aula, porém, temos no Colab um recurso que facilita a execução de comandos externos: o marcador ponto de exclamação (!). Esse marcador é usado para solicitar ao Colab que execute **linhas de comando na bash**, aproximando muito o comportamento da *shell* no terminal.

**Nota:** não use o ponto de exclamação (!) para executar códigos em Python ou R!

In [None]:
#exemplo de Python
print("Este é um comando Python")

In [None]:
#exemplo de bash
!echo "Este é um comando bash"

Se você esquecer de usar o símbolo !, ocorrerá um erro. Isso acontece pois o Colab tentará executar o comando de BASH no interpretador da linguagem Python, o que, muito provavelmente, não funcionará. Tente executar o exemplo da célula abaixo.

Isso criará um erro chamado **"erro de sintaxe"**!!!

Se você encontrar isso tentando executar um comando BASH, não se preocupe, adicione o ! e tente novamente.

In [None]:
#exemplo de esquecimento do ! ao tentar executar um comando bash
echo "Este é um comando bash"

## Comunicação entre comandos no notebook e no terminal

Comandos em Python, no *notebook*, ou em bash, **quando executados no terminal**, podem ter efeitos em comandos futuros. Isso acontece porque nesses casos, podem ser alterados valores de **variáveis**, do python ou da bash, e os comandos futuros poderão ser influenciados pelos novos valores.

In [None]:
# Exemplo em Python
a=2

In [None]:
# Checando o valor atribuído no comando anterior
print(a)

In [None]:
# Exemplo na shell: "echo" substiu print e o nome da variável precisa do $ no começo
!a=2; echo $a

Note que no exemplo acima, executamos a atribuição do valor 2 à variável "a" e mandamos imprimir, tudo na mesma célula, separado por um ponto-e-vírgula (;). Tudo funciona: o valor de a (2) aparece na saída.

Porém, se executamos os comandos da bash em células diferentes:

In [None]:
!a=2
!echo $a

A saída da última célula fica em branco, indicando que o valor da variável "a" não está definido. Isso acontece porque esse tipo de comunicação (variáveis) não existe entre os comandos de *shell* de células diferentes!

Comandos da bash em células diferentes, porém, vão enxergas as alterações que forem feitas em arquivos e diretórios, ou seja, que forem salvas no disco da máquina executando o *notebook*.

Esse, claro, não é o comporatamento da *shell* em uma janela de terminal, onde o valor da variável será mantido até que o terminal seja fechado.

# Comandos ou funções mágicos no notebook

Outro recurso em que diferem a bash e o Colab/Jupyter *notebook* é que o *notebook* existe um conjunto de comandos chamados de "funções ou comandos mágicos". Os comandos mágicos começam com o caractere **percentual (%)** e servem vários propósitos, como alterar o comportamento do *notebook*, informar sobre o estado do Colab/Jupyter ou substituir comandos da *shell*, como "cd" e "ls".

Por exemplo, um atalho para carregar dois conjuntos de extensões da linguagem Python, especificamente a biblioteca numpy e vários recursos da biblioteca matplotlib, é o comando mágico **%pylab**:

In [None]:
%pylab

#Diretórios no Linux / Unix

Diretórios são o equivalente no UNIX às pastas em Microsoft Windows ou no Mac OS.

Como as pastas nesses dois outros sistemas, os diretórios são organizados em uma hierarquia, ou seja, diretórios podem conter outros diretórios, aos quais às vezes nos referimos como subdiretórios.

Os diretórios servem para organizar o fluxo de trabalho. Por exemplo, se você tiver mais de um projeto, poderá organizar os arquivos de cada projeto em diretórios diferentes para mantê-los separados.

Clique no ícone da pasta, na barra da esquerda, para navegar os diretórios na máquina virtual do Colab.

## Diretório de trabalho atual: onde estamos?

**Um ponto muito importante**, quando usamos a *shell* ou um notebook, é que preciso saber em que diretório estamos trabalhando pois, no momento em que digitamos nossos comandos, por padrão, todos os arquivos serão acessados e salvos no diretório onde a *shell* ou o notebook estiver sendo executado, que chamamos de **diretório de trabalho atual**.

Mas como saber em qual diretório estamos?

In [None]:
# Comando mágico que informa o diretório onde o notebook está sendo executado
%pwd

In [None]:
# Equivalente na bash
!pwd

# Comandos no Linux: fundamentos
Agora vamos aprender os comandos mais úteis da bash e seus equivalentes no *notebook*, caso existam.

Os comandos do Linux são palavras, que podem conter letras ou números. A maioria dos comandos aceitam parâmetros, que quase sempre são opcionais, e podem ser seguidos de outros argumentos, como o nome de um arquivo a ser processado.

Assim, a estrutura usual de um comando, tanto na bash, como no *notebook*, é

> **<font color='red'>comando</font>** *espaço* <font color='red'>opções</font> *espaço* <font color='red'>argumentos</font>

Onde o comando, as opções e os argumentos devem ser **separados por espaços**.

**É ABSOLUTAMENTE ESSENCIAL QUE OS ESPAÇOS NÃO SEJAM ESQUECIDOS.**

Isso é importante porque a linha de comando da bash, ou a célula do *notebook*, não têm como inferir qual parte do texto é o nome de um comando e qual parte é uma opção ou o nome de um arquivo. Isso só é possível se cada um desses itens for separado por espaços.

É importante lembrar também que os comandos bash apresentados aqui funcionarão da mesma forma se forem executados em um terminal, com exceção do ponto de exclamação no começo da linha, que precisa ser removido.

## **Dicas importantes**

Boa parte dos comandos na bash, seguem o padrão POSIX da [GNU *getopt*](https://www.gnu.org/software/libc/manual/html_node/Argument-Syntax.html):

* Por razões históricas, muitos dos comandos do Linux são abreviados, com apenas algumas letras (cd, ls, cat, etc.);
* Os comandos, opções e argumentos, no Linux, diferenciam maiúsculas de minúsculas;
* As opções são digitadas após o comando e podem ser de dois tipos: (i) um único hífen (-) e um caractere ou (ii) um hífen duplo (\-\-) e uma palavra;
* Em muitos casos, as opções de um único caractere podem ser combinadas, ou seja, inseridas na mesma opção, **e.g.** -abc é o mesmo que -a -b -c;
* Você pode escrever mais de um comando separando por ponto e vírgula;
* Você pode usar a tecla 'tab' para preencher automaticamente o comando.





## Digitação eficiente com autocompletar

Digitar nomes de arquivo longos e comandos que não se sabe a grafia é chato e leva a erros de digitação que, na melhor das hipóteses, farão com que seu comando falhe com um erro estranho e, na pior das hipóteses, sobrescreva algumas de suas análises cuidadosamente elaboradas.

A tecla TAB ativa o recurso de autocompletar que normalmente reduz significativamente esse risco. Em vez de digitar 'ls Interest_stuff/', pode-se digitar 'ls Int' e pressione a tecla Tab (em vez de Enter). O restante dos nomes de pastas/arquivos que começam com 'Int' devem ser listados. Se você tiver duas pastas/arquivos com nomes semelhantes (por exemplo, my_awesome_scripts/ e my_awesome_results/), talvez seja necessário dar uma mãozinha ao seu terminal para descobrir qual deles você deseja. Nesse caso, se você digitar “ls –l m ”, quando você pressiona Tab, o terminal lê “ls –l my_awesome_”. Você pode digitar “s” seguido de outro pressionamento do botão Tab e descobrir que você quis dizer “my_awesome_scripts/”.

In [None]:
#Pratique com TAB utilizando o código abaixo

## Comandos essenciais na bash

### Criando novos diretórios

In [None]:
# Comando mágico do notebook
%mkdir dir1

In [None]:
# bash
!mkdir dir2

Clique na pasta do lado esquerdo e veja se as novas pastas aparecem. Se necessário clique no ícone para recarregar (*refresh*) a lista.

### Listando arquivos e diretórios
Para obter a listagem do conteúdo do diretório de trabalho atual, usamos o comando ***ls***.

In [None]:
# Python
%ls

In [None]:
# Bash
!ls

### Verificando propriedades de arquivos e diretórios

Como vimos, o comando “ls” lista o conteúdo do diretório.

No exemplo abaixo, usamos algumas opçnoes do comando "ls":
* A opção “-l” faz a lista ser impressa no formato longo, que detalha o tipo, as permissões, tamanho e data de modificação dos arquivos
* A opção "--color" ativa a colorização por tipo
* A opção "-F" acrescenta um caractere, no fim do nome, que serve para identificar o tipo de cada item

Essas opções fazem a saída do comando "ls" da bash ficar igual à saída do comando mágico *%ls*.

In [None]:
# Comando mágico
%ls -l

In [None]:
# bash
!ls -l --color -F

Nos resultados acima, as informações em cada linha, da esquerda para a direita, são:
* tipo e permissões de arquivo
* Número de *links* (nomes) do item
* Nome do proprietário (root)
* Nome do grupo (root)
* Tamanho do arquivo em bytes
* Mês (abreviado), data e hora da última modificação
* Nome do arquivo ou diretório

## Outros comandos úteis

### cd → mudar diretório

Alterar o diretório de trabalho atual para o diretório especificado.

In [None]:
!pwd

Acima vemos o diretório de trabalho atual.

Agora vamos mudar para o subdiretório dir1:

In [None]:
# Python
%cd /content/dir1
%pwd

O comando *cd*, **em um terminal**, funciona exatamente como o *%cd* do *notebook*, mas o comando *!cd* só terá efeito durante sua execução:

In [None]:
# Bash
!pwd; cd ..; pwd
!pwd

No comando acima, usamos o argumento ".." (ponto-ponto) para nos referir ao diretório "pai" (*/content/*) do diretório atual (*/content/dir1/*).

Porém, o segundo comando ("!pwd"), na célula acima, não foi afetado pelo "cd .." da célula anterior. Num terminal, isso não teria acontecido.

Porque o comando "!cd" é um dos comando que não propagam, no *notebook*, o correto é usar o comando mágico "%cd":

In [None]:
%cd ..
!pwd

### rmdir → Remover diretórios
Este comando é usado para remover diretórios **vazios**.

Execute os comandos e veja as pastas desaparecendo.

In [None]:
# Python
%ls
%rmdir dir1
%ls

In [None]:
# Bash
!ls --color -F
!rmdir dir2
!ls --color -F

### touch
Esse comando mudança a data e hora do arquivo alvo. No entanto, se o arquivo não existir, ele será criado sem conteúdo, ou seja, um arquivo vazio. Esse comando geralmente é usado para verificar se há permissão de gravação para o usuário atual e só existe na *shell*.

In [None]:
!touch file1
!ls -l

### rm → Remover
rm é usado para remover arquivos e diretórios. Tente isto abaixo para remover o arquivo que acabamos de criar.

In [None]:
!rm file1
!ls -l

# POR FAVOR TENHA CUIDADO

Lembre-se que, uma vez que um arquivo ou diretório é excluído com os comandos *rm* ou *rmdir*, ele será apagado imediatamente, portanto, não irá para uma 'lixeira' e não poderá ser recuperado.

### cp → Copy
Copia o conteúdo do arquivo ou diretório de origem para o arquivo ou diretório de destino. Para copiar diretórios, é preciso usar a opção “-r” de "recursivo".

In [None]:
!touch temp1
!cp temp1 temp2
!ls -l

### mv → Mover

Para mover ou renomear um arquivo ou diretório.

In [None]:
!mkdir temp
!mv temp1 temp/
!mv temp2 temp3
!ls -l

O segundo comando move o arquivo “temp1” para o diretório “temp”. O terceiro comando renomeia o arquivo “temp2” para “temp3” no diretório atual.

### Comando composto: baixando e descompactando

O comando abaixo fará o download e a descompactação de um arquivo ZIP que contém arquivos que vamos usar em nossos exemplos.

In [None]:
%cd /content/
!wget https://wcs_data_transfer.cog.sanger.ac.uk/Introduction_to_Linux_Unix_Text_processing.zip
!unzip Introduction_to_Linux_Unix_Text_processing.zip

No exemplo acima, o comando mágico **%cd** muda o diretório de trabalho atual do Colab para o diretório */content*.

Na linha seguinte, executada pela bash, o **ponto-e-vírgula (;) separa dois comandos** consecutivos: *wget* e *unzip*.

O comando *wget* é um cliente *web*, ou seja, que faz o *download* de arquivos disponíveis na Internet. Sua função é, portanto, a mesma de um navegador, porém sem interface gráfica.

O comando *unzip*, executado em seguida, descompacta o arquivo baixado pelo *wget*, criando o diretório *Introduction_to_Linux_Unix_Text_processing*.

## Visualizar e extrair o conteúdo de arquivos

### cat → Concatenar
O comando concatenar combina arquivos (sequencialmente) e imprime o conteúdo saída padrão, que é janela do terminal ou a célula no *notebook*.

In [None]:
!cat /content/Introduction_to_Linux_Unix_Text_processing/SARS-CoV-2.fa

Note que, no comando acima, usamos o **caminho completo** do arquivo alvo. Esse é um exemplo de como podemos operar em arquivos que não estão no diretório atual.

In [None]:
%pwd

### less
O *less* é usado para visualizar o conteúdo dos arquivos e é mais rápido com grandes arquivos do que os editores de texto.

Clique na linha abaixo do conteúdo, onde se vê o caminho do arquivo, e pressione “Enter” para ver mais uma linhas ou TAB+Enter para ver várias linhas.

Para finalizar o less, digite “q” e depois Enter.

No terminal, o less é ainda mais ágil e o Enter não é sempre necessário.

In [None]:
!less /content/Introduction_to_Linux_Unix_Text_processing/SARS-CoV-2.fa

### head e tail

Esses comandos mostram as primeiras (head) e as últimas (tail) 10 linhas (número padrão) de um arquivo.

In [None]:
!head /content/Introduction_to_Linux_Unix_Text_processing/SARS-CoV-2.gb

In [None]:
!tail /content/Introduction_to_Linux_Unix_Text_processing/SARS-CoV-2.gb

## Comandos para processamento de texto

### cut

O comando cut é um utilitário de linha de comando para cortar uma seção de um arquivo texto. A seção pode ser selecionada especificando o intervalo de caracteres desejado ou campos (colunas) definidos por um separador. Para cortar uma seção do arquivo, use "-c" (caracteres)

In [None]:
!cut -c 1-10 /content/Introduction_to_Linux_Unix_Text_processing/SARS-CoV-2.fa

A opção “-c 1-10” extrairá os 10 primeiros caracteres de cada linha do arquivo de entrada.

Outras opções:
* -c: corte com base na posição do caractere
* -d: corte com base no delimitador
* -f: número do campo

Temos um arquivo chamado “human_viruses.txt” com todos os nomes de vírus, genbank ids e tamanho do genoma. Esses campos são separados por símbolo “|”.

In [None]:
!head /content/Introduction_to_Linux_Unix_Text_processing/human_viruses.txt

Para obter apenas o número de acesso de cada vírus no genbank, digite o comando abaixo.

In [None]:
!cut -d "|" -f4 /content/Introduction_to_Linux_Unix_Text_processing/human_viruses.txt

### sort

O comando sort é usado para ordenar o conteúdo da entrada.

Como o comando **cut**, o sort trata o arquivo como uma tabela.

O separador padrão de colunas é a tabulação (TAB).

Algumas opções:

* -t Especificar o separador de campos
* -n Impor ordenação numérica
* -k Escolher o campo para a ordenação
* -r Forçar ordenação invertida (z para a ou 9 para 0)
* -u Não imprimir entradas repetidas

In [None]:
!sort -t "|" -nrk6 /content/Introduction_to_Linux_Unix_Text_processing/human_viruses.txt

### grep

O comando *grep* busca por padrões em arquivos texto.

A especificação do padrão pode ser literal (apenas o texto digitado) ou usar a linguagem das expressões regulares, que é capaz de identificar variações ou padrões, ao invés de um único texto.

Algumas opções:

* -A X: incluir X linhas antes da linha contendo o padrão buscado
* -B Y: incluir Y linhas antes da linha contendo o padrão buscado
* -C Z: incluir Y linhas antes e depois da linha contendo o padrão
* -c: contagem do número de linhas contendo o padrão
* -l: apenas listas os arquivos com correspondência
* -i: tratar maiúsculas e minúsculas como iguais
* -o: imprimir apenas o texto correspondente, ao invés da linha toda
* -v: inverter correspondência: imprimir linhas sem o padrão
* -w: exigir que palavras inteiras correspondam ao padrão

Para obter a lista de todos os vírus da hepatite em human_viruses.txt, digite o comando abaixo.

In [None]:
!grep "Hepatitis" /content/Introduction_to_Linux_Unix_Text_processing/human_viruses.txt


### wc

O comando “wc” (**w**ord **c**ounter) pode ser usado para contar linhas, palavras ou caracteres.

In [None]:
!wc -l /content/Introduction_to_Linux_Unix_Text_processing/outbreak.csv

Outros comandos de processamento de texto que vale a pena examinar são: uniq, tr, rev, sed e paste.

## Controle de saída/output no Linux

Quando você executa um comando, a saída geralmente é enviada para a saída padrão (stdout), ou seja, o terminal ou a célula do notebook. No entanto, podemos redirecionar a saída padrão para um arquivo usando o operador “>”.

In [None]:
!ls > list.txt
!cat list.txt

O primeiro comando cria um novo arquivo chamado list com todos os nomes de arquivo no diretório atual.

**Importante**: se já existe um arquivo chamado “list.txt”, ele será substituído pela saída do comando *ls*.

Alternativamente, é possível anexar a um arquivo usando o operador “>>” para redirecionamento.

Outro tipo de saída gerada por programas é o **erro padrão**. Essa saída são mensagens produzidas quando ocorre algum tipo de erro. O operador que permite redirecionar esse erro para um arquivo é “2>”:

In [None]:
!ls /foo 2> erro

Para redirecionar a saída padrão e o erro padrão para um arquivo, use o operador “&>”

## Pipes

"Piping" é uma maneira muito poderosa e eficiente de combinar comandos. Um "pipe" (|) age como uma conexão que redireciona a saída padrão do primeiro comando para a entrada do próximo comando. Não há limites para o número de comandos que podemos conectar usando "pipes". Eles garantem o bom funcionamento do fluxo de comando e reduzem o tempo de execução, pois executam os programas em paralelo, quando possível.

Para imprimir os 10 menores vírus, execute o comando abaixo.

In [None]:
!sort -t "|" -nk6 /content/Introduction_to_Linux_Unix_Text_processing/human_viruses.txt | head -10

### Exemplo com *uniq*

O comando *uniq* elimina as linhas repetidas da entrada. Esse comando é geralmente usado em combinação com *sort*, porque *uniq* só detecta linhas repetidas que forem adjacentes.

Para obter a lista de países que tiveram um surto em 2022:

In [None]:
!cut -d, -f3 /content/Introduction_to_Linux_Unix_Text_processing/outbreak.csv | sort | uniq

## Controle de processos

Alguns comandos demoram para concluir o trabalho atribuído. Por exemplo, se você deseja compactar um arquivo enorme com o comando gzip que leva alguns minutos para terminar a execução, pode executá-lo em segundo plano anexando o comando com “&” (Outra maneira é suspender um comando pressionando Ctrl+Z e digitando “bg”). No terminal, a conclusão da tarefa é indicada por “Concluído” (done).

In [None]:
!gzip list.txt &

Podemos obter a lista de trabalhos em execução no terminal pelo comando 'jobs'. Isso fornecerá todos os trabalhos em segundo plano, em execução no terminal atual. Se você quiser ver todos os processos em execução no sistema, use 'ps auxwww'.

In [None]:
!ps auxwww

Na saída do *ps*:

* A coluna PID contém o número que identifica cada processo em execução;
* A coluna COMANDO mostra o comando executado
* A coluna STAT mostra o estado do processo, que pode ser:
> D = suspensão ininterrupta, esperando disco
>
> R = ativo, em execução
>
> S = dormindo, execução suspensa temporariamente
>
> T = parado por um sinal
>
> Z = zumbi, terminação incompleta

Se você deseja interromper um trabalho que está em execução em segundo plano, use o comando 'kill' seguido pelo ID do processo.

kill 1234

Este comando elimina o trabalho com o ID de processo 1234. Como usuário, você pode eliminar apenas os seus trabalhos. Você não tem permissão para executar este comando nos IDs de processo de outros usuários.

# Instalando o Conda: útil para as próximas aulas!

Em bioinformática, usamos muitos softwares diferentes e que podem ser obtido de várias fontes.

Para facilitr o uso de softwares científicos em diferentes sistemas operacionais, o [Anaconda ou Conda](https://docs.conda.io/en/latest/) é uma excelente solução. O Conda é um sistema de gerenciamento de ferramentas e bibliotecas de código aberto. Com o conda é possível o uso e gerenciamento simplificado de uma grande variedade de softwares, com a possibilidade de gerenciar e prover, simultaneamente, versões diferentes do mesmo software.

 Mais informações sobre a biblioteca usada para instalar o Conda no Google Colab podem ser encontradas neste [site](https://inside-machinelearning.com/en/how-to-install-use-conda-on-google-colab/)

Você pode conferir este repositório para entender como essa ferramenta funciona:
https://github.com/conda-incubator/condacolab


In [None]:
!pip install -q condacolab
import condacolab
condacolab.install()

# Questões práticas
Responda às seguintes perguntas nos blocos de código abaixo

1. Crie um diretório chamado my_new_directory
2. Crie um arquivo chamado my_new_file.txt em my_new_directory
3. Qual é o caminho absoluto para o recém-criado my_new_file.txt



In [None]:
# 1. Crie um diretório chamado my_new_directory
# digite seu código abaixo

In [None]:
# 2. Crie um arquivo chamado my_new_file.txt em my_new_directory
# digite seu código abaixo

In [None]:
# 3. Qual é o caminho absoluto para o recém-criado my_new_file.txt
# digite seu código abaixo


# Exercícios:
1. Navegue até o diretório de Exercícios: (/content/Introduction_to_Linux_Unix_Text_processing/Exercises)
2. Extraia as primeiras 15 linhas do arquivo “HM067743.1_cds_ADQ37313.1_1.fa” e salve a saída em “output.fa”
3. Quantos arquivos fasta existem no diretório?
4. Extraia todas as linhas de cabeçalho do arquivo all.fa
5. Quantas sequências existem no arquivo all.fa?
6. Obtenha a lista de países (excluindo surtos em vários países) que tiveram um surto em 2022 (Input: /content/Introduction_to_Linux_Unix_Text_processing/outbreak.csv)
7. Encontre o número de surtos (exclua surtos em vários países usando grep de correspondência invertida (-v)) em cada mês de 2022.

In [None]:
#Use este espaço para praticar seu código e responder as perguntas dos exercícios acima.
#Sinta-se à vontade para adicionar mais blocos de código, se necessário, usando o botão +Código na parte superior da página.

# Mais dicas

## Atalhos de linha de comando
* (T) Setas para cima/para baixo: comandos anteriores
* (T) !!: Executa novamente o comando anterior
* (T) Tab: Preenchimento automático
* (T) Tab+Tab: Todas as opções disponíveis
* (B) Ctrl+a: Move o cursor para o início da linha
* (B) Ctrl+e: Move o cursor para o final da linha
* (T) Alt+: Alterna entre terminais
* (T) Ctrl+l: Limpar tela (ou Command+k no Mac)
* (T) Ctrl+c: Encerra o programa em execução
* (T) Ctrl+z: Suspende o programa em execução
* (T) Ctrl+w: Remove a palavra anterior
* (T) Ctrl+d: Fechar a *shell* e sair do terminal
* (B) Ctrl+d (em um comando): Remove um caractere
* (T) Ctrl+u: Remove até o início

  Legenda:
  * T: Terminal
  * N: *Notebook*
  * B: Terminal e *Notebook*

## Editor de arquivos

Existem muitos editores de texto não gráficos como ed, emacs, vi e nano, todos disponíveis na maioria das distribuições Linux. Alguns deles são muito sofisticados, como o vi, e recomendado apenas para usuários avançados.

O nano, anteriormente chamado de pico, é como qualquer editor gráfico sem mouse. Todos os comandos são executados usando o teclado, com o modificador de tecla Control (CTRL, Command no Mac).

O comando "nano" abre o editor e "nano arquivo.txt" abre o editor já com arquivo.txt carregado. Na parte inferior da tela, existem comandos com um circunflexo na frente (**^**). O circunflexo informa que você precisa manter pressionada a tecla Control (Ctrl) e, em seguida, pressionar a letra correspondente ao comando que deseja usar.
Ctrl+X, por exemplo, sairá do nano e retornará à linha de comando.

Referência Rápida do Nano

* Ctrl+X: Sair do editor. Se você editou o texto sem salvá-lo, o nano perguntará se realmente deseja sair e qual o nome do arquivo.
* Ctrl+O: Grava o conteúdo atual em um arquivo. O nano perguntará qual o nome de arquivo, e você pode pressionar Ctrl+T para abrir o navegador de arquivos mostrado acima.
* Ctrl+R: Lê um arquivo de texto na sessão de edição atual. No prompt do nome do arquivo, pressione Ctrl+T para o navegador de arquivos.
* Ctrl+K: Corta a linha onde está o cursor e coloca o conteúdo na área de transferência do nano. Você pode pressionar repetidamente para copiar várias linhas, que são armazenadas como um bloco.
* Ctrl+J: ajusta um parágrafo de texto ao tamanho da janela. Por padrão, isso reflui o texto para corresponder à largura da janela de edição.
* Ctrl+U: Cola o texto da área de transferência na linha atual.
* Ctrl+T: Verifica a ortografia, usando o comando *spell*.
* Ctrl+W: busca uma palavra ou frase. Use as setas, para cima e para baixo, para percorrer os termos de pesquisa anteriores ou pressione Ctrl+R para entrar no modo de substituição. Alternativamente, você pode pressionar Ctrl+T para ir para uma linha específica.
* Ctrl+C: Mostra o número da linha atual e as informações do arquivo.
* Ctrl+G: Obtenha ajuda. fornece informações sobre como navegar pelos arquivos e comandos de teclado comuns.

## Obtendo ajuda no terminal do Linux

Todos os comandos Linux possuem páginas de manual. Para acessá-los, use o comando “man” ou “info”. A página de manual fornece uma explicação detalhada do comando, incluindo todas as opções disponíveis e exemplos.

Por exemplo, para visualizar o manual página para o comando “ls”

Digite: man ls

In [None]:
!man ls

## **Créditos:**
Robson Francisco de Souza (Introdução o Linux e Google Colab)

### Baseado no trabalho original de:

Progress Dube

Marcela Suarez Esquivel

Leigh Jackson

Srikeerthana Kuchi (Intro to Unix Commands)

COG-Train
Wellcome Connection Science