# Manipulação de Dados - parte I

## Introdução

- Popularização da utilização de tecnologias de alto rendimento (ou high-throughput) pelo setor público e privado acelerou o ritmo de geração de dados biológicos e desenvolvimento de novas aplicações tecnológicas e científicas: 
 - Exemplo: Sequenciadores de DNA de segunda e terceira geração;
 - Aplicações: Interações proteína-proteína, sequências de genes, redes de co-expressão gênica e sequências de proteínas.
 
- Manipulação de dados biológicos envolve questões de: 
 - Armazenamento, segurança e recuperação de dados;
 - Conversão de formato de dados;
 - Algoritmos para processamento dos dados;
 - Métodos de saída e visualização.

<img src="Figura 1.jpg">

__Figura 1__: Sequenciadores da série HiSeqX à direita: produzem até 2 TB por corrida. Cada corrida dura aproximadamente 3 dias e produz aproximadamente 5 bilhões de sequências por corrida. À esquerda, representação gráfica de uma rede de co-expressão.

- Toda esta informação produzida em larga escala é representada nos mais diversos tipos de arquivos, preferencialmente, seguindo formatos padronizados que permitem o compartilhamento e manipulação eficientes. Por exemplo:
 - Arquivos do processador de planilhas Excel;
 - Arquivos com dados tabulares separados por vírgulas, tabulação, etc.
 - Formato FASTA para sequências biológicas;
 - Formato SAM/BAM para armazenameno de informação de mapeamento genômico de sequências;
 - Formato VCF para armazenar informações sobre variantes genômicas;
 - Arquivos PSF para armazenar informações específicas de moléculas para reconstrução in silico de estrutura de proteínas; 
 - Entre diversos outros formatos...

# Manipulando arquivos separados por vírgulas (CSV)

- Como citado anteriormente, um tipo bem comum de arquivo para armazenar valores são arquivos do formato _x-separated values_. Onde x pode ser vírgula (.csv), tabulação (.tsv), espaço em branco, etc.
- Às vezes a extensão .csv é usado nos arquivos tanto para vírgulas separadoras quanto espaços em branco.
- Existem diversas bibliotecas otimizadas para manipulação de arquivos nos mais variados formatos e aplicações;
- No entanto, vamos primeiramente exercitar as instruções básicas de Python com um exemplo prático para ler, escrever, consultar e alterar um arquivo no formato CSV.

## Exemplo 1

- Primeiramente, baixe o arquivo covid_cases_23_01_2021.csv (o arquivo deve ser salvo no mesmo diretório ou pasta deste notebook).
- Estes dados foram extraídos do https://www.worldometers.info/coronavirus/ que registra dados diários sobre COVID-19 ao redor do mundo.
- Vamos inspecionar o conteúdo deste arquivo:


``
#,Country,Total_cases,Total_deaths,Total_recovered,Population
1,USA,25561521,427588,15326868,332097997
2,India,10655435,153376,10316096,1387641848
3,Brazil,8816254,216475,7628438,213411432
...
7,Spain,2603472,55441,N/A,46765031
8,Italy,2455185,85162,1871189,60411435
9,Turkey,2424328,24933,2301861,84849626
``
- Podemos observar que a primeira linha do arquivo contém o cabeçalho do arquivo, ou seja, o nome dos atributos.
- As linhas seguintes são os registros.
- Em seguida, vamos abrir o arquivo usando a função ``open``:

In [9]:
refArquivoEntrada = open("covid_cases_23_01_2021.csv")

- Agora vamos usar o método ``readline`` para ler a primeira linha reference ao cabeçalho do arquivo:

In [10]:
refArquivoEntrada.readline()

'#,Country,Total_cases,Total_deaths,Total_recovered,Population\n'

- O método ``readline`` retorna uma string referente à uma linha do arquivo acrescido de um símbolo especial no fim da linha. Vocês lembram o que significa ``\n``?
- __Atenção__: toda vez que o comando acima é executado, uma nova linha é lida. Caso queira voltar para a primeira linha do arquivo no ambiente do Jupyter, basta executar novamente o comando ``refArquivoEntrada = open("species.csv")``;

- Vamos usar uma estrutura de repetição ``for`` para iterar as linhas do arquivo e o método ``split`` para acessar os campos:

In [11]:
refArquivoEntrada = open("covid_cases_23_01_2021.csv")
refArquivoEntrada.readline()
for linha in refArquivoEntrada:
    data = ...
    print(data) 

refArquivoEntrada.close()


['1', 'USA', '25561521', '427588', '15326868', '332097997\n']
['2', 'India', '10655435', '153376', '10316096', '1387641848\n']
['3', 'Brazil', '8816254', '216475', '7628438', '213411432\n']
['4', 'Russia', '3698273', '68971', '3109315', '145969890\n']
['5', 'UK', '3617459', '97329', '1616307', '68087328\n']
['6', 'France', '3035181', '72877', '216725', '65355200\n']
['7', 'Spain', '2603472', '55441', 'N/A', '46765031\n']
['8', 'Italy', '2455185', '85162', '1871189', '60411435\n']
['9', 'Turkey', '2424328', '24933', '2301861', '84849626\n']
['10', 'Germany', '2137689', '52536', '1795400', '83935370\n']
['11', 'Colombia', '2002969', '50982', '1822309', '51188022\n']
['12', 'Argentina', '1862192', '46737', '1646668', '45429329\n']
['13', 'Mexico', '1732290', '147614', '1291940', '129694962\n']
['14', 'Poland', '1470879', '35253', '1222782', '37823122\n']
['15', 'South Africa', '1404839', '40574', '1217492', '59728863\n']
['16', 'Iran', '1367032', '57294', '1158475', '84596958\n']
['17', '

- O método ``split`` quebra cada string (ou linha) com base no caractere (vírgulta) que separa os atributos de cada registro em uma lista de elementos do tipo string.
- Vamos exercitar a manipulação do arquivo CSV:

## Imprimir dados dos países do BRICS

- Neste exemplo, queremos extrair uma lista de registros dos países Brasil, Rússia, Índia, China e África do Sul. Definimos então nossa lista de "alvos":

In [14]:
### Brics

brics_list = ...

- A estrutura ``for`` vai ser modificada para verificar se a segunda coluna reference ao nome do país está dentro da nossa lista de países de interesse usando a condição ``Se país faz parte dos BRICS``

In [18]:
refArquivoEntrada = open("covid_cases_23_01_2021.csv")
refArquivoEntrada.readline()
for linha in refArquivoEntrada:
    data = linha.split(",")
    if ...:
        print (",".join(data).rstrip())

refArquivoEntrada.close()

2,India,10655435,153376,10316096,1387641848
3,Brazil,8816254,216475,7628438,213411432
4,Russia,3698273,68971,3109315,145969890
15,South Africa,1404839,40574,1217492,59728863
83,China,88911,4635,82526,1439323776


- O comando ``",".join(data)`` converte a lista em string separando cada campo por uma vírgula. O que faz o método ``rstrip``?

## Casos totais de COVID nos BRICS

- Para realização de cálculos em cima do nosso arquivo, devemos fazer as conversões dos campos no formato de string para numérico. 
- Para facilitar o acesso aos diferentes atributos, vamos definir algumas constantes com o valor do índice de cada valor armazenado na lista de valores retornado pelo método ``split``.

In [None]:
## total de casos nos brics

PAIS = ...
TOTAL_CASES = ...
TOTAL_DEATHS = ...
TOTAL_RECOVERED = ...
POPULATION = ...

- Em seguida, somamos o total de casos de cada país do BRICS e imprimimos no final: 

In [19]:
refArquivoEntrada = open("covid_cases_23_01_2021.csv")
refArquivoEntrada.readline()

casos_totais = 0

for linha in refArquivoEntrada:
    data = linha.split(",")
    if data[1] in brics_list:
        ...
    
print("Casos totais do BRICS = {}".format(casos_totais))
refArquivoEntrada.close()



Casos totais do BRICS = 24663712


## Taxa de recuperação dos casos de COVID

- No exemplo abaixo, vamos calcular a taxa de recuperação, isto é, a quantidade de casos recuperados dividido pelo total de casos.
- Vamos converter os dois campos referentes aos valores de interesse e imprimir juntamente com o nome do país:

In [22]:
## taxa de recuperaçao
PAIS = 1
TOTAL_CASES = 2
TOTAL_DEATHS = 3
TOTAL_RECOVERED = 4
POPULATION = 5

refArquivoEntrada = open("covid_cases_23_01_2021.csv")
refArquivoEntrada.readline()

casos_totais = 0

## taxa de recuperacao = taxa de recuperarados / numero total de casos
for linha in refArquivoEntrada:
    data = linha.split(",")
    if data[PAIS] in brics_list:
        taxa_recuperacao = ...
        print("%s %.3f" % ...)

refArquivoEntrada.close()


India 0.9681534353125893
Brazil 0.8652697619646621
Russia 0.8407478301358499
South Africa 0.8666416578696918
China 0.928186613579872
Casos totais do BRICS = 0


## Percentual de casos por total da população

- Por fim, vamos calcular o percentual de casos por número total de habitantes:

In [23]:
## percentual de casos por total da populacao

PAIS = 1
TOTAL_CASES = 2
TOTAL_DEATHS = 3
TOTAL_RECOVERED = 4
POPULATION = 5

refArquivoEntrada = open("covid_cases_23_01_2021.csv")
refArquivoEntrada.readline()

casos_totais = 0

## percentual de casos = total de casos / total de habitantes
for linha in refArquivoEntrada:
    data = linha.split(",")
    if data[PAIS] in brics_list:
        perc_casos = ...
        print(...)

refArquivoEntrada.close()

India 0.7678807766829471
Brazil 4.131106715970117
Russia 2.533586207402088
South Africa 2.352027025861852
China 0.006177275848738568


## Escrevendo arquivo

- Para finalizar, vamos criar um arquivo CSV que armazena para cada país do BRICS somente o nome, número total de casos, número total de casos recuperados, o percentual de recuperação e o percentual de casos por total da população.
- Para escrever nosso resultado, vamos criar um arquivo de saída denominado ``refArquivoSaida``;

In [30]:

PAIS = 1
TOTAL_CASES = 2
TOTAL_DEATHS = 3
TOTAL_RECOVERED = 4
POPULATION = 5

refArquivoEntrada = open("covid_cases_23_01_2021.csv")
refArquivoEntrada.readline()

# refArquivoSaida = open("brics_covid_cases_23_01_2021.csv", 'w')

casos_totais = 0

for linha in refArquivoEntrada:
    data = linha.split(",")
    if data[PAIS] in brics_list:
        # perc_recuperacao = float(data[TOTAL_RECOVERED])*100/float(data[TOTAL_CASES])
        # perc_casos = float(data[TOTAL_CASES])*100/float(data[POPULATION])
        # output = [data[PAIS], data[TOTAL_CASES], data[TOTAL_RECOVERED], str(perc_recuperacao), str(perc_casos)]
        
        # refArquivoSaida.write(",".join(output)+"\n")

refArquivoEntrada.close()
refArquivoSaida.close()

## Considerações finais

- Como falado inicialmente, existem bibliotecas especializadas em Python que são implementadas para fins específicos. Uma delas é a biblioteca <a href="https://docs.python.org/3/library/csv.html">csv</a> que implementa módulos que permitem a leitura e escrita de diferentes formatos de dados tabulares (não somente CSV!).