# Analisando Dados 

Neste laboratório utilizaremos dados atualizados da pandemia para realizar algumas análises. Os dados provem de https://covid.ourworldindata.org/

## Arquivos
As linguagens de programação utilizam arquivos como mecanismo de persistência de dados. 
Com arquivos, os dados podem ser salvos e carregados da memória secundária (ex. disco rígido).

## Abrindo Arquivos
Para trabalhar com arquivos na linguagem Python, utilizamos a função `open `, que precisa de dois parâmetros:

1. Uma string informando o caminho completo do arquivo a ser aberto.
2. Uma string informando a forma de abertura do arquivo
 * Leitura: "r"
 * Escrita: "w"
 * Leitura e escrita: "r+"
 * Escrita acrescentando ao final do arquivo: "a"

Todo arquivo é aberto como arquivo de texto, a não ser quando assinalado com ("b"), que abre o arquivo como binário.

*Atenção:* As operações com arquivos sempre podem lançar exceções. Depois de utilizar o arquivo, sempre deve ser chamado o método `close` para liberar os recursos.

## Abrindo um arquivo para leitura


In [23]:
try:
    # Abrir o arquivo
    arq = open('test.txt', 'r')
    # Note que o objeto arq armazena o forma de abertura ("r") e o encoding (UTF-8)
    print(arq)
    arq.close()
except Exception as err:
    # A excepção será lançada, e.x., se o arquivo não existe ou 
    # não temos permissões para ler esse arquivo
    print(err) 

<_io.TextIOWrapper name='test.txt' mode='r' encoding='UTF-8'>


No bloco de código a seguir, simplesmente imprimiremos linha por linha o arquivo 

In [24]:
try:
    # Abrir o arquivo
    arq = open('test.txt', 'r')
    for linha in arq:
      print(linha)
    arq.close()
except Exception as err:
    print(err) 

um

dois

três



A forma pythônica: utilizar `with...`

In [25]:
# Abre o arquivo e, quando terminar o bloco with, 
# o método `close` é executado
with open('test.txt') as arq:
    for linha in arq:
        print(linha)

um

dois

três



## Arquivos e geradores 

Para facilitar as coisas (e evitar problemas de memória com arquivos grandes) vamos utilizar uma função geradora para produzir, de forma preguiçosa, cada uma das linhas do arquivo.

In [13]:
def obterDados(arquivo):
    '''Gera cada uma das linhas no arquivo'''
    with open(arquivo) as arq:
        for linha in arq:
            yield linha

test = obterDados('test.txt')
print(list(test))

['um\n', 'dois\n', 'três\n']


Note que o caracter `\n` (new line) aparece no final de cada saída. Podemos utilizar map ou expressões geradoras para ignorar esse último caractere 

In [26]:
# Utilizando Map
testn = obterDados('test.txt')
test = map(lambda s: s[0:-1], testn)
print(list(test))

# Utilizando uma expressõa geradora
test = ( s[0:-1] for s in obterDados('test.txt') )
print(list(test))

# Ou diretamente compreensão de listas
print([s[0:-1] for s in obterDados('test.txt')])



['um', 'dois', 'três']
['um', 'dois', 'três']
['um', 'dois', 'três']


---
## Arquivos CSV
O formato CSV (Comma-separated values) é um tipo de arquivo de texto muito utilizado para transferir informações entre aplicativos/sistemas. Um exemplo simples de um arquivo CSV seria:
```
nome,email
carlos,x@gmail.com
joao,y@gmail.com
```

O pacote `csv` de Python oferece uma forma simples de abrir e ler arquivos CSV:


In [27]:
import csv

def lerDados(arquivo):
    '''Gerar dados desde um arquivo CSV'''
    with open(arquivo) as cvsfile:
        cr = csv.reader(cvsfile)
        _ = next(cr) # Ignoramos a primeira linha com os nomes das coluna
        for linha in cr:
            yield linha
            
print([x for x in lerDados('test.csv')])


[['carlos', 'x@gmail.com'], ['joao', 'y@gmail.com']]


Note que cada elemento gerado é uma lista contendo os 2 atributos armazenados no arquivo 

A seguir, uma transformação simples para visualizar só o email:

In [22]:
print( [x[1] for x in lerDados('test.csv')])

['x@gmail.com', 'y@gmail.com']



## Analisando owid-covid-data.csv

Abra num editor de texto (ou planilha como OpenOffice/Excel) o arquivo `owid-covid-data-topicos.csv`. Esse arquivo foi modificado, em particular, muitas colunas formam eliminadas para facilitar o exercício. Os arquivos originais e atualizados dia a dia podem ser encontrados em https://covid.ourworldindata.org/


A continuação vamos realizar várias operações e análises com esses dados. Em cada caso, crie uma função para implementar a funcionalidade solicitada. Depois teste a função no bloco principal. 

1. Liste os 20 primeiros elementos do arquivo para conhecer um pouco melhor a estrutura dele. Para isso, utilize a função `islice` do pacote `itertools`

2. Implemente uma função que filtre as informações e gere só os dados do Brasil. A função deve ser uma função geradora e ela não deve criar/materializar a sequência numa lista. 

3. Implemente outra função para gerar tuplas (D, N) onde N é o número de casos (new_cases) contabilizados na data D. Note que N deve ser um número inteiro (e não uma string). Você vai perceber que algumas células da tabela estão vazias na coluna "new_cases". Nesse caso, o valor de N deve ser 0. Utilize a função implementada para imprimir o número de casos diários no Brasil assim:

```
...
2021-03-07 --> 80508
2021-03-08 --> 32321
2021-03-09 --> 70764
```

4. Em Python podemos utilizar a classe datetime https://docs.python.org/pt-br/3/library/datetime.html para manipular datas. 

Podemos construir uma data assim

```
from datetime import date
d = date(2021,3,11)
```

Também, podemos utilizar uma string para construir uma data:

```
d = date.fromisoformat('2021-03-11')
```

Modifique a função do item 3 para que D seja um objeto tipo Date (e N um int)

5. Os objetos tipo Date podem ser comparados como esperado:

```
d1 = date(2021,3,11)
d2 = date(2021,3,10)
>>> d1 < d2
False
```

Também, podemos acessar os atributos da data utilizando o operador ponto:

```
>>> d2.month
3
```

Filtre ainda mais as informações para visualizar os dados do Brasil considerando só o presente mês. Utilize o método datetime.today() para retornar a data atual.


6. Quantos novos casos aconteceram na Asia no dia 2021-01-01? E na Europa no dia 2021-02-02?

7. Utilize a função `reduce` (do pactote functools) para retornar o dia no qual o Brasil registrou mais casos novos. 


