<img align="left" src = https://www.linea.org.br/wp-content/themes/LIneA/imagens/logo-header.png width=180 style="padding: 20px"> <br>

## Curso básico de ferramentas computacionais para astronomia
Contato: Julia Gschwend ([julia@linea.org.br](mailto:julia@linea.org.br)) <br>
Github: https://github.com/linea-it/minicurso-jupyter  <br>
Site: https://minicurso-ed2.linea.org.br/ <br> 
Última verificação: 26/08/2021<br> 

<a class="anchor" id="top"></a>
# Aula 3 - Acesso a dados pelo LIneA Science Server, Pandas DataFrame
   
### Índice
1. [SQL básico](#sql)  
2. [Download dos dados](#download)
3. [Manipulação dos dados usando NumPy](#numpy)
4. [Manipulação dos dados usando Pandas](#pandas)

<a class="anchor" id="sql"></a>
# 1. SQL básico 

[slides aula 3](https://docs.google.com/presentation/d/1lK8XNvj1MG_oC39iNfEA16PiU10mzhgUkO0irmxgTmE/preview?slide=id.ge8847134d3_0_821)

<a class="anchor" id="download"></a>
# 2. Download dos dados

Para exemplificar a leitura de dados a partir de um Jupyter Notebook, vamos criar um arquivo com dados baixados da ferramenta **User Query** da plataforma [LIneA Science Server](https://desportal2.cosmology.illinois.edu). Antes de executar a query que vai dar origem ao arquivo, vamos consultar o tamanho (número de linhas) da tabela que ela vai gerar utilizando a seguinte query: 


```sql

SELECT COUNT(*)
FROM DES_ADMIN.DR2_MAIN
WHERE ra > 35 and ra < 36
AND dec > -10 and dec < -9
AND mag_auto_g between 15 and 23
AND CLASS_STAR_G < 0.5
AND FLAGS_I <=4

```

Copie a qurery acima e cole no campo `SQL Sentence`. Em seguida pressione o botão `Preview`. 

O resultado esperado é de 8303 objetos.


Substitua o texto pela query abaixo para criar a tabela selecionando as colunas que vamos utilizar na demonstração.

```sql

SELECT coadd_object_id, ra ,dec, mag_auto_g, mag_auto_r, mag_auto_i, magerr_auto_g, magerr_auto_r, magerr_auto_i, flags_i
FROM DES_ADMIN.DR2_MAIN
WHERE ra > 35 and ra < 36
AND dec > -10 and dec < -9
AND mag_auto_g between 15 and 23
AND CLASS_STAR_G < 0.5
AND FLAGS_I <=4
```

Clique no botão de `Play`(Excecute Query) no canto superior esquerdo, escolha um nome para a sua tabela e pressione `Start`. 
Você receberá um email de notificação quando a sua tabela estiver pronta e ela aparecerá no menu `My Tables`. 

Clique no botão de seta para baixo ao lado do nome da tabela para abrir o menu e clique em `Download`. Você receberá um email com um link para o download do catálogo em formato `.zip`.



Os dados acessados pelo Science Server estão hospedados nos computadores do NCSA. Faremos o download deste subconjunto de dados no formato _comma-separated values_ (CSV) e em seguida o upload do arquivo gerado para o JupyterHub. Sugerimos nomear o arquivo como `galaxias.csv` e guardá-lo dentro da pasta `dados`.  

Nas células abaixo vamos demonstrar como ler/escrever arquivos e manipular dados usando duas bibliotecas diferentes. As células do tipo **Markdown** contém instruções e as células em branco serão preenchidas durante a demonstração. Vamos juntos? 

<a class="anchor" id="numpy"></a>
## 3. Manipulação dos dados usando NumPy

Documentação da biblioteca NumPy:  https://numpy.org/doc/stable/index.html

Para começar, importe a biblioteca.

In [None]:
import numpy as np
print('NumPy version: ', np.__version__)

Leia o arquivo e atribua todo o seu conteúdo a uma variável usando a função `loadtxt`([doc](https://numpy.org/doc/stable/reference/generated/numpy.loadtxt.html)):


Confira o tipo de objeto.

Consulte o tipo de dados dos elementos contidos no array.

Consulte as dimensões do array (linhas,colunas).

Usar o argumento `unpack` da função `loadtxt` para obter as colunas separadamente. Quando ativado, o argumento `unpack` traz a tabela transposta. 

Se você já sabe a ordem das colunas, pode atribuir cada uma delas a uma variável. Dica: pegar os nomes do cabeçalho do arquivo.

Você pode fazer isso direto ao ler o arquivo. OBS: ao usar os mesmos nomes para as variáveis, está sobrescrevendo as anteriores.

Faça um filtro (ou máscara) para galáxias brilhantes (mag i < 20).

Confira o tamanho do array **sem** filtro.

Confira o tamanho do array **com** filtro.

A "máscara" (ou filtro) tambem pode ser aplicada a qualquer outro array com as mesmas dimensões. Teste com outra coluna.

A máscara é útil para criar um subconjunto dos dados. Crie um subconjunto com 3 colunas e com as linhas que satisfazem a condição do filtro.  

Salve este subconjunto em um arquivo usando a função `savetxt`.

Dê uma ohada no arquivo salvo (duplo clique no arquivo leva para o visualizador de tabelas). 

Algo de errado com o número de linhas? 

E agora? Algo errado com o número de colunas? 

Como ficou a formatação? Que tal deixar mais legível e definir o número de espaços? 

Que tal um cabeçalho para nomear as colunas? 

<a class="anchor" id="numpy"></a>
## 4. Manipulação dos dados usando Pandas

Documentação da biblioteca Pandas: https://pandas.pydata.org/docs/ 

In [None]:
import pandas as pd
print('Pandas version: ', pd.__version__)

### Pandas Series

https://pandas.pydata.org/docs/reference/api/pandas.Series.html

### Pandas DataFrame
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html 

```python 
class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)
```

_"Two-dimensional, size-mutable, potentially heterogeneous tabular data. <p>
Data structure also contains labeled axes (rows and columns). Arithmetic operations align on both row and column labels. Can be thought of as a dict-like container for Series objects. The primary pandas data structure."_



Exemplo de criação de um DataFrame a partir de um dicionário:

In [None]:
dic = {"nomes": ["Huguinho", "Zezinho", "Luizinho"],
       "cores": ["vermelho", "verde", "azul"],
       "características": ["nerd", "aventureiro", "criativo"]}

In [None]:
sobrinhos = pd.DataFrame(dic)
sobrinhos

Um DataFrame também é o resultado da leitura de uma tabela usando a função `read_csv` do Pandas.

Vamos explorar algumas funções e atributos úteis de um objeto to tipo _DataFrame_, começando pela sua "ficha técnica". 

Imprima as primeiras linhas.

Defina o número de linhas exibidas.

Imprima as últimas linhas.

Renomeie a coluna `coadd_object_id`

Use a coluna coadd_object_id IDs como índice no DataFrame.

Imprima a descrição do _DataFrame_ (resumão com estatísticas básicas).

Faça um filtro para selecionar objetos com fotometria perfeita (flags_i = 0).

Confira o tamanho do _DataFrame_ filtrado.

Compare com o original.

### Tratando dados qualitativos: flags de qualidade

Contagem dos valores de cada categoria (cada flag).

A classe _Series_ possui alguns gráficos simples embutidos, por exemplo, o gráfico de barras (histograma).

Gráfico de pizza:

Veremos muito mais sobre gráficos na aula 4. Até logo!