<img align="left" src = https://www.linea.gov.br/wp-content/themes/LIneA/imagens/logo-header.png width=180 style="padding: 20px"> <br>

## Curso básico de ferramentas computacionais para astronomia
Contato: Julia Gschwend ([julia@linea.gov.br](mailto:julia@linea.gov.br)) <br>
Github: https://github.com/linea-it/minicurso-jupyter  <br>
Site: https://minicurso-ed2.linea.gov.br/ <br> 
Última verificação: 26/08/2021<br> 

<a class="anchor" id="top"></a>
# Exercícios Aula 3 - Acesso a dados pelo LIneA Science Server, Pandas DataFrame
  



# Parte 1 - repita os passos da aula 3 


Sugestões:
 * Execute as células abaixo removendo os marcadores de comentário ("#") para refazer todos os passos demonstrados na aula.
 * Experimente pequenas variações no código e compare os resultados.
 * Use as células tipo Markdown para adicionar seus comentários ou informações adicionais.


### Índice
1.1 [SQL básico](#sql)<br>
1.2 [Download dos dados](#download)<br>
1.3 [Manipulação dos dados usando NumPy](#numpy)<br>
1.4 [Manipulação dos dados usando Pandas](#pandas)<br>



<a class="anchor" id="sql"></a>
## 1.1 SQL básico 

[slides aula 3](https://docs.google.com/presentation/d/1lK8XNvj1MG_oC39iNfEA16PiU10mzhgUkO0irmxgTmE/preview?slide=id.ge8847134d3_0_821)



## 1.2 Download dos dados (opcional)


Se você ainda não tem acesso ao [LIneA Science Server](https://desportal2.cosmology.illinois.edu) e deseja pular essa etapa, vá para a [seção 1.3](#numpy). 


Para exemplificar a leitura de dados a partir de um Jupyter Notebook, vamos criar um arquivo com dados baixados da ferramenta **User Query** da plataforma [LIneA Science Server](https://desportal2.cosmology.illinois.edu). Antes de executar a query que vai dar origem ao arquivo, vamos consultar o tamanho (número de linhas) da tabela que ela vai gerar utilizando a seguinte query: 


```sql

SELECT COUNT(*)
FROM DES_ADMIN.DR2_MAIN
WHERE ra > 35 and ra < 36
AND dec > -10 and dec < -9
AND mag_auto_g between 15 and 23
AND CLASS_STAR_G < 0.5
AND FLAGS_I <=4

```

Copie a qurery acima e cole no campo `SQL Sentence`. Em seguida pressione o botão `Preview`. 

O resultado esperado é de 8303 objetos.


Substitua o texto pela query abaixo para criar a tabela selecionando as colunas que vamos utilizar na demonstração.

```sql

SELECT coadd_object_id, ra ,dec, mag_auto_g, mag_auto_r, mag_auto_i, magerr_auto_g, magerr_auto_r, magerr_auto_i, flags_i
FROM DES_ADMIN.DR2_MAIN
WHERE ra > 35 and ra < 36
AND dec > -10 and dec < -9
AND mag_auto_g between 15 and 23
AND CLASS_STAR_G < 0.5
AND FLAGS_I <=4
```

Clique no botão de `Play`(Excecute Query) no canto superior esquerdo, escolha um nome para a sua tabela e pressione `Start`. 
Você receberá um email de notificação quando a sua tabela estiver pronta e ela aparecerá no menu `My Tables`. 

Clique no botão de seta para baixo ao lado do nome da tabela para abrir o menu e clique em `Download`. Você receberá um email com um link para o download do catálogo em formato `.zip`.



Os dados acessados pelo Science Server estão hospedados nos computadores do NCSA. Faremos o download deste subconjunto de dados no formato _comma-separated values_ (CSV) e em seguida o upload do arquivo gerado para o JupyterHub. Sugerimos nomear o arquivo como `galaxias.csv` e guardá-lo dentro da pasta `dados`.  

Nas células abaixo vamos praticar a leitura e escrita de arquivos e a manipulação dados usando duas bibliotecas diferentes.

<a class="anchor" id="numpy"></a>
## 1.2 Numpy

Documentação da biblioteca NumPy:  https://numpy.org/doc/stable/index.html

Para começar, importe a biblioteca.

In [None]:
import numpy as np
print('NumPy version: ', np.__version__)

Leia o arquivo e atribua todo o seu conteúdo a uma variável usando a função `loadtxt`([doc](https://numpy.org/doc/stable/reference/generated/numpy.loadtxt.html)):


In [None]:
tabela = np.loadtxt("dados/galaxias.csv", delimiter=",", skiprows=1)
tabela

Confira o tipo de objeto da variável.

In [None]:
type(tabela)

Consulte o tipo de dados dos elementos contidos no array.

In [None]:
tabela.dtype

Consulte as dimensões do array (linhas,colunas).

In [None]:
tabela.shape

In [None]:
tabela[0].dtype

Usar o argumento `unpack` da função `loadtxt` para obter as colunas separadamente. Quando ativado, o argumento `unpack` traz a tabela transposta. 

In [None]:
tabela_unpack = np.loadtxt("dados/galaxias.csv", delimiter=",", unpack=True,  skiprows=1)

In [None]:
tabela_unpack.shape

Se você já sabe a ordem das colunas, pode atribuir cada uma delas a uma variável. Dica: pegar os nomes do cabeçalho do arquivo.

In [None]:
coadd_object_id,dec,flags_i,magerr_auto_g,magerr_auto_i,\
magerr_auto_r,mag_auto_g,mag_auto_i,mag_auto_r,meta_id,ra = tabela_unpack

In [None]:
coadd_object_id

Você pode fazer isso direto ao ler o arquivo. OBS: ao usar os mesmos nomes para as variáveis, está sobrescrevendo as anteriores.

In [None]:
coadd_object_id,dec,flags_i,magerr_auto_g,magerr_auto_i,\
magerr_auto_r,mag_auto_g,mag_auto_i,mag_auto_r,meta_id,ra = np.loadtxt("dados/galaxias.csv", delimiter=",", unpack=True, skiprows=1)

In [None]:
coadd_object_id

Faça um filtros (ou máscara) para galáxias brilhantes (mag i < 20).

In [None]:
mask = (mag_auto_i < 20)
mask

Confira o tamanho do array **sem** filtro.

In [None]:
len(mag_auto_i)

Confira o tamanho do array **com** filtro.

In [None]:
len(mag_auto_i[mask])

A "máscara" (ou filtro) tambem pode ser aplicada a qualquer outro array com as mesmas dimensões. Teste com outra coluna.

In [None]:
len(ra[mask])

A máscara é útil para criar um subconjunto dos dados. Crie um subconjunto com 3 colunas e com as linhas que satisfazem a condição do filtro.  

In [None]:
subset_tabela = np.array([coadd_object_id[mask], mag_auto_i[mask], magerr_auto_i[mask]])

Salve este subconjunto em um arquivo usando a função `savetxt`.

In [None]:
np.savetxt("subset_galaxias.csv", subset_tabela)

Dê uma ohada no arquivo salvo (duplo clique no arquivo leva para o visualizador de tabelas). 

Algo de errado com o número de linhas? 

In [None]:
np.savetxt("subset_galaxias.csv", subset_tabela.T)

E agora? Algo errado com o número de colunas? 

In [None]:
np.savetxt("subset_galaxias.csv", subset_tabela.T, delimiter=",")

Como ficou a formatação? Que tal deixar mais legível e definir o número de espaços? 

In [None]:
np.savetxt("subset_galaxias.csv", subset_tabela.T, delimiter=",", fmt=["%12i", "%10.4f", "%10.4f"])

Que tal um cabeçalho para nomear as colunas? 

In [None]:
np.savetxt("subset_galaxias.csv", subset_tabela.transpose(), delimiter=",", fmt=["%12i", "%10.4f", "%10.4f"], 
           header="objects id, magnitude, mag error")

<a class="anchor" id="pandas"></a>
## 1.2 Pandas

Documentação da biblioteca Pandas: https://pandas.pydata.org/docs/ 

In [None]:
import pandas as pd
print('Pandas version: ', pd.__version__)

#### Pandas Series

https://pandas.pydata.org/docs/reference/api/pandas.Series.html

#### Pandas DataFrame
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html 

```python 
class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)
```

_"Two-dimensional, size-mutable, potentially heterogeneous tabular data. <p>
Data structure also contains labeled axes (rows and columns). Arithmetic operations align on both row and column labels. Can be thought of as a dict-like container for Series objects. The primary pandas data structure."_



Exemplo de criação de um DataFrame a partir de um dicionário:

In [None]:
dic = {"nomes": ["Huguinho", "Zezinho", "Luizinho"],
       "cores": ["vermelho", "verde", "azul"],
       "características": ["nerd", "aventureiro", "criativo"]}

In [None]:
sobrinhos = pd.DataFrame(dic)
sobrinhos

Um DataFrame também é o resultado da leitura de uma tabela usando a função `read_csv` do Pandas.

In [None]:
dados = pd.read_csv("dados/galaxias.csv")

In [None]:
dados

Vamos explorar algumas funções e atributos úteis de um objeto to tipo _DataFrame_, começando pela sua "ficha técnica". 

In [None]:
dados.info()

Imprima as primeiras linhas.

In [None]:
dados.head()

Defina o número de linhas exibidas.

In [None]:
dados.head(3) 

Imprima as últimas linhas.

In [None]:
dados.tail()

Renomeie a coluna `coadd_object_id`

In [None]:
dados.rename(columns={"coadd_object_id":"ID"})

In [None]:
dados

In [None]:
dados.rename(columns={"coadd_object_id":"ID"}, inplace=True)

In [None]:
dados

Use a coluna coadd_object_id IDs como índice no DataFrame.

In [None]:
dados.set_index("ID")

In [None]:
dados

In [None]:
dados.set_index("ID", inplace=True)

In [None]:
dados

Imprima a descrição do _DataFrame_ (resumão com estatísticas básicas).

In [None]:
dados.describe()

Faça um filtro para selecionar objetos com fotometria perfeita (flags_i = 0).

In [None]:
dados.query('flags_i == 0')

Confira o tamanho do _DataFrame_ filtrado e compare com o original.

In [None]:
dados.query('flags_i == 0').count()

In [None]:
dados.count()

### Tratando dados qualitativos: flags de qualidade

In [None]:
dados.flags_i

In [None]:
type(dados.flags_i)

Contagem dos valores de cada categoria (cada flag).

In [None]:
dados.flags_i.value_counts()


A classe _Series_ possui alguns gráficos simples embutidos, por exemplo, o gráfico de barras (histograma).

In [None]:
%matplotlib inline
dados.flags_i.value_counts().plot(kind='bar')

Gráfico de pizza:

In [None]:
dados.flags_i.value_counts().plot(kind='pie')

*******

# Parte 2 - pratique a manipulação de um _DataFrame_ com dados não sensíveis dos alunos 


Os dados não sensíveis dos alunos desta edição estão disponíveis no arquivo `alunos.csv`, dentro do diretório `dados`.
As células abaixo contém instruções para treinar os comandos da biblioteca _Pandas_ vistos acima. 
Cria células novas caso ache necessário. 

<p>

Leia o arquivo e atribua o dataset resultante a uma variável.

In [None]:
alunos = pd.read_csv("dados/alunos.csv")

In [None]:
alunos.head()

Imprima as informações do _DataFrame_ criado com o métofo `info`. Compare com as informações do _dataset_ de galáxias.

In [None]:
alunos.info()

Imprima as primeiras linhas.

In [None]:
alunos.head()

Imprima as 2 últimas linhas

In [None]:
alunos.tail(2)

Renomeie as colunas com letras maiúsculas.

In [None]:
columns = {}
for column in alunos.columns:
    columns[column] = column.upper()
alunos.rename(columns=columns, inplace=True)

In [None]:
alunos

Imprima a descrição do _DataFrame_ (resumão com estatísticas básicas). Compare o resultado com o _DataFrame_ de galáxias. Por que os atributos são diferentes?  

In [None]:
alunos.describe()

Faça um filtro (ou uma "query") para selecionar apenas os alunos do Minicurso Jupyter Notebook.

In [None]:
alunos.query("MINICURSO != 'SS' ")

Imprima o número de alunos do Minicurso Jupyter Notebook por estado.

In [None]:
alunos.query("MINICURSO != 'SS' ")["UF"].value_counts()

Faça um histograma dos estados dos alunos do Minicurso Jupyter Notebook usando o método `plot` da classe _Series_.

In [None]:
alunos.query("MINICURSO != 'SS' ")["UF"].value_counts().plot(kind='bar')

Faça um gráfico de pizza dos perídos dos alunos do Minicurso Jupyter Notebook usando o método `plot` da classe _Series_.

In [None]:
alunos.query("MINICURSO != 'SS' ")["PERÍODO"].value_counts().plot(kind='pie')

Use a criatividade, faça diferentes filtros e explore os dados com os comandos que você aprendeu. 