<img align="left" src = https://www.linea.gov.br/wp-content/themes/LIneA/imagens/logo-header.png width=180 style="padding: 20px"> <br>

## Curso básico de ferramentas computacionais para astronomia
Contato: Julia Gschwend ([julia@linea.gov.br](mailto:julia@linea.gov.br)) <br>
Github: https://github.com/linea-it/curso  <br>
Site: https://minicurso-ed2.linea.gov.br/ <br> 
Última verificação: 28/07/2021<br> 

<a class="anchor" id="top"></a>
# Aula 3 - Acesso a dados pelo LIneA Science Server, Pandas DataFrame
   
### Índice
1. SQL básico ([slides aula 3])
2. Queries e download dos dados
3. [Pandas DataFrame](#pandas)

# Download dos dados

Para exemplificar a leitura de dados a partir de um Jupyter Notebook, primeiro vamos criar um arquivo com dados baixados do [LIneA Science Server](https://desportal2.cosmology.illinois.edu), utilizando a seguinte query: 


```sql

SELECT COUNT(*)
FROM DES_ADMIN.DR2_MAIN
WHERE ra > 35 and ra < 36
AND dec > -10 and dec < -9
AND mag_auto_g between 15 and 23
AND CLASS_STAR_G < 0.5
AND FLAGS_I <=4

```


```sql

SELECT coadd_object_id, ra ,dec, mag_auto_g, mag_auto_r, mag_auto_i, magerr_auto_g, magerr_auto_r, magerr_auto_i, flags_i
FROM DES_ADMIN.DR2_MAIN
WHERE ra > 35 and ra < 36
AND dec > -10 and dec < -9
AND mag_auto_g between 15 and 23
AND CLASS_STAR_G < 0.5
AND FLAGS_I <=4
```


Os dados acessados pelo Science Server estão hospedados nos computadores do NCSA. Faremos o download deste subconjunto de dados no formato _comma-separated values_ (CSV) e em seguida o upload do arquivo gerado para o JupyterHub. Sugerimos nomear o arquivo como `galaxias.csv` e guardá-lo dentro da pasta `dados`.  

## Numpy

Usando a biblioteca numpy para ler e escrever arquivos.

In [None]:
import numpy as np

Exemplo 1: ler o arquivo e atribuir todo o seu conteúdo a uma variável.

In [None]:
dados = np.loadtxt("galaxias.csv", delimiter=",")

In [None]:
type(dados)

In [None]:
dados.dtype

In [None]:
dados.shape

In [None]:
obj_id, ra ,dec, mag_g, mag_r, mag_i, err_g, err_r, err_i = dados

In [None]:
mask = [mag_i < 20]
mask

In [None]:
len(ra)

In [None]:
len(ra[mask])

In [None]:
subset_dados = [obj_id[mask], mag_i[mask], err_i[mask]]

In [None]:
np.savetxt("subset_galaxias.csv", subset_dados)

In [None]:
np.savetxt("subset_galaxias.csv", np.c_[subset_dados])

In [None]:
np.savetxt("subset_galaxias.csv", np.c_[subset_dados], fmt=["%14i", "%8.4f", "%8.4f"])

In [None]:
np.savetxt("subset_galaxias.csv", np.c_[subset_dados], fmt=["%14i", "%8.4f", "%8.4f"], header="object id,  magnitude,  error")

In [None]:
np.savetxt("subset_galaxias.csv", np.c_[subset_dados], fmt=["%14i", "%10.4f", "%10.4f"], header=f"{'object id,':15s},{'magnitude':10s},{'error':10i}")

In [None]:
obj_id_sub, mag_i_sub, err_i_sub = np.loadtxt("subset_galaxias.csv", unpack=True, delimiter=",")

In [None]:
mag_i_sub

In [None]:
len(mag_i_sub)

In [None]:
mag_i_sub == mag_i[mask]

# Pandas

documentação da biblioteca em https://pandas.pydata.org/docs/ . 

In [None]:
import pandas as pd
print('Pandas version: ', pd.__version__)

In [None]:
dados_df1 = pd.DataFrame({"object id": obj,
                         "ra": ra,
                         "dec", dec,
                         "mag g": mag_g,
                         "mag_r": mag_r, 
                         "mag_i": mag_i, 
                         "err_g": err_g, 
                         "err_r": err_r, 
                         "err_i": err_i})

In [None]:
dados_df2 = pd.read_csv("galaxias.csv")

In [None]:
dados_df1 == dados_df2

In [None]:
dados = dados_df1
del dados_df1, dados_df2

In [None]:
dados

In [None]:
dados.head()

In [None]:
dados.tail()

In [None]:
dados.head(3)

In [None]:
dados.memory_usage()

In [None]:
dados.set_index("índice")

In [None]:
dados

In [None]:
dados.set_index("índice", inplace=True)

In [None]:
dados.describe()

In [None]:
data_1['Gender'] = data_1.Gender.astype('category')


In [None]:
data_1.loc[0:4, ['Name', 'Age', 'State']]


In [None]:
data_1['State'].value_counts()


In [None]:
data_1.groupby(by='State').Salary.mean()


In [None]:
data_1.sort_values(by='Name', inplace=True)


In [None]:
data.query("flag <2")


In [None]:
data.query("flag < 2 and mag < 18")
