<img align='left' src = https://linea.org.br/wp-content/themes/LIneA/imagens/logo-header.jpg width=150 style='padding: 20px'> 

## Spectroscopic Redshifts Compilation

Acervo público de medidas de _redshift_ disponibilizadas por <br>levantamentos espectroscópicos anteriores ao DES DR2. 

Contato: Julia Gschwend ([julia@linea.org.br](mailto:julia@linea.org.br))
<br>
Última verificação: 21/09/2023
<br>


#### Acknowledgements
Caso você utilize estes dados para gerar resultados científicos, pedimos que faça referência ao artigo [Gschwend et al., 2018](https://ui.adsabs.harvard.edu/abs/2018A%26C....25...58G/abstract) e reconheça o LIneA na seção de agradecimentos em suas publicações, por exemplo:

'_Esta pesquisa utilizou recursos computacionais da Associação Laboratório Interinstitucional de e-Astronomia (LIneA) com o apoio financeiro do INCT do e-Universo (Processo n.º 465376/2014-2)._' 

#### Curadoria de catálogos de _redshifts_ espectroscópicos 

O LIneA disponibiliza para os usuários do **LIneA JupyterHub** um acervo de catálogos de _redshifts_ espectroscópicos (spec-z) que foram publicamente distribuídos e detalhadamente descritos em literatura científica pelos seus projetos de origem. Estes catálogos foram coletados ao longo dos anos de operação do levantamento Dark Energy Survey (DES) e agrupados sistematicamente por uma ferramenta do DES Science Portal (_pipeline_ Spectroscopic Sample) para compor a base de um conjunto de treinamento para algoritmos de cálculo de _redshifts_ fotométricos baseados em aprendizado de máquina. A versão original do catálogo compilado utilizada no contexto do DES inclui dados proprietários do levantamento [OzDES](https://www.mso.anu.edu.au/ozdes/index.html) ([Yuan et al. 2015](https://ui.adsabs.harvard.edu/abs/2015MNRAS.452.3047Y/abstract)) e outros dados de pequenos levantamentos, também proprietários. 

Uma outra versão incluindo apenas dados públicos de 32 levantamentos espectroscópicos foi preparada e está sendo disponibilizada para o grande público através da plataforma **LIneA JupyterHub**. Este notebook oferece um passo-a-passo de como acessar os dados e uma breve caracterização deste conjunto.

## Como acessar

Para os usuários do **LIneA JupyterHub**, o acesso ao banco de dados é feito de forma segura através da biblioteca `dblinea`. No **Terminal**, com o ambiente que irá utilizar como _kernel_ neste _notebook_ ativado, instale a biblioteca com o comando:   

```
$ pip install dblinea 

```  

Após a conclusão da instalação, reinicie o _kernel_ do notebook para que a biblioteca esteja disponível (clique em `Kernel --> Restart Kernel` na barra de menu). Para mais detalhes de como utilizar a biblioteca `dblinea` e instruções de como gerenciar ambientes no _conda_ e _kernels_, veja os notebooks **2-acesso-a-dados.ipynb**  e **3-conda-env.ipynb** disponíveis neste repositório. Caso você esteja lendo apenas uma cópia deste notebook exportada como um arquivo estático (ex.: em formato PDF ou HTML), os tutoriais do **LIneA JupyterHub** estão disponíveis no github, basta clonar o repositório: 

```
$ git clone https://github.com/linea-it/jupyterhub-tutorial.git

``` 

In [None]:
from dblinea import DBBase

Leitura dos dados: 

O objeto `db` (instância da classo `DBBase`) faz a conexão com o banco de dados. O catálogo compilado de medidas de spec-z e o resultado da correspondência espacial entre este catálogo e os dados fotométricos do DES DR2, i.e., o conjunto de treinamento para algoritmos de photo-z estão disponíveis, respectivamente, nas tabelas `des_dr2.public_specz_compilation` e  `des_dr2.public_pz_training_set` no banco de dados.

In [None]:
db = DBBase()
schema = 'des_dr2'  
tablename = 'public_specz_compilation'
#tablename = 'public_pz_training_set'  

Consulta as colunas presentes na tabela: 

In [None]:
db.get_table_columns(tablename, schema=schema)

In [None]:
db.describe_table(tablename, schema=schema)

Exemplo de _query_ simples com a função `db.fetchall()` (retorna uma lista de tuplas) para listar as 10 primeiras linhas da tabela:  

In [None]:
query = f'SELECT * FROM {schema}.{tablename} limit 10'
lista = db.fetchall(query)
lista

Exemplo de _query_ simples com a função `db.fetchall_df()` (retorna um objeto do tipo `Pandas.DataFrame`) para listar as 10 primeiras linhas da tabela: 

In [None]:
query = f'SELECT * FROM {schema}.{tablename} limit 10'
df = db.fetchall_df(query)
df

## Sobre os dados


### Levantamentos espectroscópicos que compõem o acervo

A tabela abaixo contém a lista de levantamentos e as respectivas referências bibliográficas de cada um dos catálogos de _redshifts_ que compõem o acervo. 


|seq.|Nome do levantamento <br> (link para o _site_)| Redshifts na <br>amostra original | Referência <br> (link para o artigo) |
|---|---|:-:|---|
1| [2dF](http://www.2dfgrs.net/) |245,591 | [Colless et al. 2001](https://academic.oup.com/mnras/article/328/4/1039/1082731)|
2|[2dFLenS](http://2dflens.swin.edu.au/) |70,079| [Blake et al. 2016](https://ui.adsabs.harvard.edu/abs/2016MNRAS.462.4240B/abstract)|
3|[3DHST](http://3dhst.research.yale.edu/Data.php)|207,967|[Momcheva et al. 2016](https://ui.adsabs.harvard.edu/abs/2016ApJS..225...27M/abstract)|
4|[6dF (DR3)](http://www.6dfgs.net/)|109,831|[Jones et al. 2009](https://ui.adsabs.harvard.edu/abs/2009MNRAS.399..683J/abstract)|
5|[ACES](http://mur.ps.uci.edu/cooper/ACES/zcatalog.html)|13,963|[Cooper et al. 2012](https://ui.adsabs.harvard.edu/abs/2012MNRAS.425.2116C/abstract)|
6|[ATLAS (DR2)](http://astro.dur.ac.uk/Cosmology/vstatlas/index.php?go=dr2)|1,074 |[Mao et al. 2012](https://ui.adsabs.harvard.edu/abs/2012MNRAS.426.3334M/abstract)|
7|[C3R2 (DR2)](https://sites.google.com/view/c3r2-survey/) |4,525 |[Masters et al. 2019](https://ui.adsabs.harvard.edu/abs/2019ApJ...877...81M/abstract) |
8|[CDB](http://vizier.u-strasbg.fr/viz-bin/VizieR?-source=J/MNRAS/406/782)        |541   |[Sullivan et al. 2011](https://ui.adsabs.harvard.edu/abs/2011yCat..74060782S/abstract)|
9|[CLASH-VLT](https://sites.google.com/site/vltclashpublic/data-release)  |10,183|[Biviano et al. 2013](https://ui.adsabs.harvard.edu/abs/2013A%26A...558A...1B/abstract)<br> [Annunziatella et al. 2016](https://ui.adsabs.harvard.edu/abs/2016A%26A...585A.160A/abstract)<br> [Balestra et al. 2016](https://ui.adsabs.harvard.edu/abs/2016yCat..22240033B/abstract)<br> [Grillo et al. 2016](https://ui.adsabs.harvard.edu/abs/2016ApJ...822...78G/abstract)<br> [Caminha et al. 2017](https://ui.adsabs.harvard.edu/abs/2017yCat..36000090C/abstract)<br> [Karman et al. 2017](https://ui.adsabs.harvard.edu/abs/2017A%26A...599A..28K/abstract)<br> [Monna et al. 2017](https://ui.adsabs.harvard.edu/abs/2017MNRAS.466.4094M/abstract)|
|10|[DEEP2 (DR4)](http://deep.ps.uci.edu/DR4/home.html)|50,319|[Newman et al. 2013](https://ui.adsabs.harvard.edu/abs/2013ApJS..208....5N/abstract)|
|11|[DEIMOS 10K](http://cosmos.astro.caltech.edu/)|10,770|[Hasinger et al. 2018](https://ui.adsabs.harvard.edu/abs/2018ApJ...858...77H/abstract)| 
12|[FMOS-COSMOS](http://member.ipmu.jp/fmos-cosmos/FC%5C_catalogs.html) |1,153|[Silverman et al. 2015](https://ui.adsabs.harvard.edu/abs/2015yCat..22200012S/abstract)|
13|[GAMA (DR3) ](http://www.gama-survey.org/dr3/schema/table.php?id=24) |166,332 |[Baldry et al. 2018](https://ui.adsabs.harvard.edu/abs/2018MNRAS.474.3875B/abstract)  |
14|[GLASS (DR2)](https://archive.stsci.edu/prepds/glass/#dataformat) |3,289   |[Abramson et al. 2020](https://ui.adsabs.harvard.edu/abs/2020MNRAS.tmp..279A/abstract)|
15|[MOSFIRE    ](http://mosdef.astro.berkeley.edu) |267     |[McLean et al. 2012](https://ui.adsabs.harvard.edu/abs/2012SPIE.8446E..0JM/abstract)  |
16|[MUSE       ](https://musewide.aip.de/query/) |1,602   |[Urrutia et al. 2019](https://ui.adsabs.harvard.edu/abs/2019A%26A...624A.141U/abstract) |
17|[PANSTARRS  ](http://vizier.u-strasbg.fr/viz-bin/VizieR?-source=J/ApJ/795/44) |2,550   |[Kaiser et al. 2010](https://ui.adsabs.harvard.edu/abs/2010SPIE.7733E..0EK/abstract) <br> [Rest et al. 2014](https://ui.adsabs.harvard.edu/abs/2014ApJ...795...44R/abstract) <br> [Scolnic et a;. 2014](https://ui.adsabs.harvard.edu/abs/2014ApJ...795...45S/abstract)|
18|[PRIMUS     ](https://primus.ucsd.edu/)|213,696 |[Coil et al. 2011       ](https://ui.adsabs.harvard.edu/abs/2011ApJ...741....8C/abstract) <br> [Cool et al. 2013](https://ui.adsabs.harvard.edu/abs/2013ApJ...767..118C/abstract)|
19|[SAGA       ](http://sagasurvey.org/)|68,644 |[Geha et al. 2017       ](https://ui.adsabs.harvard.edu/abs/2017ApJ...847....4G/abstract)|
20|[SDSS (DR16)](http://www.sdss.org/dr16/)|4,613,773| [Ahumada et al. 2020    ](https://ui.adsabs.harvard.edu/abs/2020ApJS..249....3A/abstract)|  
21|[SpARCS     ](http://simbad.u-strasbg.fr/simbad/sim-ref?querymethod=bib&simbo=on&submit=submit+bibcode&bibcode=2012ApJ...746..188M)|410 |[Muzzin et al. 2012     ](https://ui.adsabs.harvard.edu/abs/2012ApJ...746..188M/abstract)|
22|[SPT-GMOS   ](https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/OR13NN/)|2,243  |[Bayliss et al. 2016    ](https://ui.adsabs.harvard.edu/abs/2016yCat..22270003B/abstract)|
23|[UDS        ](http://www.nottingham.ac.uk/astronomy/UDS/UDSz/)|1,511  |[Galametz wt al. 2013   ](https://ui.adsabs.harvard.edu/abs/2013ApJS..206...10G/abstract)|
24|[VANDELS    ](https://eso.org/rm/api/v1/public/releaseDescriptions/120)|1,362        |[Pentericci et al. 2018 ](https://ui.adsabs.harvard.edu/abs/2018A%26A...616A.174P/abstract)|
25|[VIPERS     ](http://vipers.inaf.it/rel-pdr1.html)|91,507    |[Garilli et al. 2014    ](https://ui.adsabs.harvard.edu/abs/2014A%26A...562A..23G/abstract)|
26|[VUDS       ](http://cesam.lam.fr/vuds/DR1/) |698             |[Tasca et al. 2017      ](https://ui.adsabs.harvard.edu/abs/2017A%26A...600A.110T/abstract)|
27|[VVDS       ](https://cesam.lam.fr/cesamdata/project_desc/vvds_index.html) |40,927    |[Le Fèvre et al. 2004   ](https://ui.adsabs.harvard.edu/abs/2004A%26A...428.1043L/abstract) <br> [Garilli et al. 2008](https://ui.adsabs.harvard.edu/abs/2008A%26A...486..683G/abstract)| 
28|[WiggleZ    ](http://wigglez.swin.edu.au/site/) |81,362     |[Parkinson et al. 2012  ](https://ui.adsabs.harvard.edu/abs/2012PhRvD..86j3518P/abstract)|
29|[XMM_LSS    ](http://vizier.u-strasbg.fr/viz-bin/VizieR?-source=J/MNRAS/401/294)|383|[Stalin et al. 2010     ](https://ui.adsabs.harvard.edu/abs/2010MNRAS.401..294S/abstract)|
30|[XXL_AAOMEGA](http://cosmosdb.iasf-milano.inaf.it/XXL/) |3,660    |[Lidman et al. 2016     ](https://ui.adsabs.harvard.edu/abs/2016PASA...33....1L/abstract)|
31|[zCOSMOS    ](https://cesam.lam.fr/zCosmos/)|20,689    |[Lilly et al. 2009      ](https://ui.adsabs.harvard.edu/abs/2009ApJS..184..218L/abstract) <br> [Knobel et al. 2012](https://ui.adsabs.harvard.edu/abs/2012ApJ...753..121K/abstract) <br> [Lilly 2026 (DR description)](https://www.eso.org/sci/observing/phase3/data_releases/zcosmos_dr3_b2.pdf)|
32|[ZFIRE      ](http://zfire.swinburne.edu.au/data.html)|216|[Nanayakkara et al. 2016](https://ui.adsabs.harvard.edu/abs/2012ApJ...753..121K/abstract)|

<div style='text-align: right' id='flags'></div>

### Sistema único de _flags_ 

Além de combinar todos os catálogos em uma única tabela, o _pipeline_ Spectroscopic Sample também homogeniza os diversos marcadores de qualidade originais dos catálogos ('flags') em um sistema único ('flag_des') com base nos parâmetros utilizados no levantamento OzDES ([Yuan et al., 2015](https://ui.adsabs.harvard.edu/abs/2015MNRAS.452.3047Y/abstract)). Em resumo, as flags significam: 

|flag_des| Significado | 
|--- |---|
|1   | redshift desconhecido | 
|2   | palpite não confiável | 
|3   | 95% de confiança      | 
|4   | 99% de confiança      | 

A correspondência entre as _flags_ originais e o sistema unificado é a seguinte: 
    
Levantamento |  flag_des = 1 | flag_des = 2 | flag_des = 3 | flag_des = 4 
|:--|:--|:--|:--|:--|
2DF        | 1                | 2                 | 3           | 4,5 
2dFLenS    | 1                | 2                 | 3           | 4,5
3DHST      | -1,1             | 2                 | 0           | -
6DF        | 1                | 2                 | 3           | 4,6
ACES       | -2,0,1           | 2                 | 3           | 4,-1
ATLAS      | -                | 4                 | -           | -
C3R2       | -                | -                 | 3,3.5       | 4
CDB        | -                | 4                 | -           | -
CLASH-VLT  | -                | 2                 | 4,5,6,9     | 3
DEEP2      | -2,0,1           | 2                 | 3           | 4,-1
DEIMOS_10K | 0.0              | 1.0               | 1.5         | 2.0
FMOS_COSMOS| 0,1              | 2                 | 3           | 4
GAMA       | <0.0,0.68>       | <0.68,0.95>       | <0.95,0.99> | <0.99,1.0>
GLASS      | 0,0.5,1,1.5      | 2,2.5             | 3 = 3,3.5   | 4
MOSFIRE    | 1                | -                 | 3           | -
MUSE       | -                | 1                 | 2           | 3
PANSTARRS  | -                | -                 | 3           | 4,6
PRIMUS     | -                | 2                 | 3           | 4
SAGA       | -                | -                 | 3           | 4
SDSS_DR14  | -                | -                 | -           | 0
SPARCS     | 4                | 3                 | 2           | 1
SPT_GMOS   | 0,1              | 2                 | 3           | 4
UDS        | -                | -                 | 3,B,B*      | 4,A
VANDELS    | 1                | 2,9               | 3           | 4
VIPERS     | 0,1,11,211       | 2,9,12,19,212,213 | 3 = 3,13    | 4,14,24
VUDS       | -                | -                 | 3,B,B*      | 4,A
VVDS       | 0,1              | 2,9               | 3           | 4
WIGGLEZ    | 1                | 2                 | 3           | 4,5
XMM_LSS    | -                | 3                 | 2           | 1
XXL_AAOMEGA| 0,1              | 2                 | 3           | 4,6
ZCOSMOS    | 0,1,11,20,21,211 | 2,12,22           | 9,19,29,18  | 3,4,13,14,23,24
ZFIRE      | 0,1              | 2                 | 3           | 4


### Escolha em caso de múltiplas medidas 

Muitos dos levantamento listados acima observaram regiões do céu em comum. Ao agrupar todas as medidas em um catálogo único, com frequência existem múltiplas medidas de specz disponíveis para uma mesma galáxia. Para identificar esses casos, o _pipeline_ Spectroscopic Sample faz uma correspondência espacial entre as coordenadas equatoriais de 'todos contra todos' com raio de busca de 1.0 _arcsec_ a partir de cada objeto. Em seguida, aplica uma seleção para manter apenas uma medida para cada objeto extragalático presente na amostra, seguindo os critérios abaixo para escolha e desempate:

1. medida com maior `flag_des`
2. medida com menor `err_z`
3. medida feita pelo levantamento mais recente



--- 

## Caracterização da amostra  

Confira abaixo uma breve caracterização dos dados contidos no acervo compilado de catálogos espectroscópicos (tabela `des_dr2.public_specz_compilation`) e do resultado da correspondência espacial entre este catálogo e os dados fotométricos do DES DR2, i.e., o conjunto de treinamento para algoritmos de photo-z (tabela `des_dr2.public_pz_training_set`).  

Requisitos deste notebook: 

* **Arquivo auxiliar**: [des-round19-poly.txt](https://github.com/kadrlica/skymap/blob/master/skymap/data/des-round19-poly.txt) (contornos da área coberta pelo levantamento, i.e., DES _footprint_, versão de 2019). 
* **Bibliotecas de visualização**: seaborn, bokeh, holoviews

_Download_ do arquivo `des-round19-poly.txt` a partir do repositório [kadrlica/skymap](https://github.com/kadrlica/skymap) no GitHub: 

In [None]:
! wget https://raw.githubusercontent.com/kadrlica/skymap/master/skymap/data/des-round19-poly.txt  

Caso esteja utilizando as bibliotecas pela primeira vez neste ambiente, será necessário instalá-las. As versões especificadas foram utilizadas na última verificação deste _notebook_. Sugerimos a criação de um ambiente no conda para a instlação das bibliotecas. Para isso, execute os comandos a seguir no terminal: 

```shell
conda create --name specz python=3.10
conda activate specz 
pip install numpy==1.23.5
pip install pandas==2.0.0
pip install matplotlib==3.6.3
pip install seaborn==0.12.2
pip install xarray==2023.5.0
pip install bokeh==3.1.1
pip install holoviews==1.16.0
pip install datashader==0.14.4
pip install dblinea 
conda install -c anaconda ipykernel
python -m ipykernel install --user --name=specz
``` 

Em seguida, selecione o _kernel_ `specz` no canto superior direito do _notebook_ (o novo _kernel_ pode levar alguns minutos para aparecer no menu). 

Importação e configuração das bibliotecas: 

In [None]:
# General
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sys

# Astropy
from astropy import units as u
from astropy.coordinates import SkyCoord
from astropy.units.quantity import Quantity

# Bokeh
import bokeh
from bokeh.io import output_notebook, show, output_file, reset_output
from bokeh.models import ColumnDataSource, Range1d, HoverTool
from bokeh.models import CDSView, GroupFilter
from bokeh.plotting import figure, show, gridplot, output_notebook
from bokeh.models import Range1d, LinearColorMapper, ColorBar
from bokeh.transform import factor_cmap

# HoloViews
import holoviews as hv
from holoviews import streams, opts
from holoviews.operation.datashader import datashade, dynspread
from holoviews.plotting.util import process_cmap

#LIneA
import dblinea
from dblinea import DBBase

# Config
import warnings
warnings.filterwarnings('ignore')
%reload_ext autoreload 
%autoreload 2 
%matplotlib inline 
sns.set(color_codes=True, font_scale=1.5) 
sns.set_style('whitegrid')
plt.rcParams.update({'figure.max_open_warning': 0})
hv.extension('bokeh')
output_notebook()

In [None]:
print('Python version: ' + sys.version)
print('Numpy version: ' + np.__version__)
print('Bokeh version: ' + bokeh.__version__)
print('HoloViews version: ' + hv.__version__)

Leitura do DES foorptint no arquivo `des-round19-poly.txt`:

In [None]:
foot_ra, foot_dec = np.loadtxt('des-round19-poly.txt', unpack=True)
foot_coords = SkyCoord(ra=-foot_ra*u.degree, dec=foot_dec*u.degree, frame='icrs')
foot_df = pd.DataFrame({'foot_ra': np.array(foot_coords.ra.wrap_at(180*u.degree)), 
                        'foot_dec': np.array(foot_coords.dec)})

Funções auxiliares: 

In [None]:
def show_bokeh_inline(p):
    try:
        reset_output()
        output_notebook()
        show(p)
    except:
        output_notebook()
        show(p)

--- 
### 1. Catálogo de _redshifts_ espectroscópicos

In [None]:
db = DBBase()
schema = 'des_dr2'  
tablename = 'public_specz_compilation'

Leitura do catálogo completo 

In [None]:
query = f'SELECT * FROM {schema}.{tablename} ORDER BY id ASC' 
specz_catalog = db.fetchall_df(query)

In [None]:
specz_catalog.head()

Significado das colunas: 

| Nome da coluna | Sigificado | 
|--:|:--|
| **idspec** | Identificador único original dado pelo levantamento. Quando indisponível, substituído por 9999. |
| **ra**  | Ascensão reta (graus)  |
| **dec** | Declinação (graus) |
| **z** | redshift |
| **err_z** | Erro no redshift. Quando indisponível, substituído por 99.0 |
| **flag** | Marcador de qualidade original dado pelo levantamento de origem. |
| **source** | Nome do projeto ou levantamento de origem. |
| **flag_des**| Marcador de qualidade padronizado (detalhes [acima](#flags))| 
| **id**| Identificador único dado pelo _pipeline_ Spectroscopic Sample no DES Science Portal. | 

Estatísticas básicas: 

In [None]:
specz_catalog.describe()

Note pelos valores mínimo e máximo da coluna **flag_des** que foi aplicado um corte de qualidade onde apenas objetos com **flag_des** $\geqslant$ 3 foram incluídos na amostra. 

--- 
Aqui definimos uma amostragem aleatória dos dados para criar alguns gráficos que consomem uma quantidade significativa de memória. Este passo é especialmente crítico para usuários com perfil _bronze_. 

In [None]:
frac = 0.02
spec_sample_for_plots = specz_catalog.sample(frac=frac, axis='index')
assert len(spec_sample_for_plots) == round(frac * len(specz_catalog))
print(len(spec_sample_for_plots))

Se você é membro de colaboração apoiada pelo LIneA (LSST, DES, DESI, SDSS), pode descomentar a linha abaivo e permitir a criação dos gráficos utilizando o conjunto completo de dados.  

In [None]:
# spec_sample_for_plots = specz_catalog

--- 

#### Distribuição espacial 


In [None]:
coords = SkyCoord(ra=-np.array(spec_sample_for_plots.ra)*u.degree, 
                  dec=np.array(spec_sample_for_plots.dec)*u.degree, frame='icrs')
spec_sample_for_plots.ra = np.array(coords.ra.wrap_at(180*u.degree))
spec_sample_for_plots.dec = np.array(coords.dec)

In [None]:
%%time
fig = plt.figure(figsize=[14,6])
ax = fig.add_subplot(111, projection='mollweide')   
ra_rad = coords.ra.wrap_at(180 * u.deg).radian
dec_rad = coords.dec.radian
plt.plot(ra_rad, dec_rad, '.', alpha=0.3)
plt.plot(-np.radians(foot_ra), np.radians(foot_dec), '-', color='darkorange')
org=0.0
tick_labels = np.array([150, 120, 90, 60, 30, 0, 330, 300, 270, 240, 210])
tick_labels = np.remainder(tick_labels+360+org,360)
ax.set_xticklabels(tick_labels)     # we add the scale on the x axis
ax.set_xlabel('R.A.')
ax.xaxis.label.set_fontsize(14)
ax.set_ylabel('Dec.')
ax.yaxis.label.set_fontsize(14)
ax.grid(True)
plt.tight_layout()

Distribuição de _redshifts_

In [None]:
redshift = hv.Dimension('z', label='spec-z', range=(0.0, 2.0))
(count, z_bin) = np.histogram(spec_sample_for_plots.z, bins='fd')

In [None]:
z_distribution = hv.Histogram((count, z_bin), kdims=redshift).opts(
    title='Distribuição de redshifts', xlabel='spec-z', height=400, width=800)   
z_distribution

#### _Flags_ de qualidade

In [None]:
specz_catalog.flag_des.value_counts() 

In [None]:
def fmt(x):
    return '{:.1f}%'.format(x)
counts = pd.DataFrame(data={'flag_des':[len(specz_catalog.query('flag_des ==3')), 
                                        len(specz_catalog.query('flag_des ==4'))]}, index= [3, 4])
counts.plot.pie(y='flag_des', labels=None, autopct=fmt, colors=['darkorange', 'steelblue']) 
counts

Distribuição de _redshifts_ de objetos de acordo com a flag de qualidade. 

In [None]:
(count4, z_bin4) = np.histogram(spec_sample_for_plots.query('flag_des == 4').z, bins='fd')
z_distribution4 = hv.Histogram((count4, z_bin4), kdims=redshift).opts(
    title='flag_des = 4', xlabel='spec-z', height=400, width=400)
(count3, z_bin3) = np.histogram(spec_sample_for_plots.query('flag_des == 3').z, bins='fd')
z_distribution3 = hv.Histogram((count3, z_bin3), kdims=redshift).opts(
    title='flag_des = 3',  color='darkorange', xlabel='spec-z', height=400, width=400)
z_dist_by_flag = z_distribution4.options(height=350, width=450)  +  z_distribution3.options(height=350, width=450)             

In [None]:
z_dist_by_flag

#### Caracterização das subamostras (por levantamento) 

Contagem de _redshifts_ por levantamento efetivamente incluídos na amostra (após cortes de qualidade e seleção em caso de múltiplas medidas) 

In [None]:
counts_table = specz_catalog.source.value_counts().sort_values(ascending=False).reset_index(name='count')
counts_table

In [None]:
coords_all = SkyCoord(ra=-np.array(specz_catalog.ra)*u.degree, 
                  dec=np.array(specz_catalog.dec)*u.degree, frame='icrs')
specz_catalog.ra = np.array(coords_all.ra.wrap_at(180*u.degree))
specz_catalog.dec = np.array(coords_all.dec)

In [None]:
for index, row in counts_table.iterrows():
    survey = row['source']
    query = f'source == "{survey}" '
    data = specz_catalog.query(query)
    plt.figure(figsize=[15,5])
    survey = row['source']
    query = f'source == "{survey}" '
    plt.subplot(121)
    plt.plot(data.ra, data.dec, '.')
    plt.plot(foot_df.foot_ra, foot_df.foot_dec, '-', color='darkorange')
    plt.xlabel('R.A. (deg)')
    plt.ylabel('Dec. (deg)')
    plt.xlim(-180, 180)
    plt.subplot(122)    
    sns.histplot(data.z, bins=50, stat='count', label=f'{row["source"]}: {row["count"]} objects')
    plt.xlabel('spec-$z$')#, fontsize=13)
    plt.xlim(0,)
    plt.legend()
    plt.tight_layout()

Liberação de memória 

In [None]:
del specz_catalog, spec_sample_for_plots

--- 

### 2. Conjunto de treinamento para photo-z (inclui dados fotométricos do DES) 

O conjunto de treinamento foi criado a partir da correspondência espacial entre os objetos presentes no catálogo de reshifts descrito acima e a tabela de objetos (_coadd_objects_) do DES DR2, com raio de busca de 1.0 _arcsec_, com o objetivo de incluir as colunas do conjunto fotométrico que são úteis para o cálculo de photo-z (magnituides aparentes e seus respectivos erros). O conjunto de treinamento  corresponde à tabela `des_dr2.public_pz_training_set` no banco de dados.  

In [None]:
db = DBBase()
schema = 'des_dr2'  
tablename = 'public_pz_training_set'

In [None]:
query = f'SELECT * FROM {schema}.{tablename}'
training_set = db.fetchall_df(query)

In [None]:
training_set.head()

Significado das colunas: 

| Nome da coluna | Sigificado | 
|--:|:--|
| **spec_id** | Identificador único dado pelo _pipeline_ Spectroscopic Sample no DES Science Portal. |
| **z** | _redshift_ |
| **err_z** | Erro no redshift. Quando indisponível, substituído por 99.0 |
| **flag** | Marcador de qualidade original dado pelo levantamento de origem. |
| **source** | Nome do projeto ou levantamento de origem. |
| **flag_des**| Marcador de qualidade padronizado (detalhes [acima](#flags))| 
| **coadd_object_id**| Identificador único do objeto no catálogo fotométrico do DES DR2 (tabela _coadd_objects_). | 
| **ra**  | Ascensão reta (graus)  |
| **dec** | Declinação (graus) |
| **mag\_auto\_[g,r,i,z,y]\_dered** | Magnitude aparente nas bandas [g, r, i, z, y], corrigidas de avermelhamento  |
| **magerr\_auto\_[g,r,i,z,y]** | Erro na magnitude aparente nas bandas [g, r, i, z, y] |

Cálculo das cores $(g-r)$ e $(r-i)$ 

In [None]:
training_set['gmr'] = training_set['mag_auto_g_dered'] - training_set['mag_auto_r_dered']
training_set['rmi'] = training_set['mag_auto_r_dered'] - training_set['mag_auto_i_dered']

Estatísticas básicas 

In [None]:
training_set.describe()

--- 
Aqui novamente definimos uma amostragem aleatória dos dados para criar alguns gráficos que consomem uma quantidade significativa de memória. Este passo é especialmente crítico para usuários com perfil _bronze_. 

In [None]:
frac = 0.06
train_sample_for_plots = training_set.sample(frac=frac, axis='index')
assert len(train_sample_for_plots) == round(frac * len(training_set))
print(len(train_sample_for_plots))

Se você é membro de colaboração apoiada pelo LIneA (LSST, DES, DESI, SDSS), pode descomentar a linha abaivo e permitir a criação dos gráficos utilizando o conjunto completo de dados.  

In [None]:
# train_sample_for_plots = training_set

--- 

#### Distribuição espacial 



In [None]:
coords = SkyCoord(ra=-np.array(train_sample_for_plots.ra)*u.degree, 
                  dec=np.array(train_sample_for_plots.dec)*u.degree, frame='icrs')
train_sample_for_plots.ra = np.array(coords.ra.wrap_at(180*u.degree))
train_sample_for_plots.dec = np.array(coords.dec)

In [None]:
%%time
fig = plt.figure(figsize=[14,6])
ax = fig.add_subplot(111, projection='mollweide')   
ra_rad = coords.ra.wrap_at(180 * u.deg).radian
dec_rad = coords.dec.radian
plt.plot(ra_rad, dec_rad, '.', alpha=0.3)
plt.plot(-np.radians(foot_ra), np.radians(foot_dec), '-', color='darkorange')
org=0.0
tick_labels = np.array([150, 120, 90, 60, 30, 0, 330, 300, 270, 240, 210])
tick_labels = np.remainder(tick_labels+360+org,360)
ax.set_xticklabels(tick_labels)     # we add the scale on the x axis
ax.set_xlabel('R.A.')
ax.xaxis.label.set_fontsize(14)
ax.set_ylabel('Dec.')
ax.yaxis.label.set_fontsize(14)
ax.grid(True)
plt.tight_layout()

Distribuição de _redshifts_

In [None]:
redshift = hv.Dimension('z', label='spec-z', range=(0.0, 2.0))
(count, z_bin) = np.histogram(train_sample_for_plots.z, bins='fd')

In [None]:
z_distribution = hv.Histogram((count, z_bin), kdims=redshift).opts(
    title='Distribuição de redshifts', xlabel='spec-z', height=400, width=800)   
z_distribution

#### _Flags_ de qualidade

In [None]:
training_set.flag_des.value_counts() 

In [None]:
def fmt(x):
    return '{:.1f}%'.format(x)
counts = pd.DataFrame(data={'flag_des':[len(training_set.query('flag_des ==3')), 
                                        len(training_set.query('flag_des ==4'))]}, index= [3, 4])
counts.plot.pie(y='flag_des', labels=None, autopct=fmt, colors=['darkorange', 'steelblue']) 
counts

Distribuição de _redshifts_ de objetos de acordo com a flag de qualidade  

In [None]:
(count4, z_bin4) = np.histogram(train_sample_for_plots.query('flag_des == 4').z, bins='fd')
z_distribution4 = hv.Histogram((count4, z_bin4), kdims=redshift).opts(
    title='flag_des = 4', xlabel='spec-z', height=400, width=400)
(count3, z_bin3) = np.histogram(train_sample_for_plots.query('flag_des == 3').z, bins='fd')
z_distribution3 = hv.Histogram((count3, z_bin3), kdims=redshift).opts(
    title='flag_des = 3',  color='darkorange', xlabel='spec-z', height=400, width=400)
z_dist_by_flag = z_distribution4.options(height=350, width=450)  +  z_distribution3.options(height=350, width=450)             

In [None]:
z_dist_by_flag

#### Características da amostra fotométrica

##### Distribuições de magnitudes e seus respectivos erros

In [None]:
bands = ['g', 'r', 'i', 'z', 'y']

In [None]:
fig = plt.figure(figsize=[12,4])
plt.subplot(1,2,1)
for band in bands:
    plt.hist(train_sample_for_plots.query(f'mag_auto_{band}_dered != 99.')[f'mag_auto_{band}_dered'], 
             bins=50, histtype='step', log=True)
plt.xlabel('magnitude')
plt.ylabel('counts')
plt.xlim(8,30)
plt.subplot(1,2,2)
for band in bands:
    plt.hist(train_sample_for_plots.query(f'mag_auto_{band}_dered != 99. & magerr_auto_{band} < 1.')[f'magerr_auto_{band}'], 
             bins=50, label=band, histtype='step', log=True)
plt.xlabel('magnitude error')
plt.ylabel('counts')
plt.xlim(0,1)
plt.legend(loc='upper right')
plt.tight_layout()

##### Erros nas magnitudes

In [None]:
plt.figure(figsize=[18,4])
for i, band in enumerate(bands): 
    plt.subplot(int(f'15{str(i+1)}'))
    query = f'mag_auto_{band}_dered != 99. & magerr_auto_{band} < 2.'
    plt.plot(train_sample_for_plots.query(query)[f'mag_auto_{band}_dered'],
             train_sample_for_plots.query(query)[f'magerr_auto_{band}'], 
             '.', alpha=0.3, color='steelblue')
    plt.xlabel(f'mag {band}')
    if i == 0: 
        plt.ylabel('error')
    plt.xlim(16, 28)    
    plt.ylim(0, 2)
    plt.tight_layout()

##### Magnitude X redshift

In [None]:
clean = 'magerr_auto_i < 0.1 & mag_auto_g_dered != 99. & mag_auto_r_dered != 99. & mag_auto_i_dered != 99.'
train_sample_for_plots.query(clean, inplace=True)

In [None]:
mag_vs_z = hv.Scatter(train_sample_for_plots[['z', 'mag_auto_i_dered']]).opts(
        toolbar='above', tools=['hover'], height=400, width=800, alpha=0.5, 
        size=2, xlim=(0,2), ylim=(14,24), xlabel='spec-z', ylabel='mag i')
mag_vs_z

##### Diagramas cor-magnitude e cor-cor

In [None]:
plot_style_bkh = dict(alpha=0.2,# color='steelblue',
                      marker='triangle', size=3,
                      xticks=5, yticks=5,
                      height=400, width=400,
                      toolbar='above')
plot_style = plot_style_bkh

In [None]:
points = train_sample_for_plots

In [None]:
imag = hv.Dimension('mag_auto_i_dered', label='mag i', range=(12, 24))
gmr = hv.Dimension('gmr', label='(g-r)', range=(-0.8, 3.0))
col_mag = hv.Scatter(points, kdims=imag, vdims=gmr).opts(**plot_style)
col_mag = col_mag.hist(dimension=[imag, gmr], num_bins=100, adjoin=True)

In [None]:
rmi = hv.Dimension('rmi', label='(r-i)', range=(-0.8, 2.5))
gmr = hv.Dimension('gmr', label='(g-r)', range=(-0.8, 3.5))
col_col = hv.Scatter(points, kdims=rmi, vdims=gmr).opts(**plot_style)
col_col = col_col.hist(dimension=[rmi, gmr], num_bins=100, adjoin=True)

In [None]:
col_mag + col_col

---