<img align='left' src = https://linea.org.br/wp-content/themes/LIneA/imagens/logo-header.jpg width=150 style='padding: 20px'> 

# Tutorial: particionamento de dados com Hipscat  

Passo-a-passo para conversão de catálogos astronômicos para o formato Hipscat. 

Contato 1: Julia Gschwend ([julia@linea.org.br](mailto:julia@linea.org.br))

Contato 2: Luigi Silva ([luigi.silva@linea.org.br](mailto:luigi.silva@linea.org.br))
<br>
Última verificação: 09/05/2024
<br>



#### Acknowledgements

<font color='red'> texto pedindo citação - ver modelo no jupyterhub do dirac/lincc </font>

'_Esta pesquisa utilizou recursos computacionais da Associação Laboratório Interinstitucional de e-Astronomia (LIneA) com o apoio financeiro do INCT do e-Universo (Processo n.º 465376/2014-2)._' 

LIneA

LINCC Frameworks 


# Introdução

<font color='red'> conceito healpix </font>

<font color='red'> conceito hipscat </font>

<font color='red'> conceito x-match espacial </font>

<font color='red'> desafios técnicos, escalabilidade, objetos nas bordas, etc </font>



# Importação das bibliotecas e configurações

Requisitos para este notebook:

* **Bibliotecas gerais**: os, sys, math, numpy, time, psutil, tables_io, pathlib.
* **Bibliotecas astronômicas:** astropy.
* **Bibliotecas de computação paralela**: dask.
* **Bibliotecas de visualização**: bokeh, holoviews, geoviews, datashader, matplotlib.
* **Bibliotecas de interesse principal:** hipscat, hipscat_import, lsdb.
* **Bibliotecas de manipulação de dados**: pandas, geopandas.
* **Bibliotecas para a obtenção de dados**: pzserver, dblinea.

* **Arquivo auxiliar**: [des-round19-poly.txt](https://github.com/kadrlica/skymap/blob/master/skymap/data/des-round19-poly.txt) (contorno da área coberta pelo levantamento do DES DR2, i.e., DES _footprint_, 2019 version).

Faça o download do arquivo `des-round19-poly.txt` do repositório [kadrlica/skymap](https://github.com/kadrlica/skymap) no GitHub:

In [None]:
#! wget https://raw.githubusercontent.com/kadrlica/skymap/master/skymap/data/des-round19-poly.txt -O des-round19-poly.txt 

## Importações

In [None]:
###################### GENERAL ######################
import os
import sys
import math

import numpy as np

import time
import psutil

import tables_io
from pathlib import Path

###################### ASTRONOMY ######################
### ASTROPY
from astropy.coordinates import SkyCoord
from astropy import units as u

###################### PARALLEL COMPUTING ######################
### DASK
import dask.array
from dask.distributed import Client

###################### VISUALIZATION ######################
### BOKEH
import bokeh
from bokeh.io import output_notebook, show, output_file, reset_output
from bokeh.models import ColumnDataSource, Range1d, HoverTool, CustomJSHover
from bokeh.models import CDSView, GroupFilter
from bokeh.models import ColorBar, LinearColorMapper
from bokeh.plotting import figure, gridplot
from bokeh.transform import factor_cmap
from bokeh.palettes import Viridis256

### HOLOVIEWS
import holoviews as hv
from holoviews import streams, opts
from holoviews.operation import histogram
from holoviews.operation.datashader import datashade, rasterize, shade, dynspread, spread
from holoviews.plotting.util import process_cmap

### GEOVIEWS
import geoviews as gv
import geoviews.feature as gf
from cartopy import crs
# For filtering the data with a Polygon contour
from shapely.geometry import Polygon

### MATPLOTLIB
import matplotlib.pyplot as plt
from matplotlib.colors import LogNorm

### DATASHADER
import datashader as dsh

###################### HIPSCAT AND LSDB ######################
### HIPSCAT
## Explore the HiPSCat catalogs and plot sky maps
from hipscat.catalog import Catalog
from hipscat.inspection import plot_pixels

## For converting the data to HiPSCat format and generate margin caches
from hipscat_import.catalog.file_readers import CsvReader
from hipscat_import.margin_cache.margin_cache_arguments import MarginCacheArguments
import hipscat_import.pipeline as runner
from hipscat_import.catalog.arguments import ImportArguments
# from hipscat_import.pipeline import ImportArguments, pipeline_with_client  

### LDSB
import lsdb

###################### DATA MANAGEMENT ######################
### PANDAS
import pandas as pd

### GEOPANDAS
import geopandas as gpd

###################### DATA ACCESS ######################
### PZ SERVER
from pzserver import PzServer 

### DB LIneA
from dblinea import DBBase

Imprimindo as versões do Python, Numpy, Bokeh e Holoviews:

In [None]:
print('Python version: ' + sys.version)
print('Bokeh version: ' + bokeh.__version__)
print('HoloViews version: ' + hv.__version__)
print("Datashader version: " + dsh.__version__)

## Configurações

### Configurações das bibliotecas

Definindo o número de linhas que o pandas irá exibir.

In [None]:
pd.set_option('display.max_rows', 10)

Configurando o holoviews e o geoviews para trabalhar com o bokeh:

In [None]:
hv.extension('bokeh')

In [None]:
gv.extension('bokeh')

Configurando os plots do bokeh para serem em linha:

In [None]:
output_notebook()

Configurando os plots do matplotlib para serem em linha:

In [None]:
%matplotlib inline

Lendo o token e definindo a classe PzServer. **ALTERE CONFORME O DIRETÓRIO DO SEU TOKEN.**

In [None]:
token_dir = '/home/luigi.silva/token.txt'

In [None]:
with open(token_dir, 'r') as file:
    token = file.read().rstrip()
pz_server = PzServer(token=token, host="pz-dev") 

### Configurações dos plots de distribuição de objetos

Definindo os parâmetros gerais para os plots de distribuição de objetos utilizando geoviews e datashader.

In [None]:
height = 500    ### Altura do plot.
width = 1000    ### Largura do plot.
padding = 0.05  ### Padding do plot.
xlabel = 'R.A.' ### Label para o eixo x.
ylabel = 'Dec.' ### Label para o eixo y.

Definindo os labels de R.A. e DEC. a serem exibidos nos plots de distribuição de objetos utilizando geoviews e datashader.

In [None]:
longitudes = np.arange(30, 360, 30)
latitudes = np.arange(-75, 76, 15)

lon_labels = [f"{lon}°" for lon in longitudes]
lat_labels = [f"{lat}°" for lat in latitudes]

labels_data = {
    "lon": list(np.flip(longitudes)) + [-180] * len(latitudes),
    "lat": [0] * len(longitudes) + list(latitudes),
    "label": lon_labels + lat_labels,
}

df_labels = pd.DataFrame(labels_data)

labels_plot = gv.Labels(df_labels, kdims=["lon", "lat"], vdims=["label"]).opts(
    text_font_size="12pt",
    text_color="black",
    text_align='right',
    text_baseline='bottom',
    projection=crs.Mollweide()
)

Definindo o grid dos gráficos.

In [None]:
grid = gf.grid()

# Caracterização da amostra de exemplo

## Lendo o footprint do DES

A seguir, vamos ler o footprint do DES DR2 e já aplicar uma conversão de coordenadas em R.A. e DEC.

In [None]:
foot_ra, foot_dec = np.loadtxt('des-round19-poly.txt', unpack=True)
foot_coords = SkyCoord(ra=-foot_ra*u.degree, dec=foot_dec*u.degree, frame='icrs')
foot_df = pd.DataFrame({'foot_ra': np.array(foot_coords.ra.wrap_at(180*u.degree)), 
                        'foot_dec': np.array(foot_coords.dec)})

Já vamos definir também a curva do footprint do DES, para os plots de distribuição de objetos.

In [None]:
ra_dec_foot = gv.Path((-foot_ra, foot_dec)).opts(line_width=3, color='orange')

## Dados espectroscópicos

### Amostra pública de *redshifts* espectroscópicos - Completa

O produto [Public spec-z compilation](https://pz-server-dev.linea.org.br/product/26_public_specz_compilation) é um compilado de catálogos de diferentes levantamentos os quais foram coletados ao longo dos anos de operação do Dark Energy Survey (DES) e agrupados sistematicamente pela ferramenta DES Science Portal (pipeline Spectroscopic Sample) para formar a base de um conjunto de treinamento para algoritmos de cálculo de *redshifts* fotométricos baseados em machine learning. 

In [None]:
#specz = pz_server.get_product('26_public_specz_compilation')

In [None]:
#specz.display_metadata()

In [None]:
#specz.data.describe()

In [None]:
#specz.plot()

### Amostra utilizada nos testes - Seleção do 2dflens

Como dito anteriormente, o produto [Public spec-z compilation](https://pz-server-dev.linea.org.br/product/26_public_specz_compilation) é um compilado de *redshifts* espectroscópicos de vários levantamentos astronômicos. Muitos desses levantamentos observaram regiões comuns do céu. Ao agrupar todas as medidas em um catálogo único, geralmente há medidas múltiplas de *redshift* espectroscópico para um mesmo objeto. Para identificar esses casos, o *pipeline* Spectroscopic Sample faz uma combinação espacial entre as coordenadas equatoriais de "todos contra todos" com um raio de busca de 1.0 *arcsec* de cada objeto. Então, ele aplica uma seleção para manter apenas uma medida para cada objeto extragaláctico presente na amostra, seguindo o critério abaixo para escolha e desempate:

1. medida com a maior _flag_ de qualidade (`flag_des`)
2. medida com o menor erro no *redshift* (`err_z`)
3. medida obtida pelo levantamento mais recente

Portanto, os objetos do levantamento 2dflens apresentados aqui são aqueles que permaneceram após a seleção considerando todos os catálogos presentes no produto [Public spec-z compilation](https://pz-server-dev.linea.org.br/product/26_public_specz_compilation). Um corte de qualidade também foi aplicado onde apenas objetos com flag_des ⩾ 3 foram incluídos na amostra.

#### Todos os objetos do 2dflens, contidos no produto Public spec-z compilation

Pegando o produto referente ao 2dflens no pzserver:

In [None]:
specz = pz_server.get_product('52_2dflens_public_specz')

Mostrando os metadados do produto:

In [None]:
#specz.display_metadata()

Mostrando as estatísticas básicas dos dados:

In [None]:
specz.data.describe()

Fazendo uma cópia do dataframe para fazer os plots.

In [None]:
df_2dflens_all = specz.data.copy()

**Plot**

Definindo os pontos a serem utilizados no plot:

In [None]:
df_input = df_2dflens_all

## Usando apenas uma fração dos dados:
frac = 0.05  
input_sample_for_plots = df_input.sample(frac=frac, axis='index')
assert len(input_sample_for_plots) == round(frac * len(df_input))

## Using all data:
input_sample_for_plots = df_input  ## Comment this line to use a fraction of the data.

print("Total number of objects in the sample: "+str(len(df_input)))
print("Number of objects used in the plots: "+str(len(input_sample_for_plots)))

Redefinindo as coordenadas R.A. e DEC. para os plots:

In [None]:
coords = SkyCoord(ra=-np.array(input_sample_for_plots.ra)*u.degree, 
                  dec=np.array(input_sample_for_plots.dec)*u.degree, frame='icrs')
input_sample_for_plots.ra = np.array(coords.ra.wrap_at(180*u.degree))
input_sample_for_plots.dec = np.array(coords.dec)

Fazendo o plot com o geoviews e datashader:

In [None]:
%%time
title = 'Distribuição Espacial - Todos os dados do 2dflens' ### Título do plot.

### Defining the points in geoviews.
ra_dec_points = gv.Points((input_sample_for_plots['ra'],input_sample_for_plots['dec']), kdims=['ra', 'dec'])

### Defining the projected points using cartopy Mollweide().
projected = gv.operation.project(ra_dec_points, projection=crs.Mollweide())

### Using datashader.
dsh_points = dynspread(rasterize(projected).opts(cmap="Viridis", cnorm='log'))
dsh_points = dsh_points.opts(width=width, height=height, padding=padding, title=title, toolbar='above', colorbar=True, tools=['box_select'])

### Plotting.
dsh_points * ra_dec_foot * grid * labels_plot

#### Objetos do 2dflens filtrados para pertencerem ao footprint do DES

A seguir, faremos um filtro para pegar dados dentro do footprint do DES.

**Filtro simples utilizando o pandas**

O filtro a seguir pega objetos com $ra<90$ ou $ra>359$, e $dec < -15$.

In [None]:
df_2dflens_filt = specz.data.query("ra > 359 | ra < 90. & dec < -15.").copy()

Estatística básica desses dados filtrados:

In [None]:
df_2dflens_filt.describe()

**Filtro utilizando o geopandas**

Fazendo um polígono com geopandas, que conterá a geometria do footprint do DES.

In [None]:
#! mkdir -p geopandas-des-footprint

In [None]:
#lat_point_list = foot_df['foot_dec']
#lon_point_list = foot_df['foot_ra']

#polygon_geom = Polygon(zip(lon_point_list, lat_point_list))
#polygon = gpd.GeoDataFrame(index=[0], crs='epsg:4326', geometry=[polygon_geom])       

#polygon.to_file(filename='./geopandas-des-footprint/polygon.geojson', driver='GeoJSON')
#polygon.to_file(filename='./geopandas-des-footprint/polygon.gpkg', driver="GPKG")
#polygon.to_file(filename='./geopandas-des-footprint/polygon.shp', driver="ESRI Shapefile")

Lendo essa geometria.

In [None]:
#world = gpd.read_file('./geopandas-des-footprint/polygon.shp')

Transformando o pandas datframe em um geopandas dataframe.

In [None]:
#gdf = gpd.GeoDataFrame(df_2dflens_all,
#                       geometry=gpd.points_from_xy(df_2dflens_all.ra, 
#                                                   df_2dflens_all.dec)) 

Aplicando o filtro para guardar apenas objetos que estejam dentro do footprint do DES.

In [None]:
#pip = gdf.within(world.loc[0, 'geometry'])
#df_2dflens_filt = gdf.loc[pip].copy()

**Plot**

Definindo os pontos a serem utilizados no plot:

In [None]:
df_input = df_2dflens_filt

## Usando apenas uma fração dos dados:
frac = 0.05  
input_sample_for_plots = df_input.sample(frac=frac, axis='index')
assert len(input_sample_for_plots) == round(frac * len(df_input))

## Using all data:
input_sample_for_plots = df_input   ## Comment this line to use a fraction of the data.

print("Total number of objects in the sample: "+str(len(df_input)))
print("Number of objects used in the plots: "+str(len(input_sample_for_plots)))

Redefinindo as coordenadas R.A. e DEC. para os plots:

In [None]:
coords = SkyCoord(ra=-np.array(input_sample_for_plots.ra)*u.degree, 
                  dec=np.array(input_sample_for_plots.dec)*u.degree, frame='icrs')
input_sample_for_plots.ra = np.array(coords.ra.wrap_at(180*u.degree))
input_sample_for_plots.dec = np.array(coords.dec)

Fazendo o plot dos dados filtrados com o geoviews e datashader:

In [None]:
%%time
title = 'Distribuição Espacial - Dados do 2dflens filtrados' ### Título do plot.

### Defining the points in geoviews.
ra_dec_points = gv.Points((input_sample_for_plots['ra'],input_sample_for_plots['dec']), kdims=['ra', 'dec'])

### Defining the projected points using cartopy Mollweide().
projected = gv.operation.project(ra_dec_points, projection=crs.Mollweide())

### Using datashader.
dsh_points = dynspread(rasterize(projected).opts(cmap="Viridis", cnorm='log'))
dsh_points = dsh_points.opts(width=width, height=height, padding=padding, title=title, toolbar='above', colorbar=True, tools=['box_select'])

### Plotting.
dsh_points * ra_dec_foot * grid * labels_plot

## Dados fotométricos

### Lendo os dados do DES DR2, contidos na região do 2dflens, com a biblioteca dblinea

Definindo a classe DBBase, que faz a conexão com o banco de dados.

In [None]:
db = DBBase()

Definindo quais dados nós queremos acessar. Aqui, nós vamos acessar os dados da tabela **coadd_objects** do catálogo **DES DR2**.

In [None]:
schema = "des_dr2"  
tablename = "coadd_objects"

Obtendo o número de colunas da tabela original (o nome e significado de cada coluna pode ser encontrado [aqui](https://des.ncsa.illinois.edu/releases/dr2/dr2-products/dr2-schema)).

In [None]:
tot_columns_list = db.get_table_columns(tablename, schema=schema)
print("Number of columns in the original table: "+str(len(tot_columns_list)))

Fazendo a busca em uma região com ra entre 7 e 10, e dec entre -32.7 e -32.2.

In [None]:
query = (f"SELECT coadd_object_id, ra, dec, mag_auto_g_dered, mag_auto_r_dered, mag_auto_i_dered, mag_auto_z_dered, mag_auto_y_dered, magerr_auto_g, "+
         f"magerr_auto_r, magerr_auto_i, magerr_auto_z, magerr_auto_y, flags_g, flags_r, flags_i, flags_z, flags_y, extended_class_coadd "+ 
         f"FROM des_dr2.coadd_objects "+
         f"WHERE (dec <= -32.2 AND dec >= -32.7 AND ra <= 10. AND ra>=7.) "
        )

In [None]:
#%%time
df_phot = db.fetchall_df(query)

### Lendo os dados do DES DR2, contidos na região do 2dflens, salvos localmente

A seguir, eu leio os dados do DES DR2 a partir de um arquivo salvo localmente. Se você também quiser ler a partir de um arquivo local, **ALTERE CONFORME O DIRETÓRIO DOS SEUS DADOS**.

In [None]:
#df_phot = pd.read_csv('/home/luigi.silva/hipscat_data_des_small_region/input/ALGUMA_COISA.csv')
#df_phot = df_phot.set_index('Unnamed: 0')
#df_phot.index.name = None

### Prévia dos dados e estatística básica

Prévia dos dados:

In [None]:
df_phot.head()

Estatísticas básicas:

In [None]:
df_phot.describe()

Salvando os dados em um arquivo. **ALTERE CONFORME O SEU DIRETÓRIO LOCAL.**

In [None]:
### Salvando o arquivo.
#df_phot.to_parquet('/home/luigi.silva/hipscat_data_des_small_region/input/photoz/photoz-des-dr2-sample.pq', index=False)

#df_phot.to_csv('/home/luigi.silva/hipscat_data_des_small_region/input/photoz/photoz-des-dr2-sample.csv', index=False)

### Plot

Definindo os pontos a serem utilizados no plot:

In [None]:
df_input = df_phot

## Usando apenas uma fração dos dados:
frac = 0.05  
input_sample_for_plots = df_input.sample(frac=frac, axis='index')
assert len(input_sample_for_plots) == round(frac * len(df_input))

## Using all data:
input_sample_for_plots = df_input   ## Comment this line to use a fraction of the data.

print("Total number of objects in the sample: "+str(len(df_input)))
print("Number of objects used in the plots: "+str(len(input_sample_for_plots)))

Redefinindo as coordendas R.A. e DEC. para os plots:

In [None]:
coords = SkyCoord(ra=-np.array(input_sample_for_plots.ra)*u.degree, 
                  dec=np.array(input_sample_for_plots.dec)*u.degree, frame='icrs')
input_sample_for_plots.ra = np.array(coords.ra.wrap_at(180*u.degree))
input_sample_for_plots.dec = np.array(coords.dec)

Fazendo o plot dos dados filtrados com o geoviews e datashader:

In [None]:
%%time
title = 'Distribuição Espacial - Dados do DES DR2 filtrados' ### Título do plot.

### Defining the points in geoviews.
ra_dec_points = gv.Points((input_sample_for_plots['ra'],input_sample_for_plots['dec']), kdims=['ra', 'dec'])

### Defining the projected points using cartopy Mollweide().
projected = gv.operation.project(ra_dec_points, projection=crs.Mollweide())

### Using datashader.
dsh_points = dynspread(rasterize(projected).opts(cmap="Viridis", cnorm='log'))
dsh_points = dsh_points.opts(width=width, height=height, padding=padding, title=title, toolbar='above', colorbar=True, tools=['box_select'])

### Plotting.
dsh_points * ra_dec_foot * grid * labels_plot

# Utilizando o `hipscat_import`

## Instalação do `hipscat_import` 

```shell
pip install hipscat-import

```

## Conversão para o formato hipscat dos dados espectroscópicos

### Reescrevendo o arquivo original, com ObjectID fictício (inteiro sequencial)

In [None]:
### Selecionando as linhas da tabela original utilizando o filtro anterior como máscara.
df_2dflens_reset = specz.data[specz.data.index.isin(df_2dflens_filt.index)].copy() 

In [None]:
### Resetando os índices.
df_2dflens_reset = df_2dflens_reset.reset_index()

Prévia dos dados:

In [None]:
df_2dflens_reset.head()

Estatística básica:

In [None]:
df_2dflens_reset.describe()

Salvando em arquivo. **ALTERE CONFORME O SEU DIRETÓRIO LOCAL.**

In [None]:
### Salvando o arquivo.
#df_2dflens_reset.to_parquet('/home/luigi.silva/hipscat_data_des_small_region/input/specz/specz-2dflens.pq', index=False)

#df_2dflens_reset.to_csv('/home/luigi.silva/hipscat_data/input/specz/specz-2dflens.csv', index=False)

### Convertendo para o formato hipscat

Exemplos de referência: <br>
https://lsdb.readthedocs.io/en/stable/tutorials/pre_executed/des-gaia.html <br>
https://hipscat-import.readthedocs.io/en/stable/catalogs/public/sdss.html <br>

Definindo os diretórios para os dados:

In [None]:
# Change to the directories where the data will be stored
_2DFLENS_DIR = Path("/home/luigi.silva/hipscat_data_des_small_region/input/specz/")

_2DFLENS_HIPSCAT_NAME = "_2dflens"
_2DFLENS_MARGIN_CACHE_NAME = "_2dflens_1arcsec"

HIPSCAT_DIR = Path("/home/luigi.silva/hipscat_data_des_small_region/hipscat/")
_2DFLENS_HIPSCAT_DIR = HIPSCAT_DIR / _2DFLENS_HIPSCAT_NAME

_2DFLENS_MARGIN_CACHE_DIR = HIPSCAT_DIR / _2DFLENS_MARGIN_CACHE_NAME

Convertendo os dados para o formato hipscat (**DESCOMENTE A ÚLTIMA LINHA PARA RODAR O PIPELINE**):

In [None]:
_2dflens_args = ImportArguments(
    sort_columns="index",
    ra_column="ra",
    dec_column="dec",
    input_path=_2DFLENS_DIR,
    file_reader="parquet",
    output_artifact_name=_2DFLENS_HIPSCAT_NAME,
    output_path=HIPSCAT_DIR,
    pixel_threshold=1_000,
    # Uncomment to overwrite existing catalog
    # overwrite=True
)

### UNCOMMENT TO RUN THE PIPELINE
#runner.pipeline(_2dflens_args)

Fazendo o plot dos pixels:

In [None]:
# Read the HiPSCat catalog metadata, it does not load any data, just healpix pixels and other metadata
_2dflens_hipscat_catalog = Catalog.read_from_hipscat(_2DFLENS_HIPSCAT_DIR)
plot_pixels(_2dflens_hipscat_catalog)

"LSDB requires right-catalog margin cache to generate the complete cross-match result. Without the margin cache, the objects located near the edges of Healpix tiles may be missed in the cross-match." - https://lsdb.readthedocs.io/en/stable/tutorials/pre_executed/des-gaia.html

(**DESCOMENTE A ÚLTIMA LINHA PARA RODAR O PIPELINE**)

In [None]:
margin_cache_args = MarginCacheArguments(
    input_catalog_path=_2DFLENS_HIPSCAT_DIR,
    output_path=HIPSCAT_DIR,
    margin_threshold=1.0,  # arcsec
    output_artifact_name=_2DFLENS_MARGIN_CACHE_NAME,
    # Uncomment to overwrite existing margin cache
    # overwrite=True,
)

### UNCOMMENT TO RUN THE PIPELINE
#runner.pipeline(margin_cache_args)

## Conversão para o formato hipscat dos dados fotométricos

Exemplos de referência: <br>
https://lsdb.readthedocs.io/en/stable/tutorials/pre_executed/des-gaia.html <br>
https://hipscat-import.readthedocs.io/en/stable/catalogs/public/sdss.html <br>

Definindo os diretórios para os dados:

In [None]:
# Change to the directories where the data will be stored
DES_DIR = Path("/home/luigi.silva/hipscat_data_des_small_region/input/photoz/")

DES_HIPSCAT_NAME = "des_dr2"

HIPSCAT_DIR = Path("/home/luigi.silva/hipscat_data_des_small_region/hipscat/")
DES_HIPSCAT_DIR = HIPSCAT_DIR / DES_HIPSCAT_NAME

Convertendo os dados para o formato hipscat (**DESCOMENTE A ÚLTIMA LINHA PARA RODAR O PIPELINE**):

In [None]:
des_args = ImportArguments(
    sort_columns="coadd_object_id",
    ra_column="ra",
    dec_column="dec",
    input_path=DES_DIR,
    file_reader="parquet",
    output_artifact_name=DES_HIPSCAT_NAME,
    output_path=HIPSCAT_DIR,
    pixel_threshold=30_000,
    # Uncomment to overwrite existing catalog
    # overwrite=True
)

### UNCOMMENT TO RUN THE PIPELINE
#runner.pipeline(des_args)

Fazendo o plot dos pixels:

In [None]:
# Read the HiPSCat catalog metadata, it does not load any data, just healpix pixels and other metadata
des_hipscat_catalog = Catalog.read_from_hipscat(DES_HIPSCAT_DIR)
plot_pixels(des_hipscat_catalog)

In [None]:
### Como ler os dados em formato hipscat
# data_test = lsdb.read_hipscat(DES_HIPSCAT_DIR)
# data_test.compute()

# Utilizando o LSDB

## Instalação do LSDB


## X-matching usando o LSDB

Definindo o nome do crossmatch e o nome do diretório de saída.

In [None]:
XMATCH_NAME = "des_dr2_x_2dflens"

OUTPUT_HIPSCAT_DIR = HIPSCAT_DIR / XMATCH_NAME

Lendo os dados espectroscópicos e fotométricos no formato hipscat, e planejando o cross-match.

In [None]:
des_catalog = lsdb.read_hipscat(DES_HIPSCAT_DIR)

_2dflens_margin_cache_catalog = lsdb.read_hipscat(_2DFLENS_MARGIN_CACHE_DIR)
_2dflens_catalog = lsdb.read_hipscat(_2DFLENS_HIPSCAT_DIR, margin_cache=_2dflens_margin_cache_catalog)

xmatched = des_catalog.crossmatch(
    _2dflens_catalog,
    # Up to 1 arcsec distance, it is the default
    radius_arcsec=1.0,
    # Single closest object, it is the default
    n_neighbors=1,
    # Default would be to use names of the HiPSCat catalogs
    suffixes=("_des", "_2dflens"),
)

display(des_catalog)
display(_2dflens_catalog)
display(xmatched)

Executando o cross-match e exibindo uma prévia dos dados.

(DESCOMENTE PARA RODAR O PIPELINE)

In [None]:
# Run the pipeline with Dask client, it will take a while
#xmatched.to_hipscat(OUTPUT_HIPSCAT_DIR)

In [None]:
# Look into the data
xmatched_from_disk = lsdb.read_hipscat(OUTPUT_HIPSCAT_DIR)
xmatched_from_disk.head()

In [None]:
df = xmatched_from_disk.compute()

In [None]:
df.describe()

## Análise dos resultados do X-matching

In [None]:
polygon_coords = [[7., -32.2], [10, -32.2], [10, -32.7], [7., -32.7]]

des_box = des_catalog.polygon_search(polygon_coords).compute()
_2dflens_box = _2dflens_catalog.polygon_search(polygon_coords).compute()
xmatch_box = xmatched.polygon_search(polygon_coords).compute()

ra_des = np.where(des_box["ra"] > 180, des_box["ra"] - 360, des_box["ra"])
ra_2dflens = np.where(_2dflens_box["ra"] > 180, _2dflens_box["ra"] - 360, _2dflens_box["ra"])
ra_x_2dflens = np.where(xmatch_box["ra_2dflens"] > 180, xmatch_box["ra_2dflens"] - 360, xmatch_box["ra_2dflens"])

plt.figure(figsize=(5, 5))
plt.scatter(ra_2dflens, _2dflens_box["dec"], s=50, alpha=1.0, color="green", label="2dflens")
plt.scatter(ra_x_2dflens, xmatch_box["dec_2dflens"], s=10, alpha=1.0, color="red", label="x-matched")
plt.scatter(ra_des, des_box["dec"], s=3, alpha=0.05, marker="+", color="blue", label="DES")
plt.xlabel("RA")
plt.ylabel("Dec")
plt.legend()

In [None]:
# Criar o gráfico 2D
points = hv.Points(df, kdims=['ra_des', 'dec_des'], vdims=['_dist_arcsec'])

# Configurar a coloração e ajustar o tamanho dos labels dos eixos
points.opts(
    width=500, height=400, 
    color='_dist_arcsec', cmap='Viridis', colorbar=False, tools=['hover'], 
    size=8, 
    xlabel='RA (deg) - DES DR2', ylabel='Dec (deg) - DES DR2',
    fontsize={'xticks': 12, 'yticks': 12, 'xlabel': 14, 'ylabel': 14}
)

# Renderizar o gráfico
plot = hv.render(points)

# Personalizar o ColorBar
color_mapper = LinearColorMapper(palette=Viridis256, low=df['_dist_arcsec'].min(), high=df['_dist_arcsec'].max())
color_bar = ColorBar(color_mapper=color_mapper, label_standoff=12, location=(0,0), title='Dist. (Arcsec)')
color_bar.title_text_font_size = '14pt'
color_bar.major_label_text_font_size = '12pt'

# Adicionar o color bar ao layout do plot
plot.add_layout(color_bar, 'right')

# Mostrar o gráfico
show(plot)

In [None]:
### There aren't duplicates
df[df.duplicated(subset=['ra_des'])]
df[df.duplicated(subset=['ra_2dflens'])]

In [None]:
# Criar um Dataset a partir do DataFrame
dataset = hv.Dataset(df, kdims='_dist_arcsec')

# Aplicar a operação de histograma
hist = hv.operation.histogram(dataset, dimension='_dist_arcsec', normed=False, bins=20)

# Personalizar o histograma
hist.opts(
    xlabel='Distance (arcsec)',
    ylabel='Frequency',
    title='Histogram of separation distances',
    color='blue',
    tools=['hover'],
    width=600,
    height=400
)

# Mostrar o histograma
hist