# Photometric redshifts: Informatic and Statistics

## 1 - Introdução

A astronomia observacional é uma área bastante ampla, abrangendo grandes áreas como o estudo do sistema solar, astrofísica estelar, estrutura de galáxias, astrofísica extragaláctica, cosmologia, entre outros. A cosmologia é a área responsável por estudar a origem, evolução, composição e estrutura do universo. Dentro da cosmologia existe o estudo que visa entender a evolução das galáxias e as suas distâncias em relação a Terra, esse estudo utiliza de técnicas de fotometria e espectroscopia de galáxias.

A espectroscopia é uma técnica que utiliza da emissão e absorção de objetos para extrair gráficos com fluxo energético por comprimento de onda, esse resultado é chamado de Spectral Energy Distribution (SED). Já a fotometria utiliza de fotos para calcular magnitudes aparentes, o quão brilhante um objeto parece no céu, para isso os telescópios batem inúmeras fotos em diferentes comprimentos de onda e, posteriormente, geraram catálogos de dados, posteriormente disponibilizados para estudos. 

Tudo no universo está em movimento, e de maneira geral, em relação a terra, os objetos podem estar se aproximando (blueshift), aparentemente parado (unshift) ou se afastando (redshift). Esse fenômeno foi primeiramente observado por volta de 1929 por Edwin Hubble, onde, utilizando da técnica de espectroscopia de galáxias, observou que, a maioria das galáxias pareciam estar se afastando da Terra. Esse estudo, mais tarde, originou a lei de Hubble, utilizada para calcular distância de galáxias no universo com base na distorção do comprimento de onda, efeito Doppler, causada pelo universo da luz. Atualmente, o universo pode ser estudado de maneira singular, onde se escolhem objetos para os telescópios observarem e extraírem dados específicos, ou em conjunto, onde se varre o céu para extrair a maior quantidade de informações de maneira geral sobre um grupo de objetos. 

Dentro do estudo de redshift de galáxias a área de tecnologia da informação está extremamente envolvida em todas as etapas do processo, desde a captura dos dados, na construção das imagens possíveis de se observar do universo, nas análises científicas, entre outros. No cálculo de redshift de galáxias em quantidade massiva, existem duas técnicas principais para processar esses dados: template fitting e machine learning. Para machine learning temos algoritmos responsáveis por aprenderem a calcular redshifts fotométricos pelo treinamento de uma inteligência artificial (IA). O processo de treinamento envolve a necessidade de se ter uma amostra com resultados de redshifts espectroscópicos já conhecidos para alimentar e ensinar a IA. E, para o template fitting são utilizados algoritmos que fazem comparação com dados espectrográficos já existentes de galáxias para encaixar novas galáxias e determinar o resultados de redshift com base nesses templates.

Com isso tudo o principal objetivo desse estudo é compreender os principais conceitos dentro da astronomia voltada para o cálculo de redshifts fotométricos, reproduzindo os resultados de um dos algoritmos analisados no artigo: Photometric redshift analysis in the Dark Energy Survey Science Verification data, escrito por Sanchez et al., em 2014.

O artigo aborda, de uma maneira comparativa performática, como diferentes algoritmos se desempenham utilizando dados coletados pela DECam, câmera acoplada ao telescópio Blanco utilizada pelo levantamento de energia escura, Dark Energy Survey (DES), no período de observação. O período de observação é uma fase de testes, onde acontecem capturas de imagens do céu para análises e correções no telescópio, além de possibilitar o treinamento e estudo de possíveis algoritmos para processar os dados. No total, o artigo analisa treze algoritmos, dentre eles cinco utilizando algoritmos de template based e nove de machine learning. Também foram analisados dois conjuntos de dados, um principal (main) e outro de campo profundo (deep), que são dados de galáxias com menor magnitude aparente, menor brilho e portanto exigem maior tempo de exposição para serem capturadas. Para cada algoritmo foram realizadas quatro etapas de teste, escolhendo entre as amostras deep e a main para treino e validação comparando como os algoritmos se comportam em diferentes cenários. Em conclusão, o artigo traz diversas métricas para comparar como cada algoritmo desempenha no com os dados coletados na etapa de observação do DES. Proporcionando observar como cada algoritmo se comporta de acordo com a natureza dos dados coletados, para conhecer qual algoritmo performa melhor em cada caso, possibilitando uma seleção mais acurada de algoritmos para uma extração mais precisa de resultados. 

___
## 2 - Dados

Os dados utilizados no artigo são dados capturados na etapa de validação pela DECam de quatro regiões observadas no céu, COSMOS, VVDS F14, SN-X3 e SN-C3, dispostas na fig. 4. Essas regiões são escolhidas por já conterem dados coletados em outras pesquisas, com outros telescópios e outras câmeras, e portanto, oferecem resultados já conhecidos e calculados possibilitando a validação de resultados de algoritmos com as imagens capturadas com a DECam. 

><img src="https://www.darkenergysurvey.org/wp-content/uploads/2016/02/DECam_fornax.jpg" width="200" height="300">
>
> **Figura 1.** Cada "tijolo" é um sensor da câmera responsável pela captura de imagens.
>
> fonte: Dark Energy Survey, 2016.


A pesquisa consta com dois conjuntos de amostras, uma principal e outra mais profunda de campo, respectivamente main e deep. Sendo a main com dados dos campos VVDS F14, SN-X3 e SN-C3 e a deep com maior tempo de exposição para os campos COSMOS, SN-X3 e SN-C3. Tanto a main quanto a deep foram divididas em dois conjuntos amostrais, um utilizado para treinamento de algoritmos, train, e o outro para as etapas de validação dos resultados, valid. 

<img src="Images/set_flow.png" width="600">

>**Figura 2.** Fluxo simplificado do processo de preparação das amostras. O DES-SV possui uma amostra completa de todos os objetos que a DECam consegue capturar, photometric sample, porém para a pesquisa foram selecionadas apenas as galáxias que possuíam um resultado de redshift espectroscópico já estudado previamente em outra pesquisa. Esse processo é repetido para a amostra main e deep, originando as amostras finais de treinamento e validação para os algoritmos. 
>
>fonte: autor

Para reproduzir o artigo, esse estudo utilizou apenas a amostra principal, main, porém para comparação com o artigo a amostra deep foi utilizada na montagem dos gráficos de análise das amostras para melhor compreensão.
A amostra principal de treinamento, main train, consta com 5859 galáxias, enquanto a de validação, main valid, possui 6381 galáxias. Nelas são fornecidas o resultados das magnitudes, o quanto um objeto brilha no céu, em cinco faixas de comprimento de onda, grizY, e seus respectivos erros de cálculo, com adicional da banda u, capturada pela DECam mas não utilizada para o DES.

<img src="Images/bandas.png" width="600">

>**Figura 3.** Representação visual da transmissividade por cada banda. Para o DES as bandas principais são as grizY.
>
> fonte: desconhecida

É importante pontuar que existem duas magnitudes calculadas presentes na amostra main para cada banda, a MAGDETMODEL e MAGAUTO. A MAGDETMODEL é calculada a partir do formato da galáxia que melhor se encaixa em um filtro chamado SEXtractor e então depois é medido o fluxo de luz em cada banda de acordo com o tipo da galáxia. A MAGAUTO é o resultado calculado a partir do fluxo da abertura elíptica da câmera dando a estimativa total da magnitude do objeto. A amostra também vem com o valor da Ascendência Reta (ra) e Declinação (dec) utilizadas para indicar a posição em que a galáxia pode ser observada no céu, assim como seus identificadores únicos e o campo com o resultado do redshift espectroscópico já previamente calculado em outras pesquisas científicas, utilizado para a validação dos resultados calculados com o redshift fotométrico.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

plt.style.use('seaborn-dark-palette')

In [None]:
headers=[
    "u_auto", "u_auto_err", "u_det", "u_det_err",
    "g_auto", "g_auto_err", "g_det", "g_det_err", 
    "r_auto", "r_auto_err", "r_det", "r_det_err", 
    "i_auto", "i_auto_err", "i_det", "i_det_err", 
    "z_auto", "z_auto_err", "z_det", "z_det_err", 
    "Y_auto", "Y_auto_err", "Y_det", "Y_det_err", 
    "z", "ra", "dec", "z_flags", "field_id", "number"
]

main_valid_df = pd.read_csv("Amostras/des_sv_main_standard.valid", delimiter=" ", names=headers)
main_train_df = pd.read_csv("Amostras/des_sv_main_standard.train", delimiter=" ", names=headers)

full_main_sample_df = pd.concat([main_train_df, main_valid_df])

deep_valid_df = pd.read_csv("Amostras/des_sv_deep_standard.valid", delimiter=" ", names=headers)
deep_train_df = pd.read_csv("Amostras/des_sv_deep_standard.train", delimiter=" ", names=headers)

full_deep_sample_df = pd.concat([deep_valid_df, deep_train_df])

full_sample_df = pd.concat([full_main_sample_df, full_deep_sample_df])

In [None]:
def localizacao(x_min, x_max, y_min, y_max): 
    plt.plot(full_sample_df.ra, full_sample_df.dec, f".", color="midnightblue", alpha=0.2)
    plt.xlabel("RA", fontsize=18)
    plt.ylabel("DEC", fontsize=18)
    plt.xticks(fontsize=16)
    plt.yticks(fontsize=16)
    plt.xlim(x_min, x_max)
    plt.ylim(y_min, y_max)

In [None]:
plt.figure(figsize=[11,11])
plt.suptitle("Figura 4. Localização da amostra", fontsize=18)

ax1 = plt.subplot(2,2,1)
ax1.set_title('SN-C3',fontsize=16)
localizacao(51.3, 54, -29.2, -27)

ax2 = plt.subplot(2,2,2)
ax2.set_title('SN-X3',fontsize=16)
localizacao(35.3, 37.6, -5.8, -3.5)

ax3 = plt.subplot(2,2,3)
ax3.set_title('VVDS F14',fontsize=16)
localizacao(208.3, 211, 3.6, 6)

ax4 = plt.subplot(2,2,4)
ax4.set_title('COSMOS',fontsize=16)
localizacao(148.8, 151.4, 1, 3.4)

plt.xticks(fontsize=16)
plt.tight_layout()

>**Figura 4.** O aglomerado em cada campo dentro dos hexágonos é formado por conta dos dados serem a junção de amostras mapeadas de maneira distinta, e, portanto, possuem essa distribuição espacial heterogênea. Conforme mais pesquisas varrem os campos maior a quantidade de dados são capturadas e portanto acabam aparecendo mais objetos no local. Portanto, não são ruídos os pontos que estão fora dos aglomerados e sim apenas galáxias mapeadas em pesquisas diferentes.

In [None]:
def mag_sr(key):
    plt.plot(full_deep_sample_df[f"{key}_auto"], 1/full_deep_sample_df[f"{key}_auto_err"], f".", label="deep", color="k", alpha=0.2)
    plt.plot(full_main_sample_df[f"{key}_auto"], 1/full_main_sample_df[f"{key}_auto_err"], f".", label="main", color="dodgerblue", alpha=0.2)
    
    plt.xlabel(f"{key} magnitude", fontsize=16)
    plt.ylabel("S/N", fontsize=16)

    plt.xticks(fontsize=16)
    plt.yticks(fontsize=16)
    
    plt.xlim(21, 25)
    plt.ylim(0, 60)
    
    plt.legend(prop={'size': 14})

In [None]:
plt.figure(figsize=[8,8])
plt.suptitle("Figura 5. Sinal ruido nas bandas griz", fontsize=16)

plt.subplot(2,2,1)
mag_sr("g")

plt.subplot(2,2,2)
mag_sr("r")

plt.subplot(2,2,3)
mag_sr("i")

plt.subplot(2,2,4)
mag_sr("z")

plt.tight_layout()

>**Figura 5.** Reprodução da fig. 2 do artigo. Aqui temos um para as bandas griz uma comparação sinal/ruído pela magnitude. A relação do sinal ruído pela magnitude, indica que, dado um ponto capturado, qual a chance de ele realmente ser um objeto no céu e não somente um erro de captura, nesse caso sabemos que esses objetos existem e portanto o ruído equivale a 1.

**Pesagem.**

Para que a amostra de validação represente a amostragem fotométrica total conforme fluxo indicado na fig. 2, existe o processo de pesagem. Basicamente são utilizados algoritmos que associam um valor representando a densidade local da região para cada galáxia, esse valor é obtido comparando a amostra total com a de validação. A amostra de validação com pesagem se torna interessante para análises por conta da representatividade, visível na fig X., da amostra total capturada trazida.

In [None]:
query = "18 < i_auto & i_auto < 24 & 0 < (g_auto-r_auto) & (g_auto-r_auto) < 2 & 0 < (r_auto-i_auto) & (r_auto-i_auto) < 2"

In [None]:
plt.figure(figsize=[6,6])
plt.suptitle("Figura 6. Distribuição dos dados de por quantidade", fontsize=16)

plt.hist(full_deep_sample_df.query(query)["z"], bins=np.arange(0,1.4,0.0933), histtype="step", lw=2, label="deep", color="k")
plt.hist(full_main_sample_df.query(query)["z"], bins=np.arange(0,1.4,0.0933), alpha=0.2, label="main", color="dodgerblue")

plt.xlabel("Z spec", fontsize=16)
plt.ylabel("Counts", fontsize=16)

plt.xticks(fontsize=16)
plt.yticks(fontsize=16)

plt.xlim(0, 1.4)
plt.ylim(0, 3000)
    
plt.legend(prop={'size': 16})
plt.tight_layout()

>**Figura 6.** Reprodução da fig. 3 do artigo. Para reproduzir o gráfico foi utilizado  as amostras de calibração e filtrado de acordo com a descrição feita para a fig. 4 no artigo.

In [None]:
weight = np.loadtxt("Amostras/des_sv_main_standard_weights", delimiter=" ", usecols=[2])

main_photo_df = pd.read_csv("Amostras/des_sv_main_standard.phot", delimiter=" ", names=headers)

In [None]:
plt.figure(figsize=[6,6])
plt.suptitle("Figura 7. Impacto da pesagem nas amostras", fontsize=16)

bins = np.arange(14,28,0.2)

plt.hist(main_photo_df["g_auto"], bins=bins, label="full sample", color="grey", lw=2, density=True)
plt.hist(main_valid_df["g_auto"], bins=bins, label="valid samp", histtype="step", color="g", lw=2, density=True)
plt.hist(main_valid_df["g_auto"], bins=bins, label="valid samp weighted", histtype="step", color="b", lw=2, density=True, weights=weight)

plt.xlabel("g mag", fontsize=16)
plt.ylabel("Counts", fontsize=16)

plt.xticks(fontsize=16)
plt.yticks(fontsize=16)

plt.xlim(14, 27)

plt.legend(loc=2, prop={'size': 16})
plt.tight_layout()

>**Figura 7.** Reprodução da fig. 4 do artigo para a banda g. Aqui é possível ver como a técnica de pesagem se comparado a amostra sem pesagem, consegue chegar bem próximo a amostra total, photometric sample.

___
## 3 - Metodologia

Dentre os treze algoritmos estudados por Sanchez, escolhemos o Bayesian Photometric Redshifts - BPZ por ser um algoritmo que possivelmente será priorizado para ser executado no comissionamento do LSST, na etapa de validação. 

O BPZ é um algoritmo open source escrito em python 2, que utiliza a técnica de template-fitting para calcular prováveis resultados de redshifts, probability density function (PDF). O algoritmo segue o Teorema de Bayes, utilizando a probabilidade condicional para determinar um resultado, ou seja, sabendo de um evento já ocorrido, teremos um resultado levando em consideração esse valor. No nosso caso, chamamos esse dados já conhecidos de prior e utilizamos um algoritmo responsável por ajudar a determinar tipos de galáxias com base no estudo realizado para o telescópio. O BPZ utiliza dos valores das magnitudes, fornecidos nas diferentes bandas para encaixar os pontos com modelos de SEDs diferentes, para então, ser estimado qual chance do ponto ser um tipo específico de galáxia e possuir uma probabilidade de redshift, indicado pela coluna z best - zb.

Para executar o estudo foi necessário configurar o algoritmo e aprender a executar observando seus resultados com base nos parâmetros, esse processo foi dividido em três etapas. Cada uma com um resultado de redshift fotométrico obtido pelo algoritmo comparações com o resultado do redshift espectroscópico já presente na amostra e correções aplicadas utilizadas na próxima rodagem. 

**Primeira etapa.**

A primeira execução foi realizada com os valores padrão já presentes no algoritmo e ressaltados pelo autor na documentação. O objetivo aqui é entender como o algoritmo pode ser executado de maneira geral. Para rodar o algoritmo foi necessário realizar a preparação da amostra. Como o algoritmo não necessita de treinamento, foi utilizando a amostra main de validação com as magnitudes MAGAUTO nas bandas ugrizY e seus respectivos valores de erro, removendo colunas extras e ajustando para 99 os valores que extrapolam o intervalo de 0 até 99. O algoritmo também pede o arquivo .columns utilizado para indicar os índices de cada banda no arquivo principal. Nesse arquivo também foi informado  o valor do redshift espectroscópico já presente na amostra e adicionado a banda i como magnitude de referência. Geralmente a magnitude de referência se dá nas bandas com maior capacidade de captura por possuírem os menores erros, conforme pode ser observado na fig. 3. 

A avaliação dos resultados se deu pela comparação dos valores do redshift fotométrico com o redshift espectroscópico, possibilitando analisar o comportamento dos resultados obtidos em paralelo à fig. 5 do artigo.

**Segunda etapa.**

A segunda etapa constou com o estudo dos parâmetros do algoritmo e a alteração dos valores padrões para encaixarem com a amostra do DES, com base na análise da fig. 5 do paper. Nessa etapa foram utilizadas as MAGAUTOS em todas as bandas. Para configuração final alteramos o valor do PRIOR, ZMAX, DX, INTERP e FILTROS, dispostos e explicados brevemente a seguir.

1. PRIOR: informação já conhecida de outros estudos que ajudam a desempatar múltiplos possíveis resultados. Nesse caso são cálculos que ajudam a definir qual o formato da galáxia em seu estado de formação, de acordo com a evolução morfológica e suas emissões nas diferentes bandas.
    * padrão: hdfn_gen. (Hubble Deep Field North)
    * alteração: cosmos_Laigle.  
2. ZMAX: estabelece um limite máximo de valor para calcular o photo-z.
    * padrão: 10 
    * alteração: 2
3. DZ: a resolução do redshift. Responsável por trazer maior distinção de picos próximos.
    * padrão: 0.05
    * alteração: 0.01
4. INTERP: número de interpolação que o algoritmo fará para cada template.
    * padrão: 0
    * alteração: 2
5. FILTROS: filtros com o cálculo da curva de transmissividade para cada banda. Cada telescópio possui filtros diferentes, nesse caso, como estamos olhando os resultados da DECam  mudamos para os filtros da DECam, indicando no arquivo .columns do algoritmo.
    * padrão: SDSS 
    * alteração: DECam   

**Terceira etapa.**

A terceira execução foi feita utilizando as configurações alteradas na segunda etapa e utilizando a magnitude MAGDETMODEL conforme indicado no artigo. Também foi executado o algoritmo removendo as magnitudes da banda u para chegar no resultado esperado. A banda u traz maior precisão no cálculo do phot-z, porém, o DES-SV não terá os resultados para essa faixa, portanto foi realizado esse ajuste final nas configurações. 

In [None]:
def plot_photoz_zspec(df):
    plt.plot(df["zspec"], df["zb"], f".", color="midnightblue", alpha=0.5)
    plt.plot([0, 2], [0, 2], 'r-')

    plt.ylabel("photo-z", fontsize=16)
    plt.xlabel("zspec", fontsize=16)

    plt.xticks(fontsize=16)
    plt.yticks(fontsize=16)

    plt.xlim(0, 1.5)
    plt.ylim(0, 1.5)

In [None]:
headers_bpz = ["id", "zb", "zbmin", "zbmax", "tb", "odds", "zml", "tml", "chisq", "zspec", "M0", "other", "chisq2", "nfdet", "nfobs"]

bpz_default_settings_magauto_df = pd.read_csv("QA-BPZ/output_bpz/main_valid_bpz.cat", delim_whitespace=True, names=headers_bpz)
bpz_magauto_df = pd.read_csv("QA-BPZ/output_bpz/main_valid_magauto_bpz.cat", delim_whitespace=True, names=headers_bpz)
bpz_magdetmodel_df = pd.read_csv("QA-BPZ/output_bpz/main_valid_magdet_bpz.cat", delim_whitespace=True, names=headers_bpz, skiprows=17)
bpz_magdetmodel_sem_u_band_df = pd.read_csv("QA-BPZ/output_bpz/main_valid_magdet_bpz_withou_u_band.cat", delim_whitespace=True, names=headers_bpz, skiprows=17)

In [None]:
plt.figure(figsize=[11,11])
plt.suptitle("Figura 8. Resultado bpz vs z-espectroscópico", fontsize=16)

ax1 = plt.subplot(2,2,1)
ax1.set_title('Primeira execução',fontsize=16)
plot_photoz_zspec(bpz_default_settings_magauto_df)

ax2 = plt.subplot(2,2,2)
ax2.set_title('Segunda execução',fontsize=16)
plot_photoz_zspec(bpz_magauto_df)

ax3 = plt.subplot(2,2,3)
ax3.set_title('Terceira execução',fontsize=16)
plot_photoz_zspec(bpz_magdetmodel_df)

ax4 = plt.subplot(2,2,4)
ax4.set_title('Terceira execução sem banda u',fontsize=16)
plot_photoz_zspec(bpz_magdetmodel_sem_u_band_df)
    
plt.subplots_adjust(wspace=.3, hspace = .3)

>**Figura 8.**  Evolução na reprodução da fig. 5 do artigo para a o BPZ. É possível ver para cada etapa a aproximação com o resultado do artigo. A linha vermelha representa o valor onde o redshift fotométrico se iguala ao redshift espectroscópico.

Na terceira execução, foi executado o algoritmo novamente removendo a banda u, ao remover essa banda é possível compreender visualmente o impacto no resultado do algoritmo, esse efeito acontece pois, quanto mais magnitudes temos capturadas mais pontos são encaixados com as SEDs no algoritmo, levando a maior precisão quando se define qual o tipo de galáxia. 

Além da terceira execução. Foi retirado da amostra de calibração, dez pontos para serem observados no Target Viewer, quatro deles constam na fig. 9, para visualização das imagens capturadas que vem a compor os catálogos amostrais. 


In [None]:
import matplotlib.image as mpimg
from glob import glob

images = glob("Images/galaxies/*.png")

fig, axes = plt.subplots(nrows=1, ncols=4, figsize=[8,8], dpi=500)
fig.set_figwidth(40)
fig.set_figheight(40)

for img, ax in zip(images, axes.ravel()):   
    img1 = mpimg.imread(img)
    ax.set_title(f'bandas - {img[img.find("_")+1:img.find("_stiff")]}',fontsize=30)
    ax.imshow(img1)    
    ax.axis('off')

plt.subplots_adjust(wspace=.01, hspace = .01)

>**Figura 9.** Imagens observadas no target viewer de quatro galáxias da amostra de calibração. Pode-se observar como cada imagem possui características diferentes, algumas possuem maior ruído, que pode ser causado pelo clima, umidade do ar, etc, outras possuem interferência de objetos como telescópios, e outras estrelas mais luminosas ou até mesmo menor emissão em um conjunto de bandas fazendo aparentarem mais fracas se comparado a outras bandas.

___

## 4 - Resultados

Para cada etapa de execução do algoritmo, fig X., os resultados foram comparados com a fig. 5 do artigo.

<img src="Images/results_reproduce.png" width="800">

>**Figuras 5 e 18 do artigo.** Recortes feitos para o BPZ.

Na primeira execução percebemos que as configurações padrões do algoritmo não são as mais indicadas para a amostra. Por mais que o formato se assemelha com a fig. 5 do artigo, o bias desloca os pontos mais abaixo do que encontrados na segunda execução. Onde percebemos uma melhora significativa em relação ao bias no resultado. Ainda podemos ver que existe um scatter mais espalhado em relação ao primeiro resultado. Portanto, as configurações ajustadas melhoraram significativamente os valores obtidos, porém, ainda executado o cálculo com a MAGAUTO, como o BPZ faz o cálculo do redshift com base nas SEDs dos tipos de galáxias, é mais interessante ser usado a MAGDETMODEL pois o cálculo dessa magnitude é obtido em cima do tipo da galáxia, assim, na hora de decidir o melhor redshift é possivel obter um resultado mais fiel para o BPZ. A terceira execução obteve os resultados mais parecidos com a fig. 5 do paper, portanto, nessa etapa deu-se como satisfeita a reprodução. Nota-se a como o gráfico sem a banda u se assemelha ao formato de uma espada, sendo por conta da imprecisão do algoritmo ao decidir o melhor tipo espectral da galáxia. Já quando se adiciona a banda u vemos que uma bainha desaparece, justamente por conta da banda u ser uma banda importante para desempate de possíveis SEDs para a galáxia.


### **MÉTRICAS**

Para validar o resultado obtido na terceira etapa sem a banda u, foram comparadas três métricas presentes na tabela A1 do artigo com o com os resultados obtidos para a reprodução do BPZ.

**BIAS**: o viés, desvio, que o algoritmo apresenta com a amostra.

$BIAS = \overline{\Delta z} = \frac{\sum  \Delta z_i}N$    onde  $\Delta z_i = z_{phot}, i − z_{spec}, i$

O bias fica evidente ao observar na fig. 8, na primeira execução a nuvem de pontos fica levemente deslocada para baixo da linha vermelha, indicando resultados maiores para o photo-z, um bias positivo. Já os outros gráficos podemos ver que os resultados ficam  mais centralizados em relação a linha vermelha. É interessante destacar que em um cenário perfeito, todos resultados se alinhariam com a linha vermelha, porém existem vários fatores, como podemos ver na fig. 9, ruídos, interferência atmosférica, luz de outras estrelas mais fortes, etc, que dificultam o processo de captação do resultado gerando imprecisões nos dados coletados. Então o objetivo não é ter valores perfeitos mas sim, com menor dispersão dos pontos, scatter, e com o menor bias possível.

**Mediana**: o valor encontrado na posição central de um conjunto.

$MEDIAN = \overline{\Delta z_{50}} = \frac{P_{50}}{2}$

**SIGMA 68**: o valor encontrado que representa 68 porcentro dos valores proximos a mediana.

$ SIGMA = σ_{68} = \frac{(P_{84} -P_{16})}{2}$

A mediana e o sigma 68 podem ser observados visualmente na fig. 10.

**Resultados das métricas em comparação com a tabela A1 do artigo.**

In [None]:
delta_zb = bpz_magdetmodel_sem_u_band_df["zb"]-bpz_magdetmodel_sem_u_band_df["zspec"]

bias = np.sum(delta_zb)/len(delta_zb)
print("BIAS (reprodução) =", round(bias, 3))
print("BIAS (artigo) = -0.022 ± 0.003")

mediana = np.percentile(delta_zb, 50)/2
print("\nMEDIAN (reprodução) =", round(mediana, 3))
print("MEDIAN (artigo) = −0.021 ± 0.002")

sigma =  (np.percentile(delta_zb, 84) - np.percentile(delta_zb, 16))/2
print("\nSIGMA 68 (reprodução) =", round(sigma, 3))
print("SIGMA 68 (artigo) = 0.097 ± 0.003")

In [None]:
plt.figure(figsize=[12,6])
plt.suptitle("Figura 10. Distribuição bias", fontsize=16)

N, bins, patches = plt.hist(delta_zb, bins="fd", density=True, label="zspec", color="midnightblue")

plt.xlabel("Δz", fontsize=16)
plt.ylabel("counts", fontsize=16)

plt.xticks(fontsize=16)
plt.yticks(fontsize=16)

plt.xlim(-0.5, 0.5)
plt.ylim(0, 6)
plt.vlines(mediana, 0,20, color="r")
plt.vlines(sigma+mediana, 0,20, color="g")
plt.vlines(-sigma+mediana, 0,20, color="g")

plt.tight_layout()

>**Figura 10.** Distribuição visual da variação do zb em relação ao zspec. Mediana representada pela linha vermelha. Sigma 68 representado pelas linhas verdes. O conjunto que fica entre eles representa 68 por cento da amostra total. 

___
## 5 - Conclusões

Observando os resultados obtidos, chegamos a conclusão de que naturalmente, conforme mudamos a amostra, cada algoritmo vai obter um resultado diferente, portanto, necessita-se entender a natureza da amostragem e para configurar e adaptar os algoritmos e extrair seu máximo. Para o BPZ, pelo algoritmo ser em python 2 necessita de uma atenção na hora da configuração inicial, porém, depois desta etapa se torna um algoritmo de relativamente fácil execução e possibilita fácil extração de resultados. Com isso concluímos que é possível reproduzir os resultados obtidos no artigo e extrair uma base de conhecimento no assunto. Levando em consideração que o autor sempre terá seu toque especial e portanto chegar bem próximo ao resultado obtido é bastante suficiente.