In [None]:
from matplotlib import pyplot as plt
from pandas import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")
# plt.rcParams["figure.figsize"] = (10,8)
# plt.style.use(['science' , 'notebook', 'grid'])

## Introdução

Nesse jupyter notebook estamos trabalhando com detecções de aglomerados simulados.
Há uma tabela de aglomerados simulados que foram inseridos em um campo estelar, e outra tabela
de detecções, onde já foi feito um match posicional entre os aglomerados simulados e os detectados.

Nessa rodada foram simulados 66 aglomerados globulares com perfil de densidade exponencial,
sendo que cada aglomerado está localizado no centro de um pixel do HealPix com nside=64,
com a distância entre um aglomerado e outro ~1 grau e raio de meia luz de ~1 arcmin.

Abaixo são lidas as informações a respeito apenas das detecções.

In [None]:
RA, DEC, wrad, DistDet_kpc, m_M_det, SNR, wave_peak, \
Dist2object_arcmin, hlr_times_3_arcmin, SNR_rank, \
Wave_r3, DistSimulation_kpc, m_M_simulation, M_m_Det_minus_Sim, \
SNR_est = np.loadtxt('detections.txt', usecols=(1,2,3,4,5,6,7,9,10,12,13,14,16,17,18), unpack=True)

In [None]:
Name, Class = np.loadtxt('detections.txt', usecols=(8, 11), dtype=str, unpack=True)

In [None]:
N, HPX64, N0_order = np.loadtxt('detections.txt', usecols=(0, 15, 19), dtype=int, unpack=True)

Abaixo é criada uma condicional onde os aglomerados deram match com os simulados (confirmados)
e onde os aglomerados são apenas candidatos.

In [None]:
real_det = (Class == 'conf')
false_positive = (Class == 'cand')

Abaixo podemos ver a distribuição no céu destes aglomerados detectados. Os que estão em
azul são os aglomerados simulados, e aqueles em vermelho são os candidatos.

In [None]:
cm = plt.cm.get_cmap('inferno_r')
plt.figure(figsize=(10, 6))
sc = plt.scatter(RA, DEC, c= SNR, vmin=0, vmax=np.max(SNR),  s=SNR, cmap=cm, alpha=0.75)
plt.colorbar(sc,label = 'SNR')
plt.xlim(np.max(RA), np.min(RA))
plt.xlabel('RA')
plt.ylabel('DEC')
plt.title('Spatial distribution of clusters detected by Gawa wrt SNR')

Podemos notar que todos os aglomerados detectados e verdadeiros (True Positives) tem alta razão sinal-ruído (SNR),
enquanto que os com baixa SNR são falsos positivos (FP), sendo representados por círculos pequenos e azuis.

Importante destacar neste caso que todos os aglomerados simulados foram detectados. Pode haver casos onde 
nem todos os aglomerados simulados são detectados. Nesse caso, o código deve ler os aglomerados 
simulados novamente para ver o quão completa a detecção está.

## Pureza da distância de detecção

Abaixo vamos calcular a pureza da detecção dada a distância detectada.

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
fig.suptitle('Distance of detection (pureness)')

A = ax1.hist(DistDet_kpc, bins=30, range=(np.min(DistDet_kpc), np.max(DistDet_kpc)), histtype='step', label='All detections')
B = ax1.hist(DistDet_kpc[real_det], bins=30, range=(np.min(DistDet_kpc), np.max(DistDet_kpc)), histtype='step', label='True clusters')
C = ax1.hist(DistDet_kpc[false_positive], bins=30, range=(np.min(DistDet_kpc), np.max(DistDet_kpc)), histtype='step', label='False Positive')
pureness = B[0] / A[0]

ax1.set_xlabel('Distance of detection (kpc)')
ax1.set_ylabel('Number of clusters detected')
ax1.legend()

ax2.step(A[1][0:-1], np.nan_to_num(pureness))
ax2.set_xlabel('Distance of detection (kpc)')
ax2.set_ylabel('Pureness')
ax2.set_ylim([0,1])
ax2.legend()
plt.show()

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
fig.suptitle('Detection distance module (Pureness)')

A = ax1.hist(m_M_det, bins=30, range=(np.min(m_M_det), np.max(m_M_det)), histtype='step', label='All detections')
B = ax1.hist(m_M_det[real_det], bins=30, range=(np.min(m_M_det), np.max(m_M_det)), histtype='step', label='True clusters')
C = ax1.hist(m_M_det[false_positive], bins=30, range=(np.min(m_M_det), np.max(m_M_det)), histtype='step', label='False Positive')
pureness = B[0] / A[0]

ax1.set_xlabel('Detection distance module')
ax1.set_ylabel('Number of clusters detected')
ax1.legend()

ax2.step(A[1][0:-1], np.nan_to_num(pureness))
ax2.set_xlabel('Distance modulus detected')
ax2.set_ylabel('Pureness')
ax2.set_ylim([0,1])
ax2.legend()
plt.show()



In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
fig.suptitle('Signal-to-noise ratio (detection)')

A = ax1.hist( SNR, bins=30, range=(np.min( SNR), np.max( SNR)), histtype='step', label='All detections')
B = ax1.hist( SNR[real_det], bins=30, range=(np.min( SNR), np.max( SNR)), histtype='step', label='True clusters')
C = ax1.hist( SNR[false_positive], bins=30, range=(np.min( SNR), np.max( SNR)), histtype='step', label='False Positive')
pureness = B[0] / A[0]

ax1.set_xlabel('Signal-to-noise ratio (detection)')
ax1.set_ylabel('Number of clusters detected')
ax1.legend()

ax2.step(A[1][0:-1], np.nan_to_num(pureness))
ax2.set_xlabel('Signal-to-noise ratio (detection)')
ax2.set_ylabel('Pureness')
ax2.set_ylim([0,1.2])
# ax2.legend()
plt.show()


In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
fig.suptitle('Detection wave peak')

A = ax1.hist(wave_peak, bins=30, range=(np.min(wave_peak), np.max(wave_peak)), histtype='step', label='All detections')
B = ax1.hist(wave_peak[real_det], bins=30, range=(np.min(wave_peak), np.max(wave_peak)), histtype='step', label='True clusters')
C = ax1.hist(wave_peak[false_positive], bins=30, range=(np.min(wave_peak), np.max(wave_peak)), histtype='step', label='False Positive')
pureness = B[0] / A[0]

ax1.set_xlabel('Detection wave peak')
ax1.set_ylabel('Number of clusters detected')
ax1.legend()

ax2.step(A[1][0:-1], np.nan_to_num(pureness))
ax2.set_xlabel('Detection wave peak')
ax2.set_ylabel('Pureness')
ax2.set_ylim([0,1.2])
# ax2.legend()
plt.show()


In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
fig.suptitle('detection information')

A = ax1.hist(SNR_rank, bins=30, range=(np.min(SNR_rank), np.max(SNR_rank)), histtype='step', label='All detections')
B = ax1.hist(SNR_rank[real_det], bins=30, range=(np.min(SNR_rank), np.max(SNR_rank)), histtype='step', label='True clusters')
C = ax1.hist(SNR_rank[false_positive], bins=30, range=(np.min(SNR_rank), np.max(SNR_rank)), histtype='step', label='False Positive')
pureness = B[0] / A[0]

ax1.set_xlabel('SNR_rank')
ax1.set_ylabel('Number of clusters detected')
ax1.legend()

ax2.step(A[1][0:-1], np.nan_to_num(pureness))
ax2.set_xlabel('SNR_rank')
ax2.set_ylabel('Pureness')
ax2.set_ylim([0,1.2])
# ax2.legend()
plt.show()

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
fig.suptitle('detection information')

A = ax1.hist(Wave_r3, bins=30, range=(np.min(Wave_r3), np.max(Wave_r3)), histtype='step', label='All detections')
B = ax1.hist(Wave_r3[real_det], bins=30, range=(np.min(Wave_r3), np.max(Wave_r3)), histtype='step', label='True clusters')
C = ax1.hist(Wave_r3[false_positive], bins=30, range=(np.min(Wave_r3), np.max(Wave_r3)), histtype='step', label='False Positive')
pureness = B[0] / A[0]

ax1.set_xlabel('Wave r3')
ax1.set_ylabel('Number of clusters detected')
ax1.legend()

ax2.step(A[1][0:-1], np.nan_to_num(pureness))
ax2.set_xlabel('Wave_r3')
ax2.set_ylabel('Pureness')
ax2.set_ylim([0,1.2])
ax2.legend()
plt.show()

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
fig.suptitle('Estimated SNR in the simulation')

A = ax1.hist(SNR_est, bins=30, range=(np.min(SNR_est), np.max(SNR_est)), histtype='step', label='All detections')
B = ax1.hist(SNR_est[real_det], bins=30, range=(np.min(SNR_est), np.max(SNR_est)), histtype='step', label='True clusters')
C = ax1.hist(SNR_est[false_positive], bins=30, range=(np.min(SNR_est), np.max(SNR_est)), histtype='step', label='False Positive')
pureness = B[0] / A[0]

ax1.set_xlabel('Estimated SNR in the simulation')
ax1.set_ylabel('Number of clusters detected')
ax1.legend()

ax2.step(A[1][0:-1], np.nan_to_num(pureness))
ax2.set_xlabel('Estimated SNR in the simulation')
ax2.set_ylabel('Pureness')
ax2.set_ylim([0,1.2])
ax2.legend()
plt.show()

In [None]:
# pd.read_csv('simulacao.txt', sep=',')

In [None]:
Nstar, M_V, SNR, L, B, RA_pix, DEC_pix, r_exp, ellpa, mass, dist = np.loadtxt('simulations.txt', usecols=(2,3,4,5,6,7,8,9,10,11,12) , unpack=True)

In [None]:
N, ipix = np.loadtxt('simulations.txt', usecols=(0, 1), dtype=int, unpack=True)

In [None]:
real_det = (Class == 'conf')
false_positive = (Class == 'cand')

In [None]:
A = plt.hist(mass, bins=30, range=(np.min(mass), np.max(mass)), histtype='step', label='All detections')
plt.xlabel('mass')
plt.ylabel('Number of clusters detected')

In [None]:
A = plt.hist(Nstar, bins=30, range=(np.min(Nstar), np.max(Nstar)), histtype='step', label='All detections')
plt.xlabel('Distance of detection (kpc)')
plt.ylabel('Number of clusters detected')