<a href="https://colab.research.google.com/github/HenryLimaa/JPasEDR-Gaia/blob/master/Pr%C3%A9_processamento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 1. Importação das Bibliotecas

O ponto de partida de qualquer análise em Python é a importação das bibliotecas. O código carrega o "canivete suíço" da ciência de dados: pandas para a manipulação de tabelas (DataFrames) , numpy para operações numéricas eficientes , matplotlib e seaborn para a visualização gráfica, e sklearn para ferramentas de aprendizado de máquina.

In [None]:
# Manipulação de Sistema e Arquivos
import os
import threading
import random

# Processamento de Dados e Matemática
import pandas as pd
import numpy as np

# Visualização de Dados
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.gridspec import GridSpec

# Machine Learning e Estatística
from sklearn.decomposition import PCA

## 2. Leitura do Arquivo CSV

Imediatamente após a importação das bibliotecas, ocorre a leitura do arquivo CSV. O comando pd.read_csv  carrega os dados brutos para a memória, armazenando-os na variável df. A contagem de linhas (len(df)) revela a escala do problema: um conjunto de 17.378 estrelas, informação crucial para o planejamento computacional.



In [None]:
# Carregamos oS arquivoS CSV em DataFrames do Pandas de forma individualizada.

# MAGNITUDE
df = pd.read_csv('/content/drive/MyDrive/Notebook fotometrias/Conjunto de dados(crossmating JPASEDR-GAIA).csv')
df_err = pd.read_csv('/content/drive/MyDrive/Notebook fotometrias/ERR_Conjunto de dados(crossmating JPASEDR-GAIA).csv')

# FLUXO
df_flux = pd.read_csv('/content/drive/MyDrive/Notebook fotometrias/FLUX_APER_COR_3_0.csv')
df_err_flux = pd.read_csv('/content/drive/MyDrive/Notebook fotometrias/FLUX_RELERR_APER_COR_3_0.csv')


# Contar o número de linhas (excluindo o cabeçalho)
numero_estrelas = len(df)
numero_estrelas_err = len(df_err)
numero_estrelas_flux = len(df_flux)
numero_estrelas_err_flux = len(df_err_flux)


print(f"O número total de estrelas (MAGNITUDE) é: {numero_estrelas}")
print(f"O número total de estrelas (ERRO MAGNITUDE) é: {numero_estrelas_err}")
print(f"O número total de estrelas (FLUXO) é: {numero_estrelas_flux}")
print(f"O número total de estrelas (ERRO FLUXO) é: {numero_estrelas_err_flux}")

## 3. Visualização dos Dados

#### Exibição das Primeiras Linhas do DataFrame

O objetivo deste item é exibir as primeiras linhas do DataFrame para entender sua estrutura. O DataFrame contém colunas como `TILE_ID`, `NUMBER`, `MAG_APER_COR_3_0`, `Pk`, `e_Pk` e `erro_relativo_paralaxe`. A coluna `MAG_APER_COR_3_0` contém múltiplos valores de fotometria em diferentes bandas/momentos. Já o dataframe que possui `TILE_ID`, `NUMBER`, `MAG_ERR_APER_COR_3_0`, `Pk`, `e_Pk` e `erro_relativo_paralaxe` é relacionado ao Vetor de erro para magnitude.

In [None]:
#Exibimos as primeiras linhas do DataFrame para entender sua estrutura.
print("Primeiras linhas do DataFrame:")
df.head()

Antes de modificar qualquer dado, é vital inspecioná-lo. Inicialmente realiza-se a visualização das primeiras linhas com df.head(). Esta é uma etapa diagnóstica essencial. A saída revela imediatamente o primeiro desafio de pré-processamento: as colunas MAG_APER_COR_3_0 e MAG_ERR_APER_COR_3_0 não são um valor único, mas sim uma string de texto contendo dezenas de valores de magnitude separados por espaços, o primeirosão os valores propriamente dito das agnitudes e o segundo é o erro por cada uma delas.

In [None]:
#Exibimos as primeiras linhas do DataFrame dos erros para entender sua estrutura.
print("Primeiras linhas do DataFrame:")
df_err.head()

In [None]:
#Exibimos as primeiras linhas do DataFrame (FLUXO) para entender sua estrutura.
print("Primeiras linhas do DataFrame:")
df_flux.head()

In [None]:
#Exibimos as primeiras linhas do DataFrame (ERROS FLUXO) para entender sua estrutura.
print("Primeiras linhas do DataFrame:")
df_err_flux.head()

## 4. Pré-processamento dos Dados

Neste item, a coluna `MAG_APER_COR_3_0` é dividida em 57 colunas separadas, cada uma contendo um valor de fotometria. Isso é feito usando o método `str.split(expand=True)`, que divide a string em múltiplas colunas com base nos espaços. Após a divisão, os valores são convertidos para numéricos usando `pd.to_numeric`.

O DataFrame resultante tem 63 colunas, incluindo as novas colunas de fotometria (`Fotometria_1`, `Fotometria_2`, etc.). Esse pré-processamento é crucial para análises posteriores, pois permite que cada valor de fotometria seja tratado individualmente.

In [None]:
# 1. PROCESSAMENTO SEPARADO PARA CADA DATAFRAME

# Para df (magnitude)
colunas_fotometria = [f'Fotometria_{i+1}' for i in range(57)]

# Para df_err (erros magnitude)
colunas_err_fotometria = [f'Fotometria_{i+1}' for i in range(57)]

# Para df_flux (fluxo)
colunas_flux_fotometria = [f'Fotometria_{i+1}' for i in range(57)]

# Para df_err_flux (erros fluxo relativo)
colunas_err_flux_fotometria = [f'Fotometria_{i+1}' for i in range(57)]

In [None]:
# Verificar as colunas do DataFrame
print("Colunas do DataFrame:")
print(df.columns)

In [None]:
# Verificar as colunas do DataFrame
print("Colunas do DataFrame:")
print(df_err.columns)

In [None]:
# Verificar as colunas do DataFrame
print("Colunas do DataFrame:")
print(df_flux.columns)

In [None]:
# Verificar as colunas do DataFrame
print("Colunas do DataFrame:")
print(df_err_flux.columns)

In [None]:
# Dividimos as colunas `MAG_APER_COR_3_0`, 'MAG_ERR_APER_COR_3_0' 'FLUX_APER_COR_3_0' e 'FLUX_RELERR_APER_COR_3_0'  em 57 colunas.
df[colunas_fotometria] = df['MAG_APER_COR_3_0'].str.split(expand=True)
df_err[colunas_err_fotometria] = df_err['MAG_ERR_APER_COR_3_0'].str.split(expand=True)
df_flux[colunas_flux_fotometria] = df_flux['FLUX_APER_COR_3_0'].str.split(expand=True)
df_err_flux[colunas_err_flux_fotometria] = df_err_flux['FLUX_RELERR_APER_COR_3_0'].str.split(expand=True)


In [None]:
#Convertemos os valores para numéricos.
df[colunas_fotometria] = df[colunas_fotometria].apply(pd.to_numeric)
df_err[colunas_err_fotometria] = df_err[colunas_err_fotometria].apply(pd.to_numeric)
df_flux[colunas_flux_fotometria] = df_flux[colunas_flux_fotometria].apply(pd.to_numeric)
df_err_flux[colunas_err_flux_fotometria] = df_err_flux[colunas_err_flux_fotometria].apply(pd.to_numeric)

In [None]:
#Exibimos as primeiras linhas após o pré-processamento.

print("\nDataFrame após divisão da coluna de fotometria:")
df.head()

In [None]:
#Exibimos as primeiras linhas após o pré-processamento.

print("\nDataFrame após divisão da coluna de erro fotometria:")
df_err.head()

In [None]:
#Exibimos as primeiras linhas após o pré-processamento.

print("\nDataFrame após divisão da coluna de fluxo:")
df_flux.head()

In [None]:
#Exibimos as primeiras linhas após o pré-processamento.

print("\nDataFrame após divisão da coluna de erro_fluxo:")
df_err_flux.head()

In [None]:
# 2. RENOMEÇÃO PARA AMBOS OS DATAFRAMES (Renomear as bandas fotométricas)

# Carregar o arquivo CSV com os nomes das bandas
df_filters = pd.read_csv('/content/drive/MyDrive/Notebook fotometrias/filters_names.csv')

# Extrair os nomes das bandas fotométricas
filter_names = df_filters['name'].tolist()

# Verificar se temos 57 nomes de banda (para corresponder às 57 colunas de fotometria)
if len(filter_names) == 57:
    # Criar um dicionário para mapear os nomes antigos para os novos
    rename_dict = {f'Fotometria_{i+1}': filter_names[i] for i in range(57)}

    # Renomear as colunas no DataFrame principal
    df = df.rename(columns=rename_dict)
    df_err = df_err.rename(columns=rename_dict)
    df_flux = df_flux.rename(columns=rename_dict)
    df_err_flux = df_err_flux.rename(columns=rename_dict)

    print("Bandas fotométricas renomeadas com sucesso!")
else:
    print(f"Atenção: Número de bandas ({len(filter_names)}) não corresponde ao número de colunas de fotometria (57)")

In [None]:
# 3. REMOVER COLUNAS ORIGINAIS
df = df.drop(['MAG_APER_COR_3_0'], axis=1)
df_err = df_err.drop(['MAG_ERR_APER_COR_3_0'], axis=1)
df_flux = df_flux.drop(['FLUX_APER_COR_3_0'], axis=1)
df_err_flux = df_err_flux.drop(['FLUX_RELERR_APER_COR_3_0'], axis=1)

print("Colunas originais removidas com sucesso!")

In [None]:
# Exibir as primeiras linhas após o pré-processamento
print("\nDataFrame após divisão e renomeação das colunas de fotometria:")
df.head()

In [None]:
# Exibir as primeiras linhas após o pré-processamento
print("\nDataFrame após divisão e renomeação das colunas de fotometria:")
df_err.head()

In [None]:
# Exibir as primeiras linhas após o pré-processamento
print("\nDataFrame após divisão e renomeação das colunas de fotometria:")
df_flux.head()

In [None]:
# Exibir as primeiras linhas após o pré-processamento
print("\nDataFrame após divisão e renomeação das colunas de fotometria:")
df_err_flux.head()

Esses blocos executam o "coração" do pré-processamento. O objetivo é "desmembrar" aquela string problemática em colunas numéricas individuais.

Primeiro, uma lista de 57 nomes de colunas genéricos (ex: Fotometria_1, Fotometria_2...) é criada.

Em seguida, o método str.split(expand=True) é aplicado à coluna MAG_APER_COR_3_0. Esta função "fatia" a string em cada espaço, e o expand=True garante que cada valor fatiado se torne uma nova coluna no DataFrame.

Finalmente, o método apply(pd.to_numeric) é usado para converter essas novas colunas, que ainda são texto, em valores numéricos. Sem essa conversão, nenhum cálculo matemático seria possível.



---



---



Com os dados estruturalmente corretos, o foco muda para o "enriquecimento semântico". Com a substituição dos nomes genéricos (ex:Fotometria_1, Fotometria_2, Fotometria_3, etc) pelos nomes científicos reais das bandas fotométricas (ex: uJAVA, J0378, etc.). Isso é feito carregando-se um segundo arquivo CSV (804024.csv) que contém o mapeamento de nomes e aplicando o método df.rename. Esta etapa, embora simples, é crucial para a interpretabilidade científica dos resultados. A seguir, o notebook entra na FASE 1: Verificação de valores nulos



#### **GERANDO ARQUIVOS DOS DATAFRAMES APÓS RENOMEÇÃO**

In [None]:
print("=" * 60)
print("GERANDO ARQUIVOS DOS DATAFRAMES APÓS RENOMEÇÃO")
print("=" * 60)

# Salvar os dataframes processados para uso futuro
df.to_csv('/content/drive/MyDrive/Notebook fotometrias/df_magnitudes_processado.csv', index=False)
df_err.to_csv('/content/drive/MyDrive/Notebook fotometrias/df_erros_processado.csv', index=False)
df_flux.to_csv('/content/drive/MyDrive/Notebook fotometrias/df_fluxo_processado.csv', index=False)
df_err_flux.to_csv('/content/drive/MyDrive/Notebook fotometrias/df_erro_fluxo_processado.csv', index=False)

print("DataFrames salvos com sucesso!")
print(f"df shape: {df.shape}")
print(f"df_err shape: {df_err.shape}")
print(f"df_flux shape: {df_flux.shape}")
print(f"df_err_flux shape: {df_err_flux.shape}")
print(f"Bandas disponíveis: {len(filter_names)}")
print("\nPrimeiras 10 bandas:", filter_names[:10])

#### **4.1 Verificar valores nulos, NA, NaN em todas as bandas**

Em astronomia, dados ausentes podem ser representados por valores padrão (NaN, None) ou por placeholders (valores sentinela), como 99. O código, de forma prudente, verifica ambos:



1.   Na procura por NaN ou None. A saída mostra 0 para todas as bandas .
2.   Um laço for verifica explicitamente a contagem de valores == 99. A saída também retorna 0 para todas as bandas.

A vantagem desta verificação dupla é a robustez. A desvantagem de não encontrar valores nulos é estatisticamente improvável em dados reais, o que pode sugerir que um filtro de limpeza já foi aplicado na origem dos dados, ou que o valor 99 foi apenas um exemplo e outros placeholders (como -99 ou 99.99) poderiam existir.



In [None]:
print("\n" + "=" * 60)
print("VERIFICAÇÃO DE VALORES NULOS E AUSENTES")
print("=" * 60)

# Lista de valores sentinela comuns em dados astronômicos
valores_sentinela = [99, -99, 99.99, -99.99, 999, -999, 999.999, -999.999, 0, -1]

def verificar_dados_ausentes(df, df_err, df_flux, df_err_flux, filter_names, valores_sentinela):
    """
    Função melhorada para verificação de dados ausentes e valores sentinela
    IMPORTANTE: Não remove outliers pois eles são o foco do estudo
    """
    resultados = {}

    print("\n 1. VERIFICAÇÃO DE VALORES AUSENTES PADRÃO:")
    print("-" * 40)

    # Verificar valores nulos/ausentes padrão
    nulos_df = df[filter_names].isnull().sum()
    nulos_df_err = df_err[filter_names].isnull().sum()
    nulos_df_flux = df_flux[filter_names].isnull().sum()
    nulos_df_err_flux = df_err_flux[filter_names].isnull().sum()

    print("Valores NaN em df (magnitudes):")
    print(nulos_df)
    print(f"\n Total de valores NaN em df: {nulos_df.sum()}")

    print("\nValores NaN em df_err (erros):")
    print(nulos_df_err)
    print(f"Total de valores NaN em df_err: {nulos_df_err.sum()}")

    print("Valores NaN em df_flux (fluxos):")
    print(nulos_df_flux)
    print(f"\n Total de valores NaN em df_flux: {nulos_df_flux.sum()}")

    print("\nValores NaN em df_err_flux (erros-fluxo):")
    print(nulos_df_err_flux)
    print(f"Total de valores NaN em df_err_flux: {nulos_df_err_flux.sum()}")

    # Verificar infinitos
    infinitos_df = np.isinf(df[filter_names]).sum().sum()
    infinitos_df_err = np.isinf(df_err[filter_names]).sum().sum()
    infinitos_df_flux = np.isinf(df_flux[filter_names]).sum().sum()
    infinitos_df_err_flux = np.isinf(df_err_flux[filter_names]).sum().sum()
    print(f"\n Valores infinitos em df: {infinitos_df}")
    print(f" Valores infinitos em df_err: {infinitos_df_err}")
    print(f"\n Valores infinitos em df_flux: {infinitos_df_flux}")
    print(f" Valores infinitos em df_err_flux: {infinitos_df_err_flux}")

    print("\n 2. VERIFICAÇÃO DE VALORES SENTINELA:")
    print("-" * 40)

    # Verificar valores sentinela em ambas as bases
    sentinela_encontrado = False
    for sentinela in valores_sentinela:
        count_sentinela_df = (df[filter_names] == sentinela).sum().sum()
        count_sentinela_df_err = (df_err[filter_names] == sentinela).sum().sum()
        count_sentinela_df_flux = (df_flux[filter_names] == sentinela).sum().sum()
        count_sentinela_df_err_flux = (df_err_flux[filter_names] == sentinela).sum().sum()

        if count_sentinela_df > 0 or count_sentinela_df_err > 0:
            sentinela_encontrado = True
            print(f" Valor sentinela {sentinela}:")
            print(f"   - df: {count_sentinela_df} ocorrências")
            print(f"   - df_err: {count_sentinela_df_err} ocorrências")
            print(f"   - df_flux: {count_sentinela_df_flux} ocorrências")
            print(f"   - df_err_flux: {count_sentinela_df_err_flux} ocorrências")

    if not sentinela_encontrado:
        print("Nenhum valor sentinela encontrado")

    print("\n 3. VERIFICAÇÃO DE FAIXAS DE VALORES:")
    print("-" * 40)

    # Verificar faixas de valores esperadas para magnitudes astronômicas
    # NOTA: Não removemos outliers, apenas verificamos para diagnóstico
    magnitudes_fora_faixa = ((df[filter_names] < 10) | (df[filter_names] > 30)).sum().sum()
    erros_fora_faixa = ((df_err[filter_names] < 0) | (df_err[filter_names] > 5)).sum().sum()

    print(f"Magnitudes fora da faixa típica 10-30: {magnitudes_fora_faixa}")
    print(f"Erros fora da faixa típica 0-5: {erros_fora_faixa}")

    # Estatísticas básicas das magnitudes
    print(f"\n Estatísticas das magnitudes (todas as bandas):")
    print(f"   Mínimo: {df[filter_names].min().min():.2f}")
    print(f"   Máximo: {df[filter_names].max().max():.2f}")
    print(f"   Média: {df[filter_names].mean().mean():.2f}")

    return {
        'nulos_df': nulos_df,
        'nulos_df_err': nulos_df_err,
        'nulos_df_flux': nulos_df_flux,
        'nulos_df_err_flux': nulos_df_err_flux,
        'infinitos_df': infinitos_df,
        'infinitos_df_err': infinitos_df_err,
        'infinitos_df_flux': infinitos_df_flux,
        'infinitos_df_err_flux': infinitos_df_err_flux,
        'sentinela_encontrado': sentinela_encontrado,
        }

# Executar verificação melhorada
resultados_verificacao = verificar_dados_ausentes(df, df_err, df_flux, df_err_flux, filter_names, valores_sentinela)

print("\n Verificação de dados concluída!")

### **4.3 Calcular SNR (Signal-to-Noise Ratio) para cada banda**

Esta seção é o objetivo final do pré-processamento: avaliar a qualidade dos dados.

FASE 2: Geração do Indicador. O código calcula a Relação Sinal-Ruído (SNR). O SNR é a métrica fundamental da qualidade de uma medição; valores altos indicam um sinal limpo, valores baixos indicam um sinal ruidoso.

### **Estrutura Geral**

O código calcula o Signal-to-Noise Ratio (SNR) para cada estrela em cada filtro fotométrico (57 bandas), partindo dos erros relativos do fluxo.

* Carrega um DataFrame pré-processado onde cada coluna (ex: 'uJAVA', 'J0378') contém valores numéricos dos erros relativos do fluxo.
* Carrega os nomes das 57 bandas fotométricas de um arquivo CSV externo.
* Cria uma lista filter_names contendo esses nomes.
* Cria um novo DataFrame contendo apenas as colunas com erros relativos do fluxo para cada banda.
* Cria nomes de colunas prefixados com 'SNR_' (ex: 'SNR_uJAVA')
* Constrói um novo DataFrame organizado com os valores de SNR
* Adiciona identificadores únicos e informações astrométricas para manter a rastreabilidade
* Calcula a Média do SNR e Maior valor de SNR em todas as 57 bandas para cada estrela
* Gera um histograma da distribuição do SNR médio
* Salva os resultados em um novo arquivo CSV

**Lógica implementada:**

Para cada célula no DataFrame de erros:
- Se erro > 0: SNR = 1 / erro_relativo
- Se erro = 0: SNR = 0 (evita divisão por zero)

In [None]:
# 1. Carregamento dos Dados
path_dir = '/content/drive/MyDrive/Notebook fotometrias/'

# Recarregar df_err_flux a partir do CSV processado.
# Este DataFrame terá colunas como 'uJAVA', 'J0378', etc., que já são numéricas.
df_err_flux = pd.read_csv(os.path.join(path_dir, 'df_erro_fluxo_processado.csv'))

print(f"Total de objetos carregados: {len(df_err_flux)}")

# --- INÍCIO DA IMPLEMENTAÇÃO DO SNR ---

# 2. Identificar as colunas que contêm os valores de erro do fluxo
# Precisamos obter os nomes dos filtros, que estão armazenados na variável 'filter_names' da execução anterior.
# Para garantir a robustez, recarregaremos df_filters para assegurar que filter_names esteja preenchido corretamente.
df_filters = pd.read_csv(os.path.join(path_dir, 'filters_names.csv'))
filter_names = df_filters['name'].tolist()

print("Convertendo erros relativos e calculando SNR...")

# A função get_snr_matrix não é adequada porque 'FLUX_RELERR_APER_COR_3_0' não existe mais em df_err_flux,
# e os valores de erro já estão divididos em colunas numéricas individuais.

# Seleciona apenas as colunas de filtro de df_err_flux para o cálculo da relação sinal-ruído (SNR)
error_columns_df = df_err_flux[filter_names]

# Calcular SNR para cada elemento no DataFrame error_columns_df
# SNR = 1 / Erro_Relativo
# np.where evita a divisão por zero quando o erro é 0.0
with np.errstate(divide='ignore', invalid='ignore'):
    snr_calculated_values = error_columns_df.apply(lambda x: np.where(x > 0, 1.0 / x, 0.0))

# 3. Integração ao DataFrame Principal (Separando por objeto/banda)
# Crie novos nomes de coluna para os valores de SNR, por exemplo, 'SNR_uJAVA', 'SNR_J0378'
bandas_snr_names = [f'SNR_{name}' for name in filter_names]

# Cria um novo DataFrame para SNR com nomes de coluna apropriados
df_snr = pd.DataFrame(snr_calculated_values.values, columns=bandas_snr_names)

# Adiciona os IDs originais (TILE_ID e NUMBER) e outros metadados relevantes de df_err_flux
df_snr.insert(0, 'TILE_ID', df_err_flux['TILE_ID'].values)
df_snr.insert(1, 'NUMBER', df_err_flux['NUMBER'].values)
df_snr['Plx'] = df_err_flux['Plx'].values
df_snr['e_Plx'] = df_err_flux['e_Plx'].values
df_snr['erro_relativo_paralaxe'] = df_err_flux['erro_relativo_paralaxe'].values

# --- FIM DA IMPLEMENTAÇÃO DO SNR ---

# 4. Cálculo de Estatísticas de Qualidade (Sugestão para seu dashboard)
df_snr['SNR_MEDIO'] = df_snr[bandas_snr_names].mean(axis=1)
df_snr['SNR_MAX'] = df_snr[bandas_snr_names].max(axis=1)

# 5. Visualização de Controle (Dashboard Simples)
plt.figure(figsize=(10, 5))
sns.histplot(df_snr['SNR_MEDIO'], bins=50, kde=True, color='royalblue')
plt.title('Distribuição do SNR Médio (57 bandas)')
plt.xlabel('Signal-to-Noise Ratio')
plt.ylabel('Frequência (Objetos)')
plt.axvline(x=3, color='red', linestyle='--', label='SNR=3 (Limite de Detecção)')
plt.legend()
plt.grid(alpha=0.3)
plt.show()

# 6. Salvando o Processamento Final
output_file = os.path.join(path_dir, 'DF_PROCESSADO_COM_SNR.csv')
df_snr.to_csv(output_file, index=False)

print(f"Processamento concluído com sucesso!")
print(f"O DataFrame de SNR agora contém {df_snr.shape[1]} colunas (IDs + 57 bandas + estatísticas).")

### **4.4 Histograma do sinal/ruído de cada banda**

FASE 3: Visualização dos Dados, tenta a primeira abordagem de visualização: plotar os histogramas de SNR para todas as 57 bandas (excluindo iSDSS ) em um grande painel de subplots.

Interatividade: O código lista todas as bandas disponíveis e solicita ativamente que o usuário digite os números das bandas que deseja analisar (ex: "45,7,39").
Robustez: Utiliza threading para criar um timeout de 2 minutos. Se o usuário não responder, o script não trava; ele seleciona 3 bandas aleatoriamente e continua.
Análise Focada: Ele então plota histogramas limpos apenas para as bandas selecionadas, incluindo linhas de média e mediana.
Relatório Detalhado: Por fim, imprime estatísticas descritivas (mínimo, máximo, média, mediana, desvio padrão) apenas para as bandas selecionadas.
Esta abordagem interativa é uma grande vantagem para a análise exploratória, permitindo ao cientista focar em bandas de interesse específico (ex: J0810, J0430, J0750)

In [None]:
# --- 1. Preparação dos Dados (SNR já calculado anteriormente) ---
# Caso df_snr não esteja na memória, ele deve ser gerado a partir do df_err_flux
bandas_cols = [col for col in df_snr.columns if col.startswith('SNR_')]
total_bandas = len(bandas_cols)

# --- 2. Função de Captura de Input com Timeout ---
def get_user_input_with_timeout(prompt, timeout_seconds=120):
    """
    Captura input do usuário com timeout.
    Retorna None se o tempo esgotar.
    """
    from threading import Thread
    import queue

    def input_thread(q):
        try:
            q.put(input())
        except:
            q.put(None)

    print(prompt, end='', flush=True)

    q = queue.Queue()
    thread = Thread(target=input_thread, args=(q,))
    thread.daemon = True
    thread.start()

    # Aguarda pelo tempo especificado
    thread.join(timeout=timeout_seconds)

    if thread.is_alive():
        print(f"\n[TIMEOUT] Tempo de {timeout_seconds//60} minutos excedido.")
        print("Selecionando 2 bandas aleatórias...")
        return None
    else:
        try:
            return q.get_nowait()
        except queue.Empty:
            return None

# --- 3. Interface de Interatividade ---
print("\n" + "="*50)
print("EXPLORADOR DE BANDAS J-PAS")
print("="*50)
print(f"Total de bandas disponíveis: {total_bandas}")

# Gerar opções de múltiplos de 3 até o limite
multiplos_de_3 = []
for i in range(3, total_bandas + 1, 3):
    if i <= total_bandas:
        multiplos_de_3.append(i)

# Se não houver múltiplos exatos, adiciona o total como opção
if total_bandas not in multiplos_de_3:
    multiplos_de_3.append(total_bandas)

# REMOVER ESPECIFICAMENTE O r59 se estiver na lista
if 59 in multiplos_de_3:
    multiplos_de_3.remove(59)

prompt_text = (
    "\nComo deseja proceder?\n"
    "- Digite os números das bandas (ex: 7, 39, 45)\n"
    "- Digite 'todas' para ver o painel completo\n"
    "- Para N bandas aleatórias, use o prefixo 'r' (ex: 'r6' para 6 bandas aleatórias)\n"
    f"\nOpções de aleatorização disponíveis (múltiplos de 3):\n"
)

# Adiciona as opções formatadas em linhas
opcoes_formatadas = []
for i, n in enumerate(multiplos_de_3):
    opcoes_formatadas.append(f"r{n}")
    if (i + 1) % 5 == 0 or i == len(multiplos_de_3) - 1:
        prompt_text += "  " + ", ".join(opcoes_formatadas[i-(i%5):i+1]) + "\n"
        opcoes_formatadas = opcoes_formatadas[:i+1]

prompt_text += f"\nTempo disponível: 2 minutos\n"
prompt_text += "Sua escolha: "

# Chamada da função com timeout de 2 minutos (120 segundos)
escolha = get_user_input_with_timeout(prompt_text, timeout_seconds=120)

# --- 4. Lógica de Seleção ---
# Timeout: seleciona 2 bandas aleatórias
if escolha is None:
    print("\n[INFO] Nenhuma resposta recebida no tempo limite.")
    print("[AÇÃO] Selecionando 2 bandas aleatórias automaticamente...")
    if total_bandas >= 2:
        selecionadas = random.sample(bandas_cols, 2)
    else:
        selecionadas = bandas_cols
        print(f"[AVISO] Apenas {total_bandas} banda(s) disponível(eis).")

elif escolha.lower() == 'todas':
    selecionadas = bandas_cols
    print(f"\n[INFO] Selecionadas todas as {len(selecionadas)} bandas.")

elif escolha.lower().startswith('r'):
    # Seleção por número específico de bandas aleatórias (prefixo 'r')
    try:
        n_str = escolha.lower().replace('r', '').strip()
        if n_str.isdigit():
            n = int(n_str)

            # Verificar se é múltiplo de 3 ou se é o total
            multiplos_validos = multiplos_de_3.copy()
            if total_bandas not in multiplos_validos:
                multiplos_validos.append(total_bandas)

            # ESPECIAL: se o usuário digitar r59, tratamos como entrada inválida
            if n == 59:
                print(f"\n[AVISO] Opção 'r59' não está disponível.")
                print(f"[AÇÃO] Selecionando 3 bandas aleatórias.")
                n_default = min(3, total_bandas)
                selecionadas = random.sample(bandas_cols, n_default)
            elif n in multiplos_validos:
                if n <= total_bandas:
                    selecionadas = random.sample(bandas_cols, n)
                    print(f"\n[INFO] Selecionadas {n} banda(s) aleatória(s).")
                else:
                    print(f"\n[AVISO] Número {n} maior que bandas disponíveis ({total_bandas}).")
                    print(f"[AÇÃO] Selecionando todas as {total_bandas} bandas.")
                    selecionadas = bandas_cols
            else:
                # Encontrar o múltiplo de 3 mais próximo
                multiplo_mais_proximo = min(multiplos_validos, key=lambda x: abs(x - n))
                print(f"\n[AVISO] Número {n} não é um múltiplo de 3 válido.")
                print(f"[AÇÃO] Usando {multiplo_mais_proximo} bandas aleatórias.")
                selecionadas = random.sample(bandas_cols, multiplo_mais_proximo)
        else:
            print(f"\n[AVISO] Formato inválido: '{escolha}'. Use 'r' seguido do número.")
            print(f"[AÇÃO] Selecionando 3 bandas aleatórias.")
            n_default = min(3, total_bandas)
            selecionadas = random.sample(bandas_cols, n_default)
    except Exception as e:
        print(f"\n[ERRO] Processando '{escolha}': {e}")
        print(f"[AÇÃO] Selecionando 3 bandas aleatórias.")
        n_default = min(3, total_bandas)
        selecionadas = random.sample(bandas_cols, n_default)

else:
    # Verifica se é uma lista de números de bandas específicas
    indices = []
    partes_validas = []

    for part in escolha.replace(',', ' ').split():
        part = part.strip()
        if part.isdigit():
            idx = int(part) - 1
            if 0 <= idx < total_bandas:
                indices.append(bandas_cols[idx])
                partes_validas.append(part)

    if indices:
        selecionadas = indices
        print(f"\n[INFO] Selecionadas {len(selecionadas)} banda(s) específica(s): {', '.join(partes_validas)}")
    else:
        # Entrada inválida - seleciona 3 bandas aleatórias por padrão
        print(f"\n[AVISO] Entrada não reconhecida: '{escolha}'")
        print("[AÇÃO] Selecionando 3 bandas aleatórias...")
        n_default = min(3, total_bandas)
        selecionadas = random.sample(bandas_cols, n_default)

# --- 5. Plotagem e Relatório Detalhado ---
if selecionadas:
    print(f"\n[PROCESSANDO] Gerando análise para {len(selecionadas)} banda(s)...")

    # Configuração de subplots
    n_sel = len(selecionadas)
    n_cols = min(3, n_sel)
    n_rows = (n_sel + n_cols - 1) // n_cols

    fig, axes = plt.subplots(n_rows, n_cols, figsize=(6*n_cols, 5*n_rows), squeeze=False)
    axes_flat = axes.flatten()

    stats_list = []

    for i, col in enumerate(selecionadas):
        ax = axes_flat[i]
        dados = df_snr[col][df_snr[col] > 0].dropna()

        if dados.empty:
            print(f"[AVISO] Banda {col.replace('SNR_', '')}: Sem dados válidos.")
            ax.text(0.5, 0.5, 'Sem dados', transform=ax.transAxes,
                    ha='center', va='center', fontsize=12)
            continue

        # Estatísticas
        desc = dados.describe()
        stats_list.append(desc)

        # Plot
        limite = np.percentile(dados, 98) if not dados.empty else 100
        sns.histplot(dados, bins=40, ax=ax, color='skyblue', kde=True, binrange=(0, limite))

        # Linhas de Média e Mediana
        mean_v = desc['mean']
        median_v = desc['50%']
        ax.axvline(mean_v, color='darkblue', linestyle='-', label=f'Média: {mean_v:.2f}')
        ax.axvline(median_v, color='green', linestyle='--', label=f'Mediana: {median_v:.2f}')
        ax.axvline(3, color='red', linestyle=':', alpha=0.5, label='SNR=3')

        # Título
        band_display_name = col.replace('SNR_', '')
        ax.set_title(f'Banda {band_display_name}', fontsize=14)
        ax.legend()

    # Remover eixos extras
    for j in range(i + 1, len(axes_flat)):
        fig.delaxes(axes_flat[j])

    plt.tight_layout()
    plt.show()

    # --- 6. Relatório Detalhado ---
    if stats_list:
        print("\n" + "="*60)
        print("RELATÓRIO ESTATÍSTICO DAS BANDAS SELECIONADAS")
        print("="*60)

        # Criar DataFrame de estatísticas
        df_stats = pd.DataFrame()
        for i, (col, desc) in enumerate(zip(selecionadas, stats_list)):
            band_name = col.replace('SNR_', '')
            df_stats[f'Banda_{band_name}'] = desc

        # Adicionar desvio padrão se não estiver presente
        if 'std' not in df_stats.index:
            for col in selecionadas:
                band_name = col.replace('SNR_', '')
                df_stats.loc['std', f'Banda_{band_name}'] = df_snr[col].std()

        # Mostrar estatísticas principais
        indices_show = ['count', 'min', 'max', 'mean', '50%', 'std']
        indices_show = [idx for idx in indices_show if idx in df_stats.index]

        print(df_stats.loc[indices_show].rename(index={'50%': 'median'}))
        print("="*60)

        # Resumo estatístico adicional
        print("\nRESUMO:")
        for i, (col, desc) in enumerate(zip(selecionadas, stats_list)):
            band_name = col.replace('SNR_', '')
            print(f"Banda {band_name}:")
            print(f"  - Objetos com SNR>0: {int(desc['count']):,}")
            print(f"  - SNR médio: {desc['mean']:.2f}")
            print(f"  - SNR mediano: {desc['50%']:.2f}")
            print(f"  - Faixa: [{desc['min']:.2f}, {desc['max']:.2f}]")

            # Porcentagem com SNR > 3
            perc_snr3 = (df_snr[col] > 3).sum() / desc['count'] * 100 if desc['count'] > 0 else 0
            print(f"  - Objetos com SNR>3: {perc_snr3:.1f}%\n")

else:
    print("\n[ERRO] Nenhuma banda foi selecionada ou disponível.")

# EM TESTE

### **SALVANDO TODOS OS RESULTADOS**