# Procesamiento del dataframe (4FGL Catalog LogParabola UnIDs with Name)

In [None]:
%matplotlib inline

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Configurar estilo
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (15, 10)

In [None]:
# Cargar los datos
file_path = "../../data/processed/4FGL_catalog/4FGL_catalog_clean.csv"
df = pd.read_csv(file_path)

# Verificar que la columna `source_name` sigue estando presente
print(df.dtypes)

In [None]:
# Ver la distribución antes de la normalización
sns.histplot(df["E_peak[GeV]"], bins=50, kde=True)
plt.title("Distribución de E_peak[GeV] antes de la normalización")
plt.show()

Excluir source_name al Convertir las Columnas Numéricas:

In [None]:
# Definir las columnas numéricas excluyendo 'source_name'
num_cols = ["Beta", "Beta_err", "E_peak[GeV]", "det_sig", "curv_sig"]

# Convertir las columnas numéricas si es necesario
df[num_cols] = df[num_cols].apply(pd.to_numeric, errors='coerce')

# Verificar si hay valores NaN después de la conversión
print(df.isnull().sum())

In [None]:
import numpy as np

# Verificar si hay valores infinitos
print((df == np.inf).sum())   # Valores positivos infinitos
print((df == -np.inf).sum())  # Valores negativos infinitos

## Limpiar los datos

In [None]:
# Reemplazar valores infinito con el máximo valor posible
df.replace([np.inf, -np.inf], np.nan, inplace=True)  # Convierte `inf` en `NaN`
df = df.dropna()  # Eliminar filas con `NaN`

Normalizar solo las columnas numéricas:

In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Aplicar normalización SOLO en las columnas numéricas
# scaler = StandardScaler()
scaler = MinMaxScaler()
df[num_cols] = scaler.fit_transform(df[num_cols])

# Guardar el dataset normalizado sin afectar `source_name`
df.to_csv("../../data/processed/4FGL_catalog/4FGL_catalog_normalized.csv", index=False)

print("Datos normalizados y listos para el modelo de detección de anomalías.")

Comprobar que source_name sigue presente en el dataset normalizado:

In [None]:
df_check = pd.read_csv("../../data/processed/4FGL_catalog/4FGL_catalog_normalized.csv")

# Revisar las primeras filas
print(df_check.head())

In [None]:
# Revisar tipos de datos en el DataFrame
print(df.dtypes)

In [None]:
# Revisar si hay valores NaN
print(df.isnull().sum())

In [None]:
# Ver la distribución después de la normalización
sns.histplot(df["E_peak[GeV]"], bins=50, kde=True)
plt.title("Distribución de E_peak[GeV] después de la normalización")
plt.show()

# 📈 Visualización y Distribución de Datos


In [None]:
print('Primeras filas del archivo:')
df.head()

In [None]:
print('\nEstadísticas del archivo:')
df.describe()

## Distribución de las Variables (Histogramas)

In [None]:
import matplotlib.pyplot as plt

# Seleccionar columnas numéricas
num_cols = ["Beta", "Beta_err", "E_peak[GeV]", "det_sig", "curv_sig"]

# Graficar histogramas
df[num_cols].hist(figsize=(12, 6), bins=20, edgecolor='black')
plt.suptitle("Distribución de Variables en el Catálogo de Fuentes", fontsize=14)
plt.show()

## Identificación de Valores Atípicos (Boxplots)

In [None]:
import seaborn as sns

plt.figure(figsize=(12, 6))
sns.boxplot(data=df[num_cols])
plt.xticks(rotation=30)
plt.title("Boxplots de Características Numéricas")
plt.show()

## Correlaciones entre Variables (Heatmap)

In [None]:
plt.figure(figsize=(8, 6))
sns.heatmap(df[num_cols].corr(), annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)
plt.title("Matriz de Correlación entre Variables")
plt.show()

## Relación entre E_peak[GeV] y Beta (Scatter Plot)

In [None]:
plt.figure(figsize=(8,6))
sns.scatterplot(x=df["E_peak[GeV]"], y=df["Beta"], alpha=0.6)
plt.xlabel("E_peak[GeV]")
plt.ylabel("Beta")
plt.title("Relación entre E_peak[GeV] y Beta")
plt.show()