# Características de Entrada (features) / Variables Independientes

## E_peak, Beta, Beta_rel, Sigma_d

In [1]:
%matplotlib inline

In [2]:
import pandas as pd

In [3]:
# Intentar leer los diferentes separadores
columnas = ['E_peak', 'beta', 'sigma', 'beta_Rel', 'astro_DM']
df = pd.read_csv('XY_bal_log_Rel.txt', sep="\s+", names=columnas, engine='python')

# Revisar los primeros valores de astro_DM
print("Primeras filas del del DataFrame:")
print(df.head())

# Ver si hay problemas en la estructura de los datos
print("\n Tipos de datos detectados:")
print(df.dtypes)

# Revisar si la columna astro_DM tiene valores no numéricos
print("\n Valores únicos en astro_DM antes de convertir:")
print(df['astro_DM'].unique())

# Convertir 'astro_DM' a número (manejo de decimales 0.0 y 1.0)
df['astro_DM'] = pd.to_numeric(df['astro_DM'], errors='coerce') # Convertir a NaN si no es numérico

# Ver si hay valores NaN tras la conversión
print("\n Valores NaN después de convertir a número:", df['astro_DM'].isna().sum())

# Eliminar NaN si se generaron por problemas en la conversión
df = df.dropna(subset=['astro_DM'])

# Alternativamente, rellenar NaN con 0 o 1 (si tiene sentido, opción 2)
# df['astro_DM'].fillna(0, inplace=True) # Reemplazar con el valor adecuado

# Convertir a entero después de limpiar NaN
df['astro_DM'] = df['astro_DM'].astype('int')

# Revisar si los valores de astro_DM son solo 0 y 1
print("Valores únicos en la columna astro_DM después de la conversión:")
print(df['astro_DM'].unique())


Primeras filas del del DataFrame:
                E_peak                     beta               sigma  \
0               E_peak                     beta               sigma   
1  -0.4125023068520127      -1.3251388592621884  1.3569508561312753   
2   0.7081403453880487  -0.00017375254558756316  0.6231665597600842   
3  0.22474019006054397      -0.5812017094096464  1.0100411689718056   
4  0.25731851309763853      -0.5619325495465062   0.615413424407249   

               beta_Rel      astro_DM  
0              beta_Rel  0,1=astro,DM  
1  -0.12219292462561837           0.0  
2   -1.6018862387823747           0.0  
3   -0.3112491608456672           0.0  
4  -0.03891311649527738           0.0  

 Tipos de datos detectados:
E_peak      object
beta        object
sigma       object
beta_Rel    object
astro_DM    object
dtype: object

 Valores únicos en astro_DM antes de convertir:
['0,1=astro,DM' '0.0' '1.0']

 Valores NaN después de convertir a número: 1
Valores únicos en la columna astro_D

In [4]:
# Muestra aleatoria de 5 filas
df.sample(5)

Unnamed: 0,E_peak,beta,sigma,beta_Rel,astro_DM
3948,3.967828679330155,-0.3038184128314762,1.052693941924968,0.5176017121667803,1
4927,1.3995006613146106,-0.9755143323008332,1.1205739312058498,-0.3788669294564718,1
5171,2.736953953783146,-1.1737955765007473,0.8617135875714342,0.480649325193756,1
1265,-0.6875687444112749,-1.0942041196321317,1.1300570186657453,-0.1113078337086989,0
961,-1.3654723505709672,-0.9484616094846724,1.2133317807065926,-0.2690657663490412,0


In [5]:
# Ver los valores mínimos, máximos, y estadísticas generales (media, desviación estandar, etc.)
print("Estadísticas descriptivas:")
df.describe()

Estadísticas descriptivas:


Unnamed: 0,astro_DM
count,5662.0
mean,0.5
std,0.500044
min,0.0
25%,0.0
50%,0.5
75%,1.0
max,1.0


In [6]:
# Ver los valores de correlación entre variables
print("Matriz de correlación entre variables:")
df.corr()

Matriz de correlación entre variables:


Unnamed: 0,E_peak,beta,sigma,beta_Rel,astro_DM
E_peak,1.0,0.108252,-0.116761,0.355409,0.662491
beta,0.108252,1.0,-0.106935,-0.294714,0.280305
sigma,-0.116761,-0.106935,1.0,-0.347368,-0.143709
beta_Rel,0.355409,-0.294714,-0.347368,1.0,0.329702
astro_DM,0.662491,0.280305,-0.143709,0.329702,1.0


In [7]:
# Revisar valores únicos en la columna de clases
print("Valores únicos en la columna 'astro_DM':")
print(df['astro_DM'].value_counts())

Valores únicos en la columna 'astro_DM':
astro_DM
0    2831
1    2831
Name: count, dtype: int64


In [65]:
# Revisar valores incompletos en el DataFrame o filas con valores faltantes
print("Valores faltantes en el DataFrame:")
print(df.isnull().sum())
print("Filas con valores faltantes:")
print(df[df.isnull().any(axis=1)])

Valores faltantes en el DataFrame:
E_peak      0
beta        0
sigma       0
beta_Rel    0
astro_DM    0
dtype: int64
Filas con valores faltantes:
Empty DataFrame
Columns: [E_peak, beta, sigma, beta_Rel, astro_DM]
Index: []


# Gráficos

## Gráfico 𝐸 peak vs β (beta-plot)
Separa distintas clases de fuentes según sus características espectrales y muestra cómo se distribuyen las fuentes astrofísicas y de materia oscura en este espacio.
