Se aborda en esta primera parte del proyecto final *el problema de la determinaci√≥n del redshift*.

Se muestra el mejor c√≥digo pensado para resolver este problema y que en cuya arquitectura sean puestos en pr√°ctica los diferentes temas abordados a lo largo del curso.

Se dividir√° el c√≥digo en bloques con una tarea diferente, indicando su funci√≥n y sus implicaciones.

Elaborado por: Oscar Ra√∫l S√°nchez Padilla

In [5]:
# BLOQUE 1: IMPORTACIONES Y CONFIGURACI√ìN

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Scikit-learn: Servir√° para separar los datos en train y test, har√° la validaci√≥n cruzada m√°s delante, Normalizar√° y/o escalar√° los datos y calcular√° m√©tricas.

#Usaremos la siguiente librer√≠a para la cross-validation
from sklearn.model_selection import train_test_split, KFold  

#StandardScaler estandarizar√° las caracter√≠sticas de tus datos. Evitar√° darles pesos diferentes a datos de diferentes tama√±os o magnitudes.
#RobustScaler nos funcionara como alternativa a StandardScaler que maneja mejor outliers(valores atipicos o fuera de lo normal)
from sklearn.preprocessing import StandardScaler, RobustScaler

#Las siguientes funciones servir√°n para evaluar qu√© tan bueno ser√° nuestro modelo de regresi√≥n comparando las predicciones con los valores reales. Son m√©tricas de rendimiento.
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# TensorFlow y Keras
import tensorflow as tf

# Las componentes principales para construir y entrenar redes neuronales:
from tensorflow.keras import layers, models, callbacks, regularizers

# Usamos el siguiente algoritmo de optimizaci√≥n para entrenamiento de las redes neuronales:
from tensorflow.keras.optimizers import Adam

# Para reproducibilidad fijamos los numeros "aleatorios" para que siempre sean iguales.
# Esto es √∫til para saber si los cambios son por mi c√≥digo y no por azar. 
np.random.seed(42)
tf.random.set_seed(42) #Usamos el n√∫mero 42 como convenci√≥n dentro del mundo de la programaci√≥n, en general puede ser cualquier numero

# Esto har√° que nuestras gr√°ficas se vean m√°s presentables (No afecta al c√≥digo en si mismo)
plt.style.use('seaborn-v0_8-darkgrid')

In [None]:
# BLOQUE 2: CARGA Y PREPROCESAMIENTO DE DATOS

# Rutas de tus archivos (guardados localmente)
csv_path = r'C:\Users\op354\OneDrive\Documentos\Oscar\UG\Repositorio Github\ejerciosytareas-Oscarraul28\balanced_spectra_features.csv'
npz_path = r'C:\Users\op354\OneDrive\Documentos\Oscar\UG\Repositorio Github\ejerciosytareas-Oscarraul28\balanced_spectra_flux.npz'

# Carga de datos
print("üìÇ Cargando datos...")
df = pd.read_csv(csv_path) # Lee el archivo CSV y lo convierte en un DataFrame (tabla de pandas)
npz = np.load(npz_path, allow_pickle=True) # Carga el archivo NPZ (formato comprimido de NumPy). Es como un diccionario que contiene arrays.
targetids = npz['targetids'] # Extrae la lista de IDs de los objetos astron√≥micos
flujo_arr = npz['flux_arrays'] # Extrae los espectros (arrays de flujo luminoso), donde cada espectro es un array de muchisimos pixeles

print(f"   ‚úÖ CSV cargado: {df.shape}") # Aqu√≠ van los datos peque√±os
print(f"   ‚úÖ NPZ cargado: {len(flujo_arr)} espectros") # Y aqu√≠ los datos grandes

# Construir dataset alineando CSV con NPZ. Esto es muy importante porque...
X_list = [] # Aqu√≠ se guardan los espectros (features)
y_list = [] # Aqu√≠ se guardan los redshifts!! Que son los targets!!
espectro_lista = [] #Aqu√≠ se guardan los tipos espectrales

for i, tid in enumerate(targetids):
    row = df.loc[df['targetid'] == tid]
    if row.empty:
        continue
    redshift = row['redshift'].values[0]
    if pd.isna(redshift):
        continue
    X_list.append(flujo_arr[i])
    y_list.append(float(redshift))
    espectro_lista.append(row['spectype'].values[0])

X = np.asarray(X_list)         # Espectros (flujo)
y = np.asarray(y_list)         # Redshift (target)
spectypes = np.asarray(espectro_lista)  # Tipos espectrales

print(f"\nüìä Dataset construido:")
print(f"   - Espectros: {X.shape}")
print(f"   - Dimensi√≥n espectral: {X.shape[1]} p√≠xeles")
print(f"   - Redshift min/max: [{y.min():.4f}, {y.max():.4f}]")
print(f"   - Tipos espectrales √∫nicos: {len(np.unique(spectypes))}")

# Normalizaci√≥n: dividir por m√°ximo absoluto de cada espectro
eps = 1e-12 #Evita dividir por cero
X_norm = X / (np.max(np.abs(X), axis=1, keepdims=True) + eps)
print(f"\n‚úÖ Normalizaci√≥n por espectro completada")

# Escalado global con StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_norm)
print(f"‚úÖ StandardScaler aplicado")

# Convertir a formato 3D para CNN (samples, timesteps, features)
X_cnn = np.expand_dims(X_scaled, axis=-1)
print(f"‚úÖ Shape para CNN: {X_cnn.shape}")

# Divisi√≥n train/test estratificada por tipo espectral
X_train, X_test, y_train, y_test = train_test_split(
    X_cnn, y, 
    test_size=0.2, 
    random_state=42, 
    stratify=spectypes
)

print(f"\nüîÄ Divisi√≥n train/test:")
print(f"   - Train: {X_train.shape[0]} espectros ({100*len(X_train)/len(X):.1f}%)")
print(f"   - Test:  {X_test.shape[0]} espectros ({100*len(X_test)/len(X):.1f}%)")
print(f"\n‚úÖ Datos listos para entrenar")

üìÇ Cargando datos...
   ‚úÖ CSV cargado: (492, 10)
   ‚úÖ NPZ cargado: 492 espectros

üìä Dataset construido:
   - Espectros: (492, 7781)
   - Dimensi√≥n espectral: 7781 p√≠xeles
   - Redshift min/max: [-0.0011, 3.4567]
   - Tipos espectrales √∫nicos: 3

‚úÖ Normalizaci√≥n por espectro completada
‚úÖ StandardScaler aplicado
‚úÖ Shape para CNN: (492, 7781, 1)

üîÄ Divisi√≥n train/test:
   - Train: 393 espectros (79.9%)
   - Test:  99 espectros (20.1%)

‚úÖ Datos listos para entrenar
