<a href="https://colab.research.google.com/github/fmezacr/IA/blob/main/Lab_1_ASTROai.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Clasificación de Objetos Celestes con Machine Learning: Aplicando Redes Neuronales y Random Forest a Datos Reales del SDSS**

### **Introducción**
El objetivo de esta notebook es aplicar técnicas de Machine Learning (ML) para resolver un problema de clasificación en astronomía, utilizando datos reales del **Sloan Digital Sky Survey (SDSS)**. En este caso, clasificaremos objetos celestes en tres categorías:
- **Estrellas (STAR)**
- **Galaxias (GALAXY)**
- **Cuásares (QSO)**


### **Paso 1: Acceso y Preprocesamiento de Datos**

**Descripción:**
- Los datos del SDSS se obtienen a través de consultas SQL usando `astroquery`.
- Seleccionamos características observacionales (`u, g, r, i, z`) y las etiquetas (`class`).
- Mapeamos las etiquetas a valores categóricos (`0, 1, 2`) para facilitar su uso en los modelos.


In [None]:
from astroquery.sdss import SDSS
import pandas as pd
import numpy as np

# Consulta SQL para obtener datos del SDSS
query = """
SELECT TOP 1000
  p.objID, p.u, p.g, p.r, p.i, p.z,
  s.class as class
FROM PhotoObj AS p
  JOIN SpecObj AS s ON s.bestobjid = p.objid
WHERE s.class IN ('STAR', 'GALAXY', 'QSO')
"""
sdss_data = SDSS.query_sql(query)  # Ejecutar la consulta
data = sdss_data.to_pandas()       # Convertir a DataFrame
print(data.isnull().sum())


In [None]:
# Preprocesamiento: Selección de columnas y transformación de etiquetas
data = data[["u", "g", "r", "i", "z", "class"]].dropna()
data["class"] = data["class"].map({"STAR": 0, "GALAXY": 1, "QSO": 2})
print(data.head())

### **Paso 2: División de Datos**

**Descripción:**
- Dividimos los datos en:
  - **Conjunto de entrenamiento:** Usado para ajustar el modelo.
  - **Conjunto de prueba:** Usado para evaluar el rendimiento del modelo.
- Utilizamos el 80% de los datos para entrenamiento y el 20% para prueba.

In [None]:
from sklearn.model_selection import train_test_split

X = data[["u", "g", "r", "i", "z"]]  # Características
y = data["class"]                     # Etiquetas

# División en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Conjunto de entrenamiento:", X_train.shape, y_train.shape)
print("Conjunto de prueba:", X_test.shape, y_test.shape)

### **Paso 3: Modelo de Machine Learning - Random Forest**

**Descripción:**
- Entrenamos un modelo Random Forest para clasificar los objetos celestes.
- Este modelo utiliza múltiples árboles de decisión para tomar decisiones robustas.

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

# Entrenamiento del modelo
#TO DO implemente una arquitectura de Clasificador Random Forrest, empiece con 100 árboles.
rf_model =

# TO DO Aplique el FIT


# Predicciones y evaluación
# TO DO Haga las predicciones
y_pred_rf =

print("Reporte de Clasificación (Random Forest):")
print(classification_report(y_test, y_pred_rf))

### **Paso 4: Modelo de Machine Learning - Red Neuronal Artificial (ANN)**

**Descripción:**
- Entrenamos una red neuronal para clasificar los objetos.
- Configuración:
  - Entrada: 5 características (`u, g, r, i, z`).
  - Capas ocultas: 16 y 8 neuronas respectivamente.
  - Salida: 3 neuronas (una por cada clase).

In [None]:
from sklearn.preprocessing import StandardScaler
from tensorflow.keras import Input
from tensorflow.keras.layers import Dropout
from tensorflow.keras.callbacks import EarlyStopping

# Estandarizar las características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Crear modelo ANN mejorado
ann_model = Sequential([
    Input(shape=(X_train_scaled.shape[1],)),  # Capa de entrada -- Es equivalente a "Input(shape=(5,))"
    #Ingrese aquí el código,  # Capa oculta 1 con 32 neuronas y RELU como función de activición
    #Ingrese aquí el código,                  # Dropout 0.3 para evitar sobreajuste
    #Ingrese aquí el código,  # Capa oculta 2 con 16 neuronas y RELU como función de activición
    #Ingrese aquí el código,                  # Dropout 0.2 para evitar sobreajuste
    #Ingrese aquí el código,   # Capa oculta 3 con 8 neuronas y RELU como función de activición
    #Ingrese aquí el código # Capa de salida para clasificación multiclase
])

# Compilar el modelo con optimizador mejorado
ann_model.compile(optimizer="adam", loss="categorical_crossentropy", metrics=["accuracy"])

# Usar early stopping para detener el entrenamiento si no hay mejora
early_stopping = EarlyStopping(monitor="val_loss", patience=10, restore_best_weights=True)

# Entrenamiento del modelo con más épocas
history = ann_model.fit(
    X_train_scaled, y_train_enc,
    validation_split=0.2,  # Validación durante el entrenamiento
    epochs=400,
    batch_size=32,
    callbacks=[early_stopping],
    verbose=1
)

# Predicción con ANN mejorada
y_pred_ann = np.argmax(ann_model.predict(X_test_scaled), axis=-1)  #  argmax para onvertir las probabilidades de salida de una red en una predicción de clase.

# Evaluación del modelo mejorado
print("Reporte de Clasificación (ANN Mejorada):")
print(classification_report(y_test, y_pred_ann, zero_division=0))

# Graficar precisión (accuracy) durante el entrenamiento
plt.figure(figsize=(8, 6))
plt.plot(history.history['accuracy'], label='Accuracy de Entrenamiento', color='blue')
plt.plot(history.history['val_accuracy'], label='Accuracy de Validación', color='orange')
plt.title('Precisión del Modelo vs Épocas', fontsize=14)
plt.xlabel('Épocas', fontsize=12)
plt.ylabel('Precisión', fontsize=12)
plt.legend()
plt.grid(True)
plt.show()


### **Paso 5: Visualización de Resultados**

**Descripción:**
- Usamos matrices de confusión para comparar los errores y aciertos de cada modelo.
- Una matriz de confusión muestra las predicciones correctas (diagonal) y los errores (fuera de la diagonal).


In [None]:
from sklearn.metrics import ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# Matriz de confusión para Random Forest
ConfusionMatrixDisplay.from_predictions(y_test, y_pred_rf, display_labels=["STAR", "GALAXY", "QSO"])
plt.title("Matriz de Confusión: Random Forest")
plt.show()

# Matriz de confusión para ANN
ConfusionMatrixDisplay.from_predictions(y_test, y_pred_ann, display_labels=["STAR", "GALAXY", "QSO"])
plt.title("Matriz de Confusión: ANN")
plt.show()

### **Paso 6: Conclusiones y Recomendaciones**

**Conclusiones:**
1. **Random Forest:**
   - Es rápido y preciso con los datos disponibles.
   - Suficientemente robusto para clasificaciones iniciales.

2. **ANN:**
   - Ofrece resultados comparables, pero puede mejorar con más datos.
   - Captura relaciones complejas gracias a su naturaleza no lineal.

**Recomendaciones:**
- **Más Datos:** Incorporar datos adicionales como velocidad radial y desplazamiento al rojo.
- **Ajuste de Hiperparámetros:** Optimizar parámetros como número de árboles, neuronas, y tasas de aprendizaje.
- **Modelos Avanzados:** Explorar técnicas como Gradient Boosting o redes neuronales profundas.



# **ANEXOS**



### **Consulta SQL**
```sql
SELECT TOP 1000
  p.objID, p.u, p.g, p.r, p.i, p.z,
  s.class as class
FROM PhotoObj AS p
  JOIN SpecObj AS s ON s.bestobjid = p.objid
WHERE s.class IN ('STAR', 'GALAXY', 'QSO')
```

### **Partes de la Consulta**

1. **`SELECT TOP 1000`**
   - Indica que queremos obtener **los primeros 1000 registros** de los datos que coincidan con los criterios.
   - Esto es útil para limitar el tamaño del conjunto y garantizar que la consulta sea eficiente, especialmente si trabajamos en Google Colab con recursos limitados.


2. **Columnas Seleccionadas**
   ```sql
   p.objID, p.u, p.g, p.r, p.i, p.z, s.class as class
   ```
   - Estas son las columnas que queremos incluir en los resultados:
     - **`p.objID`**: Identificador único del objeto celeste.
     - **`p.u, p.g, p.r, p.i, p.z`**: Magnitudes en diferentes bandas del espectro:
       - **u**: Ultravioleta.
       - **g**: Verde.
       - **r**: Rojo.
       - **i**: Infrarrojo cercano.
       - **z**: Infrarrojo profundo.
       Estas magnitudes son medidas logarítmicas del brillo observado en cada banda.
     - **`s.class as class`**: Clase del objeto celeste:
       - **STAR**: Estrella.
       - **GALAXY**: Galaxia.
       - **QSO**: Cuásar.


3. **`FROM PhotoObj AS p`**
   - Especifica la tabla **`PhotoObj`** como fuente principal de datos. Esta tabla contiene información fotométrica (e.g., magnitudes, posición) de los objetos detectados.


4. **`JOIN SpecObj AS s ON s.bestobjid = p.objid`**
   - Realiza una **unión** entre las tablas `PhotoObj` y `SpecObj`.
   - **`SpecObj`** contiene información espectroscópica, incluyendo la clase del objeto (*STAR, GALAXY, QSO*).
   - La unión se basa en el campo **`bestobjid`**, que conecta los datos fotométricos de un objeto en `PhotoObj` con sus datos espectroscópicos en `SpecObj`.


5. **`WHERE s.class IN ('STAR', 'GALAXY', 'QSO')`**
   - Filtra los resultados para incluir únicamente objetos cuya clase espectroscópica sea:
     - **`STAR`**: Estrella.
     - **`GALAXY`**: Galaxia.
     - **`QSO`**: Cuásar (núcleo galáctico activo).
   - Esto garantiza que solo obtenemos los tres tipos de objetos relevantes para la clasificación.

   ---



### **Estructura de la Matriz de Confusión (Random Forrest)**
1. **Ejes:**
   - **Eje Y ("True label")**: Representa las clases reales (verdaderas) de los datos.
   - **Eje X ("Predicted label")**: Representa las clases predichas por el modelo.

2. **Valores:**
   - Cada celda contiene el número de ejemplos clasificados en una combinación de clase real y predicción.


### **Interpretación Celda por Celda**
1. **Diagonal Principal (42, 104, 8):**
   - Estos son los **aciertos** del modelo.
   - Ejemplos clasificados correctamente como:
     - **42** estrellas.
     - **104** galaxias.
     - **8** cuásares.

2. **Fuera de la Diagonal:**
   - Estas son las **confusiones** o errores del modelo.
   - Ejemplos:
     - **16** estrellas fueron clasificadas erróneamente como galaxias.
     - **13** galaxias fueron clasificadas como estrellas.
     - **8** cuásares fueron clasificadas como estrellas.
     - **6** cuásares fueron clasificadas como galaxias.


### **Cálculo de Métricas Clave**
Con base en la matriz, se pueden calcular métricas para evaluar el rendimiento del modelo:


#### 1. **Precisión por Clase**
   Proporción de predicciones correctas sobre todas las predicciones realizadas para esa clase.

   - **STAR**:
$$
     \text{Precisión}_{\text{STAR}} = \frac{42}{42 + 13 + 8} = \frac{42}{63} \approx 0.67 \, (67\%)
$$
   - **GALAXY**:
$$
     \text{Precisión}_{\text{GALAXY}} = \frac{104}{104 + 16 + 6} = \frac{104}{126} \approx 0.83 \, (83\%)
$$
   - **QSO**:
$$
     \text{Precisión}_{\text{QSO}} = \frac{8}{8 + 3 + 0} = \frac{8}{11} \approx 0.73 \, (73\%)
$$

#### 2. **Recall (Exhaustividad) por Clase**
   Proporción de aciertos sobre el total de ejemplos reales en esa clase.

   - **STAR**:
$$
     \text{Recall}_{\text{STAR}} = \frac{42}{42 + 16 + 0} = \frac{42}{58} \approx 0.72 \, (72\%)
$$
   - **GALAXY**:
$$
     \text{Recall}_{\text{GALAXY}} = \frac{104}{13 + 104 + 3} = \frac{104}{120} \approx 0.87 \, (87\%)
$$
   - **QSO**:
$$
     Recall_{QSO} = \frac{8}{8 + 6 + 8} = \frac{8}{22} \approx 0.36\,(36\%)
$$


#### 3. **F1-Score**:
   La media armónica entre precisión y recall. Es útil para clases desbalanceadas:
   $$
   F1 = 2 \cdot \frac{\text{Precisión} \cdot \text{Recall}}{\text{Precisión} + \text{Recall}}
   $$

### **Conclusiones de esta Matriz**
1. **Fortalezas:**
   - El modelo clasifica muy bien las **galaxias** (alta precisión y recall).
   - La clase **estrellas** tiene un rendimiento decente, aunque hay confusiones con galaxias.

2. **Debilidades:**
   - La clase **cuásares (QSO)** es el punto débil del modelo:
     - Bajo recall (36%): El modelo falla en detectar muchos cuásares.
     - Esto puede deberse a que los cuásares son menos frecuentes y/o sus características son similares a las de otras clases.

3. **Acciones de Mejora:**
   - **Balancear las Clases**: Si las clases están desbalanceadas, usar técnicas como oversampling (aumentar datos de cuásares) o ponderación de clases en el modelo.
   - **Incluir Más Características**: Agregar más datos observacionales (como redshift o velocidad radial) podría mejorar la clasificación de cuásares.
   - **Modelo Más Complejo**: Probar con modelos más avanzados, como Gradient Boosting o redes neuronales profundas.

---

