# **Entendimiento del Negocio y Carga de Datos**
---

- **Andrés Felipe Rosada**
- **Sergio Motta Doncel**
- **Angel Olivera Pinzón**
- **Juan Manuel Pérez**

## **1. Marco de Proyecto**
---

### **Desafío Galaxy Zoo.**

El Galaxy Zoo Challenge de Kaggle es un proyecto que busca describir galaxias observadas en el cielo nocturno a través de una innovadora herramienta de colaboración colectiva. En esta iniciativa, los usuarios analizan imágenes astronómicas respondiendo a una serie de preguntas sobre las características morfológicas que observan.

El conjunto de datos contiene 61.578 imágenes, cada una acompañada de sus respectivas etiquetas. Estas etiquetas están organizadas en 37 clases con el formato "ClaseA.B", donde A representa una pregunta (del 1 al 11) y B corresponde a una de sus posibles opciones. A diferencia de un problema clásico de clasificación, en este caso cada clase representa un atributo específico y la mayoría de las imágenes presentan múltiples atributos simultáneamente.

Los valores asociados a cada clase reflejan el nivel de confianza colectiva (entre 0 y 1) de que una determinada respuesta es correcta. Cabe destacar que el sistema de clasificación utiliza un árbol de decisión dinámico, en el que las preguntas mostradas al usuario dependen de sus respuestas anteriores, por lo que no todos los participantes ven las mismas preguntas para cada imagen.

### **1.1. Trasfondo del Negocio**
---

- ¿Quién es el cliente o los beneficiarios del proyecto? ¿En qué dominio se encuentran (marketing, medicina, entre otros)?
- ¿Qué problemas del negocio o del dominio estamos tratando de solucionar?

Los principales beneficiarios del proyecto Galaxy Zoo son la comunidad científica astronómica y, en particular, los investigadores en el área de la astrofísica observacional y la morfología galáctica. Este proyecto también beneficia a instituciones académicas, observatorios astronómicos, centros de investigación, y a la comunidad de ciencia ciudadana que participa activamente en la clasificación de galaxias.

El dominio del proyecto es claramente científico, específicamente en el campo de la astronomía y la astroinformática. Claramente es un proyecto que se relaciona de manera indirecta con el área de inteligencia artificial y la ciencia de datos, ya que el problema de clasificación automática de galaxias implica técnicas avanzadas de aprendizaje automático y procesamiento de imágenes.

Adicionalmente el proyecto tiene un impacto significativo en la educación científica y en la divulgación del conocimiento, al involucrar a ciudadanos comunes en un proceso colaborativo de descubrimiento, lo que fortalece el vínculo entre ciencia y sociedad.

Este proyecto aborda varios problemas fundamentales en el dominio de la astronomía observacional:

 - **Escalabilidad del análisis morfológico de galaxias:** En la era de los grandes observatorios y telescopios digitales, como el Sloan Digital Sky Survey (SDSS), se generan millones de imágenes astronómicas. Clasificar manualmente cada galaxia es inviable para un número reducido de expertos. Galaxy Zoo plantea una solución basada en la inteligencia colectiva y, posteriormente, en el entrenamiento de modelos automáticos capaces de replicar estas clasificaciones con alta precisión.

 - **Automatización de tareas cognitivamente complejas:** Aunque existen modelos de clasificación automática de imágenes, las estructuras morfológicas de las galaxias (espirales, elípticas, interacciones, barras, etc.) pueden ser sutiles y requieren un juicio visual refinado. El proyecto ayuda a generar datos etiquetados de alta calidad que pueden ser usados para entrenar modelos más robustos, basados en aprendizaje profundo.

 - **Generación de conocimiento científico:** Al sistematizar y clasificar una gran cantidad de galaxias, el proyecto permite estudiar la distribución y evolución de estas estructuras en el universo, lo que contribuye directamente a responder preguntas sobre la formación galáctica, la materia oscura, y la evolución cósmica.

### **1.2. Alcance**
---

- ¿Qué  solución basada en _Deep Learning_ queremos implementar?
- ¿Qué  se hará?
- ¿De qué forma el cliente o beneficiario utilizará el producto del proyecto?

La solución que se plantea implementar es un modelo de clasificación de imágenes astronómicas basado en redes neuronales convolucionales (CNNs), entrenado con los datos etiquetados del proyecto Galaxy Zoo. Este modelo tendrá como objetivo predecir las características morfológicas de las galaxias directamente a partir de las imágenes, emulando y automatizando el trabajo previamente realizado por miles de voluntarios a través de la plataforma de ciencia ciudadana.

Se busca desarrollar una arquitectura que pueda capturar tanto las características locales (como los brazos espirales o núcleos brillantes) como las estructuras globales (como la simetría, orientación o interacción entre galaxias), que son fundamentales para la clasificación morfológica.

Para llevar a cabo este proyecto, se desarrollará un flujo de trabajo estructurado que abarca desde el preprocesamiento de los datos hasta la obtención de un modelo funcional basado en deep learning. En primer lugar, se realizará el preprocesamiento del conjunto de datos, lo cual incluye la carga y limpieza de las imágenes y sus respectivas etiquetas, así como el redimensionamiento y la normalización de las imágenes para adaptarlas a los requerimientos del modelo. Además, será necesario convertir las etiquetas probabilísticas proporcionadas por el conjunto original en un formato compatible con el aprendizaje supervisado, considerando que cada imagen puede contener múltiples atributos con valores continuos.

Una vez preparados los datos, se procederá al diseño y entrenamiento del modelo de deep learning, utilizando una arquitectura de red neuronal convolucional (CNN) adecuada para la clasificación de imágenes. Se evaluará el uso de arquitecturas ya consolidadas, aunque también se considerará la posibilidad de desarrollar una arquitectura personalizada que se ajuste mejor a la naturaleza del problema. El modelo se entrenará sobre un subconjunto del total de datos etiquetados y se validará utilizando otro subconjunto independiente, empleando métricas adecuadas para su evaluación. Evaluación que sera exhaustiva, tanto a través de análisis cuantitativos como mediante la inspección visual de los resultados. Esta fase permitirá comparar el desempeño del modelo propuesto con métodos tradicionales o baselines sin técnicas de deep learning, con el fin de demostrar su efectividad y ventajas concretas.

El producto final permitirá a astrónomos profesionales, investigadores y centros de datos astronómicos analizar de manera automática grandes volúmenes de imágenes de galaxias, acelerando el proceso de clasificación y reduciendo la dependencia del etiquetado manual.

Además: Investigadores podrán usar el modelo como una herramienta de apoyo para prefiltrar o clasificar nuevos conjuntos de datos provenientes de futuros telescopios (por ejemplo, LSST, Euclid o JWST), permitiéndoles centrar sus esfuerzos en objetos astronómicamente más interesantes o inusuales.

Educadores y divulgadores científicos podrían usar el sistema como ejemplo de cómo la inteligencia artificial se aplica en la astronomía moderna, incentivando el interés en la ciencia y la tecnología.

El modelo también puede ser reutilizado o adaptado para otras tareas dentro del campo, como detección de objetos raros, clasificación de cúmulos o análisis de estructuras de colisión galáctica.

### **1.3. Plan**
---

Puede agregar una lista de actividades con tiempos estimados, un diagrama de Gantt o integrar alguna herramienta de gestión de proyectos para mostrar la planeación del proyecto.

| **Fase**                               | **Descripción**                                                            | **Duración (horas)** |
| -------------------------------------- | -------------------------------------------------------------------------- | -------------------- |
| **1. Entendimiento del problema**      | Analizar los objetivos de Galaxy Zoo y definición del alcance del proyecto | 4                    |
| **2. Exploración de los datos**        | Análisis del dataset de imágenes galácticas, revisión de etiquetas y tipos | 6                    |
| **3. Preprocesamiento de datos**       | Limpieza, normalización y preparación de las imágenes para el modelo       | 6                    |
| **4. Diseño y preparación del modelo** | Selección y carga de modelo base para clasificación de galaxias            | 5                    |
| **5. Entrenamiento del modelo**        | Ajuste y entrenamiento del modelo con el dataset procesado                 | 14                   |
| **6. Evaluación y ajuste**             | Evaluación del rendimiento, ajuste de hiperparámetros y validación         | 8                    |
| **7. Documentación y presentación**    | Preparación de informes, visualización de resultados y presentación final  | 4                    |


Fecha estimada de entrega: 4 semanas a partir del inicio del proyecto.


## **2. Datos**
---

### **2.1. Origen**
---

- ¿De dónde vienen los datos?
- ¿Se usa alguna herramienta o proceso para la descarga de la información?
- ¿Qué tipo de datos estamos manejando?