In [None]:
# Business Understanding

## Objetivo del proyecto
El objetivo de este proyecto es **analizar y modelar datos de meteoritos y objetos cercanos a la Tierra (NEOs) para comprender su comportamiento, identificar patrones y, principalmente, **predecir cuáles podrían representar un riesgo potencial para el planeta**.  

Con ello se busca priorizar recursos de observación astronómica y generar una base sólida para futuros modelos predictivos sobre tamaño, masa o probabilidad de impacto.

---

## Preguntas de investigación
- ¿Cómo se distribuyen los meteoritos en el tiempo y la geografía?  
- ¿Qué características comparten los objetos cercanos a la Tierra?  
- ¿Podemos predecir si un objeto es potencialmente riesgoso (`is_hazardous`)?  
- ¿Podemos estimar el tamaño promedio (`diameter_mean`) de los objetos que representan mayor riesgo?


## Alcance
El análisis se centrará en dos datasets provenientes de Kaggle (NASA):
- Meteorite Landings (meteoritos caídos o hallados en la Tierra).  
- Near Earth Objects (NEOs), recopilado por la NASA JPL.  

Ambos se integrarán mediante pipelines Kedro para obtener una tabla unificada (`model_input_table`) lista para modelado.



## Objetivos de Machine Learning
- Target principal (Clasificación): `is_hazardous`  
  - Tipo: Clasificación binaria (1 = riesgoso, 0 = no riesgoso)  
  - Justificación: Permite priorizar vigilancia de NEOs peligrosos.  
  - Métricas clave: F1 (primaria), Recall y AUC (secundarias).  
  - Impacto: Evitar falsos negativos (no pasar por alto objetos peligrosos).  

- Target secundario (Regresión): `diameter_mean`  
  - Tipo: Regresión continua (estimación del tamaño medio en km).  
  - Justificación: Cuantificar la severidad o energía potencial del impacto.  
  - Métrica principal: MAE (error medio absoluto).  

> Estrategia mixta: primero se clasifica el riesgo (`is_hazardous`), luego se estima el tamaño (`diameter_mean`) de los objetos riesgosos.



## Métricas de éxito
- Clasificación (is_hazardous):
Métrica principal: F1 Score
Métricas secundarias: Recall, AUC, Precision
Enfoque: Minimizar falsos negativos y mantener equilibrio entre precisión y sensibilidad.
    
- Regresión (diameter_mean):
Métrica principal: MAE (Mean Absolute Error)
Métricas secundarias: R², RMSE
Enfoque: Lograr errores interpretables y buena capacidad de ajuste.

## Importancia
El estudio de estos datos permite:
- Comprender riesgos potenciales de impacto.  
- Detectar patrones de comportamiento entre NEOs y meteoritos.  
- Crear una base reproducible para futuros modelos de predicción astronómica.  
- Contribuir al monitoreo y toma de decisiones sobre amenazas espaciales.  


## Supuestos y limitaciones
- Los datos provienen de fuentes públicas (NASA) y no contienen información sensible.  
- Puede existir **desbalance** entre clases (`is_hazardous` = 1 muy minoritario).  
- Se aplicarán técnicas de **balanceo y normalización** durante el preprocesamiento.  
- Los modelos buscan **priorización** y **entendimiento**, no predicción determinista.

