
![imagen](https://i.pinimg.com/564x/f3/78/a4/f378a41b3f1232b42bb4b30a64552ca4.jpg)

# Data Wrangling
El data wrangling cuenta con cinco pasos principales: explorar, transformar, limpiar, enriquecer y almacenar.

In [None]:
import requests
from datetime import date, timedelta
import plotly.express as px
import plotly.graph_objects as go
import numpy as np
import pandas as pd

### Importación de datos

In [None]:
# Configura tu clave de API de la NASA
api_key = 'PSNQRV93quuyth4x59j2YFK7D0PXJXHQjxnizShQ'

In [None]:
# Obtener la fecha de inicio (1 de enero de 2023)
fecha_inicio = date(2023, 1, 1)

# Obtener la fecha de fin (31 de diciembre de 2023)
fecha_fin = date(2023, 12, 31)

# Crear un DataFrame vacío para almacenar los eventos astronómicos
eventos = []

# Consultar la API APOD para cada día del año 2023
fecha = fecha_inicio
while fecha <= fecha_fin:
    fecha_str = fecha.strftime('%Y-%m-%d')
    url = f'https://api.nasa.gov/planetary/apod?date={fecha_str}&api_key={api_key}'
    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        eventos.append({
            'Fecha': fecha_str,
            'Título': data.get('title', ''),
            'Explicación': data.get('explanation', ''),
            'URL': data.get('url', ''),
            'Créditos': data.get('copyright', ''),
            'HdURL': data.get('hdurl', ''),
            'MediaTipo': data.get('media_type', ''),
        })
    fecha += timedelta(days=1)



In [None]:
eventos_df = pd.DataFrame(eventos)

## Exploración inicial de datos:

In [None]:
eventos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 260 entries, 0 to 259
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Fecha        260 non-null    object
 1   Título       260 non-null    object
 2   Explicación  260 non-null    object
 3   URL          260 non-null    object
 4   Créditos     260 non-null    object
 5   HdURL        260 non-null    object
 6   MediaTipo    260 non-null    object
dtypes: object(7)
memory usage: 14.3+ KB


In [None]:
eventos_df.tail(3)

Unnamed: 0,Fecha,Título,Explicación,URL,Créditos,HdURL,MediaTipo
257,2023-09-15,"Venus, Moon, and the Smoking Mountain","Venus has returned, now appearing in planet Ea...",https://apod.nasa.gov/apod/image/2309/IMG_3603...,\nLuis Miguel Meade Rodríguez\n,https://apod.nasa.gov/apod/image/2309/IMG_3603...,image
258,2023-09-16,Fireball over Iceland,"On September 12, from a location just south of...",https://apod.nasa.gov/apod/image/2309/_DSC7280...,Jennifer Franklin,https://apod.nasa.gov/apod/image/2309/_DSC7280...,image
259,2023-09-17,Moon Mountains Magnified during Ring of Fire E...,What are those dark streaks in this composite ...,https://apod.nasa.gov/apod/image/2309/BeadMoun...,\nWang Letian \n(Eyes at Night)\n,https://apod.nasa.gov/apod/image/2309/BeadMoun...,image


## Limpieza de datos:

In [None]:
eventos_df.loc[eventos_df['Créditos'] == ""]

Unnamed: 0,Fecha,Título,Explicación,URL,Créditos,HdURL,MediaTipo
0,2023-01-01,The Largest Rock in our Solar System,"There, that dot on the right, that's the large...",https://apod.nasa.gov/apod/image/2301/PaleBlue...,,https://apod.nasa.gov/apod/image/2301/PaleBlue...,image
7,2023-01-08,Where Your Elements Came From,"The hydrogen in your body, present in every mo...",https://apod.nasa.gov/apod/image/2301/Nucleosy...,,https://apod.nasa.gov/apod/image/2301/Nucleosy...,image
12,2023-01-13,Young Star Cluster NGC 346,The most massive young star cluster in the Sma...,https://apod.nasa.gov/apod/image/2301/jwst-ngc...,,https://apod.nasa.gov/apod/image/2301/jwst-ngc...,image
14,2023-01-15,M1: The Crab Nebula from Hubble,This is the mess that is left when a star expl...,https://apod.nasa.gov/apod/image/2301/CrabNebu...,,https://apod.nasa.gov/apod/image/2301/CrabNebu...,image
17,2023-01-18,MACS0647: Gravitational Lensing of the Early U...,Gravitational lensing by the galaxy cluster MA...,https://apod.nasa.gov/apod/image/2301/MacsClus...,,https://apod.nasa.gov/apod/image/2301/MacsClus...,image
...,...,...,...,...,...,...,...
231,2023-08-20,A Roll Cloud Over Wisconsin,What kind of cloud is this? A type of arcus c...,https://apod.nasa.gov/apod/image/2308/rollclou...,,https://apod.nasa.gov/apod/image/2308/rollclou...,image
240,2023-08-29,Unusual Spiral Galaxy M66 from Webb,Why isn't spiral galaxy M66 symmetric? Usuall...,https://apod.nasa.gov/apod/image/2308/M66_Jwst...,,https://apod.nasa.gov/apod/image/2308/M66_Jwst...,image
245,2023-09-03,Comet Schwassmann-Wachmann 3 Fragments,Periodic comet 73P/Schwassmann-Wachmann 3 has ...,https://apod.nasa.gov/apod/image/2309/fragb73p...,,https://apod.nasa.gov/apod/image/2309/fragb73p...,image
254,2023-09-12,Galaxy Cluster Abell 370 and Beyond,"Some 4 billion light-years away, massive galax...",https://apod.nasa.gov/apod/image/2309/STSCI-HS...,,https://apod.nasa.gov/apod/image/2309/STSCI-HS...,image


In [None]:
eventos_df['Créditos'] = eventos_df['Créditos'].replace("",None)

In [None]:
print("Cantidad de Nulos:", eventos_df.loc[eventos_df['Créditos'].isnull()].shape[0])
print("Cantidad de noticias con copropietarios:", eventos_df.loc[eventos_df['Créditos'].str.contains('&', na=False)].shape[0])

Cantidad de Nulos: 92
Cantidad de noticias con copropietarios: 10


## Transformación de datos:


In [None]:
# Convertir la columna de Fecha a tipo de dato datetime
eventos_df['Fecha'] = pd.to_datetime(eventos_df['Fecha'])

# Agregar una columna de Mes para agrupar por mes
eventos_df['periodo'] = eventos_df['Fecha'].dt.strftime('%Y-%m')

# Ordena el DataFrame por la columna "periodo"
eventos_df = eventos_df.sort_values(by='periodo')

In [None]:
def escritores(texto):
    texto = texto.replace("\n","").replace(",","&").split("(")[0].split("/")[0].split(";")[0]
    return texto

In [None]:
# Dividimos la coparticipacion en la columna Créditos
# eventos_df['Créditos'] = eventos_df['Créditos'].apply(escritores)
eventos_df[['Colaborador', 'Colaborador2']] = eventos_df['Créditos'].str.split(',', n=1, expand=True)

In [None]:
# Se elimina las columnas innecesarias para un análisis
eventos_df.drop(columns=["URL","HdURL","MediaTipo","Créditos"], inplace=True)

In [None]:
# El diccionario a continuación es usado para clasificar las noticias segun el titulo o descripción
palabras_clave = {
    'Cometa': ['Comet'],
    'Supernova': ['Supernova'],
    'Meteorito': ['Meteor', 'Meteorite','Meteors'],
    'Eclipse': ['Eclipse', 'Solar Eclipse', 'Lunar Eclipse'],
    'Galaxia': ['Galaxy', 'Spiral Galaxy', 'Elliptical Galaxy'],
    'Nebulosa': ['Nebula', 'Nebular', 'Nebulosity', 'Galaxy', 'Stellar Cloud'],
    'Planeta Enano': ['Dwarf Planet'],
    'Planeta': ['Planet', 'Planetary', 'Mars', 'Venus', 'Jupiter', 'Saturn', 'Neptune', 'Uranus', 'Mercury'],
    'Agujero Negro': ['Black Hole'],
    'Satélite Natural': ['Moon', 'Lunar'],
    'Asterismo': ['Asterism'],
    'Constelación': ['Constellation'],
    'Aurora': ['Aurora'],
    'Estrella': ['Star', 'Stellar'],
    'Estacion': ['Space Station', 'ISS', 'Orbit', 'Space Station', 'Low Earth Orbit','International Space Station'],
    'Cúmulo Estelar': ['Star Cluster'],
    'Evento Celestial': ['Celestial Event'],
    'Luna': ['Moon', 'Lunar'],
    'Otro': [],  # Si no se encuentra ninguna coincidencia, se clasifica como "Otro"
}


In [None]:
def asignar_categoria(titulo, descripcion):
    """
    Esta función toma un título y una descripción como entrada y asigna una categoría
    a un evento basándose en palabras clave predefinidas. La función busca palabras
    clave tanto en el título como en la descripción y asigna la primera categoría que
    encuentre. Si no encuentra ninguna coincidencia, se asigna la categoría "Otro".

    :param titulo: El título del evento que se evaluará para determinar la categoría.
    :param descripcion: La descripción del evento que también se evaluará para la categoría.
    :return: Una cadena que representa la categoría asignada al evento.

    referencia: https://exoplanets.nasa.gov/discovery/exoplanet-catalog/
    """
    for categoria, palabras in palabras_clave.items():
        for palabra in palabras:
            if palabra.lower() in titulo.lower():
                return categoria
            elif palabra.lower() in descripcion.lower():
                return categoria
    return 'Otro'


In [None]:
# Aplicar la función para asignar categorías a cada evento
eventos_df['Categoria'] = eventos_df.apply(lambda x: asignar_categoria(x['Título'],x['Explicación']),axis=1)

In [None]:
def asignar_subcategoria(descripcion):
    """
    Esta función toma una descripción como entrada y asigna una subcategoría
    a los eventos de eclipse en función de la presencia de ciertas palabras clave
    en la descripción. Las subcategorías posibles son "Solar", "Lunar" o "N/A" (No Aplicable).

    :param descripcion: La descripción del evento que se evaluará para determinar la subcategoría.
    :return: Una cadena que representa la subcategoría del evento ("Solar", "Lunar" o "N/A").
    """
    if 'Solar Eclipse' in descripcion:
        return 'Solar'
    elif 'Lunar Eclipse' in descripcion:
        return 'Lunar'
    else:
        return 'N/A'  # Si no se encuentra ninguna coincidencia, se asigna "N/A"


In [None]:
# Aplicar la función para asignar subcategorías a los eventos de eclipse
eventos_df['Subcategoria'] = eventos_df['Explicación'].apply(asignar_subcategoria)


In [None]:
# Lista de planetas y cuerpos celestes.
planetas = ["Mars", 'Jupiter', 'Venus', 'Neptune', 'Saturn', 'Earth', 'Mercury', 'Uranus', 'Pluto', 'NGTS-10b', 'TYC 8998-760-1', "Solar","Sun"]

# Función que busca un planeta en un texto dado y lo devuelve si lo encuentra.
def planeta(texto):
    """
    Esta función toma un texto como entrada y busca si alguna de las palabras
    en la lista 'planetas' está presente en el texto, sin importar las mayúsculas
    o minúsculas. Si encuentra una coincidencia, devuelve el nombre del planeta
    encontrado. Si no encuentra ninguna coincidencia, devuelve None.

    :param texto: El texto en el que se buscará un planeta.
    :return: El nombre del planeta encontrado o None si no se encuentra ninguno.
    """
    for p in planetas:
        if p.lower() in texto.lower():
            return p



In [None]:
# Aplicar la función 'planeta' a la columna 'Título' del DataFrame 'eventos_df'
# y guardar los resultados en una nueva columna llamada 'Subcategoria'.
eventos_df['Subcategoria'] = eventos_df['Título'].apply(planeta)

In [None]:
eventos_df.loc[(eventos_df["Subcategoria"].isnull()) & (eventos_df["Categoria"] == "Planeta")]

Unnamed: 0,Fecha,Título,Explicación,periodo,Colaborador,Colaborador2,Categoria,Subcategoria
5,2023-01-06,Moon O'Clock 2022,The first Full Moon of 2023 is in the sky toni...,2023-01,Niveth Kumar,,Planeta,
55,2023-02-25,Crescent Moon Occultation,"On February 22, a young Moon shared the wester...",2023-02,Fefo Bouvier,,Planeta,
31,2023-02-01,The Seventh World of Trappist-1,Seven worlds orbit the ultracool dwarf star TR...,2023-02,\nMichael Carroll\n,,Planeta,
89,2023-03-31,Seeing Titan,"Shrouded in a thick atmosphere, Saturn's large...",2023-03,,,Planeta,
84,2023-03-26,Wanderers,How far out will humanity explore? If this vid...,2023-03,,,Planeta,
69,2023-03-11,3D Bennu,Put on your red/blue glasses and float next to...,2023-03,,,Planeta,
95,2023-04-06,Terran 1 Burns Methalox,Relativity's Terran 1 Rocket is mostly 3D-prin...,2023-04,,,Planeta,
139,2023-05-20,Galileo's Europa,Looping through the Jovian system in the late ...,2023-05,,,Planeta,
147,2023-05-28,Ida and Dactyl: Asteroid and Moon,This asteroid has a moon. The robot spacecraf...,2023-05,,,Planeta,
125,2023-05-06,Twilight in a Flower,"Transformed into the petals of a flower, 16 ex...",2023-05,Dario Giannobile,,Planeta,


## Análisis y visualización:

In [None]:
# Agrupar los eventos por Periodo y Categoría y contar cuántos hay en cada categoría para cada mes
conteo_eventos = eventos_df.groupby(['periodo', 'Categoria']).size().reset_index(name='Conteo')

# Ordenar el DataFrame por la columna "periodo"
conteo_eventos = conteo_eventos.sort_values(by='periodo')

# Crear un gráfico de barras apiladas
fig = px.bar(conteo_eventos, x='periodo', y='Conteo', color='Categoria', title='Eventos Astronómicos por Periodo y Categoría desde el 2020 al 2023')
fig.show()

In [None]:
# Agrupar los eventos por Periodo y Categoría y contar cuántos hay en cada categoría para cada mes
conteo_eventos = eventos_df.groupby(['Colaborador']).size().reset_index(name='Conteo')
conteo_eventos['Colaborador'] = conteo_eventos['Colaborador'].str[:40]
# Crear un gráfico de barras apiladas
fig = px.bar(conteo_eventos, y='Colaborador', x='Conteo', color='Colaborador', title='Eventos Astronómicos redactado por:')
fig.show()

## Almacenar:
La última parte del proceso de organización es almacenar o preservar el producto final, junto con todos los pasos y transformaciones que se llevaron a cabo para que se pueda auditar, comprender y repetir en el futuro.

In [None]:
from google.colab import files

eventos_df.to_csv("resultados.csv")
files.download('resultados.csv')