In [90]:
import pandas as pd
import numpy as np

In [32]:
meteor_showers = pd.read_csv('data/meteorshowers.csv')
moon_phases = pd.read_csv('data/moonphases.csv')
constellations = pd.read_csv('data/constellations.csv')
cities = pd.read_csv('data/cities.csv')

En el paso anterior lo que hacemos es cargar los datos de los csv provistos en formato csv, cada una con su nombre propio para que sean un dataframe separado cada uno.

In [34]:
cities.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 256 entries, 0 to 255
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   city      256 non-null    object 
 1   latitude  256 non-null    float64
 2   country   256 non-null    object 
dtypes: float64(1), object(2)
memory usage: 6.1+ KB


El método `.info()` lo que hace es buscar la información general del data frame, entregando detalles de cada una de las columnas y los valores no nulos que se encuentran dentro de ellas.

En este caso, se puede apreciar que las columnas:

`city` tiene 256 filas de valores no nulos, de tipo objeto.

`latitude` tiene 256 filas de valores no nulos de tipo decimal (float64)

`country` tiene 255 filas de valores no nulos de tipo objeto.

## Diferencias entre `info()` y `head()`

Principalmente, la diferencia, es que el método `head()` mostrará las primeras filas del data frame, mientras que `info` le dará un contexto a los datos contenidos en modo de resumen.

In [4]:
cities.head()

Unnamed: 0,city,latitude,country
0,Abu Dhabi,24.47,United Arab Emirates
1,Abuja,9.07,Nigeria
2,Accra,5.55,Ghana
3,Adamstown,-25.07,Pitcairn Islands
4,Addis Ababa,9.02,Ethiopia


In [5]:
meteor_showers.head()

Unnamed: 0,name,radiant,bestmonth,startmonth,startday,endmonth,endday,hemisphere,preferredhemisphere
0,Lyrids,Lyra,april,april,21,april,22,northern,northern
1,Eta Aquarids,Aquarius,may,april,19,may,28,"northern, southern",southern
2,Orionids,Orion,october,october,2,november,7,"northern, southern","northern, southern"
3,Perseids,Perseus,august,july,14,august,24,northern,northern
4,Leonids,Leo,november,november,6,november,30,"northern, southern","northern, southern"


# Información sobre los data frames 

Los data frames obtenidos de los csv tienen diferentes datos relevantes para la predicción de lluvias de meteoritos, tal como vimos en el caso del data frame `cities`, los otros casos tienen información sobre:

+ `constellations`: Las diferentes constelaciones y dónde pueden verse, la latitud donde se empiezan a ver y la latitud donde estas se pueden dejar de ver. En palabras sencillas, si estás en la Tierra, dependiendo de tu posición geográfica, podrás ver ciertas constelaciones, las cuales son específicas para ciertos meses en particular.

+ `moonphases`: Las fases de la luna, por ejemplo, el 2 de enero, había cuarto menguante (first quarter). O el 10 de enero hubo luna llena, el 24 de enero hubo luna nueva. Mientras que todas las fechas que hubo entre esas fechas en específico, implicaban el cambio de fase de la lluna.

+ `meteorshowers`: La información de lluvias de meteoritos. También muestra la información de la constelación de la cual proviene la lluvia de meteoritos. El mejor mes para verlo. El mes y el día desde cuándo será visible hasta el mes y el día en que podrá verse por última vez, el hemisferio en donde se presentará la posibilidad de visibilización y el mejor hemisferio de la tierra para verlo.

+ `cities`: Incluye la información de las ciudades, pero también su latitud y país al que permanecen.

# Consejo de manejar las fechas

Para manejar las fechas, lo mejor es transformar las fechas en números, debido a que computacionalmente cualquier lenguaje de programación podría ser indicador de un desorden, por ejemplo, computacionalmente, august (agosto) va antes que march (marzo). Entonces, el ordenar las fechas pasa a ser un proceso fundamental, especialmente en un data frame en donde tenemos las columnas día de inicio, mes de inicio, día final, mes final.

In [35]:
months = {'january': 1,  'february': 2, 'march': 3, 'april': 4, 'may': 5, 'june': 6,
          'july': 7, 'august': 8, 'september': 9, 'october': 10, 'november': 11, 'december': 12}

## Utilización de un diccionario como herramienta pivote

Al utilizar el diccionario que contiene los meses, los cuales, al momento de explorar nuestros datos, pudimos darnos cuenta que estaban en inglés, podemos hacer la conversión de mes en número de manera más sencilla.

El proceso de integración de este cambio de cadenas de texto `str` hacia números `int` le podemos llamar **mapeo** (en la literatura también lo podrán encontrar como **to map** en inglés).

In [36]:
meteor_showers.bestmonth = meteor_showers.bestmonth.map(months)

Con el código anterior, lo que logramos es hacer un **mapeo** transversal de los datos, convirtiendo con el método `map()` y tomando el diccionario para hacer los reemplazos respectivos, de hecho, si ahora revisásemos con el método `head()`, podrían ver la diferencia en la columna `bestmonth` de este data frame.

In [37]:
meteor_showers.head()

Unnamed: 0,name,radiant,bestmonth,startmonth,startday,endmonth,endday,hemisphere,preferredhemisphere
0,Lyrids,Lyra,4,april,21,april,22,northern,northern
1,Eta Aquarids,Aquarius,5,april,19,may,28,"northern, southern",southern
2,Orionids,Orion,10,october,2,november,7,"northern, southern","northern, southern"
3,Perseids,Perseus,8,july,14,august,24,northern,northern
4,Leonids,Leo,11,november,6,november,30,"northern, southern","northern, southern"


Esto mismo lo podemos ejecutar para todos los data frames que tienen la misma condición en cuanto a sus meses, por eso es tan relevante hacer un **análisis exploratorio de los datos** antes de comenzar a programar sobre ellos. Tal como se puede ver en el código de debajo:

In [38]:
meteor_showers.startmonth = meteor_showers.startmonth.map(months)
meteor_showers.endmonth = meteor_showers.endmonth.map(months)
moon_phases.month = moon_phases.month.map(months)
constellations.bestmonth = constellations.bestmonth.map(months)

## Otras manipulaciones de las fechas

Una de las ventajas de `pandas` es que nos permitirá poder convertir meses y días unidos en columnas tipo fecha-hora (`datetime` para las referencias).

Esto nos permite añadir la temporalidad a nuestros datos y saber de este modo si algo ocurre entremedio de dos fechas o no, tal como era este caso.  (Análisis similares se pueden ejecutar para ventas, campañas de marketing, etcétera).

In [39]:
meteor_showers['startdate'] = pd.to_datetime(2020*10000+meteor_showers.startmonth*100+meteor_showers.startday,
                                             format = '%Y%m%d')

In [40]:
meteor_showers.head()

Unnamed: 0,name,radiant,bestmonth,startmonth,startday,endmonth,endday,hemisphere,preferredhemisphere,startdate
0,Lyrids,Lyra,4,4,21,4,22,northern,northern,2020-04-21
1,Eta Aquarids,Aquarius,5,4,19,5,28,"northern, southern",southern,2020-04-19
2,Orionids,Orion,10,10,2,11,7,"northern, southern","northern, southern",2020-10-02
3,Perseids,Perseus,8,7,14,8,24,northern,northern,2020-07-14
4,Leonids,Leo,11,11,6,11,30,"northern, southern","northern, southern",2020-11-06


# Explicación del código

Al realizar la operación matemática, lo que nos damos cuenta es que, si por ejemplo, tuviésemos que elegir el caso de Lyrids, cuyo start month es 4 y su start date es 21, al momento de convertirlo en fecha podríamos tener una dificultad.

El contexto del set de datos, indica que esta información proviene del año 2020. Entonces, para poder hacer la conversión de manera correcta, lo que perseguimos es que la operación matemática sea muy similar a esta fecha para el caso de Lyrids:

20200421 <- año 2020, mes 04, día 21

Para lograr esto, necesitamos saber cuán largo debe ser nuestra fecha, la cual cuenta con 8 caracteres, donde: 

+ los primeros cuatro deben ser el año
+ los siguientes dos el mes
+ los siguientes dos el día

Es por ello que lo primero que hacemos es multiplicar el año por 10000, ya que esta operación asegura que el número tendrá los 8 caracteres.

Luego de eso, el mes debe ir en la posición de las **centenas**, por ende, debe ser multiplicado por 100.

Por último, el día va en las decenas y unidades, por eso no se multiplica con nada.

La instrucción de formato `format = %Y%m%d` es para poder definir el orden que queremos que tenga nuestra fecha.

De este modo se procede con todos los datos que incluyan fechas iniciales y finales en los data frames que estamos trabajando.

In [41]:
meteor_showers['enddate'] = pd.to_datetime(2020*10000+meteor_showers.endmonth*100+meteor_showers.endday,
                                             format = '%Y%m%d')

In [42]:
moon_phases['date'] = pd.to_datetime(2020*10000+moon_phases.month*100+moon_phases.day,
                                     format = '%Y%m%d')

# Conversión de datos categóricos

Es importante que los datos categóricos que no tienen una jerarquía, como es el caso de los hemisferios o las fases de la luna, los podamos convertir en datos que sean sencillos de entender de manera computacional. Para ello, al igual que lo que hicimos con los meses, haremos una transformación de variables.

In [43]:
hemispheres = {'northern': 0, 'southern': 1, 'northern, southern': 2}

In [60]:
meteor_showers.preferredhemisphere = meteor_showers.preferredhemisphere.map(hemispheres)

In [61]:
meteor_showers

Unnamed: 0,name,radiant,bestmonth,preferredhemisphere,startdate,enddate
0,Lyrids,Lyra,4,0,2020-04-21,2020-04-22
1,Eta Aquarids,Aquarius,5,1,2020-04-19,2020-05-28
2,Orionids,Orion,10,2,2020-10-02,2020-11-07
3,Perseids,Perseus,8,0,2020-07-14,2020-08-24
4,Leonids,Leo,11,2,2020-11-06,2020-11-30


In [46]:
constellations.hemisphere = constellations.hemisphere.map(hemispheres)

In [47]:
constellations

Unnamed: 0,constellation,bestmonth,latitudestart,latitudeend,besttime,hemisphere
0,Lyra,8,90,-40,21:00,0
1,Aquarius,10,65,-90,21:00,1
2,Orion,1,85,-75,21:00,0
3,Perseus,12,90,-35,21:00,0
4,Leo,4,90,65,21:00,0


In [48]:
phases = {'new moon': 0, 'third quarter': 0.5, 'first quarter': 0.5, 'full moon': 1.0}

In [49]:
moon_phases['percentage'] = moon_phases.moonphase.map(phases)
moon_phases.head()

Unnamed: 0,month,day,moonphase,specialevent,date,percentage
0,1,1,,,2020-01-01,
1,1,2,first quarter,,2020-01-02,0.5
2,1,3,,,2020-01-03,
3,1,4,,,2020-01-04,
4,1,5,,,2020-01-05,


# ¿Por qué el porcentaje es 0.5 para dos fases distintas de la luna?

El motivo por el que esto se considera de esta manera, es para asignar un porcentaje igualitario, en algunos casos creciente (cuando se va camino hacia la luna llena) y en otros decreciente (cuando se va de vuelta de la luna llena).

## Limpieza extra del set de datos `moon_phases`

Para poder limpiar adicionalmente este set de datos, limpiaremos las columnas que no son relevantes, por ejemplo, `month`, `day` (porque ya fueron convertidas a una columna tipo fecha), la columna `specialevent` porque lo importante es la fase de la luna. Para ello usaremos el método `drop()`  seleccionando las columnas que no son relevantes, esto incluye también la columna `moonphase`, pues el porcentaje lunar es lo que hace relevancia.

In [50]:
moon_phases = moon_phases.drop(['month', 'day', 'moonphase', 'specialevent'], axis= 1)

# Solucionando el problema de `percentages`

El problema que tenemos en la columna de `percentages` es que los datos contienen una gran cantidad de datos nulos (atribuidos bajo el concepto `NaN`), entonces, lo que necesitaremos es poder imputar los datos faltantes.

En efectos prácticos del análisis, una metodología de imputación aquí sería que todo lo que no sea ni luna llena (`fullmoon`) ni luna nueva (`new moon`) estará imputado como el valor del cuarto creciente (`first quarter`) o el cuarto menguante (`third quarter`), ya que, por defecto, el valor del tamaño de esa luna se encontrará en el segmento intervalo $]0, 1[$ y todos los tamaños promediarán hacia el valor $0.5$. 

Para imputar estos valores, lo que se requiere es realizar una programación iterativa donde, en caso que se encuentre un valor del tipo `NaN`, se impute con el valor de la última fase a la cual perteneció. Si consideramos que las lunas partirán siempre como una luna nueva (`newmoon` = 0), la iteración debiese quedar compuesta por:

In [51]:
lastPhase = 0

for index, row in moon_phases.iterrows():
    if pd.isnull(row['percentage']):
        moon_phases.at[index,'percentage'] = lastPhase
    else:
        lastPhase = row['percentage']

In [52]:
moon_phases.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 366 entries, 0 to 365
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   date        366 non-null    datetime64[ns]
 1   percentage  366 non-null    float64       
dtypes: datetime64[ns](1), float64(1)
memory usage: 5.8 KB


# Soluciones alternativas

Otra manera de imputar estos valores, podría ser considerando el crecimiento porcentual que tendrá la luna en cada una de sus fases, desde la luna nueva (`newmoon`) hasta el cuarto creciente (`first quarter`) y luego del `first quarter` hasta el cuarto menguante (`third quarter`) llevándolo hasta la luna llena y de regreso.

## Ahora viene el paso de limpiar las demás columnas en otros set de datos.

In [53]:
meteor_showers.columns

Index(['name', 'radiant', 'bestmonth', 'startmonth', 'startday', 'endmonth',
       'endday', 'hemisphere', 'preferredhemisphere', 'startdate', 'enddate'],
      dtype='object')

Como podemos apreciar, las columnas `startmonth`, `startday`, `endmonth`, `endday` y `hemisphere` fueron reemplazadas con antelación, por lo que, por motivos de rendimiento del análisis, es mejor limpiar estas columnas del set de datos.

In [58]:
meteor_showers = meteor_showers.drop(['startmonth', 'startday', 'endmonth', 'endday', 'hemisphere'], axis=1)

In [59]:
meteor_showers

Unnamed: 0,name,radiant,bestmonth,preferredhemisphere,startdate,enddate
0,Lyrids,Lyra,4,northern,2020-04-21,2020-04-22
1,Eta Aquarids,Aquarius,5,southern,2020-04-19,2020-05-28
2,Orionids,Orion,10,"northern, southern",2020-10-02,2020-11-07
3,Perseids,Perseus,8,northern,2020-07-14,2020-08-24
4,Leonids,Leo,11,"northern, southern",2020-11-06,2020-11-30


In [62]:
constellations = constellations.drop(['besttime'], axis=1)

In [63]:
constellations

Unnamed: 0,constellation,bestmonth,latitudestart,latitudeend,hemisphere
0,Lyra,8,90,-40,0
1,Aquarius,10,65,-90,1
2,Orion,1,85,-75,0
3,Perseus,12,90,-35,0
4,Leo,4,90,65,0


# Creación de función que busque la información basado en los datos

In [67]:
def predict_best_meteor_shower_viewing(city):
    meteor_shower_string = ""
    # Esto estará vacío para darle el mensaje al usuario sobre su búsqueda

    # comprobar si la ciudad está en el set de datos cities

    if city not in cities.values:
        meteor_shower_string = "Lo sentimos, la ciudad de " + city + " no está disponible para predicciones"
        return meteor_shower_string


Ahora con este código podemos probar qué ocurre si una ciudad que no se encuentra en la lista de ciudades es consultada:

In [68]:
predict_best_meteor_shower_viewing("Talca")

'Lo sentimos, la ciudad de Talca no está disponible para predicciones'

Pero también podríamos ver qué obtenemos si buscamos una ciudad que sí se encuentra en el set de datos

In [70]:
predict_best_meteor_shower_viewing("Santiago(official)")

Si corremos solo el código, nos damos cuenta que no obtenemos nada, ahora, usando la función `print()`

In [72]:
print(predict_best_meteor_shower_viewing("Santiago(official)"))

None


El motivo por el que recibimos el valor `None` es porque no existen datos asociados en la función definida `predict_best_meteor_shower_viewing(city)`. Esto lo debemos hacer debajo de nuestro primer `return`, por lo que volveremos a definir la función

In [94]:
def predict_best_meteor_shower_viewing(city):
    meteor_shower_string = ""
    # Esto estará vacío para darle el mensaje al usuario sobre su búsqueda

    # comprobar si la ciudad está en el set de datos cities

    if city not in cities.values:
        meteor_shower_string = "Lo sentimos, la ciudad de " + city + " no está disponible para predicciones"
        return meteor_shower_string
    
    # Obtener la latitud de la ciudad desde el data frame cities

    latitude = cities.loc[cities['city'] == city, 'latitude'].iloc[0]

    # Ahora necesitamos añadir las constelaciones que son visibles desde aquella latitud

    constellation_list = constellations.loc[(constellations['latitudestart'] >= latitude) & (constellations['latitudeend'] <= latitude), 'constellation'].tolist()


    # Manejo de excepciones, si hay latitudes que no tienen lluvias de meteoritos visibles

    if not constellation_list:
        meteor_shower_string = "Lamentablemente no hay lluvias de meteoritos visibles para " + city + "."

        return meteor_shower_string
    
    

    # Ahora creamos el texto base para mostrar al usuario cuando la ciudad sí esté disponible

    meteor_shower_string = "En la ciudad de " + city + " podrás ver las siguientes lluvias de meteoritos: \n"

    # Ahora tenemos que ver si en la ciudad hay lluvias de meteoritos, para ello necesitamos las fechas
    # de inicio y final de las lluvias de meteorito, para ello tenemos que buscar todas las constelaciones
    # que se guardaron en la lista llamada constellation_list

    for constellation in constellation_list:
        # Encuentra el meteoro que está más cerca de la constelación
        meteor_shower = meteor_showers.loc[meteor_showers['radiant'] == constellation, 'name'].iloc[0]

        # Encuentra la fecha de inicio y final
        meteor_shower_startdate = meteor_showers.loc[meteor_showers['radiant'] == constellation, 'startdate'].iloc[0]
        meteor_shower_enddate = meteor_showers.loc[meteor_showers['radiant'] == constellation, 'enddate'].iloc[0]


# Ahora tenemos que ver la fase de la luna, porque si hay una luna muy brillante, es poco probable
# el poder ver la lluvia de meteoritos, pues, habrá mucha luminosidad en el cielo.
    
        moon_phases_list = moon_phases.loc[(moon_phases['date'] >= meteor_shower_startdate) & (moon_phases['date'] <= meteor_shower_enddate)]

        best_moon_date = moon_phases_list.loc[moon_phases_list['percentage'].idxmin()]['date']
    
        meteor_shower_string += meteor_shower + " si miras a la constelación de  " + constellation + " en la fecha " +  best_moon_date.to_pydatetime().strftime("%B %d, %Y") + ".\n"

    return meteor_shower_string





### Explicación del código

La línea de código `latitude = cities.loc[cities['city'] == city, 'latitude'].iloc[0]` indica lo siguiente:

Guardaremos en una variable llamada `latitude` en el dataframe `cities` `loc`alizando dentro de este la columna `city` que será igual a la variable `city`de nuestra función.

Estas líneas se repiten iterativamente para hacer calzar las búsquedas

In [95]:
print(predict_best_meteor_shower_viewing('Beijing'))

En la ciudad de Beijing podrás ver las siguientes lluvias de meteoritos: 
Lyrids si miras a la constelación de  Lyra en la fecha April 22, 2020.
Eta Aquarids si miras a la constelación de  Aquarius en la fecha April 22, 2020.
Orionids si miras a la constelación de  Orion en la fecha October 16, 2020.
Perseids si miras a la constelación de  Perseus en la fecha July 20, 2020.

