### Taller práctico
# Estudio de asteroides con los datos JPL-NASA
Septiembre 2021
#### Campaña boliviana de búsqueda de asteroides (ABASC) 

### 1. Instrucciones

#### Manejar las celdas
Para correr una celda debe hacer clic en la misma y luego presionar `SHIFT + ENTER`. A continuación un ejemplo

In [None]:
print("Ahora puedo correr celdas")

--------------------------

# 1. Base de datos

La base de datos [JPL Small-Body Database Search Engine](https://ssd.jpl.nasa.gov/sbdb_query.cgi) proporciona información sobre asteroides. Es posible realizar una selección de los mismos y descargar los resultados en formato CSV (comma separated value).

Para nuestro estudio del día de hoy se descargó una base de datos, la cual contiene a los asteroides que tienen un diámetro DEFINIDO. Los resultados se almacenan en `data.csv`.

Para cargar la base de datos usaremos la librería `pandas`, además cargaremos la librería `matplotlib` para realizar gráficos más adelante.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
print("Librerías cargadas")

Ahora que tenemos la librería cargada, podemos cargar la base de datos. Además podemos saber la longitud de la misma (cuántos asteroides contiene), para esto corremos el siguiente código:

In [None]:
data = pd.read_csv("data.csv")
print("Base de datos cargada")
print(len(data["a"]),"asteroides")

Ahora nos preguntamos ¿qué columnas contiene mi base de datos? Podemos saber esto utilizando el método `data.columns`

In [None]:
print(data.columns)

No es muy intuitivo, queremos saber qué información contiene cada columna. Lo bueno es que este trabajo ya está realizado y las columnas son.

| Columna | Parámetro | Descripción                                                             |
|---------|-----------|-------------------------------------------------------------------------|
| 1       | Full name | Nombre completo del objeto / Designación                                |
| 2       | a         | Semi eje mayor (UA)                                                     |
| 3       | e         | Excentricidad                                                           |
| 4       | i         | Inclinación, en grados, respecto al plano eclíptico (órbita tierra-sol) |
| 5       | node      | Longitud del nodo ascendente (grados)                                   |
| 6       | peri      | Argumento de perihelio (grados)                                         |
| 7       | q         | Perihelio (UA)                                                          |
| 8       | Q         | Afelio (UA)                                                             |
| 9       | period    | Periodo sidéreo orbital (años)                                          |
| 10      | H         | Magnitud absoluta                                                       |
| 11      | NEO       | Objeto cercano a la tierra NEO, (Y, yes/N, no)                          |
| 12      | PHA       | Asteroide potencialmente peligroso (Y, yes/ N, no)                      |
| 13      | rot_per   | Periodo rotacional del asteroide (horas)                                |

Ahora sabemos qué información contiene la base de datos. Podemos ver las primeras filas de nuestra base de datos compilando el código:

In [None]:
data.head()

¿Qué podemos ver en estas primeras filas?

--------------------------------------

# 2. Histogramas 

### 2.1. LANZAMIENTO DE UN DADO

Un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados.

Tomemos un ejemplo sencillo, si lanzamos un dado $n = 100$ veces, se espera que la cantidad de veces que sale 1, 2, 3, 4, 5 y 6 sea aproximadamente la misma.
Podemos hacer un "lanzador" de dados en python utilizando valores aleatorios.

Para lanzar un dado, corremos el siguiente código, si queremos lanzarlo otra vez podemos correrlo varias veces

In [None]:
import random
print(random.randint(1,6))

Anotar cada dato hasta lanzar 100 veces sería largo, por lo que el siguiente código crea una lista con $n$ lanzamientos. Podemos modificar $n$ y cambiar el número de lanzamientos. Por ejemplo, pueden cambiar de 100 a 200 tiros.

Como no es práctico mostrar 100 valores (y mucho menos 200) podemos ver los primeros datos utilizando la segunda parte del código, donde $m$ son la cantidad de valores que queremos imprimir.

In [None]:
n = 100             # número de lanzamientos
lista = []
for i in range(n):
    lanzamiento = random.randint(1,6)
    lista.append(lanzamiento)
    
### MOSTRAR LOS PRIMEROS M VALORES
m = 8               # cantidad de valores a mostrar
print(lista[0:m])

Podemos notar que cada vez que corremos la celda los valores cambian, y es que estamos lanzando el dado 100 veces de nuevo.

Ahora queremos saber qué valor salió más veces, lo primero que podríamos hacer es ver los 100 o 200 datos y contar cuántos cincos o cuántos 3 tenemos, pero esto no es práctico y la solución son los histogramas.

Creamos un pequeño código que hace más facil crear un histograma. Sólo debes correr la celda y luego explicaremos el uso

In [None]:
def histograma(datos, bins = 0, limites = 0):
    if bins != 0:
        plt.hist(datos, bins = bins)
    else:
        plt.hist(datos)
    if limites != 0:
        plt.xlim(limites[0],limites[1])
    

La función que creamos funciona de la siguiente manera: `histograma(datos a graficar, cantidad de bins, límites (lista))`

- `datos` es una lista de valores (en nuestro caso la lista se llama lista)
- `bins` es un número entero entre los cuales se grafica, se divide a los datos en esa cantidad de categorías (Opcional)
- `limites` es una lista de la forma `[xmin, xmax, ymin, ymax]` para cortar el gráfico (Opcional)
    
Los parámetros opcionales pueden no ser incluidos, y el código tomará su decisión para definir estos parámetros.
Haciendo el ejemplo de nuestros 100 lanzamientos de datos:

- `datos = lista`
- `bins = 6` los 6 valores que toma el dado
- `límites` no queremos cortar el gráfico, por lo que no lo incluimos

In [None]:
histograma(datos = lista)

NOTA: Las barras se alinean automáticamente, por lo que la barra de $6$ se alinea hacia la izquierda.

¿Qué pueden ver en el gráfico? ¿Podemos lanzar otra vez los dados y tener un distinto gráfico?

### HISTOGRAMA DE ASTEROIDES SEGÚN SU SEMI EJE MAYOR $a$

Ahora que sabemos cómo interpretar un histograma realizaremos uno con nuestra base de datos. Tomaremos los valores de la columna $a$, es decir, el semi eje mayor.

Para tomar una columna y almacenarla en la variable `semieje` corremos el siguiente código y podemos observar los primeros 5 elementos.

In [None]:
semieje = data["a"]
print(semieje[0:5]) #obsevar los 5 primeros elementos, se puede modificar

El siguiente paso es realizar rápidamente un histograma con estos valores.

In [None]:
histograma(semieje)

Este gráfico no sirve de mucho, sólo nos informa que tenemos casi 140000 asteroides entre 0 y 50 UA.

Tenemos 2 problemas, el primero es la cantidad de bins. Se puede obtener la información sobre el gráfico asignando variables al mismo (este código no usa la función `histograma`, no es de preocuparse)

In [None]:
(n, bins, patches) = plt.hist(semieje)
print("El gráfico se divide en",len(bins), "bins")

Podemos cambiar la cantidad de bins para tener mejor información, esto hará que se divida a los datos en más segmentos y así podemos notar mejor la distribución

In [None]:
## CAMBIAR LA CANTIDAD DE BINS A UN MAYOR VALOR
histograma(semieje, bins = 100)

Aún nos queda la duda ¿por qué el gráfico va de 0 a 350 UA? Podemos explorar al asteroide más lejano (con máximo $a$) y el más cercano (con mínimo $a$). Así podemos tener una idea

In [None]:
print("Asteroide más cercano", min(semieje), "UA")
print("Asteroide más lejano", max(semieje), "UA")

De aquí notamos que hay un asteroide que está a $378 UA$, y como seguramente son muy pocos, no aparecen en nuestro gráfico.

Para solucionar esto podemos cortar el gráfico, ahora usaremos un límite menor y mayor para cortar horizontalmente los semiejes.

Por ejemplo queremos que el gráfico vaya de 0 a 50 UA, entonces tendríamos
`limites = [0,50]`

El reto es cambiar estos parámetros (bins y límites) hasta que nuestro gráfico nos de mejor información.

In [None]:
histograma(semieje, bins = 25, limites = [0,100])

Como seguramente notaron, para que el gráfico mejore tuvimos que subir mucho la cantidad de bins, y esto no es óptimo.

La segunda solución es cortar *los datos*, es decir sólo graficaremos los asteroides con un $a$ menor a un valor específico. Para esto usaremos una variable llamada `valor`, y el código corta los datos. Luego podemos ver qué asteroide es el más cercano y lejano.


In [None]:
valor = 10   ## tomaremos a los asteroides con semieje menor a ....
semieje2 = data[data["a"]<valor]["a"]
print("Asteroide más cercano", min(semieje2), "UA")
print("Asteroide más lejano", max(semieje2), "UA")

Notamos que ahora el asteroide más lejano no sobrepasa el límite que ponemos, ahora podemos graficar sin la necesidad de cortar el gráfico (sin usar límite).

In [None]:
histograma(semieje2, bins = 100) #jugar con el valor de bins

Ahora podemos cambiar nuestro `valor` y también la cantidad de `bins`.

¿Qué podemos observar?¿Entre qué valores hay una mayor cantidad de asteroides?

**PROBLEMAS**

- P1. ¿Cuánto vale el semieje mayor del planeta Júpiter?¿Cuántos asteroides existen a esa distancia?
- P2. ¿Y para la tierra?
- P3. Podemos tener un gráfico más interesante sabiendo que hay muy pocos asteroides desde el sol hacia la tierra, abajo realiza un gráfico con estos límites

In [None]:
## SOLUCIÓN PREGUNTA 3
