<a href="https://colab.research.google.com/github/astrodatos/Clase3/blob/master/Actividad_3_Astronom%C3%ADa_Gal%C3%A1ctica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#EI2001: Ciencia de datos en Astronomía
**Profesores:** Pía Cortés, Daniela Barrientos, Matías Suazo, Matías Mattamala

#Actividad Clase 3 - Uso de Astropy y Pandas.

###Objetivos:
1. Conocer la librerías Astropy y Pandas.
2. Reconocer el uso de Astropy con imágenes astronómicas. 
3. Trabajar con Pandas y bases de datos de exoplanetas.

##Astropy

([Documentación](https://docs.astropy.org/en/stable/))


`Astropy` es una de las librerías de Python que más se ocupan en astronomía. Incluye módulos y herramientas muy útiles y necesarias en astronomía, como por ejemplo:
- Constantes astronómicas y cosmológicas.
- Conversiones de tiempo y distancias.
- Manejo de datos astronómicos en formas de `ndarray`.
- Transformaciones de systemas de coordenadas.
- Herramientas para analysis estadístico y modelamiento.
- etc.

Como vimos en clases, el tipo de archivo más utilizado para manejar imágenes astrómicas es el `FIT: Flexible Image Transport`. La mayoría de los telescopios en el mundo utiliza este sistema de almacenaje de datos y la comunidad astronómica lo ha hecho uno de sus estándares más importantes.

###FIT

Sistema de almacenamiento de datos astronómicos en forma de `ndarray`. Tiene dos componentes principales: header y data. Header es una tabla de información con la forma de diccionario, mientras que data puede ser un `array` de 2 dimiensiones o un cubo, con más de dos dimensiones. Para los siguientes ejempos consideraremos la componente data como un `ndarray` de dos dimensiones.






###1. Abrir y leer un archivo `FIT` de la Nebulosa Horse Head

In [0]:
# Importar las librerías que usaremos: matplotlib y astropy. 
# Considerar que solo ocuparemos los módulos fits y download_file de astropy.

import matplotlib.pyplot as plt
from astropy.io import fits 
from astropy.utils.data import download_file
import numpy as np


In [0]:
# Descargamos el archivo FIT
file = download_file("https://github.com/astrodatos/Clase3/raw/master/HorseHead.fits", cache=True )

In [0]:
# Abrir archivo fits guardado en file
hdu = fits.open(file)

In [0]:
# Por si solo, es un objeto
hdu

In [0]:
hdu.info()

### 2. Guardar header y data en variables independientes

In [0]:
# Guardamos el header en una variable
header_data = hdu[0].header
print(header_data)

In [0]:
print("Tercer elemento del header:")
print(header_data[2])

print("Valor de la casilla DATE:")
print(header_data["DATE"])

In [0]:
# Guardamos los datos del fit en otra variable
image_data = hdu[0].data
print(image_data)

In [0]:
print("Elemento de los datos en la fila 0:")
print(image_data[0])

print("Primer elemento de la matriz de datos:")
print(image_data[1][1])

In [0]:
print(image_data.shape)

In [0]:
print('Min:', np.min(image_data))
print('Max:', np.max(image_data))
print('Mean:', np.mean(image_data))
print('Stdev:', np.std(image_data))



###3. Plotear la imagen

In [0]:
# Plot de los datos del fit
plt.figure(figsize=(10,10))
plt.imshow(image_data, cmap='viridis') #grey, inferno, etc
plt.colorbar()

#Pandas

La librería `Pandas`es muy útil para el manejo de estructuras de datos. Está basado en `Numpy` pero incluye un nuevo concepto llamado Data Frame. Los Data Frame son arreglos multidimensionales, con sus respectivas etiquetas en filas y columnas, los cuales generalmente tienen distintos tipos de datos en su estructura como también datos faltantes. Todo lo anterior hace que `Pandas`  sea la mejor librería para trabajar con bases de datos.

In [0]:
# Importar librería
import pandas as pd

###1. El objeto Serie

Una `Serie` es un arreglo unidimensional de datos indexados, esto quiere decir que está formado por una secuencia de valores y una secuencia de índices.
Se construye de la forma: 

```
pd.Series(data,index=index)
```



In [0]:
# Creamos un objeto Series de Pandas
data = pd.Series([0.5, 0.32, 3])
print(data)

In [0]:
print("Mostrar los valores que guarda la Serie data:")
print(data.values)

In [0]:
print("Mostrar los índices de la Serie data:")
print(data.index)

In [0]:
print("Tercer elemento de la Serie data:")
print(data[2])

In [0]:
print("Podemos hacer slicing:")
print(data[0:2])

In [0]:
# Podemos cambiar el formato de los índices
data = pd.Series(data= [0.25, 0.5, 0.75, 1.0],index=['a', 'b', 'c', 'd'])

print(data)

In [0]:
print("Ahora el que vive en el índice b es:")
print(data['b'])

In [0]:
# No necesariamente tienen que ser índices consecutivos
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 3, 7])

print(data)

In [0]:
print("El elemento del índice 3:")
print(data[3])

In [0]:
# Se pueden crear máscaras: masking
print("Los elementos mayores que 0.3 pero menores que 0.8:")
print(data[(data > 0.3) & (data < 0.8)])

###2. El objeto Data Frame

Los `Data Frame` de `Pandas` son `Series` en 2 dimensiones, con flexibilidad en los índices de las filas y en las etiquetas de las columnas. Se puede pensar que los `Data Frame` son secuencias alineadas (que comparten el mismo índice) de varias Series.

In [0]:
# Creamos diccionario, con forma de Serie, con las poblaciones de distintos estados de USA

population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)

print(population)


In [0]:
print("La poblacion de California es:")
print(population['California'])



In [0]:
print(population['California':'Illinois'])

In [0]:
# Creamos diccionario con el área superficial de los mismos estados utilizados anteriormente:

area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}

area = pd.Series(area_dict)

print(area)

In [0]:
# Creamos Data Frame de los estados, considerando area y población:

states = pd.DataFrame({'population': population,
                       'area': area})
print(states)

In [0]:
print("Los indices son:")
print(states.index)

In [0]:
print("Las columnas del Data Frame son:")
print(states.columns)

In [0]:
print("Los valores solo de la columna area:")
print(states['area'])

In [0]:
# Creamos un Data Frame solo con la columna population:

pop = pd.DataFrame(population, columns=['population'])

print(pop)

###3. Usar Pandas para trabajar con la base de datos de NASA Exoplanet Archive.


In [0]:
# Cargamos la base de datos
archivo = download_file('https://raw.githubusercontent.com/piacortes/astroclases/master/planets.csv?token=AXWBlnRlbOADXAfY-qtBxFJQ3SugzCucks5cpBbnwA%3D%3D')
planetas = pd.read_csv(archivo, comment="#")

In [0]:
# Revisar los primeros elementos de la base de datos:
planetas.head()

In [0]:
print("Cuántas filas y columnas tiene?:")
print(planetas.shape)

In [0]:
# Promedio del período, según técnica de descrubrimiento
planetas.groupby('pl_discmethod')["pl_orbper"].mean()

In [0]:
# Masking
obs = planetas[planetas["pl_trandep"]>0.35]
print(obs.shape)

In [0]:
# Plots
from matplotlib.pyplot import rcParams
plt.rc('font', family='serif',size=15)
params = {'legend.fontsize': 'x-large',
         'axes.labelsize': 'x-large',
         'axes.titlesize':'x-large',
         'xtick.labelsize':'x-large',
         'ytick.labelsize':'x-large'}
rcParams.update(params)



plt.scatter(planetas["pl_orbper"],planetas["pl_bmassj"])
plt.xlabel("Periodo")
plt.ylabel("Masa")

In [0]:
# Aplicamos logaritmo a los ejes:

plt.figure(figsize=(20,10))

plt.xlabel("Periodo")
plt.ylabel("Masa")
plt.plot(np.log(planetas["pl_orbper"]),np.log(planetas["pl_bmassj"]), ".", color="black")

In [0]:
plt.figure(figsize=(20,10))

plt.xlabel("Distancia")
plt.ylabel("Masa")
plt.plot(np.log(planetas["st_dist"]),np.log(planetas["pl_bmassj"]), ".", color="black")