# Taller 3 - Gráficos más avanzados

Nombre: 

Bienvenidos al taller n° 3 del curso Astronomía en la era de la información. En él aplicaremos lo aprendido en talleres anteriores desarrollando gráficos avanzados y estudiando la información en ellos.

Por si quedan dudas, los otros notebooks están disponibles para que vea alguna instrucción, de haberla olvidado.


Acorde a lo visto en clases, hoy trabajaremos con datos de estrellas, tanto reales, como simulados. Pero antes, para introducir el concepto básico de **histograma**, usaremos datos reales del Servicio Médico Legal, en particular, de su registro de atención ciudadana 2012. Este es un archivo que se encuentra disponible abiertamente online, y lo abriremos con el paquete de Python *pandas*, utilizado ya en el taller anterior.



In [None]:
# importamos pandas (de pasada importamos los otros paquetes que usaremos más abajo) y abrimos el archivo
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
# abrimos el archivo que se encuentra online
data_dir='https://raw.githubusercontent.com/rpmunoz/PentaUC/master/Astronomia%20era%20informacion/data/RegistroEstad%C3%ADsticoDeAtencionesCiudadanas-SML.csv'
tabla_SML=pd.read_csv(data_dir,header=0,sep=',')

In [None]:
# la siguiente línea se incluye porque no todos los valores de edad son números, algunos son "no informa edad"
tabla_SML['Edad']=pd.to_numeric(tabla_SML['Edad'],errors='coerce')

¿Qué es un histograma? Es una de las maneras en las que podemos estudiar cómo una **cantidad está distribuida**. Dicho de otro modo, nos dice cuáles son los valores más y menos comunes de cierta cantidad, y desde ahí nosotros podemos sacar conclusiones. La mayoría de las veces los histogramas se hacen con cantidades numéricas, como va a ser el caso durante nuestros talleres, pero en otras disciplinas se pueden hacer por fecha u algún otro criterio.

Veamos qué columnas tiene nuestra tabla, con un comando tan simple como el siguiente:

In [None]:
tabla_SML.columns

Los nombres de las columnas, como aparece arriba, son 'Mes', 'Edad', etc. ¿Cuáles de esas columnas tienen valor numérico? Claramente la columna n°5, 'Edad'. Podemos darle un vistazo a los datos accediendo a esa columna de la siguiente manera:

In [None]:
tabla_SML['Edad']

Es muy difícil ver la distribución de las edades así, ¿no? Por lo mismo usaremos el histograma. La construcción del histograma es muy simple: sólo debemos tomar la cantidad que nos interesa graficar, y le agregamos "*.hist*".

In [None]:
tabla_SML['Edad'].hist()
plt.xlabel('Edad')

Felicitaciones, ¡ha construido su primer histograma! Ahora queda preguntarse cosas como "¿por qué las edades siguen esta distribución?", "¿qué factores pueden cambiar la forma del histograma?", entre otras. 

Un histograma tiene algunas variables que pueden cambiar la construcción de este, y la principal es el número de "bins". Esto se puede cambiar fácilmente como lo vemos abajo:

In [None]:
plt.figure(221)
tabla_SML['Edad'].hist(bins=20)
plt.xlabel('Edad')
plt.title('20 bins')
plt.figure(222)
tabla_SML['Edad'].hist(bins=100)
plt.xlabel('Edad')
plt.title('100 bins')
plt.figure(223)
tabla_SML['Edad'].hist(bins=400)
plt.xlabel('Edad')
plt.title('400 bins')
plt.figure(224)
tabla_SML['Edad'].hist(bins=5)
plt.xlabel('Edad')
plt.title('5 bins')
# el valor por defecto es bins=10

¿Cuáles de los histogramas de arriba no tiene sentido realizar, ya sea porque no dan información útil, o porque no agregan nada nuevo?

# Ejercicio 1

Complete el siguiente código que carga una tabla con información de datos reales de estrellas de un cúmulo abierto llamado "Pléyades", muestre las columnas de la tabla, y realice un histograma de la masa (en inglés *Mass*) de las estrellas.

In [None]:
data_dir='https://raw.githubusercontent.com/rpmunoz/PentaUC/master/Astronomia%20era%20informacion/data/pleiades.csv'
tabla_pleyades=
# complete ud. el código

¿Qué otro tipo de gráficos conocen que no son histogramas?

*pandas* permite realizar gráficos 2-D en un plano cartesiano, de una manera similar a como lo hacíamos antes con *plt.plot()*. Abajo puede ver el ejemplo:

In [None]:
tabla_pleyades.plot.scatter(x='xpos',y='ypos')


Como las Pléyades son un cúmulo, lo que se acaba de graficar es la posición de cada uno de sus miembros observados con respecto al centro del cúmulo. Pero por supuesto esto está lejos de ser lo más interesante que podemos graficar!


Antes de continuar, hablaremos de un concepto fundamental que estudiaremos un poco más en profundidad, que son las correlaciones. Una correlación es, como el nombre lo sugiere, una relación aparente entre dos cantidades (aparente porque no todas las correlaciones tienen una causalidad detrás). Estas relaciones pueden expresarse con una ecuación, como la relación entre el tamaño de la órbita y el periodo orbital de los planetas alrededor del Sol, que vimos en el taller 1 (tercera ley de Kepler). Claramente, el gráfico de arriba no muestra correlación alguna.

Es importante hacer énfasis en lo de que no hay causalidad detrás. Acá hay un ejemplo muy claro:


![Correlación entre el número de piratas y el calentamiento global](http://www.smp.uk.com/sites/default/files/blog_Correlation_Causation_img1.png)

# Ejercicio 2

Realice distintas combinaciones de columnas de la tabla *tabla_pleyades* y grafíquelas usando *tabla_pleyades.plot.scatter()* como fue usado más arriba. Intente encontrar correlaciones entre las distintas cantidades expresadas en las columnas. Recuerde la materia vista en la clase!!

In [None]:
# escriba el código acá

Las correlaciones que usted observa son debido a las leyes físicas que fueron mencionadas en clases. Descubrir las ecuaciones que expresan estas correlaciones quedarán para un taller futuro.

Ahora le agregaremos una dimensión extra a los gráficos: un eje de color. Lo que hacemos es colorear cada punto en el gráfico con un color, y el color está asignado a los valores de otra cantidad:

In [None]:
tabla_pleyades.plot.scatter(x='xpos',y='ypos',c='Dist',colormap='jet')

En este caso, se puede ver que la cantidad "*Dist*" aumenta desde la posición (0,0), radialmente hacia afuera. El significado físico detrás de esta correlación entre la posición en el gráfico y el color es muy simple: *Dist* no es más que la distancia de cada estrella al centro del cúmulo. Es por eso que aumenta hacia afuera!

De hecho, lo podemos corroborar: calculamos la distancia utilizando la técnica aprendida en el taller 2 (coordenadas polares) y la comparamos con el valor dado en la tabla calculando la diferencia porcentual (la diferencia dividida por uno de los valores). Para terminar de convencerlos del poder del histograma, también se incluye el histograma de esas diferencias. Nuevamente, es más fácil revisar éste, que ver los 150+ valores uno por uno.

In [None]:
dist=np.sqrt(tabla_pleyades['xpos']**2+tabla_pleyades['ypos']**2)
difpor=(dist-tabla_pleyades['Dist'])/dist
print difpor
difpor.hist(bins=20)

Sin embargo, hay otras correlaciones que son más físicas que pueden hacerse claras en un gráfico con eje de color, que es lo que haremos en el siguiente ejercicio.

# Ejercicio 3
Si todo salió bien en el ejercicio anterior, ud. habrá encontrado (al menos) dos correlaciones, las cuales comparten una cantidad. Con esa cantidad y las dos que correlacionan con ella, construya un gráfico con eje de color que muestre las dos correlaciones.

In [None]:
# escriba el código acá