En esta actividad, vamos a utilizar árboles de decisión para determinar los desplazamientos al rojo de las galaxias a partir de sus colores fotométricos. Usaremos galaxias en las que se hayan calculado corrimientos al rojo espectroscópicos precisos como nuestro estándar de oro. Aprenderemos cómo evaluar la precisión de las predicciones de los árboles de decisión y echaremos un vistazo a la validación de nuestro modelo.

También echaremos un vistazo rápido a cómo se podría abordar este problema sin utilizar el aprendizaje automático. Esto resaltará algunas de las limitaciones del enfoque clásico y demostrará por qué un enfoque de aprendizaje automático es ideal para este tipo de problema.

Si desea ejecutar su código sin conexión, puede descargar el conjunto de datos NumPy completo para esta actividad aquí .

Esta actividad se basa en el ejemplo de scikit-learn sobre Photometric Redshifts of Galaxies .

http://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/tutorial/astronomy/regression.html

Usaremos magnitudes de flujo del catálogo Sloan Digital Sky Survey (SDSS) para crear índices de color. Las magnitudes de flujo son el flujo total (o luz) recibido en cinco bandas de frecuencia ( u , g , r , i y z ).

imagen de filtros sdss
Los colores corresponden a las longitudes de onda de la luz que observamos. Las longitudes de onda más largas aparecen en rojo y las longitudes de onda más cortas aparecen en azul o violeta. De manera similar, el color astronómico (o índice de color ) es la diferencia entre las magnitudes de dos filtros, es decir, u - g o i - z . Puede leer más sobre los filtros y cómo funcionan las cámaras en http://voyages.sdss.org/preflight/light/filters/ , https://www.sdss.org/instruments/camera/ y http:// voyages.sdss.org/ .

Este índice es una forma de caracterizar los colores de las galaxias. Por ejemplo, si el índice ug es alto, el objeto es más brillante en las frecuencias ultravioleta que en las frecuencias verdes visibles.

Los índices de color actúan como una aproximación del espectro del objeto y son útiles para clasificar las estrellas en diferentes tipos.

Para calcular el corrimiento al rojo de una galaxia distante, el método más preciso es observar las líneas de emisión óptica y medir el corrimiento en la longitud de onda. Sin embargo, este proceso puede llevar mucho tiempo y, por lo tanto, no es factible para muestras grandes.

Para muchas galaxias simplemente no tenemos observaciones espectroscópicas.

En cambio, podemos calcular el corrimiento al rojo midiendo el flujo usando varios filtros diferentes y comparándolo con modelos de cómo esperamos que se vean las galaxias con diferentes corrimientos al rojo.

En esta actividad, utilizaremos el aprendizaje automático para obtener desplazamientos al rojo fotométricos para una gran muestra de galaxias. Usaremos los índices de color (ug, gr, ri e iz) como entrada y un subconjunto de fuentes con corrimientos al rojo espectroscópicos como conjunto de datos de entrenamiento.

Los árboles de decisión son una herramienta que se puede utilizar tanto para la clasificación como para la regresión. En este módulo veremos la regresión, sin embargo, en el próximo módulo veremos cómo se pueden usar como clasificadores.

Los árboles de decisión asignan un conjunto de características de entrada a sus objetivos de salida correspondientes. Esto se hace a través de una serie de decisiones individuales donde cada decisión representa un nodo (o ramificación) del árbol.

La siguiente figura muestra el árbol de decisiones que nuestro proverbial jugador de tenis robot Robi usó en las conferencias para tratar de decidir si jugar al tenis en un día en particular.

Árbol de decisiones de tenis
¿Deberíamos jugar al tenis?
Cada nodo representa una decisión que el robot debe tomar (o evaluar) para llegar a una decisión final. En este ejemplo, al árbol de decisión se le pasará un conjunto de características de entrada (Perspectiva, Humedad y Viento) y devolverá una salida de si se debe jugar o no.

En los árboles de decisión para tareas del mundo real, cada decisión suele ser más compleja e involucra valores medidos, no solo categorías.

En lugar de los valores de entrada para humidityser Normalo Highy windser Strongo, Weakpodríamos ver un porcentaje entre 0 y 100 para la humedad y una velocidad del viento en km/h para el viento. Nuestras decisiones podrían entonces ser humidity < 40%o wind < 5 km/hr.

La salida de la regresión es un número real. Entonces, en lugar de las dos salidas de Playy Don't Playtenemos una probabilidad de si jugaremos ese día.

La decisión en cada rama se determina a partir de los datos de entrenamiento mediante el algoritmo de aprendizaje del árbol de decisiones. Cada algoritmo emplea una métrica diferente (p. ej., impureza de Gini o ganancia de información) para encontrar la decisión que divide los datos de manera más efectiva.

Por ahora, solo necesita saber que un árbol de decisiones es una serie de decisiones, cada una de las cuales se toma sobre una sola característica de los datos. El punto final de todas las ramas es un conjunto de valores objetivo deseados.

Las entradas de nuestro árbol de decisión son los índices de color de las imágenes fotométricas y nuestra salida es un corrimiento al rojo fotométrico. Nuestros datos de entrenamiento utilizan mediciones espectroscópicas precisas.

El árbol de decisión se parecerá a lo siguiente.

Imagen del árbol de decisión para corrimientos al rojo
Podemos ver cómo nuestros índices de color calculados se ingresan como características en la parte superior y, a través de una serie de nodos de decisión, se alcanza y genera un valor de corrimiento al rojo objetivo.

Usaremos la biblioteca de aprendizaje automático de Python scikit-learn , que proporciona varios algoritmos de aprendizaje automático.

La regresión del árbol de decisión de scikit-learn toma un conjunto de características de entrada y los valores objetivo correspondientes, y construye un modelo de árbol de decisión que se puede aplicar a nuevos datos.

Hemos proporcionado los datos de Sloan en formato binario NumPy ( .npy) en un archivo llamado sdss_galaxy_colors.npy. Los datos de Sloan se almacenan en una matriz estructurada NumPy y se ven así:

u	g	r	i	z	...	redshift
19.84	19.53	19.47	19.18	19.11	...	0.54
19.86	18.66	17.84	17.39	17.14	...	0.16
...	...	...	...	...	...	...
18.00	17.81	17.77	17.73	17.73	...	0.47
También incluye columnas spec_classy redshift_errque no necesitamos en esta actividad. Los datos se pueden cargar usando:

 
import numpy as np
data = np.load('sdss_galaxy_colors.npy')
print(data[0])
El corresponde a la primera fila de la tabla anterior. Se puede acceder a las columnas nombradas individuales de esta manera: data[0]

 
import numpy as np
data = np.load('sdss_galaxy_colors.npy')
print(data['u'])
Se puede acceder a cada columna de magnitud de flujo en la datamatriz como , etc. Se puede acceder a los corrimientos al rojo con . data['u']data['g']data['redshift']

Escriba una get_features_targetsfunción que divida los datos de entrenamiento en entrada featuresy su correspondiente targets. En nuestro caso, las entradas son los 4 índices de color y nuestros objetivos son los desplazamientos al rojo correspondientes.

Su función debe devolver una tupla de:

features: una matriz NumPy de dimensiones m ⨉ 4, donde m es el número de galaxias;
targets: una matriz NumPy 1D de longitud m , que contiene el corrimiento al rojo de cada galaxia.
El argumento de datos será la matriz estructurada descrita en la diapositiva anterior. uSe puede acceder a las magnitudes de flujo y corrimientos al rojo como una columna con y . data['u']data['redshift']

Las cuatro características son los colores , y . Para calcular la primera columna de , reste las columnas y , así: u - gg - rr - ii - zfeaturesug

 
import numpy as np
data = np.load('sdss_galaxy_colors.npy')
print(data['u'] - data['g'])
Las características de las 2 primeras galaxias en los datos de ejemplo deberían ser:

[[ 0.31476  0.0571   0.28991  0.07192]
 [ 1.2002   0.82026  0.45294  0.24665]]
Y los primeros 2 objetivos deberían ser:

[ 0.539301   0.1645703]
Sugerencia: configure su featuresmatriz con ceros
Puede configurar la featuresmatriz con ceros y luego configurar cada columna en la función calculada correspondiente.

features = np.zeros((data.shape[0], 4))
features[:, 0] = data['u'] - data['g']

Ahora vamos a usar nuestras características y objetivos para entrenar un árbol de decisión y luego hacer una predicción. Vamos a utilizar la clase DecisionTreeRegressor del módulo. sklearn.tree

El algoritmo de aprendizaje de regresión del árbol de decisión se inicializa con:

dtr = DecisionTreeRegressor()
Discutiremos algunas optimizaciones más adelante en la actividad, pero por ahora solo usaremos los valores predeterminados.

Para entrenar el modelo, usamos el fitmétodo con featuresy que targetscreamos anteriormente:

dtr.fit(features, targets)
El árbol de decisión ahora está entrenado y listo para hacer una predicción:

predictions = dtr.predict(features)
predictionses una matriz de valores pronosticados correspondientes a cada una de las variables de entrada de la matriz.

Su tarea es juntar esto para nuestros datos fotométricos de corrimiento al rojo. Copia tu get_features_targetsdel problema anterior. Use los comentarios para guiar su implementación.

Finalmente, imprime las primeras 4 predicciones. Debería imprimir esto:

[ 0.539301    0.1645703   0.04190006  0.04427702]
[ 0.539301    0.1645703   0.04190006  0.04427702]

¡Así que entrenamos un árbol de decisión! Estupendo... pero ¿cómo sabemos si el árbol es realmente bueno para predecir corrimientos al rojo?

En la regresión, comparamos las predicciones generadas por nuestro modelo con los valores reales para probar qué tan bien está funcionando nuestro modelo. La diferencia entre los valores pronosticados y los valores reales (a veces denominados residuales) puede decirnos mucho sobre dónde funciona bien nuestro modelo y dónde no.

Si bien hay algunas formas diferentes de caracterizar estas diferencias, en este tutorial usaremos la mediana de las diferencias entre nuestros valores predichos y reales.

En este problema implementaremos la función median_diff. La función debe calcular el error residual medio de nuestro modelo, es decir, la diferencia media entre nuestros corrimientos al rojo previstos y reales.

La median_difffunción toma dos argumentos: los valores previstos y reales/objetivo. Cuando usemos esta función más adelante en el tutorial, estos corresponderán a los desplazamientos al rojo predichos de nuestro árbol de decisión y sus correspondientes valores medidos/objetivo.

La mediana de las diferencias debe calcularse según la fórmula:


Anteriormente usamos los mismos datos para entrenar y probar nuestros árboles de decisión.

Esto da una estimación poco realista de cuán preciso será el modelo en galaxias nunca antes vistas porque el modelo ha sido optimizado para obtener los mejores resultados en los datos de entrenamiento.

La forma más sencilla de resolver este problema es dividir nuestros datos en subconjuntos de entrenamiento y prueba :

# initialise and train the decision tree
dtr = DecisionTreeRegressor()
dtr.fit(train_features, train_targets)
​
# get a set of prediction from the test input features
predictions = dtr.predict(test_features)
​
# compare the accuracy of the pediction againt the actual values
print(calculate_rmsd(predictions, test_targets))
Este método de validación es el enfoque más básico para la validación y se denomina validación retenida. Usaremos la med_diffmedida de precisión y la validación de espera en el próximo problema para evaluar la precisión de nuestro árbol de decisión.

En este problema, usaremos median_diffla pregunta anterior para validar el modelo de árbol de decisión. Su tarea es completar la validate_modelfunción.

La función debe dividir el featuresy targetsen subconjuntos de entrenamiento y prueba, como esta división 50:50 para features:

split = features.shape[0]//2
train_features = features[:split]
test_features = features[split:]
Luego, su función debe usar la división de entrenamiento ( train_featuresy train_targets) para entrenar el modelo.

Finalmente, debe medir la precisión del modelo utilizando median_diffen test_targetsy los corrimientos al rojo previstos de test_features.

La función debe tomar 3 argumentos:

model: el regresor del árbol de decisión;
features- el featurespara el conjunto de datos;
targets- El targetspara el conjunto de datos.
Sugerencia: ¡mantenga características y objetivos juntos!
Al dividir el featuresy targetstenga cuidado de asegurarse de que train_featurestengan el correcto train_targets, es decir, corresponde a etc. train_features[0]train_targets[0]

Pero, ¿cómo es realmente el árbol de decisiones?

Imagen del árbol de decisión
Visualización del árbol de decisión. Click para agrandar.
Puede ver cómo se toma la decisión en cada nodo, así como la cantidad de muestras que llegan a ese nodo. No veremos cómo hacer estos gráficos en el tutorial, pero puede descargar un script de demostración y datos para probar en casa.

La mediana de las diferencias de  
≈
0.02
 . Esto significa que la mitad de nuestras galaxias tienen un error en la predicción de  
<
0.02
 , lo cual es bastante bueno. Una de las razones por las que elegimos la mediana de las diferencias como nuestra medida de precisión es que brinda una representación justa de los errores, especialmente cuando la distribución de errores es sesgada. El siguiente gráfico muestra la distribución de residuos (diferencias) para nuestro modelo junto con la mediana y los valores intercuartílicos.

Distribución residual
Distribución residual. Click para agrandar.
Como puede ver, la distribución es muy sesgada. Nos hemos acercado aquí, pero la cola de la distribución llega hasta 6.

La cantidad de galaxias que usamos para entrenar el modelo tiene un gran impacto en la precisión de nuestras predicciones. Esto es lo mismo con la mayoría de los métodos de aprendizaje automático: cuantos más datos se entrenan, más precisa será su predicción.

Así es como cambia nuestra diferencia mediana con el tamaño del conjunto de entrenamiento:

Entrenando galaxias	median_diff
50	0.048
500	0.026
5000	0.023
50000	0.022
Comprender cómo cambia la precisión del modelo con el tamaño de la muestra es importante para comprender las limitaciones de nuestro modelo. Nos estamos acercando al límite de precisión del modelo de árbol de decisión (para nuestro problema de corrimiento al rojo) con un tamaño de muestra de entrenamiento de 25 000 galaxias.

La única forma en que podríamos mejorar aún más nuestro modelo sería usar más funciones. Esto podría incluir más índices de color o incluso los errores asociados con las magnitudes de flujo medidas.

Antes del aprendizaje automático, habríamos intentado resolver este problema con la regresión, mediante la construcción de un modelo empírico para predecir cómo varía la variable dependiente (corrimiento al rojo) con una o más variables independientes (los índices de color).

Una gráfica de cómo cambian los colores con el corrimiento al rojo nos dice que es una función bastante compleja, por ejemplo corrimiento al rojo versus : u - g

Desplazamiento al rojo frente a índice de color (ug)
Un enfoque sería construir un modelo de regresión no lineal de múltiples variables. Tal vez usando un ajuste de mínimos cuadrados para tratar de determinar los mejores parámetros de ajuste. El modelo sería bastante complejo; Según el gráfico anterior, una función de seno inversa amortiguada sería un buen punto de partida para dicho modelo.

Si bien podríamos probar este enfoque, la función sería demasiado compleja y no hay garantía de que produzca resultados muy prometedores. Otro enfoque sería trazar un gráfico de índice de color frente a índice de color utilizando una escala de color adicional para mostrar el corrimiento al rojo. La siguiente trama es un ejemplo de tal trama.

Gráfico de índice de color frente a índice de color frente a corrimiento al rojo
Muestra que obtenemos regiones razonablemente bien definidas donde los desplazamientos hacia el rojo son similares. Si tuviéramos que hacer un mapa de contorno de los desplazamientos al rojo en el índice de color frente al espacio del índice de color, podríamos obtener una estimación del desplazamiento al rojo para nuevos puntos de datos en función de una combinación de sus índices de color. Esto conduciría a estimaciones de corrimiento al rojo con importantes incertidumbres asociadas.

En el siguiente problema, volverá a crear el diagrama de índice de color frente a índice de color con corrimiento al rojo como barra de color.

Su tarea aquí es simplemente tratar de recrear la siguiente trama.

Gráfico de índice de color frente a índice de color frente a corrimiento al rojo
Debe usar el pyplotmódulo matplotlibque ya se ha importado y se puede acceder a través de plt. En particular, puede usar la función, con argumentos adicionales y . plt.scatter() s, ccmap

Estamos interesados ​​en los índices de color y . u-gr-i

Puede utilizar la función para mostrar el argumento de color de sus diagramas de dispersión ( ) en una barra de color al costado del diagrama. plt.colorbar()c

Asegúrese de implementar las etiquetas x e y y asigne un título a su gráfico.

trampas
Para que su gráfico funcione con colores, deberá configurar el parámetro opcional . Hay muchos puntos pequeños y, a menos que establezcamos el ancho de línea en cero, la línea que rodea cada punto bloqueará el punto en sí.lw=number

También debe especificar el tamaño de los puntos de su gráfico con los argumentos de llamada adicionales . Un lugar razonable para comenzar podría ser 1, pero vea cómo se ve.s=number

Comenzamos creando las tres matrices de datos que queremos usar en nuestro diagrama u_g, r_iy redshift​​.

Luego graficamos nuestros datos con...

plot = plt.scatter(u_g, r_i, s=0.5, lw=0, c=redshift, cmap=cmap)
Donde cmapestá el mapa de colores suministrado, especifica el grosor de los puntos, lw=0 establece el ancho de línea en cero para que no sature los puntos y establece el color de los puntos. Usamos el gráfico devuelto para agregar una barra de colores en la siguiente línea. s=0.5c=redshift

cb = plt.colorbar(plot)
Luego añadimos una etiqueta de barras de color con...

cb.set_label('Redshift')
El resto del código establece las etiquetas de los ejes x e y, así como el título. También establecemos límites en ambos ejes para enfocarnos en el área de interés.

Solución de muestra
col_col_redshift.py
import numpy as np
from matplotlib import pyplot as plt

# Complete the following to make the plot
if __name__ == "__main__":
    data = np.load('sdss_galaxy_colors_limz.npy')
    # Get a colour map
    cmap = plt.get_cmap('YlOrRd')

    # Define our colour indexes u-g and r-i
    u_g = data['u'] - data['g']
    r_i = data['r'] - data['i']

    # Make a redshift array
    redshift = data['redshift']

    # Create the plot with plt.scatter
    plot = plt.scatter(u_g, r_i, s=0.5, lw=0, c=redshift, cmap=cmap)

    cb = plt.colorbar(plot)
    cb.set_label('Redshift')

    # Define your axis labels and plot title
    plt.xlabel('Colour index  u-g')
    plt.ylabel('Colour index  r-i')
    plt.title('Redshift (colour) u-g versus r-i')

    # Set any axis limits
    plt.xlim(-0.5, 2.5)
    plt.ylim(-0.5, 1)

    plt.show()
import numpy as np
from matplotlib import pyplot as plt
​
# Complete the following to make the plot
if __name__ == "__main__":
    data = np.load('sdss_galaxy_colors_limz.npy')
    # Get a colour map
    cmap = plt.get_cmap('YlOrRd')
​
    # Define our colour indexes u-g and r-i
    u_g = data['u'] - data['g']
    r_i = data['r'] - data['i']
​
    # Make a redshift array
    redshift = data['redshift']
​
    # Create the plot with plt.scatter
    plot = plt.scatter(u_g, r_i, s=0.5, lw=0, c=redshift, cmap=cmap)
​
    cb = plt.colorbar(plot)
    cb.set_label('Redshift')
​
    # Define your axis labels and plot title
    plt.xlabel('Colour index  u-g')
    plt.ylabel('Colour index  r-i')
    plt.title('Redshift (colour) u-g versus r-i')
​
    # Set any axis limits
    plt.xlim(-0.5, 2.5)
    plt.ylim(-0.5, 1)
​
    plt.show()
    
Prueba esta solución

En esta actividad, implementamos algunos modelos de árboles de decisión para ayudar a predecir el desplazamiento hacia el rojo de las galaxias en función de sus índices de color medidos. Aprendimos que hay varias formas de evaluar la precisión del modelo y en nuestras validaciones usamos la mediana de los residuos.

Hablamos de cómo se podría abordar el problema sin el aprendizaje automático y descubrimos que no hay demasiado disponible que se pueda usar simplemente.

También aprendimos por qué necesitamos realizar una validación cruzada del modelo y que esto se hace dividiendo los datos en subconjuntos separados de entrenamiento y prueba. Veremos la validación cruzada de k-fold en el próximo tutorial; donde las pruebas y el entrenamiento se cambian para incluir varias combinaciones de subconjuntos separados.  
k
 
En el próximo tutorial también exploraremos cómo los árboles de decisión tienden a sobreajustar los datos.