# Clasificación de estrellas mediante algoritmos de ML.

En este notebook se aplican dos distintos algoritmos para resolver un problema de clasificación de estrellas.


Se hará uso del dataset "Star Type Classification / NASA"

obtenido de:
https://www.kaggle.com/datasets/brsdincer/star-type-classification?resource=download


El dataset contiene 240 registros con 7 atributos:
1. La temperatura "Temperature" (medida en Kelvin)
2. Luminosidad relativa "L", que da la razón de la Luminosidad de la estrella entre la Luminosidad media del sol (aprox.  3.828 x 10^26 Watts)
3. Radio relativo "R", la razón entre el radio de la estrella y el radio medio del Sol (aprox. 6.9551 x 10^8 m)
4. Magnitud Absoluta "A_M", que es una cantidad adimensional que indica el brillo aparente que tendría la estrella si se encontrara a una distancia de 10 parsecs o 32.6 años luz de distancia de la Tierra. Es una escala logarítmica inversa, por lo que entre más bajo sea el número, más brillante será la estrella.
5. Color
6. Clase espectral "Spectral_class"  
7. Tipo "Type", dividido en 5 categorías:

0 - Enana Roja |
1 - Enana Marrón |
2 - Enana Blanca |
3 - Secuencia Principal |
4 - Supergigante |
5 - Hipergigante

Las estrellas pueden ser clasificadas de acuerdo a su tipo espectral (la columna _type_ en el dataset). El tipo espectral es determinado de acuerdo a su luminosidad, temperatura tamaño y Magnitud Absoluta. El objetivo de este notebook es determinar el tipo espectral a partir de estas cuatro variables mediante dos métodos distintos.

# k-Nearest Neighbors

El primer algoritmo utilizado es k-Nearest Neighbors. La idea detrás de este método es asignar una categoría/etiqueta/label para cada instancia a partir de uno o más elementos ya clasificados (siendo el número de elementos el parámetro __k__ del algoritmo). Mediante una función de medida se asigna una distancia entre el elemento a evaluar y los k-vecinos más cercanos. El subconjunto de ellos que promedien la distancia más cercana determinará la etiqueta asignada al elemento en cuestión.


Haremos uso de una implementación del algoritmo que se encuentra dentro de sklearn. La función de medida es, en este caso, la distancia ecuclidiana.

In [None]:
#Primero Cargamos la información del dataset
import pandas as pd

stars = pd.read_csv("/content/Stars.csv")
#Veamos qué es lo que contiene el dataset:
stars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240 entries, 0 to 239
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Temperature     240 non-null    int64  
 1   L               240 non-null    float64
 2   R               240 non-null    float64
 3   A_M             240 non-null    float64
 4   Color           240 non-null    object 
 5   Spectral_Class  240 non-null    object 
 6   Type            240 non-null    int64  
dtypes: float64(3), int64(2), object(2)
memory usage: 13.2+ KB


In [None]:
#Mostrando los primeros 5 primeros registros del dataset
stars.head(5)

Unnamed: 0,Temperature,L,R,A_M,Color,Spectral_Class,Type
0,3068,0.0024,0.17,16.12,Red,M,0
1,3042,0.0005,0.1542,16.6,Red,M,0
2,2600,0.0003,0.102,18.7,Red,M,0
3,2800,0.0002,0.16,16.65,Red,M,0
4,1939,0.000138,0.103,20.06,Red,M,0


In [None]:
#creamos el training set y test set
from sklearn.model_selection import train_test_split

#Extraemos los atributos que usaremos (X) y las etiquetas respectivas. (y)
X = stars.filter(["Temperature", "L", "R", "A_M"], axis = 1)
y = stars["Type"]
#Creamos los sets de entrenamiento y test (80% para entrenamiento y 20% para el test)
X_train_set, X_test_set = train_test_split(X, test_size = .2, random_state = 14)
y_train_set, y_test_set = train_test_split(y, test_size = .2, random_state = 14)

In [None]:
# Creamos el clasificador
from sklearn.neighbors import KNeighborsClassifier

knn_csf = KNeighborsClassifier(n_neighbors=5)
knn_csf.fit(X_train_set, y_train_set)

KNeighborsClassifier()

In [None]:
# Mostramos las predicciones para el test de prueba
y_pred_set = knn_csf.predict(X_test_set)
print(y_pred_set)



[1 5 2 0 2 4 0 4 2 5 3 0 0 4 2 0 5 0 2 2 5 2 5 5 4 2 3 5 1 0 5 0 1 1 0 0 4
 0 5 2 5 0 2 0 2 1 5 1]


In [None]:
#Para evaluar la precisión del modelo vamos a comparar su predicción con las etiquetas de prueba con
#la función accuracy_score, que nos indica el porcentaje de aciertos del clasificador.
from sklearn import metrics

print("Precisión:",metrics.accuracy_score(y_test_set, y_pred_set))

Precisión: 0.7291666666666666


Mediante knn hemos obtenido una precisión del 72.91%

# Random Forest

El segundo algoritmo que vamos a usar es __Random Forest__, que es un algoritmo de tipo __ensemble learning__. La idea detrás de random forest es usar una colección de ___arboles de decisión__ al conjunto de prueba para realizar el entrenamiento.

Su funcionamiento consiste en aplicar una colección de __arboles de decisión__ al conjunto test para realizar el entrenamiento.

Haremos uso de la implementación de RandomForestClassifier que se encuentra dentro de sklearn

In [None]:
from sklearn.ensemble import RandomForestClassifier

#Creamos un bosque aleatorio que contenga 15 árboles de decisión y lo entrenamos
forest_csf = RandomForestClassifier(n_estimators = 10, max_depth=5, random_state=14)
forest_csf.fit(X_train_set, y_train_set)
#Obtenemos las predicciones para el conjunto de prueba
y_forest_pred = forest_csf.predict(X_test_set)
print(y_forest_pred)
#Medimos la precisión de nuestra predicción usando la misma métrica en el caso anterior.
precision = metrics.accuracy_score(y_test_set, y_forest_pred)
print("Precisión: ", precision)

[0 4 2 0 3 5 0 4 2 4 3 0 0 4 2 1 5 1 2 3 4 2 5 5 4 2 3 5 1 1 4 0 1 1 0 0 4
 0 5 2 5 0 2 1 2 1 4 1]
Precisión:  1.0


Sin embargo, notamos que al medir la precisión con el mismo método usado para k-Nearest Neighbors, obtenemos un valor del 100%, lo cual abre la posibilidad de que el modelo este sobreajustado. Vamos a utilizar un método de validación cruzada para cuantificar mejor la precisión de nuestro algoritmo basado en el _muestreo estratificado_. La idea es crear subconjuntos homogéneos del conjunto de entrenamiento que sean representativos del conjunto en su totalidad en cuanto al número de instancias de cada clase. Para ello, usaremos la función cross_val_score de sklearn. Con esto podremos propagar la incertidumbre para obtener la precisión promedio y desviación estándar.

Haremos uso de la implementación cross_val_score, también contenida en sklear.

In [None]:
from sklearn.model_selection import cross_val_score
from numpy import sqrt

#Implementamos validación cruzada, el parámetro cv define el total de estratos (establecimos 8 en este caso)
scores = cross_val_score(forest_csf, X_train_set, y_train_set, scoring="accuracy", cv=8)
print("Precisión promedio: ", scores.mean())
print("Desviación estándar: ", scores.std())


Precisión promedio:  0.9947916666666667
Desviación estándar:  0.013779954745128064


Hemos calculado que con Random Forest obtenemos una precisión del 99.47% ± 1.37%, que continua siendo una precisión notablemente alta.


# Conclusiones.

El problema de clasificación de estrellas no es, por diseño, tan dificil de implementar. A final de cuentas la clase a la cuál pertenece una estrella está definida por sus características espectrales, por lo que no es de extrañar que un modelo de aprendizaje automático entrenado con los datos de estrellas ya clasificadas pueda identificar con faciliad a cualquier conjunto de estrellas que se le presente, siempre y cuando los datos de entrenamiento sean numerosos y de calidad.


El segundo método parece indicar que existe un overfitting del algoritmo con los datos de entrenamiento, pero la baja desviación estándar es consistente con la exactitud esperada de este método para un problema de naturaleza, relativamente, sencilla.


En el primer caso el margen de error fue mayor, pero esto es atribuible a la naturaleza del algoritmo knn. Es probable que con un mayor número de datos de entrenamiento el resultado final habría sido más refinado y consistente con lo obtenido por el bosque aleatorio.
