# Exploración de Datos

Este cuaderno se utiliza para explorar el conjunto de datos de clasificación de estrellas. Incluye visualizaciones y análisis descriptivos para entender mejor las características de los datos y las relaciones entre las variables.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de estilo para las visualizaciones
sns.set(style='whitegrid')

In [None]:
# Cargar el conjunto de datos
data_path = '../data/star_classification.csv'
df = pd.read_csv(data_path)

# Mostrar las primeras filas del conjunto de datos
df.head()

In [None]:
# Resumen estadístico del conjunto de datos
df.describe()

In [None]:
# Comprobar la cantidad de valores nulos en cada columna
df.isnull().sum()

In [None]:
# Visualización de la distribución de la temperatura
plt.figure(figsize=(10, 6))
sns.histplot(df['Temperature (K)'], bins=30, kde=True)
plt.title('Distribución de la Temperatura de las Estrellas')
plt.xlabel('Temperatura (K)')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Visualización de la relación entre la luminosidad y la temperatura
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='Temperature (K)', y='Luminosity (L/Lo)', hue='Star category', palette='viridis')
plt.title('Relación entre Temperatura y Luminosidad')
plt.xlabel('Temperatura (K)')
plt.ylabel('Luminosidad (L/Lo)')
plt.legend(title='Categoría de Estrella')
plt.show()

In [None]:
# Visualización de la matriz de correlación
plt.figure(figsize=(12, 8))
correlation_matrix = df.corr()
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', square=True)
plt.title('Matriz de Correlación entre Variables')
plt.show()