## Análisis exploratorio de datos
Para el ejercicio se utilizó el dataset hipparcos.voidmain.csv.
Este dataset muestra magnitudes de estrellas visualizadas con el satélite Hipparcos

In [None]:
# prompt: instalar tydiverse
%%R
install.packages("tidyverse")
library(tidyverse)


In [None]:
# prompt: crear eda con dataset hipparcos-voidmain.csv

# Cargar librerías necesarias
library(tidyverse)

# Cargar el conjunto de datos
# Asegúrate de que el archivo 'hipparcos-voidmain.csv' esté en tu directorio de trabajo
# o proporciona la ruta completa al archivo
data <- read.csv("hipparcos-voidmain.csv")

# Resumen estadístico de las variables numéricas
summary(data)

In [None]:
# Estructura del dataset
str(data)

In [None]:
# Dimensiones del dataset
dim(data)

In [None]:
# Primeras celdas del dataset
head(data)

In [None]:
#Nombres de las columnas
colnames(data)

In [None]:
# Buscar valores faltantes
colSums(is.na(data))

In [None]:
# Distibución de las variables principales
ggplot(data, aes(x = Plx)) +
  geom_histogram(bins = 30, fill = "blue", color = "black") +
  labs(title = "Distribución de Plx", x = "Plx (milisegundos de arco)", y = "Frecuencia")

In [None]:
# Distancia en parsecs
data <- data %>%
  mutate(
    Plx_arcsec = Plx / 1000,
    Distance_pc = 1 / Plx_arcsec
  )

In [None]:
# Gráfica de distancia
ggplot(data, aes(x = Distance_pc)) +
  geom_histogram(bins = 30, fill = "green", color = "black") +
  labs(title = "Distribución de Distancia (parsecs)", x = "Distancia (pc)", y = "Frecuencia") +
  xlim(0, 1000)  # Opcional, limitar el eje x

In [None]:
# 1. Limpieza rigurosa de datos
data_clean <- data %>%
  filter(
    Distance_pc > 0,         # Eliminar distancias inválidas
    !is.na(Distance_pc),     # Eliminar NA
    !is.na(Vmag),            # Eliminar NA
    abs(Vmag) < 30           # Filtrar magnitudes físicamente posibles
  )

# 2. Gráfico base con escalas ajustadas
plot <- ggplot(data_clean, aes(x = Distance_pc, y = Vmag)) +
  geom_point(alpha = 0.5, color = "steelblue") +  # Puntos transparentes
  scale_x_log10() +  # Escala logarítmica para distancias (opcional, si hay muchos órdenes de magnitud)
  labs(
    title = "Relación entre distancia y magnitud aparente",
    x = "Distancia (parsecs, pc)",
    y = "Magnitud aparente (Vmag)",
    caption = "Datos filtrados: Distance_pc > 0"
  ) +
  theme_minimal() +  # Diseño limpio
  theme(plot.title = element_text(hjust = 0.5))  # Centrar título

# 3. Añadir regresión opcional (si hay tendencia)
plot +
  geom_smooth(method = "lm", formula = y ~ log10(x), color = "#d7191c", se = FALSE)

# Guardar gráfico (opcional)
ggsave("magnitud_vs_distancia.png", width = 8, height = 6, dpi = 300)