# Análisis exploratorio de exoplanetas (NASA Exoplanet Archive)

Este análisis explora los datos de exoplanetas confirmados recopilados por la NASA.  
Incluye limpieza, análisis descriptivo y visualizaciones para comprender patrones y relaciones.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Configuramos estilo de gráficos
sns.set_theme(style="whitegrid")

# Cargar el dataset

Importamos el CSV descargado desde el NASA Exoplanet Archive.

In [None]:
df = pd.read_csv("data/tablaexoplanetasnasa.csv")

# Vista previa y estructura

Echamos un vistazo a las primeras filas y a la estructura general del dataframe.

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.describe()

# Valores nulos

Analizamos si hay datos faltantes para limpiar.

In [None]:
df.isnull().sum().sort_values(ascending=False)

# Análisis de variables clave
## 1. Distribución de masas planetarias (`pl_bmassj`)

Analizamos la columna de masas planetarias en concreto.

In [None]:
sns.histplot(df['pl_bmassj'].dropna(), kde=True)
plt.title("Distribución de masas planetarias (MJ)")
plt.xlabel("Masa (en masas de Júpiter)")
plt.show()

## 2. Frecuencia de métodos de descubrimiento

Vemos cuántos planetas se descubrieron con cada técnica.

In [None]:
sns.countplot(data=df, y='discoverymethod', order=df['discoverymethod'].value_counts().index)
plt.title("Métodos de descubrimiento de exoplanetas")
plt.tight_layout()
plt.show()

## 3. Relación entre período orbital (`pl_orbper`) y masa (`pl_bmassj`)

Analizamos si hay relación entre la amsa de un planeta y el tiempo que tarde en orbitar su estrella.

In [None]:
sns.scatterplot(data=df, x='pl_orbper', y='pl_bmassj', alpha=0.5)
plt.xscale('log')
plt.yscale('log')
plt.title("Masa vs Período orbital")
plt.xlabel("Período orbital (días)")
plt.ylabel("Masa (MJ)")
plt.show()

# Conclusiones preliminares

- La mayoría de los exoplanetas tienen masas inferiores a X MJ.
- El método de tránsito es el más común para descubrimientos recientes.
- Hay una correlación entre masa y período orbital en escala logarítmica.

# Limpieza y preprocesamiento

- Eliminamos filas que no tienen masa planetaria (`pl_bmassj`) porque es una variable clave.  
- Eliminamos columnas con más del 70% de valores nulos para mejorar calidad del análisis.  
- Esto reduce el dataset, pero mejora la calidad para análisis posteriores.

In [None]:
df_clean = df.dropna(subset=['pl_bmassj']).copy()
cols_to_drop = [col for col in df_clean.columns if df_clean[col].isnull().mean() > 0.7]
df_clean.drop(columns=cols_to_drop, inplace=True)

print(f"Filas originales: {len(df)}")
print(f"Filas tras limpieza: {len(df_clean)}")
print(f"Columnas eliminadas por muchos nulos: {cols_to_drop}")

## Análisis de correlaciones

Mapa de calor que muestra la correlación entre variables numéricas.
Valores cercanos a +-1 indican fuerte relación positiva o negativa.

In [None]:
num_df = df_clean.select_dtypes(include=[np.number])

plt.figure(figsize=(12,10))
sns.heatmap(num_df.corr(), annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Mapa de calor de correlaciones")
plt.show()

## Evolución temporal o descubrimientos

Número de exoplanetas descubiertos por año.

In [None]:
plt.figure(figsize=(14,6))
sns.countplot(x='disc_year', data=df_clean)
plt.xticks(rotation=90)
plt.title("Número de descubrimientos por año")
plt.show()

## Distribución de masa planetaria según método de descubrimiento

Comparación de la masa planetaria detectada según el método.

In [None]:
plt.figure(figsize=(14,7))
sns.boxplot(x='discoverymethod', y='pl_bmassj', data=df_clean)
plt.xticks(rotation=90)
plt.title("Distribución de masa por método de descubrimiento")
plt.show()