# Para el Dataset de KOI

This dataset is a comprehensive list of all confirmed exoplanets, planetary candidates, and false positives determined on all the transits captured by Kepler. Utilizing the variables in this labeled dataset could make for a solid method of performing supervised learning from different variables in the dataset. See column “Disposition Using Kepler Data” for classification.

In [9]:
with open(data_path, "r") as f:
    for i in range(5):
        print(f.readline())

# This file was produced by the NASA Exoplanet Archive  http://exoplanetarchive.ipac.caltech.edu

# Wed Oct  1 11:42:42 2025

#

# User preference: *

#



In [10]:
import pandas as pd

data_path = "../Data/cumulative_2025.10.01_11.42.42.csv"

# Intentar con distintos separadores
try:
    df = pd.read_csv(data_path, sep=",", low_memory=False)
except:
    try:
        df = pd.read_csv(data_path, sep="\t", low_memory=False)
    except:
        df = pd.read_csv(data_path, sep=";", low_memory=False)

# 1. Dimensiones
print("Dimensiones del dataset:", df.shape)

# 2. Primeras filas
print("\nPrimeras filas del dataset:")
print(df.head())

# 3. Información del dataset
print("\nInformación del dataset:")
print(df.info())

# 4. Valores nulos
print("\nValores nulos por columna:")
print(df.isnull().sum())

# 5. Porcentaje de nulos
print("\nPorcentaje de nulos por columna:")
print((df.isnull().mean() * 100).round(2))

# 6. Estadísticas descriptivas
print("\nEstadísticas descriptivas:")
print(df.describe())

Dimensiones del dataset: (9710, 1)

Primeras filas del dataset:
  # This file was produced by the NASA Exoplanet Archive  http://exoplanetarchive.ipac.caltech.edu
0                         # Wed Oct  1 11:42:42 2025                                              
1                                                  #                                              
2                               # User preference: *                                              
3                                                  #                                              
4                     # COLUMN kepid:          KepID                                              

Información del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9710 entries, 0 to 9709
Data columns (total 1 columns):
 #   Column                                                                                            Non-Null Count  Dtype 
---  ------                                                                         

Correción!:

In [None]:
# Lo haremos bien, pandas el archivo no es un CSV directo, sino que 
# viene con un montón de metadatos y comentarios al inicio (líneas que empiezan con #).
# Por eso, Pandas lo está leyendo todo como una sola columna, 
# en lugar de reconocer las columnas de datos.

import pandas as pd

data_path = "../Data/cumulative_2025.10.01_11.42.42.csv"

# Cargar dataset ignorando las líneas de comentarios
df = pd.read_csv(data_path, comment="#")

print("Dimensiones del dataset:", df.shape)

print("\nColumnas:")
print(df.columns)

print("\nPrimeras filas:")
print(df.head())

print("\nInformación general:")
print(df.info())

print("\nValores nulos por columna:")
print(df.isnull().sum().sort_values(ascending=False).head(10))  # Top 10 con más nulos

print("\nPorcentaje de nulos por columna:")
print((df.isnull().mean() * 100).round(2).sort_values(ascending=False).head(10))

print("\nEstadísticas descriptivas:")
print(df.describe(include="all"))

Dimensiones del dataset: (9564, 141)

Columnas:
Index(['rowid', 'kepid', 'kepoi_name', 'kepler_name', 'koi_disposition',
       'koi_vet_stat', 'koi_vet_date', 'koi_pdisposition', 'koi_score',
       'koi_fpflag_nt',
       ...
       'koi_dicco_mdec', 'koi_dicco_mdec_err', 'koi_dicco_msky',
       'koi_dicco_msky_err', 'koi_dikco_mra', 'koi_dikco_mra_err',
       'koi_dikco_mdec', 'koi_dikco_mdec_err', 'koi_dikco_msky',
       'koi_dikco_msky_err'],
      dtype='object', length=141)

Primeras filas:
   rowid     kepid kepoi_name   kepler_name koi_disposition koi_vet_stat  \
0      1  10797460  K00752.01  Kepler-227 b       CONFIRMED         Done   
1      2  10797460  K00752.02  Kepler-227 c       CONFIRMED         Done   
2      3  10811496  K00753.01           NaN       CANDIDATE         Done   
3      4  10848459  K00754.01           NaN  FALSE POSITIVE         Done   
4      5  10854555  K00755.01  Kepler-664 b       CONFIRMED         Done   

  koi_vet_date koi_pdisposition  koi_

In [12]:
# Determinemos cosas en base a los datos nulos
# Para eso: ordenaremos columnas por porcentaje de valores nulos
nulls = (df.isnull().mean() * 100).sort_values(ascending=False)

print("\nTop 20 columnas con más valores nulos:")
print(nulls.head(20))

print("\nColumnas completamente llenas (sin nulos):")
print(nulls[nulls == 0].index.tolist())


Top 20 columnas con más valores nulos:
koi_incl_err1       100.000000
koi_sma_err2        100.000000
koi_sma_err1        100.000000
koi_teq_err1        100.000000
koi_teq_err2        100.000000
koi_longp_err2      100.000000
koi_ingress         100.000000
koi_ingress_err2    100.000000
koi_ingress_err1    100.000000
koi_longp_err1      100.000000
koi_longp           100.000000
koi_eccen_err2      100.000000
koi_eccen_err1      100.000000
koi_sage_err1       100.000000
koi_sage_err2       100.000000
koi_sage            100.000000
koi_model_dof       100.000000
koi_model_chisq     100.000000
koi_incl_err2       100.000000
kepler_name          71.277708
dtype: float64

Columnas completamente llenas (sin nulos):
['rowid', 'kepid', 'kepoi_name', 'koi_vet_stat', 'koi_disposition', 'koi_fpflag_ec', 'koi_fpflag_co', 'koi_fpflag_ss', 'koi_fpflag_nt', 'koi_pdisposition', 'koi_vet_date', 'koi_period', 'koi_duration', 'koi_count', 'koi_parm_prov', 'koi_fittype', 'koi_time0bk', 'koi_time0', 'koi_d

## De aquí podemos decir que: 

### Columnas problemáticas:

Hay muchísimas columnas con 100% de nulos (koi_incl_err1, koi_sma_err1/2, koi_teq_err1/2, koi_longp, koi_eccen_err1/2, koi_sage, koi_model_dof, etc.). Esas columnas son inservibles para el modelado → podemos descartarlas de inmediato.


### Columnas útiles (0% nulos, completas):

Estas son muy buenas candidatas:

*Identificadores:* rowid, kepid, kepoi_name → no aportan nada predictivo, así que se descartan.

*Labels / targets:*

1. koi_disposition (target principal).

2. koi_pdisposition (clasificación preliminar, útil para comparar).

3. Flags: koi_fpflag_ec, koi_fpflag_co, koi_fpflag_ss, koi_fpflag_nt → indicadores booleanos muy relevantes.

*Orbitales y físicos clave:*

1. koi_period (período orbital).

2. koi_duration (duración del tránsito).

3. koi_time0bk, koi_time0 (época del tránsito, quizás menos útiles, pero podrían ayudar).

4. ra, dec (coordenadas celestes, más informativo para localización, no tanto para clasificación).

5. Extras: koi_vet_stat, koi_vet_date, koi_disp_prov, koi_count, koi_parm_prov, koi_fittype → más metadatos del proceso de validación.


## En base a esto, procedemos de la siguiente manera: 

Podemos ahora dividir las columnas en tres grupos:

### Target

koi_disposition, porque es lo que queremos predecir.

### Features candidatas (input del modelo)

1. Físicas: koi_period, koi_duration, koi_prad, koi_teq, koi_insol, koi_srad, koi_steff, koi_depth, koi_model_snr.

2. Flags: koi_fpflag_nt, koi_fpflag_ss, koi_fpflag_co, koi_fpflag_ec.

3. Score: koi_score.

### Descartables (de entrada):

1. Identificadores (rowid, kepid, kepoi_name).
2. Columnas con 100% nulos.
3. Fechas (koi_vet_date) y cosas administrativas (koi_parm_prov, koi_disp_prov), salvo que quieras usarlas para auditoría.

In [13]:
# Vamos a limpiar el dataset y quedarnos con las features útiles + target:

# Eliminar columnas con 100% nulos
df_clean = df.dropna(axis=1, how="all")

# Eliminar columnas de identificadores
drop_cols = ["rowid", "kepid", "kepoi_name", "kepler_name"]
df_clean = df_clean.drop(columns=[c for c in drop_cols if c in df_clean.columns])

# Mantener target y features candidatas
target = "koi_disposition"

features = [
    "koi_period", "koi_duration", "koi_prad", "koi_teq", "koi_insol",
    "koi_srad", "koi_steff", "koi_depth", "koi_model_snr", "koi_score",
    "koi_fpflag_nt", "koi_fpflag_ss", "koi_fpflag_co", "koi_fpflag_ec"
]

df_model = df_clean[[c for c in features if c in df_clean.columns] + [target]]

print("Dimensiones del dataset limpio:", df_model.shape)
print("Columnas seleccionadas:")
print(df_model.columns)
print("\nValores nulos restantes:")
print(df_model.isnull().sum())

Dimensiones del dataset limpio: (9564, 15)
Columnas seleccionadas:
Index(['koi_period', 'koi_duration', 'koi_prad', 'koi_teq', 'koi_insol',
       'koi_srad', 'koi_steff', 'koi_depth', 'koi_model_snr', 'koi_score',
       'koi_fpflag_nt', 'koi_fpflag_ss', 'koi_fpflag_co', 'koi_fpflag_ec',
       'koi_disposition'],
      dtype='object')

Valores nulos restantes:
koi_period            0
koi_duration          0
koi_prad            363
koi_teq             363
koi_insol           321
koi_srad            363
koi_steff           363
koi_depth           363
koi_model_snr       363
koi_score          1510
koi_fpflag_nt         0
koi_fpflag_ss         0
koi_fpflag_co         0
koi_fpflag_ec         0
koi_disposition       0
dtype: int64


In [14]:
# Ahora vamos a guardar el dataset limpio en un nuevo archivo CSV

import os

# Ruta de la nueva carpeta
output_dir = "../FilteredData"
os.makedirs(output_dir, exist_ok=True)

# Ruta completa del archivo
output_path = os.path.join(output_dir, "KOI_Filtrated.csv")

# Guardar CSV
df_model.to_csv(output_path, index=False)

print(f"Archivo guardado en: {output_path}")


Archivo guardado en: ../FilteredData/KOI_Filtrated.csv


Hold on! Vamos a aplicar imputers también a los datos nulos de las columnas seleccionadas. No todas tienen datos nulos. Esto va para los que las tienen :D

In [15]:
import pandas as pd
import numpy as np
import os
from sklearn.experimental import enable_iterative_imputer  # Necesario para habilitar
from sklearn.impute import IterativeImputer

# Ruta del dataset filtrado de KOI
data_path = "../FilteredData/KOI_Filtrated.csv"
df_koi = pd.read_csv(data_path)

# Separar target de features
target = "koi_disposition"
features = [col for col in df_koi.columns if col != target]

X = df_koi[features]
y = df_koi[target]

# Crear columnas binarias indicando si un valor estaba ausente
missing_indicators = pd.DataFrame(
    {f"{col}_was_missing": X[col].isnull().astype(int) for col in X.columns}
)

# Aplicar Iterative Imputer
imputer = IterativeImputer(random_state=42, max_iter=10, n_nearest_features=None, sample_posterior=False)
X_imputed = imputer.fit_transform(X)

# Reconstruir DataFrame imputado
X_imputed_df = pd.DataFrame(X_imputed, columns=features)

# Concatenar indicadores de missing + target
df_koi_imputed = pd.concat([X_imputed_df, missing_indicators, y], axis=1)

# Crear carpeta FilteredData si no existe
output_dir = "../FilteredData"
os.makedirs(output_dir, exist_ok=True)

# Guardar dataset imputado
output_path = os.path.join(output_dir, "KOIFiltrated_imputed_iterative.csv")
df_koi_imputed.to_csv(output_path, index=False)

print(f"✅ Dataset imputado de KOI guardado en: {output_path}")
print("Dimensiones finales:", df_koi_imputed.shape)
print("Columnas finales:", df_koi_imputed.columns.tolist())

✅ Dataset imputado de KOI guardado en: ../FilteredData/KOIFiltrated_imputed_iterative.csv
Dimensiones finales: (9564, 29)
Columnas finales: ['koi_period', 'koi_duration', 'koi_prad', 'koi_teq', 'koi_insol', 'koi_srad', 'koi_steff', 'koi_depth', 'koi_model_snr', 'koi_score', 'koi_fpflag_nt', 'koi_fpflag_ss', 'koi_fpflag_co', 'koi_fpflag_ec', 'koi_period_was_missing', 'koi_duration_was_missing', 'koi_prad_was_missing', 'koi_teq_was_missing', 'koi_insol_was_missing', 'koi_srad_was_missing', 'koi_steff_was_missing', 'koi_depth_was_missing', 'koi_model_snr_was_missing', 'koi_score_was_missing', 'koi_fpflag_nt_was_missing', 'koi_fpflag_ss_was_missing', 'koi_fpflag_co_was_missing', 'koi_fpflag_ec_was_missing', 'koi_disposition']


In [16]:
# Guardemos el joblib del imputador para uso futuro o análisis futuro
import joblib

# Guardar el imputador entrenado
imputer_path = "../FilteredData/koi_iterative_imputer.joblib"
joblib.dump(imputer, imputer_path)

print(f"✅ Imputador guardado en: {imputer_path}")


✅ Imputador guardado en: ../FilteredData/koi_iterative_imputer.joblib


In [17]:
# Examinando lo que dio ese dataset imputado
import pandas as pd

# Ruta del dataset imputado
data_path = "../FilteredData/KOIFiltrated_imputed_iterative.csv"

# Cargar el dataset
df_koi_imputed = pd.read_csv(data_path)

# Verificar dimensiones y columnas
print("Dimensiones del dataset imputado:", df_koi_imputed.shape)
print("\nColumnas:")
print(df_koi_imputed.columns.tolist())

# Revisar valores nulos por columna
print("\nValores nulos por columna:")
print(df_koi_imputed.isnull().sum())

# Porcentaje de nulos
print("\nPorcentaje de nulos por columna:")
print((df_koi_imputed.isnull().mean() * 100).round(2))


Dimensiones del dataset imputado: (9564, 29)

Columnas:
['koi_period', 'koi_duration', 'koi_prad', 'koi_teq', 'koi_insol', 'koi_srad', 'koi_steff', 'koi_depth', 'koi_model_snr', 'koi_score', 'koi_fpflag_nt', 'koi_fpflag_ss', 'koi_fpflag_co', 'koi_fpflag_ec', 'koi_period_was_missing', 'koi_duration_was_missing', 'koi_prad_was_missing', 'koi_teq_was_missing', 'koi_insol_was_missing', 'koi_srad_was_missing', 'koi_steff_was_missing', 'koi_depth_was_missing', 'koi_model_snr_was_missing', 'koi_score_was_missing', 'koi_fpflag_nt_was_missing', 'koi_fpflag_ss_was_missing', 'koi_fpflag_co_was_missing', 'koi_fpflag_ec_was_missing', 'koi_disposition']

Valores nulos por columna:
koi_period                   0
koi_duration                 0
koi_prad                     0
koi_teq                      0
koi_insol                    0
koi_srad                     0
koi_steff                    0
koi_depth                    0
koi_model_snr                0
koi_score                    0
koi_fpflag_nt 

In [18]:
# Listo! ahora vamos a descargar el dataset KOI_All_Filtrated.csv 
# que ignorará las columnas de indicadores de missing

import pandas as pd
import os

# Ruta del dataset imputado
data_path = "../FilteredData/KOIFiltrated_imputed_iterative.csv"

# Cargar dataset
df_koi = pd.read_csv(data_path)

# Filtrar columnas (quitar las *_was_missing)
cols_final = [col for col in df_koi.columns if not col.endswith("_was_missing")]

df_koi_clean = df_koi[cols_final]

# Crear carpeta de salida
output_dir = "../FilteredData"
os.makedirs(output_dir, exist_ok=True)

# Guardar dataset limpio
output_path = os.path.join(output_dir, "KOI_All_Filtrated.csv")
df_koi_clean.to_csv(output_path, index=False)

print(f"✅ Dataset limpio guardado en: {output_path}")
print("Dimensiones finales:", df_koi_clean.shape)
print("Columnas finales:", df_koi_clean.columns.tolist())

✅ Dataset limpio guardado en: ../FilteredData/KOI_All_Filtrated.csv
Dimensiones finales: (9564, 15)
Columnas finales: ['koi_period', 'koi_duration', 'koi_prad', 'koi_teq', 'koi_insol', 'koi_srad', 'koi_steff', 'koi_depth', 'koi_model_snr', 'koi_score', 'koi_fpflag_nt', 'koi_fpflag_ss', 'koi_fpflag_co', 'koi_fpflag_ec', 'koi_disposition']


# Para el dataset K2

This dataset is a comprehensive list of all confirmed exoplanets, planetary candidates, and false positives determined on all the transits captured by the K2 mission. See the “Archive Disposition” column for classification.

In [1]:
# Celda 1: ver las primeras 40 líneas del archivo (inspección manual)
path = "../Data/k2pandc_2025.10.01_11.47.26.csv"
with open(path, "r", encoding="utf-8", errors="replace") as f:
    for i, line in enumerate(f):
        print(line.rstrip())
        if i >= 39:
            break

# This file was produced by the NASA Exoplanet Archive  http://exoplanetarchive.ipac.caltech.edu
# Wed Oct  1 11:47:26 2025
#
# User preference: *
#
# COLUMN pl_name:        Planet Name
# COLUMN hostname:       Host Name
# COLUMN pl_letter:      Planet Letter
# COLUMN k2_name:        K2 ID
# COLUMN epic_hostname:  EPIC HOST ID
# COLUMN epic_candname:  EPIC CANDIDATE ID
# COLUMN hd_name:        HD ID
# COLUMN hip_name:       HIP ID
# COLUMN tic_id:         TIC ID
# COLUMN gaia_id:        GAIA ID
# COLUMN default_flag:   Default Parameter Set
# COLUMN disposition:    Archive Disposition
# COLUMN disp_refname:   Archive Disposition Reference
# COLUMN sy_snum:        Number of Stars
# COLUMN sy_pnum:        Number of Planets
# COLUMN sy_mnum:        Number of Moons
# COLUMN cb_flag:        Circumbinary Flag
# COLUMN discoverymethod: Discovery Method
# COLUMN disc_year:      Discovery Year
# COLUMN disc_refname:   Discovery Reference
# COLUMN disc_pubdate:   Discovery Publication Date
# COL

In [3]:
# Celda 2: cargando el CSV en pandas (ignorando líneas comentadas con #)
import pandas as pd

path = "../Data/k2pandc_2025.10.01_11.47.26.csv"

df_k2 = pd.read_csv(path, comment="#", low_memory=False)

print("Dimensiones del dataset:", df_k2.shape)
print("Número de columnas:", len(df_k2.columns))

# Mostrar las primeras 60 columnas para darnos una idea
print("\nPrimeras 60 columnas:")
print(df_k2.columns.tolist()[:60])

Dimensiones del dataset: (4004, 295)
Número de columnas: 295

Primeras 60 columnas:
['rowid', 'pl_name', 'hostname', 'pl_letter', 'k2_name', 'epic_hostname', 'epic_candname', 'hd_name', 'hip_name', 'tic_id', 'gaia_id', 'default_flag', 'disposition', 'disp_refname', 'sy_snum', 'sy_pnum', 'sy_mnum', 'cb_flag', 'discoverymethod', 'disc_year', 'disc_refname', 'disc_pubdate', 'disc_locale', 'disc_facility', 'disc_telescope', 'disc_instrument', 'rv_flag', 'pul_flag', 'ptv_flag', 'tran_flag', 'ast_flag', 'obm_flag', 'micro_flag', 'etv_flag', 'ima_flag', 'dkin_flag', 'soltype', 'pl_controv_flag', 'pl_refname', 'pl_orbper', 'pl_orbpererr1', 'pl_orbpererr2', 'pl_orbperlim', 'pl_orbsmax', 'pl_orbsmaxerr1', 'pl_orbsmaxerr2', 'pl_orbsmaxlim', 'pl_rade', 'pl_radeerr1', 'pl_radeerr2', 'pl_radelim', 'pl_radj', 'pl_radjerr1', 'pl_radjerr2', 'pl_radjlim', 'pl_masse', 'pl_masseerr1', 'pl_masseerr2', 'pl_masselim', 'pl_massj']


In [9]:
# Veamos todas las columnas del dataset K2!
all_columns = df_k2.columns.tolist()

print(f"Total de columnas: {len(all_columns)}\n")
for i, col in enumerate(all_columns, start=1):
    print(f"{i:3d}. {col}")

Total de columnas: 295

  1. rowid
  2. pl_name
  3. hostname
  4. pl_letter
  5. k2_name
  6. epic_hostname
  7. epic_candname
  8. hd_name
  9. hip_name
 10. tic_id
 11. gaia_id
 12. default_flag
 13. disposition
 14. disp_refname
 15. sy_snum
 16. sy_pnum
 17. sy_mnum
 18. cb_flag
 19. discoverymethod
 20. disc_year
 21. disc_refname
 22. disc_pubdate
 23. disc_locale
 24. disc_facility
 25. disc_telescope
 26. disc_instrument
 27. rv_flag
 28. pul_flag
 29. ptv_flag
 30. tran_flag
 31. ast_flag
 32. obm_flag
 33. micro_flag
 34. etv_flag
 35. ima_flag
 36. dkin_flag
 37. soltype
 38. pl_controv_flag
 39. pl_refname
 40. pl_orbper
 41. pl_orbpererr1
 42. pl_orbpererr2
 43. pl_orbperlim
 44. pl_orbsmax
 45. pl_orbsmaxerr1
 46. pl_orbsmaxerr2
 47. pl_orbsmaxlim
 48. pl_rade
 49. pl_radeerr1
 50. pl_radeerr2
 51. pl_radelim
 52. pl_radj
 53. pl_radjerr1
 54. pl_radjerr2
 55. pl_radjlim
 56. pl_masse
 57. pl_masseerr1
 58. pl_masseerr2
 59. pl_masselim
 60. pl_massj
 61. pl_massjerr1
 6

In [11]:
# Total de nulos por columna
null_counts = df_k2.isnull().sum()

# Porcentaje de nulos por columna
null_percentage = (null_counts / len(df_k2)) * 100

# Combinar en un dataframe ordenado
null_summary = pd.DataFrame({
    'Nulos': null_counts,
    'Porcentaje (%)': null_percentage
}).sort_values(by='Porcentaje (%)', ascending=False)

# Mostrar todas las columnas con nulos
null_summary


Unnamed: 0,Nulos,Porcentaje (%)
pl_occdeperr1,4004,100.0
sy_kepmagerr2,4004,100.0
sy_icmagerr1,4004,100.0
sy_kepmagerr1,4004,100.0
sy_icmag,4004,100.0
...,...,...
rowid,0,0.0
default_flag,0,0.0
hostname,0,0.0
disposition,0,0.0


In [13]:
# Veamos el resumen de nulos en todas las columnas
null_counts = df_k2.isnull().sum()
null_percentage = (null_counts / len(df_k2)) * 100

null_summary = pd.DataFrame({
    'Nulos': null_counts,
    'Porcentaje (%)': null_percentage.round(2)
}).sort_values(by='Porcentaje (%)', ascending=False)

# Mostrar todas las filas sin truncar
pd.set_option("display.max_rows", None)
null_summary

Unnamed: 0,Nulos,Porcentaje (%)
pl_occdeperr1,4004,100.0
sy_kepmagerr2,4004,100.0
sy_icmagerr1,4004,100.0
sy_kepmagerr1,4004,100.0
sy_icmag,4004,100.0
pl_occdeperr2,4004,100.0
sy_icmagerr2,4004,100.0
pl_occdeplim,4003,99.98
pl_occdep,4003,99.98
pl_trueobliq,3994,99.75


Ya con la definición de columnas de K2 Planets and Candidates Table y la exploración de nulos, podemos quedarnos con las variables más relevantes científicamente y con baja cantidad de nulos para que sirvan en un modelo de clasificación (ej. distinguir entre CONFIRMED, CANDIDATE, FALSE POSITIVE).

Propongo este set de columnas importantes, basado en la documentación de los datos de K2 Planets and Candidates Table.

*Target / Etiqueta*

1. disposition → clasificación (CONFIRMED / CANDIDATE / FALSE POSITIVE)

*Parámetros orbitales del planeta*

1. pl_orbper → período orbital [días]

2. pl_trandur → duración del tránsito [horas]

3. pl_trandep → profundidad del tránsito [%]

4. pl_rade → radio planetario (en radios terrestres)

5. pl_radj → radio planetario (en radios de Júpiter, útil para gas giants)

6. pl_insol → insolación (en unidades de la Tierra)

7. pl_eqt → temperatura de equilibrio [K]

8. pl_orbsmax → semieje mayor [au]


*Características de la estrella anfitriona*

1. st_teff → temperatura efectiva de la estrella [K]

2. st_rad → radio estelar [R☉]

3. st_mass → masa estelar [M☉]

4. st_logg → gravedad superficial estelar

5. st_met → metalicidad [dex]


*Composición del sistema*

1. sy_pnum → número de planetas

2. sy_snum → número de estrellas

Estas columnas aparecen con definiciones científicas claras y, aunque algunas tienen un porcentaje de nulos moderado, la mayoría conserva datos suficientes para modelar.

In [21]:
import pandas as pd

# Ruta al dataset K2
data_path = "../Data/k2pandc_2025.10.01_11.47.26.csv"

# Cargar dataset (skiprows porque trae encabezados de comentarios con '#')
df_k2 = pd.read_csv(data_path, comment='#')

# Selección de columnas importantes
features = [
    "pl_orbper", "pl_trandur", "pl_trandep", "pl_rade", "pl_radj",
    "pl_insol", "pl_eqt", "pl_orbsmax",
    "st_teff", "st_rad", "st_mass", "st_logg", "st_met",
    "sy_pnum", "sy_snum",
    "disposition"
]

# Crear dataset filtrado solo con columnas que existan en el archivo
df_k2_filtered = df_k2[[c for c in features if c in df_k2.columns]]

print("Dimensiones del dataset filtrado:", df_k2_filtered.shape)
print("Columnas seleccionadas:")
print(df_k2_filtered.columns)

# Ver resumen de nulos
print("\nValores nulos por columna:")
print(df_k2_filtered.isnull().sum())


Dimensiones del dataset filtrado: (4004, 16)
Columnas seleccionadas:
Index(['pl_orbper', 'pl_trandur', 'pl_trandep', 'pl_rade', 'pl_radj',
       'pl_insol', 'pl_eqt', 'pl_orbsmax', 'st_teff', 'st_rad', 'st_mass',
       'st_logg', 'st_met', 'sy_pnum', 'sy_snum', 'disposition'],
      dtype='object')

Valores nulos por columna:
pl_orbper        67
pl_trandur     1237
pl_trandep     1919
pl_rade         845
pl_radj         845
pl_insol       3375
pl_eqt         3159
pl_orbsmax     3192
st_teff        1127
st_rad          148
st_mass        1915
st_logg        1657
st_met         2313
sy_pnum          17
sy_snum          17
disposition       0
dtype: int64


Uhm, hay demasiados nulos en muchos de los datos... que fuerte, pensemos: en K2 la cobertura de datos es mucho más pobre que en el catálogo de Kepler clásico. Eso es normal porque K2 tuvo menos campañas, menos precisión y muchas de sus detecciones se validaron con datasets externos.

Veamos lo que muestran tus nulos:

Variables críticas con >75% nulos

pl_insol → 84%

pl_eqt → 79%

pl_orbsmax → 79%

st_met → 58%

st_mass → 47%

st_logg → 41%

pl_trandur → 30%

pl_trandep → 47%

Variables aceptables (<30% nulos o casi completas)

pl_orbper → solo 1.6% nulos 

pl_rade → 21%

pl_radj → 21%

st_rad → 3.7% 

st_teff → 28%

sy_pnum / sy_snum → casi completos


Con esto, hay tres estrategias posibles:

Minimalista (seguro pero pocos features):
Conservar solo lo más completo →
pl_orbper, pl_rade, pl_radj, st_rad, st_teff, sy_pnum, sy_snum, disposition.
Eso daría ~8 columnas con relativamente buena cobertura.

Balanceado (mantener algo de física extra):
Conservar también st_mass, st_logg, pl_trandur, pl_trandep.
Aunque aumentan los nulos, son muy relevantes para caracterización.
Aquí ya podríamos plantear imputación (ej. con medianas o modelos).

Completo (arriesgado):
Mantener todas las que seleccionamos antes y luego decidir estrategias de imputación avanzada. Pero se perderían muchísimos registros si hacemos dropna().

Vamos por el balanceado!

In [22]:
import pandas as pd

# Ruta al dataset K2
data_path = "../Data/k2pandc_2025.10.01_11.47.26.csv"

# Cargar dataset (ignorando comentarios con #)
df_k2 = pd.read_csv(data_path, comment='#')

# Estrategia balanceada: columnas importantes
features_balanceadas = [
    "pl_orbper",   # Periodo orbital (muy completo)
    "pl_trandur",  # Duración del tránsito
    "pl_trandep",  # Profundidad del tránsito
    "pl_rade",     # Radio planetario (R⊕)
    "pl_radj",     # Radio planetario (Rjup)
    "st_rad",      # Radio estelar
    "st_teff",     # Temperatura efectiva de la estrella
    "st_mass",     # Masa estelar
    "st_logg",     # Gravedad superficial estelar
    "st_met",      # Metalicidad
    "sy_pnum",     # Número de planetas
    "sy_snum",     # Número de estrellas
    "disposition"  # Target
]

# Crear dataset balanceado
df_k2_balanced = df_k2[[c for c in features_balanceadas if c in df_k2.columns]]

# Reporte
print("✅ Dataset balanceado creado")
print("Dimensiones:", df_k2_balanced.shape)
print("Columnas seleccionadas:", df_k2_balanced.columns.tolist())

print("\nValores nulos por columna:")
print(df_k2_balanced.isnull().sum())


✅ Dataset balanceado creado
Dimensiones: (4004, 13)
Columnas seleccionadas: ['pl_orbper', 'pl_trandur', 'pl_trandep', 'pl_rade', 'pl_radj', 'st_rad', 'st_teff', 'st_mass', 'st_logg', 'st_met', 'sy_pnum', 'sy_snum', 'disposition']

Valores nulos por columna:
pl_orbper        67
pl_trandur     1237
pl_trandep     1919
pl_rade         845
pl_radj         845
st_rad          148
st_teff        1127
st_mass        1915
st_logg        1657
st_met         2313
sy_pnum          17
sy_snum          17
disposition       0
dtype: int64


In [24]:
# Guardemos el dataframe
import os

# Crear carpeta FilteredData si no existe
output_dir = "../FilteredData"
os.makedirs(output_dir, exist_ok=True)

# Ruta de guardado
output_path = os.path.join(output_dir, "K2Filtrated.csv")

# Guardar el dataset balanceado
df_k2_balanced.to_csv(output_path, index=False)

print(f"✅ Dataset balanceado de K2 guardado en: {output_path}")


✅ Dataset balanceado de K2 guardado en: ../FilteredData/K2Filtrated.csv


In [19]:
# Pero ahora apliquemos imputación a las columnas numéricas con nulos de este dataset K2!
import pandas as pd
from sklearn.experimental import enable_iterative_imputer  # noqa
from sklearn.impute import IterativeImputer
import joblib

# 1. Cargamos el dataset filtrado
data_path = "../FilteredData/K2Filtrated.csv"
df_k2 = pd.read_csv(data_path)

print("Dimensiones iniciales:", df_k2.shape)
print("Columnas iniciales:", df_k2.columns.tolist())

# 2. Separaramos target
target_col = "disposition"
X = df_k2.drop(columns=[target_col])
y = df_k2[target_col]

# 3. Creamos indicadores de missing
missing_indicators = X.isnull().astype(int)
missing_indicators = missing_indicators.add_suffix("_was_missing")

# 4. Aplicamos Iterative Imputer
imputer = IterativeImputer(
    random_state=42,
    max_iter=10,        # se puede ajustar si el PC se sobrecarga
    n_nearest_features=None,
    sample_posterior=False
)

X_imputed = imputer.fit_transform(X)
X_imputed_df = pd.DataFrame(X_imputed, columns=X.columns)

# 5. Reconstruimos dataset completo ===
df_k2_imputed = pd.concat([X_imputed_df, missing_indicators, y], axis=1)

# 6. Guardamos dataset imputado
out_path = "../FilteredData/K2Filtrated_imputed_iterative.csv"
df_k2_imputed.to_csv(out_path, index=False)

# 7. Guardamos el imputador (por si quieremos reusarlo luego)
joblib.dump(imputer, "../FilteredData/k2_iterative_imputer.joblib")

print(f"✅ Dataset imputado de K2 guardado en: {out_path}")
print("Dimensiones finales:", df_k2_imputed.shape)
print("Columnas finales:", df_k2_imputed.columns.tolist())


Dimensiones iniciales: (4004, 13)
Columnas iniciales: ['pl_orbper', 'pl_trandur', 'pl_trandep', 'pl_rade', 'pl_radj', 'st_rad', 'st_teff', 'st_mass', 'st_logg', 'st_met', 'sy_pnum', 'sy_snum', 'disposition']
✅ Dataset imputado de K2 guardado en: ../FilteredData/K2Filtrated_imputed_iterative.csv
Dimensiones finales: (4004, 25)
Columnas finales: ['pl_orbper', 'pl_trandur', 'pl_trandep', 'pl_rade', 'pl_radj', 'st_rad', 'st_teff', 'st_mass', 'st_logg', 'st_met', 'sy_pnum', 'sy_snum', 'pl_orbper_was_missing', 'pl_trandur_was_missing', 'pl_trandep_was_missing', 'pl_rade_was_missing', 'pl_radj_was_missing', 'st_rad_was_missing', 'st_teff_was_missing', 'st_mass_was_missing', 'st_logg_was_missing', 'st_met_was_missing', 'sy_pnum_was_missing', 'sy_snum_was_missing', 'disposition']




In [20]:
import pandas as pd

# Cargamos el dataset imputado
data_path = "../FilteredData/K2Filtrated_imputed_iterative.csv"
df_k2_imputed = pd.read_csv(data_path)

print("Dimensiones antes de limpiar:", df_k2_imputed.shape)

# Eliminamos columnas *_was_missing
df_k2_clean = df_k2_imputed.loc[:, ~df_k2_imputed.columns.str.endswith("_was_missing")]

print("Dimensiones después de limpiar:", df_k2_clean.shape)
print("Columnas finales:", df_k2_clean.columns.tolist())

# Guardamos el dataset limpio :D
out_path = "../FilteredData/K2_All_Filtrated.csv"
df_k2_clean.to_csv(out_path, index=False)

print(f"✅ Dataset limpio de K2 guardado en: {out_path}")


Dimensiones antes de limpiar: (4004, 25)
Dimensiones después de limpiar: (4004, 13)
Columnas finales: ['pl_orbper', 'pl_trandur', 'pl_trandep', 'pl_rade', 'pl_radj', 'st_rad', 'st_teff', 'st_mass', 'st_logg', 'st_met', 'sy_pnum', 'sy_snum', 'disposition']
✅ Dataset limpio de K2 guardado en: ../FilteredData/K2_All_Filtrated.csv


In [21]:
import pandas as pd
# Confirmemos que nuestro dataset final de K2 esté limpio y no tenga nulos
# Cargar dataset limpio
data_path = "../FilteredData/K2_All_Filtrated.csv"
df_k2_clean = pd.read_csv(data_path)

# Revisamos nulos
null_counts = df_k2_clean.isnull().sum()
total_nulos = null_counts.sum()

print("Dimensiones del dataset:", df_k2_clean.shape)
print("\nValores nulos por columna:")
print(null_counts)

if total_nulos == 0:
    print("\n No hay valores nulos en el dataset limpio de K2")
else:
    print(f"\n Hay {total_nulos} valores nulos en el dataset limpio de K2")


Dimensiones del dataset: (4004, 13)

Valores nulos por columna:
pl_orbper      0
pl_trandur     0
pl_trandep     0
pl_rade        0
pl_radj        0
st_rad         0
st_teff        0
st_mass        0
st_logg        0
st_met         0
sy_pnum        0
sy_snum        0
disposition    0
dtype: int64

 No hay valores nulos en el dataset limpio de K2


# Para el dataset TOI 

This dataset is a comprehensive list of all confirmed exoplanets, planetary candidates (PC), false positives (FP), ambiguous planetary candidates (APC), and known planets (KP, previously identified) identified by the TESS mission so far. See column “TFOWPG Disposition” for classification.

In [5]:
# Veamos el tamaño del dataset y nombres de columnas
import pandas as pd

# Ruta del dataset TOI
toi_path = "../Data/TOI_2025.10.01_11.43.58.csv"

# Cargar el dataset ignorando líneas de comentario (#)
df_toi = pd.read_csv(toi_path, comment="#", low_memory=False)

# Mostrar dimensiones y todas las columnas
print("Dimensiones del dataset:", df_toi.shape)
print("Número de columnas:", len(df_toi.columns))
print("\nColumnas:")
print(df_toi.columns.tolist())

Dimensiones del dataset: (7699, 87)
Número de columnas: 87

Columnas:
['rowid', 'toi', 'toipfx', 'tid', 'ctoi_alias', 'pl_pnum', 'tfopwg_disp', 'rastr', 'ra', 'raerr1', 'raerr2', 'decstr', 'dec', 'decerr1', 'decerr2', 'st_pmra', 'st_pmraerr1', 'st_pmraerr2', 'st_pmralim', 'st_pmrasymerr', 'st_pmdec', 'st_pmdecerr1', 'st_pmdecerr2', 'st_pmdeclim', 'st_pmdecsymerr', 'pl_tranmid', 'pl_tranmiderr1', 'pl_tranmiderr2', 'pl_tranmidlim', 'pl_tranmidsymerr', 'pl_orbper', 'pl_orbpererr1', 'pl_orbpererr2', 'pl_orbperlim', 'pl_orbpersymerr', 'pl_trandurh', 'pl_trandurherr1', 'pl_trandurherr2', 'pl_trandurhlim', 'pl_trandurhsymerr', 'pl_trandep', 'pl_trandeperr1', 'pl_trandeperr2', 'pl_trandeplim', 'pl_trandepsymerr', 'pl_rade', 'pl_radeerr1', 'pl_radeerr2', 'pl_radelim', 'pl_radesymerr', 'pl_insol', 'pl_insolerr1', 'pl_insolerr2', 'pl_insollim', 'pl_insolsymerr', 'pl_eqt', 'pl_eqterr1', 'pl_eqterr2', 'pl_eqtlim', 'pl_eqtsymerr', 'st_tmag', 'st_tmagerr1', 'st_tmagerr2', 'st_tmaglim', 'st_tmagsymerr

In [6]:
# Veamos ahora el porcentaje de nulos en cada columna del dataset TOI
null_counts = df_toi.isnull().sum()
null_percentage = (null_counts / len(df_toi)) * 100

null_summary_toi = pd.DataFrame({
    "Nulos": null_counts,
    "Porcentaje (%)": null_percentage.round(2)
}).sort_values(by="Porcentaje (%)", ascending=False)

# Mostrar todas las filas sin truncar
pd.set_option("display.max_rows", None)

null_summary_toi

Unnamed: 0,Nulos,Porcentaje (%)
decerr1,7699,100.0
raerr1,7699,100.0
raerr2,7699,100.0
decerr2,7699,100.0
pl_insolerr2,7699,100.0
pl_insollim,7699,100.0
pl_insolsymerr,7699,100.0
pl_eqterr1,7699,100.0
pl_eqterr2,7699,100.0
pl_eqtlim,7699,100.0


### Columnas propuestas (TOI) — descripción y por qué importan

Ahora voy a proponer un set balanceado (información física + buena cobertura). Cada entrada tiene: nombre en el CSV → descripción breve → por qué es útil.

1. tfopwg_disp = Descripción: Disposición/estado asignado por TFOPWG (target objetivo: CONFIRMED / CANDIDATE / FALSE POSITIVE). Es la etiqueta del modelo; la usamos como y.

2. pl_orbper = Descripción: Período orbital (días). Por qué se usa: Planetas reales muestran periodos coherentes; algunas falsos positivos (ruido/estrellas binarias) tienen periodos característicos o valores atípicos.

3. pl_trandurh = Descripción: Duración del tránsito (horas). Por qué se debe usar: El shape/tiempo del tránsito compara con lo esperado por un planeta dado el periodo y la estrella; eclipses estelares suelen dar duraciones distintas.

4. pl_trandep = Descripción: Profundidad del tránsito (normalmente en ppm o %). Por qué se debe usar: Fuerte indicador de tamaño relativo; profundidades muy grandes pueden indicar eclipses estelares (falso positivo) en lugar de planetas.

5. pl_rade = Descripción: Radio del candidato en radios terrestres. Por qué se debe usar: Tamaño del objeto; combinado con la profundidad y la estrella ayuda a diferenciar planetas de tipo estelar.

6. pl_insol = Descripción: Flujo de insolación (unidades Tierra). Por qué se debe usar: Contexto físico (clima/irradiación); ciertos falsos positivos/artefactos pueden concentrarse en rangos específicos.

7. pl_eqt = Descripción: Temperatura de equilibrio estimada [K]. Por qué se debe usar: Información derivada de la órbita + estrella; útil en combinación con st_teff.

8. st_teff = Descripción: Temperatura efectiva de la estrella [K]. Por qué se debe usar: Estrellas frías/cálidas afectan transit depth y detectabilidad; algunos falsos positivos ocurren en tipos estelares particulares.

9. st_rad = Descripción: Radio estelar. Por qué se debe usar: Necesaria para convertir profundidad → radio del candidato; muy útil y con buena cobertura en TOI.

10. st_logg = Descripción: Log(g) gravedad superficial estelar. Por qué se debe usar: Indica evolución estelar (enana vs gigante); tamaños estimados de tránsito varían si la estrella es gigante (mayor probabilidad de FP).

11. st_tmag = Descripción: Magnitud TESS (brillo en banda TESS). Por qué se debe usar: Calidad del S/N: objetos muy débiles tienen más ruido y más falsos positivos instrumentales.

12. st_dist = Descripción: Distancia (pc). Por qué se debe usar: Relaciona a la magnitud y resolución; estrellas muy lejanas pueden tener distintas características de false-positive.


### Justificación general del set elegido

- Captura lo esencial del tránsito (period, duration, depth, radius) y la contextualización estelar (teff, rad, logg, mag, distancia).

- Evita columnas redundantes o de incertidumbre (err1/err2/lim) en la primera iteración, lo que simplifica el pipeline.

- Balance entre información física (ayuda a generalizar) y cobertura (minimizar filas perdidas por nulos).

- Usaremos imputación (mediana / KNN) para columnas con nulos moderados (st_teff, pl_rade, pl_trandurh) en el siguiente paso.

In [7]:
#Creación de df_toi_selected con las columnas propuestas
cols_toi_selected = [
    "pl_orbper", "pl_trandurh", "pl_trandep", "pl_rade",
    "pl_insol", "pl_eqt", "st_teff", "st_rad",
    "st_logg", "st_tmag", "st_dist", "tfopwg_disp"
]

# Filtrar solo las columnas existentes (por si tu CSV usa un nombre distinto)
cols_present = [c for c in cols_toi_selected if c in df_toi.columns]

df_toi_selected = df_toi[cols_present].copy()

print("Dimensiones del TOI seleccionado:", df_toi_selected.shape)
print("Columnas presentes seleccionadas:", cols_present)

# Mostrar nulos resumidos
nulls = df_toi_selected.isnull().sum()
pct = (nulls / len(df_toi_selected) * 100).round(2)
display(pd.concat([nulls.rename("Nulos"), pct.rename("Porcentaje (%)")], axis=1).sort_values("Porcentaje (%)", ascending=False))


Dimensiones del TOI seleccionado: (7699, 12)
Columnas presentes seleccionadas: ['pl_orbper', 'pl_trandurh', 'pl_trandep', 'pl_rade', 'pl_insol', 'pl_eqt', 'st_teff', 'st_rad', 'st_logg', 'st_tmag', 'st_dist', 'tfopwg_disp']


Unnamed: 0,Nulos,Porcentaje (%)
st_logg,856,11.12
st_rad,507,6.59
pl_rade,506,6.57
pl_eqt,311,4.04
st_dist,215,2.79
pl_insol,176,2.29
st_teff,161,2.09
pl_orbper,107,1.39
pl_trandep,0,0.0
pl_trandurh,0,0.0


Vamos a hacer algo nuevo para mí... vamos a aplicar una imputación avanzada y robusta: usando IterativeImputer con un RandomForestRegressor como estimador interno.

Es una de las mejores opciones “no lineales” y relativamente segura (model-based, preserva relaciones entre variables) para datasets de este tamaño. El script a continuación:

- crea flags *_was_missing para las columnas que tenían NaNs (esto ayuda al modelo a captar si la falta era informativa),

- ajusta IterativeImputer solo sobre las columnas numéricas (excluye la etiqueta tfopwg_disp),

- aplica la imputación, reconstruye el DataFrame con la etiqueta intacta,

- muestra conteos de nulos antes y después,

- guarda el CSV imputado y el imputer (joblib) en ../FilteredData.

In [8]:
# Imputación avanzada: IterativeImputer con RandomForestRegressor (TOI seleccionado)
import os
import joblib
import pandas as pd
import numpy as np
from sklearn.experimental import enable_iterative_imputer  # noqa: F401
from sklearn.impute import IterativeImputer
from sklearn.ensemble import RandomForestRegressor

# --- Config ---
OUTDIR = "../FilteredData"
os.makedirs(OUTDIR, exist_ok=True)
IMPUTER_PATH = os.path.join(OUTDIR, "toi_iterative_imputer.joblib")
OUT_CSV = os.path.join(OUTDIR, "TOIFiltrated_imputed_iterative.csv")

# df_toi_selected debe existir (las 12 columnas seleccionadas previamente)
df = df_toi_selected.copy()

target_col = "tfopwg_disp"
if target_col not in df.columns:
    raise ValueError(f"No se encuentra la columna target '{target_col}' en df_toi_selected")

# Columnas numéricas a imputar (todas menos el target)
num_cols = [c for c in df.columns if c != target_col]

# Guardar máscara de missing para crear indicadores luego
missing_mask = df[num_cols].isnull()

print("Resumen de nulos (antes de imputación):")
print(df[num_cols].isnull().sum().sort_values(ascending=False))

# Crear indicadores de missing (column_name + "_was_missing")
for c in num_cols:
    if missing_mask[c].any():
        df[c + "_was_missing"] = missing_mask[c].astype(int)

# Preparar matriz para imputador (solo las columnas numéricas originales)
X = df[num_cols].values.astype(float)  # IterativeImputer necesita floats

# Configurar IterativeImputer con RandomForestRegressor como estimator
estimator = RandomForestRegressor(n_estimators=50, random_state=0, n_jobs=-1)
iter_imp = IterativeImputer(estimator=estimator, max_iter=7, random_state=0, sample_posterior=False)

print("\nAjustando IterativeImputer (esto puede tardar un rato dependiendo de la CPU)...")
X_imputed = iter_imp.fit_transform(X)  # fit_transform

# Reconstruir DataFrame imputado
df_imputed_nums = pd.DataFrame(X_imputed, columns=num_cols, index=df.index)

# Reemplazar las columnas numéricas en df (manteniendo los indicadores y el target)
for c in num_cols:
    df[c] = df_imputed_nums[c]

# Verificar nulos después
print("\nResumen de nulos (después de imputación):")
print(df[num_cols].isnull().sum().sort_values(ascending=False))

# Añadir target si se había movido (ya está en df)
# Guardar CSV y el imputador
df.to_csv(OUT_CSV, index=False)
joblib.dump(iter_imp, IMPUTER_PATH)

print(f"\n✅ Imputación completa. Archivo guardado en: {OUT_CSV}")
print(f"✅ Imputer guardado en: {IMPUTER_PATH}")

Resumen de nulos (antes de imputación):
st_logg        856
st_rad         507
pl_rade        506
pl_eqt         311
st_dist        215
pl_insol       176
st_teff        161
pl_orbper      107
pl_trandurh      0
pl_trandep       0
st_tmag          0
dtype: int64

Ajustando IterativeImputer (esto puede tardar un rato dependiendo de la CPU)...





Resumen de nulos (después de imputación):
pl_orbper      0
pl_trandurh    0
pl_trandep     0
pl_rade        0
pl_insol       0
pl_eqt         0
st_teff        0
st_rad         0
st_logg        0
st_tmag        0
st_dist        0
dtype: int64

✅ Imputación completa. Archivo guardado en: ../FilteredData/TOIFiltrated_imputed_iterative.csv
✅ Imputer guardado en: ../FilteredData/toi_iterative_imputer.joblib


In [11]:
# Un análisis cortito de este dataset nuevo y filtrado:
import pandas as pd

# Ruta del dataset exportado (ajusta si lo guardaste con otro nombre)
data_path = "../FilteredData/TOIFiltrated_imputed_iterative.csv"

# Cargar dataset
df_check = pd.read_csv(data_path)

# Mostrar info general
print("Dimensiones del dataset:", df_check.shape)

# Columnas
print("\nColumnas del dataset:")
print(df_check.columns.tolist())

# Valores nulos
print("\nValores nulos por columna:")
print(df_check.isnull().sum())

# Conteo de clases del target
if "tfopwg_disp" in df_check.columns:
    print("\nDistribución de clases del target (tfopwg_disp):")
    print(df_check["tfopwg_disp"].value_counts())
else:
    print("\n No se encontró la columna target 'tfopwg_disp'.")
 

Dimensiones del dataset: (7699, 20)

Columnas del dataset:
['pl_orbper', 'pl_trandurh', 'pl_trandep', 'pl_rade', 'pl_insol', 'pl_eqt', 'st_teff', 'st_rad', 'st_logg', 'st_tmag', 'st_dist', 'tfopwg_disp', 'pl_orbper_was_missing', 'pl_rade_was_missing', 'pl_insol_was_missing', 'pl_eqt_was_missing', 'st_teff_was_missing', 'st_rad_was_missing', 'st_logg_was_missing', 'st_dist_was_missing']

Valores nulos por columna:
pl_orbper                0
pl_trandurh              0
pl_trandep               0
pl_rade                  0
pl_insol                 0
pl_eqt                   0
st_teff                  0
st_rad                   0
st_logg                  0
st_tmag                  0
st_dist                  0
tfopwg_disp              0
pl_orbper_was_missing    0
pl_rade_was_missing      0
pl_insol_was_missing     0
pl_eqt_was_missing       0
st_teff_was_missing      0
st_rad_was_missing       0
st_logg_was_missing      0
st_dist_was_missing      0
dtype: int64

Distribución de clases del ta

Considero que las del missing no deben estar. Vamos a hacer un nuevo dataset el cual no las cuente.

In [13]:
import os
import pandas as pd

# Ruta del archivo imputado con las 20 columnas
data_path = "../FilteredData/TOIFiltrated_imputed_iterative.csv"
df_toi = pd.read_csv(data_path)

# Eliminar columnas de indicadores de imputación
cols_to_drop = [
    "pl_orbper_was_missing",
    "pl_rade_was_missing",
    "pl_insol_was_missing",
    "pl_eqt_was_missing",
    "st_teff_was_missing",
    "st_rad_was_missing",
    "st_logg_was_missing",
    "st_dist_was_missing"
]
df_toi_clean = df_toi.drop(columns=cols_to_drop, errors="ignore")

# Crear carpeta FilteredData si no existe
output_dir = "../FilteredData"
os.makedirs(output_dir, exist_ok=True)

# Guardar CSV limpio
output_path = os.path.join(output_dir, "TOI_All_Filtrated.csv")
df_toi_clean.to_csv(output_path, index=False)

print(f"✅ Dataset limpio guardado en: {output_path}")
print("Dimensiones finales:", df_toi_clean.shape)
print("Columnas finales:", df_toi_clean.columns.tolist())

✅ Dataset limpio guardado en: ../FilteredData/TOI_All_Filtrated.csv
Dimensiones finales: (7699, 12)
Columnas finales: ['pl_orbper', 'pl_trandurh', 'pl_trandep', 'pl_rade', 'pl_insol', 'pl_eqt', 'st_teff', 'st_rad', 'st_logg', 'st_tmag', 'st_dist', 'tfopwg_disp']


In [14]:
# Confirmemos que nuestro dataset final de toi esté limpio y no tenga nulos
import pandas as pd

# Cargar el dataset limpio
data_path = "../FilteredData/TOI_All_Filtrated.csv"
df_toi_clean = pd.read_csv(data_path)

# Revisar nulos
print("Dimensiones del dataset:", df_toi_clean.shape)
print("\nValores nulos por columna:")
print(df_toi_clean.isnull().sum())

# Revisar si queda algún porcentaje de nulos
print("\nPorcentaje de nulos por columna:")
print((df_toi_clean.isnull().mean() * 100).round(2))

Dimensiones del dataset: (7699, 12)

Valores nulos por columna:
pl_orbper      0
pl_trandurh    0
pl_trandep     0
pl_rade        0
pl_insol       0
pl_eqt         0
st_teff        0
st_rad         0
st_logg        0
st_tmag        0
st_dist        0
tfopwg_disp    0
dtype: int64

Porcentaje de nulos por columna:
pl_orbper      0.0
pl_trandurh    0.0
pl_trandep     0.0
pl_rade        0.0
pl_insol       0.0
pl_eqt         0.0
st_teff        0.0
st_rad         0.0
st_logg        0.0
st_tmag        0.0
st_dist        0.0
tfopwg_disp    0.0
dtype: float64


In [22]:
# That's all folks!