# Misi√≥n "Cat√°logo Exoplanetario" ‚Äì Pr√°ctica K-Means y clasificaci√≥n con √Årboles y SVM

Bienvenido/a a la **Patrulla de An√°lisis de Exoplanetas (PAE)**. Formas parte de un equipo de cient√≠ficos de datos
asignado a la **Estaci√≥n Orbital Kepler**, donde se reciben continuamente mediciones procedentes de sondas y
telescopios repartidos por toda la galaxia.

Hace unas horas ha llegado un nuevo lote de informaci√≥n desde una patrulla espacial autom√°tica. Los astr√≥nomos han
confirmado que se trata de cientos de **exoplanetas**, pero a√∫n no existe una clasificaci√≥n clara de sus tipos:
gigantes gaseosos, mundos rocosos, super-Tierras, etc. Tu equipo ha sido encargado de **descubrir patrones** en esos
datos y proponer una taxonom√≠a inicial de exoplanetas que despu√©s pueda utilizar el resto de la flota.

Para ello, trabajar√°s con un cat√°logo de exoplanetas confirmados y tu misi√≥n ser√°:

1. **Descubrir tipos de exoplanetas (no supervisado)**  
   - Seleccionar un conjunto de **variables f√≠sicas** (masa, radio, periodo orbital, etc.).  
   - Aplicar **K-Means** para agrupar los exoplanetas en varios clusters y analizar qu√© tipo de mundos aparecen.

2. **Crear una columna de clasificaci√≥n a partir de K-Means**  
   - Convertir los clusters obtenidos en una **columna de clase** (por ejemplo `tipo_planeta`).  
   - Asignar nombres descriptivos a cada tipo (p. ej. ‚ÄúGigantes calientes/fr√≠os‚Äù, ‚ÄúSuper-Tierras‚Äù, etc.).

3. **Entrenar modelos supervisados para imitar esa clasificaci√≥n**  
   - Entrenar un **√°rbol de decisi√≥n** y comparar la **accuracy** en train vs test seg√∫n la profundidad.  
   - Entrenar tres modelos **SVM** con kernels distintos (`linear`, `poly`, `rbf`) y comparar sus matrices de confusi√≥n.

4. **Documentar la misi√≥n en un informe**  
   - Redactar un **informe en Word** explicando las decisiones tomadas, los resultados obtenidos y la interpretaci√≥n
     cient√≠fica de los tipos de exoplanetas encontrados.

> Tu objetivo final es proponer al **Comit√© Cient√≠fico de la Estaci√≥n Kepler** una primera clasificaci√≥n fiable de los
> exoplanetas del cat√°logo, respaldada por an√°lisis de datos y modelos de Machine Learning.


Fuente de datos: https://dataherb.github.io/flora/nasa_exoplanet_archive/


## 1. Carga de librer√≠as y configuraci√≥n

In [None]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score, ConfusionMatrixDisplay
from sklearn.svm import SVC
from sklearn.pipeline import make_pipeline

from IPython.display import display
from mpl_toolkits.mplot3d import Axes3D 

sns.set(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)

print("‚úÖ Librer√≠as cargadas correctamente.")

## 2. Carga del cat√°logo de exoplanetas

Puedes descargar el CSV y llamarlo `confirmed_exoplanets.csv` o dejar que el notebook lo lea desde GitHub.


In [None]:
local_filename = "confirmed_exoplanets.csv"
url_backup = "https://raw.githubusercontent.com/InterImm/nasa-exoplanet-archive/master/dataset/confirmed_exoplanets.csv"

try:
    df = pd.read_csv(local_filename)
    origen = f"archivo local: {local_filename}"
except FileNotFoundError:
    print(f"‚ö†Ô∏è No se ha encontrado `{local_filename}`. Descargando desde la URL...")
    df = pd.read_csv(url_backup)
    origen = "descarga online desde GitHub"

print("‚úÖ Datos cargados desde", origen)
print("N√∫mero de filas y columnas:", df.shape)
display(df.head())

## 3. EDA ‚Äì Reconocimiento del cat√°logo exoplanetario

Antes de lanzar algoritmos como si fu√©ramos autopilotos de la nave, el **Comit√© Cient√≠fico de la Estaci√≥n Kepler-Œ£**
exige una fase de *reconocimiento de datos*. Acabas de recibir el cat√°logo bruto de exoplanetas y, como analista de la
Patrulla de An√°lisis de Exoplanetas, tu primera tarea es entender **qu√© informaci√≥n traen realmente las sondas**.

En esta secci√≥n deber√°s:

- Revisar la **lista completa de columnas** disponibles en el cat√°logo (identificadores, magnitudes f√≠sicas, banderas, etc.).
- Comprobar los **tipos de datos** (num√©ricos, cadenas, flags‚Ä¶) para distinguir qu√© columnas son √∫tiles para an√°lisis cuantitativo.
- Analizar la **cantidad de valores nulos** por columna para detectar medidas poco fiables o casi vac√≠as.
- Centrarse despu√©s en un conjunto de **magnitudes f√≠sicas** que el propio Comit√© ya ha preseleccionado como candidatas
  para estudiar tipos de exoplanetas.

El dataset tiene m√°s de 70 columnas, pero el equipo cient√≠fico ha filtrado previamente aquellas que considera m√°s relevantes
desde el punto de vista f√≠sico para esta misi√≥n. Estas ser√°n tus **variables candidatas** para trabajar con K-Means:

- `pl_orbper`  ‚Äì periodo orbital (d√≠as)  
- `pl_orbsmax` ‚Äì semieje mayor (UA)  
- `pl_orbeccen` ‚Äì excentricidad  
- `pl_orbincl` ‚Äì inclinaci√≥n (grados)  
- `pl_bmassj` ‚Äì masa del planeta (M¬∑J√∫piter)  
- `pl_radj` ‚Äì radio del planeta (R¬∑J√∫piter)  
- `pl_dens` ‚Äì densidad del planeta (g/cm¬≥)  
- `st_teff` ‚Äì temperatura efectiva de la estrella (K)  
- `st_mass` ‚Äì masa estelar (M¬∑Solar)  
- `st_rad` ‚Äì radio estelar (R¬∑Solar)  
- `st_dist` / `gaia_dist` ‚Äì distancia a la estrella (pc)  
- `st_optmag` / `gaia_gmag` ‚Äì magnitud aparente  

En el EDA deber√°s:

- Comprobar cu√°les de estas columnas **est√°n realmente presentes** en el archivo que has cargado.
- Observar sus rangos, unidades y posibles outliers.
- Valorar cu√°ntos valores nulos tiene cada una y si son utilizables sin o con poca limpieza.

M√°s adelante, a partir de este conjunto preseleccionado, **elegir√°s un subconjunto de variables f√≠sicas**
para aplicar K-Means y construir tu propuesta de tipos de exoplanetas.



In [None]:
columnas_fisicas_recomendadas = [
    "pl_orbper", "pl_orbsmax", "..."
]

columnas = [c for c in columnas_fisicas_recomendadas if c in df.columns]
print("Columnas f√≠sicas presentes:")
print(columnas)

df_phys = df[columnas].copy()
display(df_phys.describe())

#####
## COMPLETAR CON UN EDA M√ÅS PROFUNDO COMO HEMOS VISTO EN CLASE
## - Comprobar valores nulos por columna y comentarlos.
## - Hacer al menos 1 histograma de una variable del planeta.
## - Hacer al menos 1 histograma de una variable de la estrella.
## - Hacer al menos 1 diagrama de dispersi√≥n (scatter) entre dos variables que te parezcan interesantes.
## - Comentar brevemente qu√© rangos de valores observas y si ves posibles outliers.

### 3.2 Dispersi√≥n 2D (exploratoria)

Con las columnas f√≠sicas ya identificadas, el Comit√© Cient√≠fico de la Estaci√≥n Kepler te pide un **primer mapa 2D**
de los exoplanetas. La idea es simular la pantalla del **radar cient√≠fico** de la patrulla: en cada eje colocar√°s
una magnitud f√≠sica y observar√°s c√≥mo se distribuyen los mundos.

En esta parte debes:

- Elegir **dos columnas** de `df_phys` (por ejemplo, periodo orbital vs masa, radio vs masa, etc.).
- Representar un **diagrama de dispersi√≥n (scatterplot)** para visualizar los exoplanetas.
- Utilizar **escala logar√≠tmica** en ambos ejes (cuando tenga sentido f√≠sico) para ver mejor las nubes de puntos.
- Probar **al menos 3 combinaciones distintas** de pares de variables y anotar qu√© ves:
  - ¬øHay zonas con mucha concentraci√≥n de puntos?
  - ¬øSe intuyen grupos o ‚Äúfamilias‚Äù de exoplanetas?
  - ¬øExisten valores extremos (outliers) que podr√≠an dar lugar a tipos muy raros?

> Piensa qu√© pares de variables pueden ayudarte a separar mejor los distintos tipos de exoplanetas.

In [None]:
feature_x = ""   # c√°mbialo
feature_y = ""    # c√°mbialo

plt.figure(figsize=(10, 6))
sns.scatterplot(data=df_phys, x=feature_x, y=feature_y, alpha=0.5, s=25)
plt.xscale("log")
plt.yscale("log")
plt.xlabel(f"{feature_x} (log)")
plt.ylabel(f"{feature_y} (log)")
plt.title("Dispersi√≥n inicial de exoplanetas")
plt.tight_layout()
plt.show()

## 4. K-Means: descubrimiento de tipos de exoplanetas

### 4.1 Selecci√≥n de variables para K-Means

El Comit√© Cient√≠fico de la Estaci√≥n Kepler ha decidido que, para esta primera misi√≥n, el algoritmo de agrupamiento
(K-Means) solo trabajar√° con un **panel reducido de sensores**. No tiene sentido lanzar todos los instrumentos a la vez:
cuantas m√°s variables metamos, m√°s dif√≠cil ser√° interpretar despu√©s qu√© significa cada grupo.

Tu tarea en esta fase es:

- Elegir entre **2 y 4 columnas** de las variables f√≠sicas que has analizado en el EDA (`df_phys`).
- Comprobar r√°pidamente c√≥mo son esos datos: rangos, posibles valores extremos y n√∫mero de nulos.
- Crear un DataFrame reducido (`df_km`) que contenga **solo las filas** donde esas variables est√©n disponibles.

Piensa que lo que selecciones aqu√≠ ser√° la ‚Äúvista del universo‚Äù que tendr√° K-Means.  
Si eliges mal los sensores, los tipos de exoplanetas que descubras podr√≠an no tener ning√∫n sentido f√≠sico.
M√°s adelante tendr√°s que **justificar en el informe** por qu√© escogiste esas variables.



In [None]:
# üëá AJUSTA esta lista con las variables f√≠sicas que quieras usar en K-Means (deben estar dentro de `df_phys.columns`)
features_kmeans = [c for c in [""] if c in df_phys.columns]

print("Variables seleccionadas para K-Means:", features_kmeans)

# DataFrame reducido solo con las filas que tienen datos en TODAS esas columnas
df_km = df_phys.dropna(subset=features_kmeans).copy()

print("Tama√±o original (df_phys):", df_phys.shape)
print("Tama√±o tras limpiar NaN para K-Means (df_km):", df_km.shape)

# Resumen r√°pido de las variables elegidas
display(df_km[features_kmeans].describe())

#####
## TAREA ‚Äì EDA 2.0 DE LAS VARIABLES ELEGIDAS:
## - Mostrar el n√∫mero de valores nulos por columna en df_km (deber√≠a ser 0 en features_kmeans).
## - Dibujar al menos un histograma por cada variable seleccionada.
## - Comentar si hay rangos muy amplios o valores claramente extremos.
## - A√±adir una breve conclusi√≥n en tu informe: ¬øpor qu√© crees que estas variables son buenas para que K-Means descubra tipos de exoplanetas?


### 4.2 Escalado y m√©todo del codo

Antes de lanzar el algoritmo K-Means, el ordenador central de la Estaci√≥n Kepler-Œ£ te recuerda que los sensores no
miden todas las magnitudes en la misma escala: unas est√°n en **d√≠as**, otras en **masas de J√∫piter**, otras en
**radios solares**‚Ä¶ Si no haces nada, las variables con n√∫meros ‚Äúgrandes‚Äù dominar√°n la distancia y K-Means
ignorar√° las dem√°s.

En esta fase vas a:

1. **Escalar** las variables seleccionadas con `StandardScaler`.
2. Probar varios valores de **K** (n√∫mero de clusters) y calcular la **inercia** de K-Means.
3. Representar la inercia en funci√≥n de K y buscar el famoso **‚Äúm√©todo del codo‚Äù**.

> En tu informe deber√°s **comentar la gr√°fica**:  
> ‚Äì ¬øD√≥nde ves el codo?  
> ‚Äì ¬øQu√© valores de K te parecen razonables para describir tipos de exoplanetas?

In [None]:
# Escalado de las variables seleccionadas para K-Means
scaler = StandardScaler()
X_km = df_km[features_kmeans].values
X_km_scaled = scaler.fit_transform(X_km)


# C√°lculo de la inercia para varios valores de K
k_values = range(2, 10)
inertias = []

for k in k_values:
    km = KMeans(n_clusters=k, random_state=42, n_init=10)
    km.fit(X_km_scaled)
    inertias.append(km.inertia_)

plt.figure(figsize=(8, 5))
plt.plot(list(k_values), inertias, marker="o")
plt.xticks(list(k_values))
plt.xlabel("N√∫mero de clusters K")
plt.ylabel("Inercia")
plt.title("M√©todo del codo")
plt.grid(True)
plt.tight_layout()
plt.show()

### 4.3 Entrenamiento final de K-Means y primera interpretaci√≥n cient√≠fica

Tras analizar la curva del codo, el Comit√© Cient√≠fico de la Estaci√≥n Kepler te pide que elijas un **valor concreto de K**
para esta misi√≥n. Ese ser√° el n√∫mero de ‚Äútipos provisionales de exoplanetas‚Äù que el ordenador central va a distinguir.

En esta fase debes:

1. Fijar un valor de `k_elegido` bas√°ndote en la gr√°fica del codo y en tu criterio cient√≠fico.
2. Entrenar el modelo K-Means definitivo con ese K.
3. Asignar a cada exoplaneta el n√∫mero de cluster correspondiente y contar **cu√°ntos planetas hay en cada grupo**.
4. Empezar a interpretar los resultados:
   - ¬øHay clusters muy poblados y otros casi vac√≠os?
   - ¬øAparece alg√∫n cluster con muy pocos planetas (posibles **casos raros / outliers**)?
   - ¬øCrees que todos los clusters deber√≠an considerarse ‚Äútipos oficiales‚Äù o alguno es demasiado peque√±o?

> Estas frecuencias ser√°n clave m√°s adelante, cuando uses estos clusters como etiquetas para entrenar el √°rbol de decisi√≥n y las SVM. 
> Un cluster con 1 solo planeta puede ser cient√≠ficamente interesante, pero estad√≠sticamente inestable.



In [None]:
# k_elegido =    #
print("Usaremos K =", k_elegido)

kmeans_final = KMeans(n_clusters=k_elegido, random_state=42, n_init=10)
clusters = kmeans_final.fit_predict(X_km_scaled)

# Guardamos el n√∫mero de cluster en el DataFrame
df_km["cluster_kmeans"] = clusters

print("\nFrecuencia de cada cluster:")
freq_clusters = df_km["cluster_kmeans"].value_counts().sort_index()
print(freq_clusters)

#####
# TAREA:
# - Copia estas frecuencias en tu informe y comenta:
#   * ¬øQu√© cluster es el m√°s poblado? ¬øY el menos poblado?
#   * ¬øHay alg√∫n cluster con muy pocos exoplanetas?
# - Reflexiona: ¬øtratar√≠as esos clusters diminutos como tipos oficiales de planeta o como "mundos raros/outliers" que hay que analizar aparte? ¬øPor qu√©?


### 4.4 Visualizaci√≥n 2D de los clusters (espacio original)

Ya tienes a cada exoplaneta asignado a un cluster de K-Means. El siguiente paso es pedirle al sistema de visualizaci√≥n
de la Estaci√≥n Kepler un **mapa 2D coloreado por tipo**.

En esta vista:

- Los ejes X e Y ser√°n dos de las variables f√≠sicas que has usado en K-Means.
- Cada punto es un exoplaneta.
- El color indica a qu√© **cluster** pertenece.

Tu objetivo es comprobar visualmente si K-Means ha encontrado grupos con cierta forma l√≥gica (nubes compactas,
zonas separadas, etc.) y localizar posibles **mundos extremos** que se queden aislados.


In [None]:
# Vista 2D ‚Äì espacio original (valores sin escalar)
plot_x = features_kmeans[0]
plot_y = features_kmeans[1] if len(features_kmeans) > 1 else features_kmeans[0]

print("Eje X:", plot_x)
print("Eje Y:", plot_y)

plt.figure(figsize=(10, 6))
sns.scatterplot(
    data=df_km,
    x=plot_x,
    y=plot_y,
    hue="cluster_kmeans",
    palette="tab10",
    s=35,
    alpha=0.7
)

# Escalas logar√≠tmicas si tiene sentido f√≠sico
plt.xscale("log")
if plot_y != plot_x:
    plt.yscale("log")

plt.xlabel(f"{plot_x} (escala log)")
plt.ylabel(f"{plot_y} (escala log)")
plt.title("Clusters creados por K-Means (2D ‚Äì espacio original)")
plt.tight_layout()
plt.show()

#####
# TAREA a comentar tu informe:
# - Cambia plot_x y plot_y para probar otras combinaciones de variables.
# - Comenta en tu informe si los clusters se ven bien separados o si se mezclan.
# - Se√±ala si hay planetas muy alejados de los dem√°s.

### 4.5 Visualizaci√≥n 3D de los clusters (espacio original)

El radar cient√≠fico de la estaci√≥n tambi√©n permite una **vista tridimensional**. Si has utilizado al menos 3
variables en `features_kmeans`, puedes construir un mapa 3D donde:

- Cada eje corresponde a una de las variables f√≠sicas usadas en K-Means.
- Cada punto es un exoplaneta.
- El color indica el cluster asignado.

Esta vista sirve para comprobar si en tres dimensiones los grupos est√°n a√∫n m√°s claros o si algunos clusters
se solapan cuando a√±ades una variable extra.


In [None]:
# Vista 3D ‚Äì espacio original (sin escalar)

if len(features_kmeans) >= 3:
    fig = plt.figure(figsize=(10, 8))
    ax = fig.add_subplot(111, projection="3d")

    x = df_km[features_kmeans[0]]
    y = df_km[features_kmeans[1]]
    z = df_km[features_kmeans[2]]
    c = df_km["cluster_kmeans"]

    scatter = ax.scatter(
        x, y, z,
        c=c,
        cmap="tab10",
        s=30,
        alpha=0.8
    )

    ax.set_xlabel(features_kmeans[0])
    ax.set_ylabel(features_kmeans[1])
    ax.set_zlabel(features_kmeans[2])
    ax.set_title("Clusters creados por K-Means (3D ‚Äì espacio original)")

    handles, labels = scatter.legend_elements(prop="colors", alpha=0.8)
    ax.legend(handles, labels, title="Cluster", loc="upper left")

    plt.tight_layout()
    plt.show()
else:
    print("Necesitas al menos 3 variables en features_kmeans para la vista 3D.")

#####
# TAREA a comentar en tu informe:
# - Interpreta la vista 3D: ¬øse distinguen mejor los tipos de exoplanetas que en 2D?
# - ¬øAlg√∫n cluster parece muy extendido o mezclado con otros?

### 4.6 Visualizaci√≥n 3D de los clusters (espacio escalado)

Aunque las gr√°ficas anteriores usan los valores f√≠sicos originales, K-Means ha trabajado realmente en el
**espacio escalado** (`X_km_scaled`).

En esta secci√≥n vas a visualizar los clusters en ese espacio escalado:

- Los ejes representan las versiones estandarizadas de las variables seleccionadas.
- No tienen unidades f√≠sicas directas, pero reflejan la ‚Äúposici√≥n relativa‚Äù de cada planeta respecto a la media.

Esta vista te ayuda a entender **c√≥mo ‚Äúve‚Äù el algoritmo** los exoplanetas, independientemente de sus unidades originales.

In [None]:
# Vista 3D ‚Äì espacio escalado (StandardScaler)
from mpl_toolkits.mplot3d import Axes3D  # noqa: F401

if len(features_kmeans) >= 3:
    fig = plt.figure(figsize=(10, 8))
    ax = fig.add_subplot(111, projection="3d")

    # Usamos directamente las tres primeras columnas del array escalado
    x_scaled = X_km_scaled[:, 0]
    y_scaled = X_km_scaled[:, 1]
    z_scaled = X_km_scaled[:, 2]
    c = df_km["cluster_kmeans"].values

    scatter = ax.scatter(
        x_scaled, y_scaled, z_scaled,
        c=c,
        cmap="tab10",
        s=30,
        alpha=0.8
    )

    ax.set_xlabel(f"{features_kmeans[0]} (scaled)")
    ax.set_ylabel(f"{features_kmeans[1]} (scaled)")
    ax.set_zlabel(f"{features_kmeans[2]} (scaled)")
    ax.set_title("Clusters creados por K-Means (3D ‚Äì espacio escalado)")

    handles, labels = scatter.legend_elements(prop="colors", alpha=0.8)
    ax.legend(handles, labels, title="Cluster", loc="upper left")

    plt.tight_layout()
    plt.show()
else:
    print("Necesitas al menos 3 variables en features_kmeans para la vista 3D escalada.")

#####
# TAREA:
# - Compara la vista 3D en espacio original y en espacio escalado.
# - ¬øCambian las formas de los grupos o simplemente la escala?
# - Explica en tu informe por qu√© el escalado es importante para K-Means,
#   aunque las visualizaciones f√≠sicas te resulten m√°s intuitivas.


## 5. Dise√±o de la columna de clasificaci√≥n

Hasta ahora K-Means solo te ha dado **n√∫meros de cluster** (`0`, `1`, `2`, ‚Ä¶) sin significado f√≠sico. 
El Comit√© Cient√≠fico de la Estaci√≥n Kepler quiere algo m√°s √∫til: una **propuesta de taxonom√≠a de exoplanetas** que pueda usarse en futuros informes y misiones.

Tu tarea en esta fase es convertir `cluster_kmeans` en una columna de **clasificaci√≥n cient√≠fica**,
que llamaremos `tipo_planeta`. Esta decisi√≥n es tuya:

- Asignar **nombres descriptivos** a cada cluster en funci√≥n de lo que has visto en las gr√°ficas y en funci√≥n de las caracter√≠sticas propios de los exoplanetas.

> Lo importante es que tu `tipo_planeta` tenga **sentido f√≠sico** y que puedas justificarlo en tu informe:
> explica qu√© criterios has usado para nombrar/mezclar los clusters.


In [None]:
df_model = df_km.copy()

# Diccionario para nombres de tipo de planeta
mapa_tipos = { }

if mapa_tipos:
    df_model["tipo_planeta"] = df_model["cluster_kmeans"].map(mapa_tipos)
else:
    df_model["tipo_planeta"] = df_model["cluster_kmeans"].astype(str)

print("Frecuencia de tipo_planeta:")
print(df_model["tipo_planeta"].value_counts())

#### TAREA:
### - Declarar el Diccionario nuevo de los planetas clasificados en el cluster y justificar su elecci√≥n en el INFORME

## 6. Preparaci√≥n para modelos supervisados

En este punto vas a usar `tipo_planeta` como etiqueta para entrenar modelos supervisados
(√°rbol de decisi√≥n y SVM). Pero hay un problema potencial:

- Si alguno de los tipos de planeta tiene **muy pocas muestras** (por ejemplo, 1 solo planeta),
  el algoritmo `train_test_split` con `stratify=y` **no puede repartirlo** entre train y test y generar√° un error.

Esto suele ocurrir cuando K-Means crea un **cluster ‚Äúapropiado‚Äù por un outlier**: un planeta rar√≠simo se queda totalmente solo en su cluster.

La tarea en esta secci√≥n es:

1. Ver las **frecuencias de `tipo_planeta`** y detectar tipos con muy pocas muestras.
2. Hacer un **primer intento de `train_test_split`** y observar el error, si existe.
3. Dise√±ar una estrategia para **eliminar o reagrupar** esos tipos raros antes de entrenar los modelos supervisados.


In [None]:
# Revisar cu√°ntos planetas tiene cada tipo
vc = df_model["tipo_planeta"].value_counts()
print("Frecuencia de cada tipo_planeta:")
print(vc)

X = df_model[features_kmeans].values
y = df_model["tipo_planeta"].values

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    train_size=0.7,
    test_size=0.3,
    random_state=42,
    stratify=y
)

print("Tama√±o train:", X_train.shape[0])
print("Tama√±o test :", X_test.shape[0])

#####
# TAREA:
# - Si este split te da error, copia el mensaje en tu informe y explica con tus palabras qu√© est√° pasando.
# - ¬øQu√© tipo(s) de planeta son los sospechosos?
# - Arregla el error para hacer una preparaci√≥n correcta y deja reflejado en el informe c√≥mo lo has hecho

## 7. √Årbol de decisi√≥n ‚Äì Autopiloto de clasificaci√≥n

Hasta ahora, K-Means ha servido como **m√≥dulo de descubrimiento** a bordo de la Estaci√≥n Kepler: ha creado tipos de
exoplanetas a partir de sus caracter√≠sticas f√≠sicas. Ahora el Comit√© quiere ir un paso m√°s all√°:

> Entrenar un **autopiloto de clasificaci√≥n** capaz de predecir el `tipo_planeta` de un nuevo exoplaneta usando solo
> sus variables f√≠sicas.

Para ello usar√°s un **√°rbol de decisi√≥n**:

1. Probar√°s varias **profundidades** (`max_depth`) y comparar√°s la `accuracy` de train y test.
2. Elegir√°s una profundidad ‚Äúrazonable‚Äù (no solo la que m√°s acierta en test, sino la que tenga sentido).
3. Entrenar√°s un **√°rbol final** con esa profundidad.
4. Analizar√°s su **matriz de confusi√≥n** y comentar√°s d√≥nde se equivoca.

Recuerda: estamos imitando la clasificaci√≥n propuesta por K-Means. Si los clusters est√°n muy bien separados, el √°rbol
podr√≠a llegar a reconstruirlos casi perfectamente‚Ä¶ o sobreajustar si lo hacemos demasiado profundo.


In [None]:
# Lista de profundidades a probar
depths = []

train_scores = []
test_scores = []

print("max_depth | acc_train | acc_test")
print("-" * 32)

for d in depths:
    clf = DecisionTreeClassifier(max_depth=d, random_state=42)
    clf.fit(X_train, y_train)

    y_pred_tr = clf.predict(X_train)
    y_pred_te = clf.predict(X_test)

    acc_tr = accuracy_score(y_train, y_pred_tr)
    acc_te = accuracy_score(y_test, y_pred_te)

    train_scores.append(acc_tr)
    test_scores.append(acc_te)

    print(f"{str(d):>8} | {acc_tr:9.3f} | {acc_te:8.3f}")

#####
# TAREA:
# - A√±ade/quita valores en 'depths' y vuelve a ejecutar.
# - Observa c√≥mo cambian las accuracies de train y test.
# - ¬øVes se√±ales de sobreajuste (train muy alto y test bajando)?

### 7.1 - Curva prfundidad vs accuract

In [None]:
x_labels = [str(d) if d is not None else "None" for d in depths]

plt.figure(figsize=(8, 5))
plt.plot(range(len(depths)), train_scores, marker="o", label="Train")
plt.plot(range(len(depths)), test_scores, marker="o", label="Test")
plt.xticks(range(len(depths)), x_labels)
plt.xlabel("max_depth")
plt.ylabel("Accuracy")
plt.title("Profundidad del √°rbol vs Accuracy")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

# best_depth =

#####
# TAREA:
# - Mira la gr√°fica y el cuadro de valores anterior.
# - Elige MANUALMENTE una profundidad 'best_depth' que consideres razonable:
#   * ¬øTe quedar√≠as con la que m√°s test tiene o con una un poco m√°s simple pero con test similar?

### 7.2 - Entrenamiento del √°rbol

In [None]:
best_tree = DecisionTreeClassifier(max_depth=, random_state=)
best_tree.fit(X_train, y_train)

y_pred_train = best_tree.predict(X_train)
y_pred_test = best_tree.predict(X_test)

acc_tr_final = accuracy_score(y_train, y_pred_train)
acc_te_final = accuracy_score(y_test, y_pred_test)

print(f"√Årbol final con max_depth = {best_depth}")
print(f"Accuracy (train): {acc_tr_final:.3f}")
print(f"Accuracy (test) : {acc_te_final:.3f}")

#####
# TAREA:
# - Justifica en tu informe por qu√© has elegido este 'best_depth' en lugar de otros posibles.
# - Comenta si el modelo parece estar sobreajustando o no.

#### 7.2.1: Visualizaci√≥n del √°rbol: Figura

En este paso, inspeccionar√°s el **√°rbol de decisi√≥n final** como si fuera
el diagrama l√≥gico del ordenador central de la Estaci√≥n Kepler.

Queremos ver:

- Qu√© variables f√≠sicas aparecen en los primeros niveles.
- Qu√© umbrales usa el √°rbol para separar los tipos de exoplanetas.
- Si el √°rbol es relativamente sencillo o se ha convertido en una ‚Äúselva‚Äù dif√≠cil de interpretar.

Para ello, dibujar√°s el √°rbol entrenado con `best_depth`.

In [None]:
#Los nombres de tus clases
class_names = []

plt.figure(figsize=(14, 7))
plot_tree(
    best_tree,
    feature_names=features_kmeans,   # variables usadas como entrada del modelo
    class_names=class_names,
    filled=True,
    rounded=True,
    fontsize=8
)
plt.title(f"√Årbol de decisi√≥n final (max_depth={best_depth})")
plt.tight_layout()
plt.show()

#####
# TAREA:
# - Identifica qu√© variables aparecen en los primeros niveles del √°rbol.
# - Comenta si coinciden con tu intuici√≥n f√≠sica (por ejemplo, ¬øusa mucho la masa?).
# - Explica en tu informe, con palabras, una o dos ramas del √°rbol: ‚ÄúSi el periodo orbital es menor que X y la masa es mayor que Y, el sistema clasifica el planeta como tipo Z‚Ä¶‚Äù

#### 7.2.2: Visualizaci√≥n del √°rbol: Regiones 2D

In [None]:
# 1) Elige las DOS caracter√≠sticas que quieres usar en 2D
#    Deben estar dentro de features_kmeans
FEAT_X = features_kmeans[0]   # C√°mbialo si quieres usar otra variable en el eje X
FEAT_Y = features_kmeans[1]   # C√°mbialo si quieres usar otra variable en el eje Y

print("Usaremos para la vista 2D:")
print("  Eje X:", FEAT_X)
print("  Eje Y:", FEAT_Y)

# Posiciones de esas columnas dentro de X_train / X_test
idx_x = features_kmeans.index(FEAT_X)
idx_y = features_kmeans.index(FEAT_Y)

# Creamos versiones 2D de los conjuntos
X_train_2d = X_train[:, [idx_x, idx_y]]
X_test_2d  = X_test[:,  [idx_x, idx_y]]

print("Shape X_train_2d:", X_train_2d.shape)
print("Shape X_test_2d :", X_test_2d.shape)


def plot_decision_regions_2d(model, X, y, feat_x_name, feat_y_name, title='Regiones de decisi√≥n'):
    """
    Dibuja las regiones de decisi√≥n de un clasificador en 2D (multiclase).
    """
    # Convertimos las etiquetas (posiblemente strings) a enteros para poder colorear
    clases = np.unique(y)
    mapa_clase_a_int = {cl: i for i, cl in enumerate(clases)}
    
    y_int = np.array([mapa_clase_a_int[cl] for cl in y])

    x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
    y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5

    xx, yy = np.meshgrid(
        np.linspace(x_min, x_max, 300),
        np.linspace(y_min, y_max, 300)
    )
    grid = np.c_[xx.ravel(), yy.ravel()]

    # Predicci√≥n sobre la rejilla
    Z = model.predict(grid)
    Z_int = np.array([mapa_clase_a_int[cl] for cl in Z]).reshape(xx.shape)

    plt.figure(figsize=(8, 6))
    # Fondo de regiones
    plt.contourf(xx, yy, Z_int, alpha=0.25)

    # Puntos reales
    for cl in clases:
        mask = (y == cl)
        plt.scatter(
            X[mask, 0],
            X[mask, 1],
            label=str(cl),
            edgecolor='k',
            alpha=0.85,
            s=30
        )

    plt.xlabel(feat_x_name)
    plt.ylabel(feat_y_name)
    plt.title(title)
    plt.legend(title="tipo_planeta")
    plt.tight_layout()
    plt.show()

# Entrenamos un √°rbol SOLO con las dos variables seleccionadas
tree_2d = DecisionTreeClassifier(max_depth=best_depth, random_state=42)
tree_2d.fit(X_train_2d, y_train)

# Regiones de decisi√≥n en el conjunto de entrenamiento
plot_decision_regions_2d(
    tree_2d,
    X_train_2d,
    y_train,
    feat_x_name=FEAT_X,
    feat_y_name=FEAT_Y,
    title=f"Regiones de decisi√≥n (train) ‚Äì √Årbol 2D (max_depth={best_depth})"
)

# Regiones de decisi√≥n en el conjunto de test
plot_decision_regions_2d(
    tree_2d,
    X_test_2d,
    y_test,
    feat_x_name=FEAT_X,
    feat_y_name=FEAT_Y,
    title=f"Regiones de decisi√≥n (test) ‚Äì √Årbol 2D (max_depth={best_depth})"
)

#####
# TAREA:
# - Cambia FEAT_X y FEAT_Y para ver otras combinaciones de variables.
# - Compara visualmente las regiones en train y en test: ¬øVes fronteras muy retorcidas en train que luego no encajan bien en test? ¬øAlg√∫n tipo de planeta queda en una ‚Äúisla‚Äù peque√±a rodeada de otros?
# - Explica en tu informe qu√© te dicen estas figuras sobre el comportamiento del autopiloto de clasificaci√≥n.

### 7.3 - Matriz de confusi√≥n y an√°lisis

In [None]:
y_pred_best = best_tree.predict(X_test)
labels = sorted(np.unique(y_test))

cm = confusion_matrix(y_test, y_pred_best, labels=labels)

# Matriz de confusi√≥n en valores absolutos
disp = ConfusionMatrixDisplay(confusion_matrix=, display_labels=labels)
disp.plot(cmap="Blues", values_format="d")
plt.title(f"Matriz de confusi√≥n ‚Äì √Årbol de decisi√≥n (max_depth={best_depth})")
plt.tight_layout()
plt.show()

# Matriz de confusi√≥n en porcentajes por fila (respecto a la clase real)
cm_pct = cm / cm.sum(axis=1, keepdims=True)
cm_pct_round = np.round(cm_pct * 100, 2)

print("Matriz de confusi√≥n en porcentajes (por fila ‚Äì clase real):")
print(cm_pct_round)

print("\nInforme de clasificaci√≥n (precision, recall, f1 por tipo de planeta):")
print(classification_report(y_test, y_pred_best, digits=3))

#####
# TAREA:
# - Identifica qu√© tipos de planeta se confunden m√°s entre s√≠.
# - ¬øHay alg√∫n tipo que el √°rbol casi nunca acierta o que casi siempre acierte?
# - Relaciona esto con lo que viste en los gr√°ficos de K-Means ¬øEsos tipos estaban cerca en el espacio de caracter√≠sticas?
# - Incluye en tu informe una breve discusi√≥n del tipo: ‚ÄúEl autopiloto de clasificaci√≥n de la Estaci√≥n Kepler tiende a ‚Ä¶‚Äù

## 8. SVM: kernels lineal, polin√≥mico y RBF

El Comit√© de Navegaci√≥n de la Estaci√≥n Kepler-Œ£ quiere comparar el √°rbol de decisi√≥n con otro tipo de
autopiloto de clasificaci√≥n: las **M√°quinas de Vectores Soporte (SVM)**.

La idea es entrenar tres modelos distintos usando solo dos variables f√≠sicas
(`FEAT_X` y `FEAT_Y`, las mismas que has usado en las regiones de decisi√≥n del √°rbol):

- SVM con **kernel lineal**  
- SVM con **kernel polin√≥mico**  
- SVM con **kernel RBF**  

Para cada kernel deber√°s:

1. Entrenar una SVM sobre el conjunto `X_train_2d, y_train`.
2. Calcular la **accuracy en test**.
3. Dibujar las **regiones de decisi√≥n** en train y en test.
4. Mostrar la **matriz de confusi√≥n** (normalizada por filas) y comentar sus errores.

> Tu objetivo es decidir cu√°l de los tres kernels se comporta mejor como autopiloto de clasificaci√≥n de
> exoplanetas en este espacio 2D, y explicar **por qu√© crees que ese kernel funciona mejor o peor**
> (fronteras lineales vs curvas, sobreajuste, etc.).



In [None]:
# Declara los kernels
kernels = []
resultados_svm = {}

# Orden de etiquetas para las matrices de confusi√≥n
labels = sorted(np.unique(y_test))

for kernel in kernels:
    print("\n" + "=" * 70)
    print(f"SVM con kernel = {kernel}")
    print("=" * 70)

    # Pipeline: escalado + SVM
    # Cambia C, degree o gamma
    svm_clf = make_pipeline(
        StandardScaler(),
        SVC(kernel=kernel, C= degree=, gamma="scale", random_state=42)
    )

    # Entrenamos usando solo las dos variables elegidas (vista 2D)
    svm_clf.fit(X_train_2d, y_train)

    # Predicci√≥n en test
    y_pred = svm_clf.predict(X_test_2d)
    acc = accuracy_score(y_test, y_pred)
    resultados_svm[kernel] = acc

    print(f"Accuracy en test: {acc:.3f}")
    print("\nInforme de clasificaci√≥n:")
    print(classification_report(y_test, y_pred, digits=3))

    # Regiones de decisi√≥n en el conjunto de entrenamiento
    plot_decision_regions_2d(
        svm_clf,
        X_train_2d,
        y_train,
        feat_x_name=FEAT_X,
        feat_y_name=FEAT_Y,
        title=f"Regiones de decisi√≥n (TRAIN) ‚Äì SVM ({kernel})"
    )

    # Regiones de decisi√≥n en el conjunto de test
    plot_decision_regions_2d(
        svm_clf,
        X_test_2d,
        y_test,
        feat_x_name=FEAT_X,
        feat_y_name=FEAT_Y,
        title=f"Regiones de decisi√≥n (TEST) ‚Äì SVM ({kernel})"
    )

    # Matriz de confusi√≥n normalizada por filas
    cm = confusion_matrix(y_test, y_pred, labels=labels)
    cm_norm = cm / cm.sum(axis=1, keepdims=True)

    plt.figure(figsize=(8, 6))
    sns.heatmap(
        cm_norm,
        annot=True,
        fmt=".2f",
        cmap="magma",
        xticklabels=labels,
        yticklabels=labels
    )
    plt.xlabel("Predicci√≥n SVM")
    plt.ylabel("Tipo real")
    plt.title(f"Matriz de confusi√≥n ‚Äì SVM ({kernel})")
    plt.tight_layout()
    plt.show()

# Resumen final
print("\nResumen de accuracy en test por kernel:")
for k, v in resultados_svm.items():
    print(f"- {k:6s}: {v:.3f}")

#####
# TAREAS:
# 1) Cambia FEAT_X y FEAT_Y para probar otros pares de variables f√≠sicas.
# 2) Vuelve a ejecutar esta celda y compara c√≥mo cambian las fronteras y las matrices de confusi√≥n.
# 3) Prueba a modificar C, degree (para 'poly') o gamma (para 'rbf') en la definici√≥n de SVC.
# 4) En tu informe responde:
#    - ¬øQu√© kernel funciona mejor en tu escenario? ¬øPor qu√©?
#    - ¬øQu√© kernel parece sobreajustar m√°s (fronteras muy retorcidas, errores raros en test, etc)?
#    - ¬øTiene sentido f√≠sico el tipo de frontera que dibuja cada kernel para separar los tipos de exoplanetas?

## 9. Gu√≠a para el informe en Word

En el informe final deber√≠as incluir, al menos:

1. **Objetivo y contexto**: misi√≥n cient√≠fica y qu√© quieres conseguir.
2. **Selecci√≥n de variables**: qu√© columnas has usado y por qu√©.
3. **K-Means**: elecci√≥n de K, interpretaci√≥n de cada cluster, posibles outliers.
4. **√Årbol de decisi√≥n**: profundidad elegida, comparaci√≥n train/test, matriz de confusi√≥n.
5. **SVM**: comparaci√≥n entre kernels (linear, poly, rbf). ¬øCu√°l se ajusta mejor y por qu√©?
6. **Conclusiones**: qu√© has aprendido sobre los tipos de exoplanetas y sobre las diferencias entre aprendizaje no supervisado y supervisado.
