# Reducción de Dimensiones

La reducción de dimensiones es una técnica utilizada en el análisis de datos y aprendizaje automático para simplificar conjuntos de datos de alta dimensionalidad. La idea principal es transformar los datos de alta dimensionalidad en una representación de menor dimensionalidad, manteniendo la mayor cantidad de información posible.

## ¿Por qué es importante la reducción de dimensiones?

1. **Visualización**: Facilita la visualización de datos en 2D o 3D, lo que permite una mejor comprensión e interpretación de los datos.

2. **Eficiencia computacional**: Al reducir la dimensionalidad, se disminuye la cantidad de datos a procesar, lo que puede resultar en una mejora en la eficiencia computacional de los algoritmos de aprendizaje automático.

3. **Eliminar ruido**: La reducción de dimensiones puede ayudar a eliminar el ruido presente en los datos, ya que las dimensiones irrelevantes o redundantes pueden ser eliminadas en el proceso de transformación.

4. **Combatir la maldición de la dimensionalidad**: Con conjuntos de datos de alta dimensionalidad, la cantidad de datos necesarios para entrenar un modelo aumenta exponencialmente. Reducir la dimensionalidad puede ayudar a combatir este problema, haciendo que los modelos sean más eficientes y precisos.

## Técnicas de reducción de dimensiones

Hay varias técnicas de reducción de dimensiones, y cada una tiene sus propias ventajas y desventajas. Algunas de las técnicas más comunes son:

1. **Análisis de Componentes Principales (PCA)**: PCA es una técnica lineal que busca encontrar las direcciones en las que los datos tienen la mayor varianza y proyecta los datos en un espacio de menor dimensionalidad formado por estas direcciones.

2. **Análisis Discriminante Lineal (LDA)**: LDA es una técnica supervisada que busca encontrar un espacio de menor dimensionalidad en el que se maximice la separación entre diferentes clases.

3. **t-Distributed Stochastic Neighbor Embedding (t-SNE)**: t-SNE es una técnica no lineal que busca encontrar una representación de menor dimensionalidad de los datos de tal manera que se conserven las relaciones de proximidad entre puntos en el espacio original.

4. **Autoencoders**: Los autoencoders son redes neuronales artificiales que aprenden a comprimir y descomprimir datos en un espacio de menor dimensionalidad.

En la siguiente sección, exploraremos el Análisis de Componentes Principales (PCA) en detalle y veremos cómo implementarlo en Python.


# Análisis de Componentes Principales (PCA)

El Análisis de Componentes Principales (PCA, por sus siglas en inglés) es una técnica de reducción de dimensiones que busca transformar un conjunto de datos de alta dimensionalidad en uno de menor dimensionalidad, manteniendo la mayor cantidad de información posible. PCA es una técnica lineal y no supervisada.

## ¿Cómo funciona PCA?

PCA sigue los siguientes pasos para transformar los datos:

1. **Estandarización**: Los datos se estandarizan para que cada característica tenga media 0 y desviación estándar 1. Esto es necesario porque PCA es sensible a las escalas de las variables.

2. **Cálculo de la matriz de covarianza**: Se calcula la matriz de covarianza de los datos estandarizados. La matriz de covarianza contiene información sobre las correlaciones entre las diferentes características.

3. **Cálculo de los eigenvectores y eigenvalores**: Se calculan los eigenvectores y eigenvalores de la matriz de covarianza. Los eigenvectores representan las direcciones en las que los datos tienen la mayor varianza, mientras que los eigenvalores representan la magnitud de la varianza en esas direcciones.

4. **Selección de componentes principales**: Se seleccionan los k eigenvectores con los k eigenvalores más grandes para formar una matriz de proyección de k dimensiones.

5. **Proyección de los datos**: Se proyectan los datos estandarizados en el espacio de menor dimensionalidad formado por los k componentes principales.

## Interpretación de los resultados

Los componentes principales resultantes son combinaciones lineales de las características originales y son ortogonales entre sí. Estos componentes principales capturan la mayor cantidad de varianza de los datos en el espacio de menor dimensionalidad.

El primer componente principal es la dirección que captura la mayor cantidad de varianza en los datos, el segundo componente principal es la dirección ortogonal al primer componente principal que captura la segunda mayor cantidad de varianza, y así sucesivamente.

La cantidad de varianza explicada por cada componente principal se puede calcular como la proporción del eigenvalor correspondiente al total de los eigenvalores. Se puede utilizar la suma acumulada de las proporciones de varianza explicada para determinar cuántos componentes principales se deben conservar en la transformación.

En la siguiente sección, veremos cómo implementar PCA en Python utilizando la biblioteca de scikit-learn y cómo interpretar los resultados.


# Ejemplo: PCA con el conjunto de datos Breast Cancer Wisconsin

En este ejemplo, aplicaremos PCA al conjunto de datos Breast Cancer Wisconsin para reducir su dimensionalidad y visualizar la separación entre clases en un espacio de menor dimensionalidad. Este conjunto de datos contiene 569 instancias y 30 características numéricas calculadas a partir de imágenes digitalizadas de aspiración con aguja fina de masas mamarias. El objetivo es clasificar si los tumores son benignos o malignos.

## Cargando y explorando el conjunto de datos

Comencemos cargando el conjunto de datos y realizando una exploración básica de sus características y etiquetas.

In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
import plotly.express as px
import warnings
warnings.filterwarnings('ignore')

# Cargar el conjunto de datos
data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

# Ver las primeras filas del conjunto de datos
df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,0
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,0


In [2]:
df.columns

Index(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error', 'fractal dimension error',
       'worst radius', 'worst texture', 'worst perimeter', 'worst area',
       'worst smoothness', 'worst compactness', 'worst concavity',
       'worst concave points', 'worst symmetry', 'worst fractal dimension',
       'target'],
      dtype='object')

In [3]:
type(data)

sklearn.utils._bunch.Bunch

## Preprocesamiento de los datos
Antes de aplicar PCA, es necesario estandarizar los datos para que cada característica tenga media 0 y desviación estándar 1.

In [4]:
from sklearn.preprocessing import StandardScaler

# Estandarizar los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(data.data)

In [5]:
X_scaled.shape

(569, 30)

## Aplicando PCA
Ahora, vamos a aplicar PCA utilizando scikit-learn y proyectar los datos en 2 dimensiones para facilitar la visualización.

In [6]:
from sklearn.decomposition import PCA

# Aplicar PCA y reducir la dimensionalidad a 2
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# Crear un DataFrame con los datos transformados y las etiquetas
df_pca = pd.DataFrame(X_pca, columns=['PC1', 'PC2'])
df_pca['target'] = data.target

# Cómo decidir cuáles componentes principales escoger

Al aplicar PCA, es importante determinar cuántas componentes principales seleccionar para lograr un equilibrio entre la reducción de dimensionalidad y la conservación de la información relevante de los datos originales. Una forma común de decidir esto es utilizando la proporción de varianza explicada por cada componente principal.

## Proporción de varianza explicada

La proporción de varianza explicada nos indica cuánta varianza de los datos originales es capturada por cada componente principal. Podemos calcularla utilizando la propiedad `explained_variance_ratio_` del objeto PCA de scikit-learn.

In [7]:
# Aplicar PCA sin reducir el número de componentes
pca_full = PCA()
X_pca_full = pca_full.fit_transform(X_scaled)

# Calcular la proporción de varianza explicada por cada componente principal
explained_variance_ratio_full = pca_full.explained_variance_ratio_
print("Proporción de varianza explicada por cada componente principal:\n", explained_variance_ratio_full)

Proporción de varianza explicada por cada componente principal:
 [4.42720256e-01 1.89711820e-01 9.39316326e-02 6.60213492e-02
 5.49576849e-02 4.02452204e-02 2.25073371e-02 1.58872380e-02
 1.38964937e-02 1.16897819e-02 9.79718988e-03 8.70537901e-03
 8.04524987e-03 5.23365745e-03 3.13783217e-03 2.66209337e-03
 1.97996793e-03 1.75395945e-03 1.64925306e-03 1.03864675e-03
 9.99096464e-04 9.14646751e-04 8.11361259e-04 6.01833567e-04
 5.16042379e-04 2.72587995e-04 2.30015463e-04 5.29779290e-05
 2.49601032e-05 4.43482743e-06]


## Gráfica de la proporción acumulada de varianza explicada
Una forma visual de decidir cuántas componentes principales seleccionar es trazar la proporción acumulada de varianza explicada en función del número de componentes principales. Esta gráfica también se conoce como "gráfica de codo" o "gráfica de Scree".

In [8]:
# Calcular la proporción acumulada de varianza explicada
cumulative_explained_variance_ratio = np.cumsum(explained_variance_ratio_full)

# Crear un gráfico de la proporción acumulada de varianza explicada
fig = px.line(x=range(1, len(cumulative_explained_variance_ratio) + 1), y=cumulative_explained_variance_ratio, markers=True)
fig.update_xaxes(title_text='Número de componentes principales')
fig.update_yaxes(title_text='Proporción acumulada de varianza explicada')
fig.update_layout(title='Gráfica de la proporción acumulada de varianza explicada')
fig.show()

Al observar la gráfica, podemos buscar un "codo" o un punto de inflexión donde la proporción acumulada de varianza explicada deja de aumentar significativamente con la adición de más componentes principales. Este punto puede ser un buen indicador de cuántas componentes principales seleccionar.

Sin embargo, es importante tener en cuenta que no siempre hay un "codo" claramente definido y que la elección del número de componentes principales puede depender del contexto y de los objetivos específicos del análisis. En algunos casos, también puede ser útil utilizar técnicas de validación cruzada o pruebas de rendimiento en algoritmos de aprendizaje automático para determinar el número óptimo de componentes principales.

## Visualización de los resultados
Utilizaremos plotly para visualizar la proyección de los datos en las dos primeras componentes principales y observar la separación entre clases.

In [9]:
fig = px.scatter(df_pca, x='PC1', y='PC2', color=df_pca['target'].astype(str),
                 labels={'color': 'Target'}, width=800, height=600)  # Ajusta el tamaño del gráfico

fig.update_layout(
    title='Proyección de los datos en las dos primeras componentes principales',
    xaxis=dict(scaleanchor="y", scaleratio=1),  # Esto asegura que los ejes x e y tengan la misma escala
    xaxis_title="PC1",  # Etiqueta del eje X
    yaxis_title="PC2",  # Etiqueta del eje Y
    legend_title="Target"  # Título de la leyenda
)

fig.show()

## Interpretación de los resultados
La gráfica muestra la proyección de los datos en las dos primeras componentes principales. Podemos observar cierta separación entre las clases (tumores benignos y malignos), lo que sugiere que PCA ha logrado reducir la dimensionalidad mientras mantiene información útil para la clasificación.

Para entender cuánta varianza de los datos ha sido capturada por las componentes principales, podemos calcular la proporción de varianza explicada por cada componente.

In [10]:
# Calcular la proporción de varianza explicada por cada componente principal
explained_variance_ratio = pca.explained_variance_ratio_
print("Proporción de varianza explicada por las dos primeras componentes principales:", explained_variance_ratio)

Proporción de varianza explicada por las dos primeras componentes principales: [0.44272026 0.18971182]


Esto nos dará una idea de qué tan representativas son las dos primeras componentes principales en términos de la varianza total de los datos originales. Si deseamos aumentar la cantidad de varianza explicada, podríamos considerar aumentar el número de componentes principales en nuestra proyección.

## Visualización en 3D
Si deseamos visualizar la proyección de los datos en tres dimensiones en lugar de dos, podemos aplicar PCA con n_components=3 y crear un gráfico de dispersión 3D utilizando plotly.

In [11]:
pca_3d = PCA(n_components=3)
X_pca_3d = pca_3d.fit_transform(X_scaled)

# Crear un DataFrame con los datos transformados y las etiquetas
df_pca_3d = pd.DataFrame(X_pca_3d, columns=['PC1', 'PC2', 'PC3'])
df_pca_3d['target'] = data.target  # Asegúrate de que 'data.target' sea el vector correcto de etiquetas

# Crear un gráfico de dispersión 3D de las componentes principales
fig = px.scatter_3d(df_pca_3d, x='PC1', y='PC2', z='PC3', color=df_pca_3d['target'].astype(str),
                    labels={'color': 'Target'}, width=800, height=600)  # Ajusta el tamaño del gráfico

fig.update_layout(
    title='Proyección de los datos en las tres primeras componentes principales',
    scene=dict(
        xaxis_title='PC1',
        yaxis_title='PC2',
        zaxis_title='PC3'
    ),
    legend_title="Target"
)

fig.show()

Esta visualización en 3D puede proporcionar una perspectiva adicional sobre la estructura de los datos y la separación entre clases. De manera similar a la visualización en 2D, también podemos calcular la proporción de varianza explicada por las tres primeras componentes principales.

In [12]:
# Calcular la proporción de varianza explicada por las tres primeras componentes principales
explained_variance_ratio_3d = pca_3d.explained_variance_ratio_
print("Proporción de varianza explicada por las tres primeras componentes principales:", explained_variance_ratio_3d)

Proporción de varianza explicada por las tres primeras componentes principales: [0.44272026 0.18971182 0.09393163]


Hasta este punto hemos aplicado PCA al conjunto de datos Breast Cancer Wisconsin, reduciendo su dimensionalidad y visualizando la proyección de los datos en dos y tres dimensiones. A través de la visualización, hemos observado cierta separación entre clases, lo que sugiere que PCA puede ser útil para simplificar la información contenida en este conjunto de datos antes de aplicar algoritmos de clasificación.

# Aplicando K-means al conjunto de datos Breast Cancer Wisconsin
Después de reducir la dimensionalidad del conjunto de datos utilizando PCA, podemos aplicar K-means para realizar un análisis de clustering. K-means es un algoritmo de clustering que intenta dividir el conjunto de datos en K grupos (clusters) disjuntos, minimizando la suma de las distancias al cuadrado entre los puntos y el centroide de su cluster correspondiente.

En este caso, utilizaremos el objeto `KMeans` de scikit-learn para aplicar el algoritmo K-means al conjunto de datos Breast Cancer Wisconsin reducido a tres dimensiones con PCA.

In [13]:
from sklearn.cluster import KMeans

pca_3d = PCA(n_components=3)
X_pca_3d = pca_3d.fit_transform(X_scaled)

# Aplicar K-means con 2 clusters al conjunto de datos reducido a 3 dimensiones
kmeans = KMeans(n_clusters=2, random_state=0)
kmeans_labels = kmeans.fit_predict(X_pca_3d)

# Crear un DataFrame con los datos reducidos y las etiquetas de clustering
dataset_pca_3d = pd.DataFrame(X_pca_3d, columns=['PC1', 'PC2', 'PC3'])
dataset_pca_3d['Cluster'] = kmeans_labels.astype(str)  # Convertir a string para mejorar la visualización de colores categóricos

# Crear una visualización 3D de los datos y los clusters
fig = px.scatter_3d(dataset_pca_3d, x='PC1', y='PC2', z='PC3', color='Cluster',
                    title='Clustering de K-means aplicado al conjunto de datos Breast Cancer Wisconsin en R3',
                    labels={'Cluster': 'Cluster ID'}, width=800, height=600)

# Ajustar la transparencia y el tamaño del marker para los nodos
fig.update_traces(marker=dict(size=5, opacity=0.5))  # Reducir el tamaño y añadir transparencia

# Añadir los centroides de los clusters al gráfico
centroids = pd.DataFrame(kmeans.cluster_centers_, columns=['PC1', 'PC2', 'PC3'])
fig.add_scatter3d(x=centroids['PC1'], y=centroids['PC2'], z=centroids['PC3'], mode='markers',
                  marker=dict(size=5, color='black', symbol='x'), name='Centroides')  # Tamaño reducido para los centroides

fig.update_layout(legend_title_text='Cluster ID')
fig.show()

## Comparación de los resultados del clustering con las etiquetas reales del dataset
Para evaluar la efectividad del clustering de K-means, podemos comparar los resultados del clustering con las etiquetas reales del conjunto de datos Breast Cancer Wisconsin. Dado que las etiquetas de clustering no tienen un orden específico, es posible que necesitemos ajustarlas antes de compararlas con las etiquetas reales.

In [14]:
real_labels = df_pca_3d['target'].values
real_labels[0:20]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1])

In [15]:
kmeans_labels[0:20]

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0])

In [16]:
def reetiquetar_clusters(etiquetas, mapeo):
    etiquetas_reetiquetadas = np.array([mapeo[etiqueta] for etiqueta in etiquetas])
    return etiquetas_reetiquetadas

# Ajustar las etiquetas de clustering para que coincidan con las etiquetas reales
# Define el diccionario de mapeo para reetiquetar los valores de los clusters
mapeo = {0: 1, 1: 0}

# Reetiqueta las etiquetas de los clusters usando la función reetiquetar_clusters
adjusted_kmeans_labels = reetiquetar_clusters(kmeans_labels, mapeo)
adjusted_kmeans_labels[0:20]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1])

## Matriz de confusión
La matriz de confusión es una tabla que se utiliza para describir el rendimiento de un algoritmo de clasificación en un conjunto de datos para el cual se conocen las etiquetas verdaderas. La matriz de confusión compara las etiquetas predichas por el algoritmo con las etiquetas reales. En el caso de un problema de clasificación binaria, la matriz de confusión es una matriz 2x2 que consta de los siguientes elementos:

* Verdaderos positivos (TP): Número de casos en los que el algoritmo predijo correctamente la clase positiva.
* Verdaderos negativos (TN): Número de casos en los que el algoritmo predijo correctamente la clase negativa.
* Falsos positivos (FP): Número de casos en los que el algoritmo predijo incorrectamente la clase positiva (error de tipo I).
* Falsos negativos (FN): Número de casos en los que el algoritmo predijo incorrectamente la clase negativa (error de tipo II).

En el caso de un problema de clasificación multiclase, la matriz de confusión es una matriz cuadrada NxN, donde N es el número de clases. Cada fila de la matriz representa las instancias de una clase real, mientras que cada columna representa las instancias de una clase predicha. Los elementos de la diagonal principal de la matriz indican las clasificaciones correctas, mientras que los elementos fuera de la diagonal indican las clasificaciones incorrectas.

## Precisión (accuracy)
La precisión (accuracy) es una métrica de evaluación del rendimiento que se utiliza para medir qué tan bien un algoritmo de clasificación ha predicho las etiquetas correctas en un conjunto de datos. La precisión se calcula dividiendo el número total de predicciones correctas (tanto verdaderos positivos como verdaderos negativos) por el número total de casos en el conjunto de datos.

En términos de la matriz de confusión, la precisión se calcula como:

La precisión es una métrica útil cuando las clases en el conjunto de datos están equilibradas y se quiere evaluar el rendimiento general del algoritmo. Sin embargo, la precisión puede ser engañosa si las clases están desequilibradas, ya que un algoritmo que siempre predice la clase mayoritaria puede obtener una alta precisión sin realmente clasificar bien los casos de la clase minoritaria. En tales casos, otras métricas como la precisión, el recall y la puntuación F1 pueden proporcionar una evaluación más completa del rendimiento del algoritmo de clasificación.

In [17]:
from sklearn.metrics import confusion_matrix, accuracy_score

# Calcular la matriz de confusión y la precisión del clustering
conf_matrix = confusion_matrix(real_labels, adjusted_kmeans_labels)
accuracy = accuracy_score(real_labels, adjusted_kmeans_labels)

print("Matriz de confusión:\n", conf_matrix)
print("Precisión del clustering:", accuracy)

Matriz de confusión:
 [[175  37]
 [ 14 343]]
Precisión del clustering: 0.9103690685413005


## Ejercicio: Análisis de componentes principales y clustering K-means en datos de leucemia

Se les proporciona un conjunto de datos que contiene información sobre la expresión de 50 genes relacionados con la leucemia en 38 pacientes. En teoría, hay dos tipos de leucemia presentes en el conjunto de datos. Se les pide que realicen las siguientes tareas:

1. Cargue el conjunto de datos "Leucemia" y explore su contenido.
2. Realice un análisis de componentes principales (PCA) en los datos para reducir la dimensionalidad. Decida cuántos componentes principales retener basándose en el criterio de varianza explicada acumulada.
3. Visualice los datos reducidos en un gráfico de dispersión, utilizando los componentes principales seleccionados. ¿Puede identificar visualmente dos grupos diferentes en los datos?
4. Aplique el algoritmo de clustering K-means en los datos reducidos, utilizando el número adecuado de clusters (en este caso, 2 clusters).
5. Visualice los clusters resultantes en un gráfico de dispersión, utilizando los componentes principales seleccionados. Coloree los puntos según la etiqueta del cluster asignada por K-means.
6. Analice los resultados y discuta si los clusters encontrados parecen corresponder a los dos tipos de leucemia presentes en el conjunto de datos.

Para este ejercicio, pueden utilizar las bibliotecas `numpy`, `pandas`, `plotly`, `scikit-learn` u otras bibliotecas relevantes en Python. Recuerden seguir las buenas prácticas en la organización del código y la documentación de los pasos realizados. Buena suerte y diviértanse explorando los datos y aplicando las técnicas de reducción de dimensiones y clustering.

In [18]:
import pandas as pd
import numpy as np
import plotly.express as px
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

df_leucemia=pd.read_csv("leucemia_dataset.csv",header=None)
x=df_leucemia.values.T
x.shape

(38, 50)

In [19]:
fig = px.imshow(x)

# Configurar el layout para mantener la misma escala en ambos ejes
fig.update_layout(
    title="Visualización de Matriz",
    xaxis=dict(scaleanchor='y', scaleratio=1),
    yaxis=dict(constrain='domain')  # Establece la misma longitud de dominio para el eje Y
)

fig.show()

In [20]:
scaler = StandardScaler()
x_scaled = scaler.fit_transform(x)

In [21]:
fig = px.imshow(x_scaled)

# Configurar el layout para mantener la misma escala en ambos ejes
fig.update_layout(
    title="Visualización de Matriz",
    xaxis=dict(scaleanchor='y', scaleratio=1),
    yaxis=dict(constrain='domain')  # Establece la misma longitud de dominio para el eje Y
)

fig.show()

In [22]:
pca_3d = PCA(n_components=3)
X_pca_3d = pca_3d.fit_transform(x_scaled)

# Aplicar K-means con 2 clusters al conjunto de datos reducido a 3 dimensiones
kmeans = KMeans(n_clusters=2, random_state=0)
kmeans_labels = kmeans.fit_predict(X_pca_3d)

# Crear un DataFrame con los datos reducidos y las etiquetas de clustering
dataset_pca_3d = pd.DataFrame(X_pca_3d, columns=['PC1', 'PC2', 'PC3'])
dataset_pca_3d['Cluster'] = kmeans_labels.astype(str)  # Convertir a string para mejorar la visualización de colores categóricos

# Crear una visualización 3D de los datos y los clusters
fig = px.scatter_3d(dataset_pca_3d, x='PC1', y='PC2', z='PC3', color='Cluster',
                    title='Clustering de K-means aplicado al conjunto de datos Leucemia en R3',
                    labels={'Cluster': 'Cluster ID'}, width=800, height=600)

# Añadir los centroides de los clusters al gráfico
centroids = pd.DataFrame(kmeans.cluster_centers_, columns=['PC1', 'PC2', 'PC3'])
fig.add_scatter3d(x=centroids['PC1'], y=centroids['PC2'], z=centroids['PC3'], mode='markers',
                  marker=dict(size=5, color='black', symbol='x'), name='Centroides')

fig.update_layout(legend_title_text='Cluster ID')
fig.show()