# Principal Component Analysis - Análisis de Datos de Cáncer de Mama

In [None]:
# Librerías necesarias para manipulación de datos
import pandas as pd
from pathlib import Path

# Librerías de scikit learn
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Librerías para crear gráficos
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

## Preparación de los Datos

Fuente de los datos: [Breast Cancer Dataset](https://www.kaggle.com/datasets/yasserh/breast-cancer-dataset)

In [None]:
# Importa los datos en un DataFrame de Pandas
file_path = Path("../datos/breast_cancer.csv")  # Define la ruta del fichero de datos

# Crea un DataFrame con los datos del fichero de datos
data_raw = pd.read_csv(file_path, index_col=0)

# Muestra un ejemplo de los datos cargados
data_raw.head(10)

In [None]:
# Muestra el tamaño del DataFrame con los datos originales
data_raw.shape

In [None]:
# Verificar si hay valores nulos
total_nan = data_raw.isna().sum().sum()

print(f"Número total de valores nulos: {total_nan}")

In [None]:
# Eliminar las columnas donde al menos un elemento es NaN
data_clean = data_raw.dropna(axis=1, how="any")

In [None]:
# Muestra el tamaño del DataFrame con los datos limpios
data_clean.shape

In [None]:
# Verificar los tipos de datos
data_clean.dtypes

In [None]:
# Guarda una copia de los datos limpios
file_path = Path("../datos/breast_cancer_clean.csv")  # Define la ruta del fichero de datos

data_clean.to_csv(file_path)

In [None]:
# Elimina la columna "diagnosis" ya que representa la predicción del diagnóstico, y además, es una variable no numérica
data_clean = data_clean.drop("diagnosis", axis=1)

# Muestra un ejemplo de los datos limpios
data_clean.head(10)

In [None]:
# Estandarización de los datos
scaler = StandardScaler() # Crea una instancia de StandardScaler

# Estandariza los datos utilizando la instancia de StandarScaler
data_standardized = scaler.fit_transform(data_clean)

# Muestra los datos estandarizados
data_standardized[10]

## Uso de PCA

In [None]:
# PCA para 2 componentes
pca_2d = PCA(n_components=2)
components_2d = pca_2d.fit_transform(data_standardized)

# PCA para 3 componentes
pca_3d = PCA(n_components=3)
components_3d = pca_3d.fit_transform(data_standardized)

In [None]:
# Define los colores para los puntos del gráfico
dot_colors = data_raw["diagnosis"].replace({'M': 1, 'B': 0})
dot_colors

In [None]:
# Gráfico para 2 componentes
plt.figure(figsize=(12, 6))
plt.scatter(components_2d[:, 0], components_2d[:, 1], c=dot_colors, alpha=0.7)
plt.title("PCA con 2 Componentes")
plt.xlabel("Componente 1")
plt.ylabel("Componente 2")
plt.show()

In [None]:
# Gráfico para 3 componentes
ax = plt.subplot(1, 2, 2, projection="3d")
ax.scatter(components_3d[:, 0], components_3d[:, 1], components_3d[:, 2], c=dot_colors, alpha=0.7)
ax.set_title("PCA con 3 Componentes")
ax.set_xlabel("Componente 1")
ax.set_ylabel("Componente 2")
ax.set_zlabel("Componente 3")
plt.show()

### Cálculo de la varianza explicada

La varianza explicada en el Análisis de Componentes Principales (PCA) se refiere a la proporción de la varianza total de los datos que es capturada o representada por cada componente principal.

Cuando realizas PCA, estás transformando tus datos originales, que pueden tener muchas dimensiones (o características), a un nuevo espacio con menos dimensiones (los componentes principales). Cada componente principal es una combinación lineal de las características originales y capta cierta cantidad de información (o varianza) de los datos.

La varianza explicada por un componente principal te indica qué tan importante es ese componente en términos de cuánta información de los datos originales retiene. Un componente principal que explique, por ejemplo, el 40% de la varianza significa que capta el 40% de la información total que había en todos los datos originales.

In [None]:
# Varianza explicada para 2 y 3 componentes
explained_variance_2d = pca_2d.explained_variance_ratio_
explained_variance_3d = pca_3d.explained_variance_ratio_

# Cálculo de la varianza explicada acumulada
cumulative_variance_2d = explained_variance_2d.sum()
cumulative_variance_3d = explained_variance_3d.sum()

# Mostrar resultados
print(f"Varianza explicada PCA2: {explained_variance_2d}")
print(f"Varianza acumulada PCA2: {cumulative_variance_2d}")
print(f"Varianza explicada PCA3: {explained_variance_3d}")
print(f"Varianza acumulada PCA3: {cumulative_variance_3d}")