#Laboratorio de PCA


In [1]:
import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_breast_cancer

Los datos utilizados en este ejemplo son los datos de cáncer de mama proporcionados por scikit-learn. Se trata de un conjunto de datos clásicos utilizados para el aprendizaje automático y la investigación en el campo de la detección temprana del cáncer.

Este conjunto de datos contiene información de 569 pacientes con cáncer de mama y 30 características diferentes relacionadas con las imágenes de las masas mamarias. Los pacientes son clasificados como benignos (no cancerosos) o malignos (cancerosos).


Los datos están en un formato de una matriz de numpy, donde cada fila representa un paciente y cada columna representa una característica de la masa mamaria. El objetivo es entender la relación entre las características y la clasificación del paciente (benigno o maligno).

In [2]:
import pandas as pd

data_names = {
    'Nombre de la característica': ['radius', 'texture', 'perimeter', 'area', 'smoothness', 'compactness', 'concavity', 'concave points', 'symmetry', 'fractal dimension', 'radius_se', 'texture_se', 'perimeter_se', 'area_se', 'smoothness_se', 'compactness_se', 'concavity_se', 'concave points_se', 'symmetry_se', 'fractal dimension_se', 'radius_worst', 'texture_worst', 'perimeter_worst', 'area_worst', 'smoothness_worst', 'compactness_worst', 'concavity_worst', 'concave points_worst', 'symmetry_worst', 'fractal dimension_worst'],
    'Significado': ['Radio promedio de las células', 'Textura promedio de las células', 'Perímetro promedio de las células', 'Área promedio de las células', 'Suavidad promedio de las fronteras de las células', 'Compactación promedio de las células', 'Concavidad promedio de las células', 'Número promedio de puntos concavos en las células', 'Simetría promedio de las células', 'Dimensión fractal promedio de las células', 'Error estándar del radio', 'Error estándar de la textura', 'Error estándar del perímetro', 'Error estándar del área', 'Error estándar de la suavidad de las fronteras de las células', 'Error estándar de la compactación de las células', 'Error estándar de la concavidad de las células', 'Error estándar del número de puntos concavos en las células', 'Error estándar de la simetría de las células', 'Error estándar de la dimensión fractal de las células', 'Radio del punto más anormal', 'Textura del punto más anormal', 'Perímetro del punto más anormal', 'Área del punto más anormal', 'Suavidad de las fronteras del punto más anormal', 'Compactación del punto más anormal', 'Concavidad del punto más anormal', 'Número de puntos concavos del punto más anormal', 'Simetría del punto más anormal', 'Dimensión fractal del punto más anormal']
}
df_names = pd.DataFrame(data_names)
display(df_names)
#df.style.set_properties(**{'text-align': 'center'})

Unnamed: 0,Nombre de la característica,Significado
0,radius,Radio promedio de las células
1,texture,Textura promedio de las células
2,perimeter,Perímetro promedio de las células
3,area,Área promedio de las células
4,smoothness,Suavidad promedio de las fronteras de las células
5,compactness,Compactación promedio de las células
6,concavity,Concavidad promedio de las células
7,concave points,Número promedio de puntos concavos en las células
8,symmetry,Simetría promedio de las células
9,fractal dimension,Dimensión fractal promedio de las células


In [3]:
load_breast_cancer()

{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
         1.189e-01],
        [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
         8.902e-02],
        [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
         8.758e-02],
        ...,
        [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
         7.820e-02],
        [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
         1.240e-01],
        [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
         7.039e-02]]),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
        1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
        1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
        1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0

In [4]:
# Cargando los datos
data = load_breast_cancer()
X = data.data
y = data.target

In [5]:
print(X)

[[1.799e+01 1.038e+01 1.228e+02 ... 2.654e-01 4.601e-01 1.189e-01]
 [2.057e+01 1.777e+01 1.329e+02 ... 1.860e-01 2.750e-01 8.902e-02]
 [1.969e+01 2.125e+01 1.300e+02 ... 2.430e-01 3.613e-01 8.758e-02]
 ...
 [1.660e+01 2.808e+01 1.083e+02 ... 1.418e-01 2.218e-01 7.820e-02]
 [2.060e+01 2.933e+01 1.401e+02 ... 2.650e-01 4.087e-01 1.240e-01]
 [7.760e+00 2.454e+01 4.792e+01 ... 0.000e+00 2.871e-01 7.039e-02]]


In [6]:
print(y)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 0
 1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 1 1
 1 0 1 1 1 1 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1
 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 0 0 0 1 1
 1 1 0 1 0 1 0 1 1 1 0 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0
 0 1 0 0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 0 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1
 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 0 1 1 1 1 1 0 1 1
 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1
 1 1 1 1 1 1 0 1 0 1 1 0 

In [7]:
pd.DataFrame(X).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 30 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       569 non-null    float64
 1   1       569 non-null    float64
 2   2       569 non-null    float64
 3   3       569 non-null    float64
 4   4       569 non-null    float64
 5   5       569 non-null    float64
 6   6       569 non-null    float64
 7   7       569 non-null    float64
 8   8       569 non-null    float64
 9   9       569 non-null    float64
 10  10      569 non-null    float64
 11  11      569 non-null    float64
 12  12      569 non-null    float64
 13  13      569 non-null    float64
 14  14      569 non-null    float64
 15  15      569 non-null    float64
 16  16      569 non-null    float64
 17  17      569 non-null    float64
 18  18      569 non-null    float64
 19  19      569 non-null    float64
 20  20      569 non-null    float64
 21  21      569 non-null    float64
 22  22

In [None]:
# Instanciando y ajustando el modelo
pca = PCA(n_components=2)
pca.fit(X)

In [None]:
# Transformando los datos
X_pca = pca.transform(X)

In [None]:
# Imprimiendo los componentes principales
print(pca.components_)

In [None]:
# imprimiendo la proporción de varianza explicada por cada componente principal
print(pca.explained_variance_ratio_)

In [None]:
0.98204467+0.01617649

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.figure(figsize=(8,4))
plt.scatter(X_pca[: , 0 ] ,  X_pca[: , 1 ]  , c=y , cmap ='coolwarm' , s=20)
plt.xlabel("Primer componente principal")
plt.ylabel("Segundo componente principal")
plt.title("Visualizacion de los datos en el espacio de componentes principales" , fontsize=16)
plt.colorbar()
plt.show()

In [None]:
# obteniendo los coeficientes de los componentes principales
coef = pca.components_
print(coef)

In [None]:
print(coef[0,23])
print(coef[0,3])
print(coef[0,13])

In [None]:
print(coef[1,3])
print(coef[1,23])
print(coef[1,2])

In [None]:
# ordenando los coeficientes de cada componente principal
sorted_coef_indices = np.argsort(abs(coef), axis=1)
print(sorted_coef_indices)

In [None]:
sorted_coef_indices[0 , -3:]

In [None]:
np.sign( coef )

In [None]:
n_top_features = 3 # Numero de caracteristicas que vamos a mostrar
n_components = 2 # Numero de componentes que hemos utilizado
feature_names = data_names['Nombre de la característica'] # Nombres
feature_meaning =  data_names['Significado'] # El sginificado
signs = np.sign( coef )

#Imprimier las caracteristicas mas importantes

for i in range(n_components):
  print(f"Caracteristicas mas importantes para el componente {i+1}")
  for j in sorted_coef_indices[i , -n_top_features:]:
    print(f"{feature_names[j] , feature_meaning[j]  , signs[i][j] }" )
  print()

In [None]:
#Aplicar PCA con diferentes valores del numero de compontes
pca = PCA()
X_PCA = pca.fit_transform(X)

#Grafica de la proporcion de varianza
#pca.explained_variance_ratio_

plt.plot(range(1 , X.shape[1]+1) , np.cumsum(pca.explained_variance_ratio_) )


In [None]:
print(pca.explained_variance_ratio_ , pca.explained_variance_ratio_.shape)

In [None]:
data ={'Componentes': range(1 ,X.shape[1]+1) , 'Varianza Explicada' : np.cumsum(pca.explained_variance_ratio_) }
df = pd.DataFrame(data)

In [None]:
df

In [None]:
df['lag Varianza'] = df['Varianza Explicada'].shift(1)

In [None]:
df

In [None]:
df['lag Varianza'] = df['Varianza Explicada'].shift(1)
df['Ganancia Marginal'] = df['Varianza Explicada'] - df['lag Varianza']

plt.plot(range(1 , 11) ,  df['Ganancia Marginal'][:10])

In [None]:
import pickle as pickle
pickle.dump( pca , open('pca_clase.pca',"wb"))

In [None]:
otro_objeto = pickle.load(open('pca_clase.pca',"rb"))

In [None]:
otro_objeto.components_

In [None]:
#Creamos dataframe a partir de cada array
df_multi = pd.DataFrame(X, columns = data_names['Nombre de la característica'])
df_uni = pd.DataFrame(y , columns=['Cancer'] )

#concatenamos
df_final = pd.concat([df_multi , df_uni] , axis=1)

In [None]:
import seaborn as sns
sns.boxplot( x = 'Cancer' , y = 'area' , data=df_final )

In [None]:
sns.boxplot( x = 'Cancer' , y = 'perimeter_worst' , data=df_final )

In [None]:
otro_objeto_2 = PCA()
otro_objeto_2.fit(df_final)

In [None]:
otro_objeto_2.feature_names_in_

In [None]:
otro_objeto_2.transform(df_final)