# Análisis de Componentes Principales - Paso a Paso

* Estandarizar los datos (para cada una de las *m* observaciones): esto es: normalizarlos, no puede ser que tengamos una columna de valores entre 1000 y 100000 y otra con valores de 0,X
* Obtener los vectores y valores propios a partir de la matriz de covarianzas o de correlaciones o incluso la técnica de singular vector decomposition.
* Ordenar los valores propios en orden descendente y quedarnos con los *p* que se correpondan a los *p* mayores y así disminuir el número de variables del dataset (p<m)
* Construir la matriz de proyección W (llamada A en la demostración de la lección anterior) a partir de los *p* vectores propios
* Transformar el dataset original X a través de W para así obtener datos en el subespacio dimensional de dimensión *p*, que será Y

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd

In [6]:
import numpy as np
import pandas as pd
import seaborn as sns
import plotly.graph_objects as go
import plotly.io as pio; pio.templates.default='plotly_dark'

In [7]:
df = pd.read_csv("/content/drive/MyDrive/Python Machine Learning JGG/datasets/iris/iris.csv")

In [8]:
df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [None]:
# aquí hay una columna que la transformación lineal no la puede cambiar: la de Species
# vamos a dividir en X e Y

In [9]:
columns = df.columns.values.tolist()
X = np.array(df[columns[:-1]])
y = np.array(df[columns[-1]])

In [10]:
X

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [12]:
y

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolo

In [None]:
# hacemos un histograma un tanto especial

In [13]:
data = []
legend = {0: True, 1: False, 2: False, 3: False}
colors = {
    'setosa': 'rgb(255,127,20)',
    'versicolor': 'rgb(31,220,120)',
    'virginica': 'rgb(44,50,180)'
}
 
# Data
for feature in range(4):
    for specie, color in colors.items():
        data.append(
            go.Histogram(
                x=X[y==specie, feature],
                opacity=0.7,
                xaxis=f'x{feature+1}',
                marker={'color': colors[specie]},
                name=specie,
                showlegend=legend[feature]
            )
        )
 
# Layout
layout = go.Layout(
    barmode='overlay',
    xaxis={'domain': [0,0.25], 'title': 'Long. Sépalos (cm)'},
    xaxis2={'domain': [0.3,0.5], 'title': 'Anch. Sépalos (cm)'},
    xaxis3={'domain': [0.55,0.75], 'title': 'Long. Pétalos (cm)'},
    xaxis4={'domain': [0.8,1.0], 'title': 'Anch. Pétalos (cm)'},
    yaxis={'title': {'text': 'Número de ejemplares', 'standoff': 0.5}},
    title='Distribución de los rasgos de las diferentes flores Iris', title_x=0.5,
    margin={'l': 45, 't': 50, 'r': 10, 'b': 10},
)
 
# Figure
fig = go.Figure(data=data, layout=layout)
fig.show()

In [None]:
# ahora hago lo mismo pero con los datos normalilzados:

In [14]:
from sklearn.preprocessing import StandardScaler

In [15]:
X_std = StandardScaler().fit_transform(X)

In [16]:
data = []
legend = {0: True, 1: False, 2: False, 3: False}
colors = {
    'setosa': 'rgb(255,127,20)',
    'versicolor': 'rgb(31,220,120)',
    'virginica': 'rgb(44,50,180)'
}
 
# Data
for feature in range(4):
    for specie, color in colors.items():
        data.append(
            go.Histogram(
                x=X_std[y==specie, feature],
                opacity=0.7,
                xaxis=f'x{feature+1}',
                marker={'color': colors[specie]},
                name=specie,
                showlegend=legend[feature]
            )
        )
 
# Layout
layout = go.Layout(
    barmode='overlay',
    xaxis={'domain': [0,0.25], 'title': 'Long. Sépalos (cm)'},
    xaxis2={'domain': [0.3,0.5], 'title': 'Anch. Sépalos (cm)'},
    xaxis3={'domain': [0.55,0.75], 'title': 'Long. Pétalos (cm)'},
    xaxis4={'domain': [0.8,1.0], 'title': 'Anch. Pétalos (cm)'},
    yaxis={'title': {'text': 'Número de ejemplares', 'standoff': 0.5}},
    title='Distribución de los rasgos de las diferentes flores Iris', title_x=0.5,
    margin={'l': 45, 't': 50, 'r': 10, 'b': 10},
)
 
# Figure
fig = go.Figure(data=data, layout=layout)
fig.show()

In [None]:
# vamos a calcular la descomposicion de valores y vectores propios:

### 1- Calculamos la descomposición de valores y vectores propios
##### opción a) Usando la Matriz de Covarianzas

In [17]:
from IPython.display import display, Math, Latex

In [18]:
display(Math(r'\sigma_{jk} = \frac{1}{n-1}\sum_{i=1}^m (x_{ij} - \overline{x_j})(x_{ik} - \overline{x_k})'))

<IPython.core.display.Math object>

In [19]:
display(Math(r'\Sigma = \frac{1}{n-1}((X-\overline{x})^T(X-\overline{x}))'))

<IPython.core.display.Math object>

In [20]:
display(Math(r'\overline{x} = \sum_{i=1}^n x_i\in \mathbb R^m'))

<IPython.core.display.Math object>

In [21]:
import numpy as np

In [22]:
mean_vect = np.mean(X_std, axis=0)
mean_vect

array([-4.73695157e-16, -7.81597009e-16, -4.26325641e-16, -4.73695157e-16])

In [None]:
# con esto he sacado las medias. observamos que están muy cercanas a cero porque estaban normalizadas

In [24]:
# creo matriz de covarianzas:
cov_matrix = (X_std - mean_vect).T.dot((X_std - mean_vect))/(X_std.shape[0]-1)
print("La matriz de covarianzas es: \n\n%s"%cov_matrix)

La matriz de covarianzas es 

[[ 1.00671141 -0.11835884  0.87760447  0.82343066]
 [-0.11835884  1.00671141 -0.43131554 -0.36858315]
 [ 0.87760447 -0.43131554  1.00671141  0.96932762]
 [ 0.82343066 -0.36858315  0.96932762  1.00671141]]


In [None]:
# podemos sacar la matriz de covarianza directamente con np (y sale igual)

In [25]:
np.cov(X_std.T)

array([[ 1.00671141, -0.11835884,  0.87760447,  0.82343066],
       [-0.11835884,  1.00671141, -0.43131554, -0.36858315],
       [ 0.87760447, -0.43131554,  1.00671141,  0.96932762],
       [ 0.82343066, -0.36858315,  0.96932762,  1.00671141]])

In [None]:
# ahora descomponemos la matriz de covarianza:
# valores propios y vectores propios de la matriz:

In [27]:
eig_vals, eig_vectors = np.linalg.eig(cov_matrix)
print("Valores propios: \n%s"%eig_vals)
print("Vectores propios: \n%s"%eig_vectors)

Valores propios: 
[2.93808505 0.9201649  0.14774182 0.02085386]
Vectores propios: 
[[ 0.52106591 -0.37741762 -0.71956635  0.26128628]
 [-0.26934744 -0.92329566  0.24438178 -0.12350962]
 [ 0.5804131  -0.02449161  0.14212637 -0.80144925]
 [ 0.56485654 -0.06694199  0.63427274  0.52359713]]


In [None]:
# de casualidad los valores propios ya están ordenaods

##### opción b) Usando la Matriz de Correlaciones (se usa mucho en el campo de las finanzas)

In [28]:
corr_matrix = np.corrcoef(X_std.T)
corr_matrix

array([[ 1.        , -0.11756978,  0.87175378,  0.81794113],
       [-0.11756978,  1.        , -0.4284401 , -0.36612593],
       [ 0.87175378, -0.4284401 ,  1.        ,  0.96286543],
       [ 0.81794113, -0.36612593,  0.96286543,  1.        ]])

In [None]:
# nos da la misma matriz pero sin los errores de redondeo

In [29]:
eig_vals_corr, eig_vectors_corr = np.linalg.eig(corr_matrix)
print("Valores propios \n%s"%eig_vals_corr)
print("Vectores propios \n%s"%eig_vectors_corr)

Valores propios 
[2.91849782 0.91403047 0.14675688 0.02071484]
Vectores propios 
[[ 0.52106591 -0.37741762 -0.71956635  0.26128628]
 [-0.26934744 -0.92329566  0.24438178 -0.12350962]
 [ 0.5804131  -0.02449161  0.14212637 -0.80144925]
 [ 0.56485654 -0.06694199  0.63427274  0.52359713]]


In [None]:
# nos vuelve a dar lo mismo que antes (pequeñas variaciones por el redondeo)

In [None]:
# observamos que la matriz de correlación daria igual con X y con X_std:

In [30]:
corr_matrix = np.corrcoef(X.T)
corr_matrix

array([[ 1.        , -0.11756978,  0.87175378,  0.81794113],
       [-0.11756978,  1.        , -0.4284401 , -0.36612593],
       [ 0.87175378, -0.4284401 ,  1.        ,  0.96286543],
       [ 0.81794113, -0.36612593,  0.96286543,  1.        ]])

##### opción c) Singular Value Decomposition  (esto mejora mucho el rendimiento computacional)   - da otros valores de valores propios y vectores propios, pero está bien

In [31]:
u,s,v = np.linalg.svd(X_std.T)
u

array([[-0.52106591, -0.37741762,  0.71956635,  0.26128628],
       [ 0.26934744, -0.92329566, -0.24438178, -0.12350962],
       [-0.5804131 , -0.02449161, -0.14212637, -0.80144925],
       [-0.56485654, -0.06694199, -0.63427274,  0.52359713]])

In [32]:
s

array([20.92306556, 11.7091661 ,  4.69185798,  1.76273239])

In [33]:
v

array([[ 1.08239531e-01,  9.94577561e-02,  1.12996303e-01, ...,
        -7.27030413e-02, -6.56112167e-02, -4.59137323e-02],
       [-4.09957970e-02,  5.75731483e-02,  2.92000319e-02, ...,
        -2.29793601e-02, -8.63643414e-02,  2.07800179e-03],
       [ 2.72186462e-02,  5.00034005e-02, -9.42089147e-03, ...,
        -3.84023516e-02, -1.98939364e-01, -1.12588405e-01],
       ...,
       [ 5.43380310e-02,  5.12936114e-03,  2.75184277e-02, ...,
         9.89532683e-01, -1.41206665e-02, -8.30595907e-04],
       [ 1.96438400e-03,  8.48544595e-02,  1.78604309e-01, ...,
        -1.25488246e-02,  9.52049996e-01, -2.19201906e-02],
       [ 2.46978090e-03,  5.83496936e-03,  1.49419118e-01, ...,
        -7.17729676e-04, -2.32048811e-02,  9.77300244e-01]])

### 2 - Las componentes principales

In [None]:
# por definición, los vectores han de tener longitud 1.
# lo comprobamos

In [34]:
for ev in eig_vectors:
    print("La longitud del VP (vector propio) es: %s"%np.linalg.norm(ev))

La longitud del VP (vector propio) es: 0.9999999999999999
La longitud del VP (vector propio) es: 1.0000000000000002
La longitud del VP (vector propio) es: 0.9999999999999999
La longitud del VP (vector propio) es: 0.9999999999999999


In [None]:
# está bien, son todos 1; por tanto, son base del espacio vectorial original, que me va a servir para calcular las componentes ppales

In [None]:
# ahora vemos qué vectores propios se pueden eliminar sin perder demasiada información:
# buscamos los valores propios: hacemos una lista juntando los vectores y valores propios para compararlos:

In [35]:
eigen_pairs = [(np.abs(eig_vals[i]), eig_vectors[:,i]) for i in range(len(eig_vals))]
eigen_pairs

[(2.9380850501999953,
  array([ 0.52106591, -0.26934744,  0.5804131 ,  0.56485654])),
 (0.9201649041624852,
  array([-0.37741762, -0.92329566, -0.02449161, -0.06694199])),
 (0.14774182104494774,
  array([-0.71956635,  0.24438178,  0.14212637,  0.63427274])),
 (0.0208538621764632,
  array([ 0.26128628, -0.12350962, -0.80144925,  0.52359713]))]

Ordenamos los vectores propios con valor propio de mayor a menor

In [None]:
# ahora hay que ordenarlos

In [36]:
eigen_pairs.sort()   # ordena de menor a mayor
eigen_pairs.reverse()   # los da la vuelta porque queremos el mayor arriba del todo
eigen_pairs

[(2.9380850501999953,
  array([ 0.52106591, -0.26934744,  0.5804131 ,  0.56485654])),
 (0.9201649041624852,
  array([-0.37741762, -0.92329566, -0.02449161, -0.06694199])),
 (0.14774182104494774,
  array([-0.71956635,  0.24438178,  0.14212637,  0.63427274])),
 (0.0208538621764632,
  array([ 0.26128628, -0.12350962, -0.80144925,  0.52359713]))]

In [37]:
print("Valores propios en orden descendente:")
for ep in eigen_pairs:
    print(ep[0])

Valores propios en orden descendente:
2.9380850501999953
0.9201649041624852
0.14774182104494774
0.0208538621764632


In [None]:
# y cuántas componentes principales tenemos que elegir para el nuevo subespacio? 
# la varianza explicativa, que se puede calcular a partir de los valores propios, nos dice cuánta varianza se puede atribuir a cada una de las componentes principales. se hace un gráfico acumulativo y vemos si solo nos quedamos con 1, 2, o 3 qué % de la variabilidad total quedaría representada:

In [38]:
total_sum = sum(eig_vals)
var_exp = [(i/total_sum)*100 for i in sorted(eig_vals, reverse=True)]
cum_var_exp = np.cumsum(var_exp)

In [41]:
var_exp

[72.9624454132999, 22.850761786701725, 3.66892188928287, 0.517870910715503]

In [None]:
# esto de arriba significa que: quedándonos solo con el primero, explico el 73% de la variabilidad. con dos, explicamos el 96%, con tres el 99.5% y con 4 el 100%

In [43]:
cum_var_exp

array([ 72.96244541,  95.8132072 ,  99.48212909, 100.        ])

In [None]:
# vamos a representarlo para que se vea más fácilmente:

In [40]:
plot1 = go.Bar(x=[f"CP {i}" for i in range(1,5)], y=var_exp, showlegend= True)
plot2 = go.Scatter(x=[f"CP {i}" for i in range(1,5)], y=cum_var_exp, showlegend= True)

data = [plot1,plot2]

layout = go.Layout(xaxis= {"title": "Componentes principales"},
                  yaxis ={"title": "Porcentaje de varianza explicada"},
                  title = "Porcentaje de variabilidad explicada por cada componente principal")

fig = go.Figure(data=data,layout=layout)
fig.show()


In [None]:
# podemos asumir que nos quedamos con 2 (explicando casi el 96%)

In [None]:
# hacemos la matriz W

In [44]:
W = np.hstack((eigen_pairs[0][1].reshape(4,1),     #ponemos solo [0][1] y [1][1] porque me quedo solo con dos variables
               eigen_pairs[1][1].reshape(4,1)))     
W

array([[ 0.52106591, -0.37741762],
       [-0.26934744, -0.92329566],
       [ 0.5804131 , -0.02449161],
       [ 0.56485654, -0.06694199]])

In [None]:
# si me quedara con tres.....

In [46]:
W1 = np.hstack((eigen_pairs[0][1].reshape(4,1),     
               eigen_pairs[1][1].reshape(4,1),
                eigen_pairs[2][1].reshape(4,1)))     
W1

array([[ 0.52106591, -0.37741762, -0.71956635],
       [-0.26934744, -0.92329566,  0.24438178],
       [ 0.5804131 , -0.02449161,  0.14212637],
       [ 0.56485654, -0.06694199,  0.63427274]])

### 3- Proyectando las variables en el nuevo subespacio vectorial

In [None]:
# pasamos de 4 a dos dimensiones en este ejemplo

In [48]:
display(Math(r'Y = X \cdot W, X \in M(\mathbb R)_{150, 4}, W \in M(\mathbb R)_{4,2}, Y \in M(\mathbb R)_{150, 2}'))

<IPython.core.display.Math object>

In [49]:
Y = X_std.dot(W)
Y

array([[-2.26470281, -0.4800266 ],
       [-2.08096115,  0.67413356],
       [-2.36422905,  0.34190802],
       [-2.29938422,  0.59739451],
       [-2.38984217, -0.64683538],
       [-2.07563095, -1.48917752],
       [-2.44402884, -0.0476442 ],
       [-2.23284716, -0.22314807],
       [-2.33464048,  1.11532768],
       [-2.18432817,  0.46901356],
       [-2.1663101 , -1.04369065],
       [-2.32613087, -0.13307834],
       [-2.2184509 ,  0.72867617],
       [-2.6331007 ,  0.96150673],
       [-2.1987406 , -1.86005711],
       [-2.26221453, -2.68628449],
       [-2.2075877 , -1.48360936],
       [-2.19034951, -0.48883832],
       [-1.898572  , -1.40501879],
       [-2.34336905, -1.12784938],
       [-1.914323  , -0.40885571],
       [-2.20701284, -0.92412143],
       [-2.7743447 , -0.45834367],
       [-1.81866953, -0.08555853],
       [-2.22716331, -0.13725446],
       [-1.95184633,  0.62561859],
       [-2.05115137, -0.24216355],
       [-2.16857717, -0.52714953],
       [-2.13956345,

In [50]:
results = []
for name in ('setosa', 'versicolor', 'virginica'):
    result = go.Scatter(x= Y[y==name,0], y =Y[y==name, 1],
                       mode = "markers", name=name,
    marker= { "size": 12, "line" : { "color" : 'rgba(220,220,220,0.15)', "width":0.5},
           "opacity": 0.8})
    results.append(result)
    
layout = go.Layout(showlegend = True, 
                   scene ={ "xaxis" :{"title": "Componente Principal 1"},
                            "yaxis" : {"title": "Componente Principal 2"}},
                  xaxis ={ "zerolinecolor": "gray"},
                  yaxis={ "zerolinecolor": "gray"})
fig = go.Figure(data=results,layout=layout)
#py.iplot(fig)
fig.show()

In [None]:
# ahora podemos aplicar cualquier algoritmo que hayamos visto a lo largo del curso