## Análisis de componentes principales Paso a Paso
* Estandarizar los datos, para cada una de las N observaciones.
* Obtener los vectores y valores propios a partir de la matriz de covarianzas o de correlaciones o incluso ejecutar la técnica singular vector decomposition.
* Ordenar los valores propios en ordes descendente y quedarnos con los *p* que se correspondan con los p mayores y así disminuir el número de variables del dataset (P<M )
* Construir la matriz de proyección W a partir de los vectores propios 
* Transformar el dataset original X através de w para así obtener datos en el sub espacio dimensional de dimensión p que será Y 

In [1]:
import pandas as pd

In [2]:
df=pd.read_csv("archivos/iris.csv")
df

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [3]:
## dividimos el dataset en dos partes reduciendo su dimensionalidad
X=df.iloc[:, 0:4].values
Y=df.iloc[:, 4].values

In [4]:
X[0]

array([5.1, 3.5, 1.4, 0.2])

In [5]:
import chart_studio.plotly as py
import plotly.graph_objects as go
import chart_studio

In [6]:
## estandarizar los datos
from sklearn.preprocessing import StandardScaler

In [7]:
## normalización de datos
X_std = StandardScaler().fit_transform(X)

In [8]:
chart_studio.tools.set_credentials_file(username='visoso126', api_key='bNLjx30W1VtuvERHvZAN')

In [9]:
traces = []
legend = {0:True, 1:True, 2:True, 3:True}

colors = {'setosa': 'rgb(255,127,20)',
         'versicolor': 'rgb(31, 220, 120)',
         'virginica': 'rgb(44, 50, 180)'}


for col in range(4): 
    for key in colors:
        traces.append(go.Histogram(x=X_std[Y==key, col],
                                   opacity = 0.7, 
                                   xaxis="x%s"%(col+1),
                                   marker={"color":colors[key]},
                                   name = key, showlegend=legend[col])
                     )
        
    legend = {0:False, 1:False, 2:False, 3:False}

layout = go.Layout(
    title={"text":"Distribución de los rasgos de las diferentes flores Iris",
           "xref" : "paper","x" : 0.5},
    barmode="overlay",
    xaxis= {"domain" : [0,0.25], "title":"Long. Sépalos (cm)"},
    xaxis2= {"domain" : [0.3, 0.5], "title" : "Anch. Sépalos (cm)"},
    xaxis3= {"domain" : [0.55, 0.75], "title" : "Long. Pétalos (cm)"},
    xaxis4= {"domain" : [0.8,1.0], "title" : "Anch. Pétalos (cm)"},
    yaxis={"title":"Número de ejemplares"}
)

fig = go.Figure(data=traces, layout=layout)
py.iplot(fig)

1.- Calculamos la descomposición de valores y vectores propios

Los valores propios explican la varianza a través de las nuevos ejes

cada elemento representa la covarianza entre dos datos que se están analizando

la covarianza entre dos datos cuales quiera se puede obtener con una formúla

In [10]:
from IPython.display import display, Math, Latex

In [11]:
display(Math(r'\sigma_{jk} = \frac{1}{n-1}\sum_{i=1}^m (x_{ij} - \overline{x_j})(x_{ik} - \overline{x_k})'))

<IPython.core.display.Math object>

In [12]:
display(Math(r'\Sigma = \frac{1}{n-1}((X-\overline{x})^T(X-\overline{x}))'))

<IPython.core.display.Math object>

In [13]:
display(Math(r'\overline{x} = \sum_{i=1}^n x_i\in \mathbb R^m'))

<IPython.core.display.Math object>

In [14]:
import numpy as np

In [15]:
## vector de las medias
mean_vect=np.mean(X_std, axis=0)
mean_vect

array([-4.73695157e-16, -7.81597009e-16, -4.26325641e-16, -4.73695157e-16])

In [16]:
cov_matrix = (X_std - mean_vect).T.dot((X_std - mean_vect))/(X_std.shape[0]-1)
print("La matriz de covarianzas es \n%s"%cov_matrix)

La matriz de covarianzas es 
[[ 1.00671141 -0.11835884  0.87760447  0.82343066]
 [-0.11835884  1.00671141 -0.43131554 -0.36858315]
 [ 0.87760447 -0.43131554  1.00671141  0.96932762]
 [ 0.82343066 -0.36858315  0.96932762  1.00671141]]


In [17]:
np.cov(X_std.T)

array([[ 1.00671141, -0.11835884,  0.87760447,  0.82343066],
       [-0.11835884,  1.00671141, -0.43131554, -0.36858315],
       [ 0.87760447, -0.43131554,  1.00671141,  0.96932762],
       [ 0.82343066, -0.36858315,  0.96932762,  1.00671141]])

In [18]:
## valores propios y vectores propios
eig_vals, eig_vectors=np.linalg.eig(cov_matrix)
print("Valores propios: %s"%eig_vals)
print("Vectores propios: %s"%eig_vectors)

Valores propios: [2.93808505 0.9201649  0.14774182 0.02085386]
Vectores propios: [[ 0.52106591 -0.37741762 -0.71956635  0.26128628]
 [-0.26934744 -0.92329566  0.24438178 -0.12350962]
 [ 0.5804131  -0.02449161  0.14212637 -0.80144925]
 [ 0.56485654 -0.06694199  0.63427274  0.52359713]]


##### b) Usando matriz de correlacion

In [19]:
corr_matrix=np.corrcoef(X_std.T)
corr_matrix

array([[ 1.        , -0.11756978,  0.87175378,  0.81794113],
       [-0.11756978,  1.        , -0.4284401 , -0.36612593],
       [ 0.87175378, -0.4284401 ,  1.        ,  0.96286543],
       [ 0.81794113, -0.36612593,  0.96286543,  1.        ]])

In [20]:
eig_vals_corr, eig_vectors_corr=np.linalg.eig(corr_matrix)
print("Valores propios: %s"%eig_vals_corr)
print("Vectores propios: %s"%eig_vectors_corr)

Valores propios: [2.91849782 0.91403047 0.14675688 0.02071484]
Vectores propios: [[ 0.52106591 -0.37741762 -0.71956635  0.26128628]
 [-0.26934744 -0.92329566  0.24438178 -0.12350962]
 [ 0.5804131  -0.02449161  0.14212637 -0.80144925]
 [ 0.56485654 -0.06694199  0.63427274  0.52359713]]


#### las correlaciones deben dar 1 en la diagonal, las covarianzas no necesariamente
la matriz de correlaciones se calcuna una vez los datos están estandarizados
> La descomposicion de una matriz de covarianzas es la misma que una matriz de correlaciones con o sin estandarizar

**c) singular value decomposition**
>la descomposición del valor singular

In [21]:
## matriz de correlaciones, esta normalizada
u,s,v=np.linalg.svd(X_std.T)
## nos da la misma matriz antarior
u

array([[-0.52106591, -0.37741762,  0.71956635,  0.26128628],
       [ 0.26934744, -0.92329566, -0.24438178, -0.12350962],
       [-0.5804131 , -0.02449161, -0.14212637, -0.80144925],
       [-0.56485654, -0.06694199, -0.63427274,  0.52359713]])

In [22]:
## valores propios
s

array([20.92306556, 11.7091661 ,  4.69185798,  1.76273239])

##### Conclución
>se vio las formas de obtener los vectores propios para las ACPS

In [23]:
## ACP reducir la dimensionalidad, del espacio vectorial proyectando los datos
## todos los vectores deben tener 1
for ev in eig_vectors:
    print("la longitud del vector propio es: "+str(np.linalg.norm(ev)))


la longitud del vector propio es: 1.0000000000000002
la longitud del vector propio es: 1.0
la longitud del vector propio es: 1.0
la longitud del vector propio es: 0.9999999999999998


- tenemos una base del espacio vectorial, que nos servira para llevar a cabo el
- calculo de las componentes principales, para decidir que valores propios se pueden eliminar
- sin perder tanta informacion, para crear un espacio bidimensional inferior, vamos a buscar
- cada uno de los valores propios, que tengan menos informacion de la distribucion de los datos
- serán los que vamos a eliminar


In [24]:
## juntar los vectores y los valores propios, los más grandes
eigen_pais=[(np.abs(eig_vals[i]), eig_vectors[:,i]) for i in range(len(eig_vals))]
eigen_pais


[(2.9380850501999953,
  array([ 0.52106591, -0.26934744,  0.5804131 ,  0.56485654])),
 (0.9201649041624852,
  array([-0.37741762, -0.92329566, -0.02449161, -0.06694199])),
 (0.1477418210449475,
  array([-0.71956635,  0.24438178,  0.14212637,  0.63427274])),
 (0.020853862176463147,
  array([ 0.26128628, -0.12350962, -0.80144925,  0.52359713]))]

In [25]:
## ordenar los datos, ordenara de la más alta por la primera columna
eigen_pais.sort()
## revertir
eigen_pais.reverse()

In [26]:
## ordenamos los vectores con el mayor valor propio
eigen_pais.sort()

In [27]:
print("Valores propios en orden descendente")
for ei in eigen_pais:
    print(ei[0])

Valores propios en orden descendente
0.020853862176463147
0.1477418210449475
0.9201649041624852
2.9380850501999953


¿Cuantas componentes principales tenemos que elegir?
> la varianza explicativa, se puede calcular apartir de los valores propios
>
**Varianza explicativa**: cuanta informacion se le puede atribuir a cada una de las componentes principales
>
Hacer un gráfico acumulativo para ver si solo quedarse con una o con dos o con todas, que porcentage de la variabilidad total quedaría explicada  

In [28]:
### obtener en procengaes los valores propios 
total_sum = sum(eig_vals)
var_exp = [(i/total_sum)*100 for i in sorted(eig_vals, reverse=True)]
cum_var_exp = np.cumsum(var_exp)

In [41]:
cum_var_exp, var_exp

(array([ 72.96244541,  95.8132072 ,  99.48212909, 100.        ]),
 [72.9624454132999, 22.850761786701725, 3.668921889282865, 0.5178709107155016])

In [29]:
## cuanto explica de variabilidad cada variable
var_exp

[72.9624454132999, 22.850761786701725, 3.668921889282865, 0.5178709107155016]

In [52]:
from plotly.subplots import make_subplots

In [107]:
## creamos un gráfico con la infomación
plot1=go.Bar(x=[f"CP {i}" for i in range(1,5)], y=var_exp, showlegend=True, name="Porcentaje de varianza")
plot2=go.Scatter(x=[f"CP {i}" for i in range(1,5)], y=cum_var_exp, showlegend=True, name="Porcentaje de varianza explicada")
layout=go.Layout(xaxis={"title": "Componentes principales"},
yaxis={"title": "Porcentaje de varianza explicada"},
title="Porcentaje de variabilidad explicada por cada componente principal")

##tabla con los datos
table1=go.Table(header=dict(values=["Componente", "varianza explicada", "varianza acumulada explicada"]),
               cells=dict(values=[[f"CP {i}" for i in range(1,5)],[f"{i}%" for i in var_exp], [f"{i}%" for i in cum_var_exp]]))


data=[plot1, plot2]

fig = go.Figure(data=data,layout=layout)

fig = make_subplots(
    rows=3, cols=1,
    shared_xaxes=True,
    vertical_spacing=0.03,
    specs=[[{"type": "table"}],
           [{"type": "scatter"}],
           [{"type": "scatter"}]]
)
#screen.add_trace(fig, col=1, row=1)
fig.add_trace(go.Table(header=dict(values=["Componente", "varianza explicada", "varianza acumulada explicada"]),
               cells=dict(values=[[f"CP {i}" for i in range(1,5)],[f"{i}%" for i in var_exp], [f"{i}%" for i in cum_var_exp]])), col=1, row=1)
fig.add_trace(plot1, col=1, row=2)

In [114]:
fig = make_subplots(
    rows=2, cols=1,
    vertical_spacing=0.1,
    row_heights=[0.7, 0.3],
    specs=[[{"type": "scatter"}],[{"type":"table"}]],
    subplot_titles=("Gráfica de varianza", "Tabla de varianzas"))
fig.add_trace(plot1, row=1,col=1)
fig.add_trace(plot2, row=1, col=1)

fig.add_trace(table1, row=2, col=1)


fig.update_layout(showlegend=False, title_text="Datos de varianza", height=700)
fig.show()

**Conclusión**: Si eliminamos dos compontes del, seguiríamos explicando el 95% de los datos, pero tendríamos mucha información y se incrementaria la velocidad de nuestros algoritmos
##### Creación de la matriz de construcción
concatenar los n vectores propios que queremos conservar, en nuestro caso reduciremos el espacio vectorial de 4 dimensiones a 2

In [127]:
W=np.hstack((eigen_pais[0][1].reshape(4,1), eigen_pais[1][1].reshape(4,1)))
W

array([[ 0.26128628, -0.71956635],
       [-0.12350962,  0.24438178],
       [-0.80144925,  0.14212637],
       [ 0.52359713,  0.63427274]])

In [124]:
## al multiplicar los datos por las dos columnas de la matriz estaremos reduciendo la dimensionalidad d elos datos a dos datos solamente

## 3.- Proyectando las variables en el nuevo subespacio vectorial 

In [125]:
display(Math(r'Y = X \cdot W, X \in M(\mathbb R)_{150, 4}, W \in M(\mathbb R)_{4,2}, Y \in M(\mathbb R)_{150, 2}'))

<IPython.core.display.Math object>

In [128]:
## creamos y, x estandarizado por la matriz W
Y=X_std.dot(W)

In [134]:
W

array([[ 0.26128628, -0.71956635],
       [-0.12350962,  0.24438178],
       [-0.80144925,  0.14212637],
       [ 0.52359713,  0.63427274]])

In [148]:
X = df.iloc[:,0:4].values
y = df.iloc[:,4].values

In [168]:
results=[]
## creamos las etiquedas con los datos
for name in ("setosa", "versicolor", "virginica"):
    result=go.Scatter(x=Y[y==name, 0], y=Y[y==name, 1],
           mode="markers", name=name,
    )
    results.append(result)
## creamos un liezo para mostrar los puntos
layout=go.Layout(showlegend=True,
                scene={"xaxis":{"title": "Componente principal 1"},
                       "yaxis": {"title": "Componente principal 2"}},
                xaxis={"zerolinecolor":"gray"},
                yaxis={"zerolinecolor": "gray"})
fig=go.Figure(data=results, layout=layout)
py.iplot(fig)
fig.show()


## Análisis de componentes principales - Sklearn

In [169]:
from sklearn.decomposition import PCA as sk_pca

In [173]:
X = df.iloc[:,0:4].values
y = df.iloc[:,4].values
X_std = StandardScaler().fit_transform(X)

In [176]:
## determinamos el número de componentes para quedarnos
acp=sk_pca(n_components=2)
Y=acp.fit_transform(X_std)
y

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolo

In [184]:
graficos=[]
for nombre in ("setosa", "versicolor", "virginica"):
    grafico=go.Scatter(x=Y[y==nombre, 0], y=[y==nombre, 1], mode="markers", name=name)
    graficos.append(grafico)
layout = go.Layout(xaxis = go.layout.XAxis(title="CP1", showline=False),
               yaxis = go.layout.YAxis(title="CP2", showline=False))
fig=go.Figure(data=results, layout=layout)
fig.show()