## Análisis de componentes principales Paso a Paso
* Estandarizar los datos, para cada una de las N observaciones.
* Obtener los vectores y valores propios a partir de la matriz de covarianzas o de correlaciones o incluso ejecutar la técnica singular vector decomposition.
* Ordenar los valores propios en ordes descendente y quedarnos con los *p* que se correspondan con los p mayores y así disminuir el número de variables del dataset (P<M )
* Construir la matriz de proyección W a partir de los vectores propios 
* Transformar el dataset original X através de w para así obtener datos en el sub espacio dimensional de dimensión p que será Y 

In [1]:
import pandas as pd

In [2]:
df=pd.read_csv("archivos/iris.csv")
df

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [3]:
## dividimos el dataset en dos partes reduciendo su dimensionalidad
X=df.iloc[:, 0:4].values
Y=df.iloc[:, 4].values

In [4]:
X[0]

array([5.1, 3.5, 1.4, 0.2])

In [5]:
import chart_studio.plotly as py
import plotly.graph_objects as go
import chart_studio

In [6]:
## estandarizar los datos
from sklearn.preprocessing import StandardScaler

In [7]:
## normalización de datos
X_std = StandardScaler().fit_transform(X)

In [8]:
chart_studio.tools.set_credentials_file(username='visoso126', api_key='bNLjx30W1VtuvERHvZAN')

In [9]:
traces = []
legend = {0:True, 1:True, 2:True, 3:True}

colors = {'setosa': 'rgb(255,127,20)',
         'versicolor': 'rgb(31, 220, 120)',
         'virginica': 'rgb(44, 50, 180)'}


for col in range(4): 
    for key in colors:
        traces.append(go.Histogram(x=X_std[Y==key, col],
                                   opacity = 0.7, 
                                   xaxis="x%s"%(col+1),
                                   marker={"color":colors[key]},
                                   name = key, showlegend=legend[col])
                     )
        
    legend = {0:False, 1:False, 2:False, 3:False}

layout = go.Layout(
    title={"text":"Distribución de los rasgos de las diferentes flores Iris",
           "xref" : "paper","x" : 0.5},
    barmode="overlay",
    xaxis= {"domain" : [0,0.25], "title":"Long. Sépalos (cm)"},
    xaxis2= {"domain" : [0.3, 0.5], "title" : "Anch. Sépalos (cm)"},
    xaxis3= {"domain" : [0.55, 0.75], "title" : "Long. Pétalos (cm)"},
    xaxis4= {"domain" : [0.8,1.0], "title" : "Anch. Pétalos (cm)"},
    yaxis={"title":"Número de ejemplares"}
)

fig = go.Figure(data=traces, layout=layout)
py.iplot(fig)

1.- Calculamos la descomposición de valores y vectores propios

Los valores propios explican la varianza a través de las nuevos ejes

cada elemento representa la covarianza entre dos datos que se están analizando

la covarianza entre dos datos cuales quiera se puede obtener con una formúla

In [10]:
from IPython.display import display, Math, Latex

In [11]:
display(Math(r'\sigma_{jk} = \frac{1}{n-1}\sum_{i=1}^m (x_{ij} - \overline{x_j})(x_{ik} - \overline{x_k})'))

<IPython.core.display.Math object>

In [12]:
display(Math(r'\Sigma = \frac{1}{n-1}((X-\overline{x})^T(X-\overline{x}))'))

<IPython.core.display.Math object>

In [13]:
display(Math(r'\overline{x} = \sum_{i=1}^n x_i\in \mathbb R^m'))

<IPython.core.display.Math object>

In [14]:
import numpy as np

In [15]:
## vector de las medias
mean_vect=np.mean(X_std, axis=0)
mean_vect

array([-4.73695157e-16, -7.81597009e-16, -4.26325641e-16, -4.73695157e-16])

In [16]:
cov_matrix = (X_std - mean_vect).T.dot((X_std - mean_vect))/(X_std.shape[0]-1)
print("La matriz de covarianzas es \n%s"%cov_matrix)

La matriz de covarianzas es 
[[ 1.00671141 -0.11835884  0.87760447  0.82343066]
 [-0.11835884  1.00671141 -0.43131554 -0.36858315]
 [ 0.87760447 -0.43131554  1.00671141  0.96932762]
 [ 0.82343066 -0.36858315  0.96932762  1.00671141]]


In [17]:
np.cov(X_std.T)

array([[ 1.00671141, -0.11835884,  0.87760447,  0.82343066],
       [-0.11835884,  1.00671141, -0.43131554, -0.36858315],
       [ 0.87760447, -0.43131554,  1.00671141,  0.96932762],
       [ 0.82343066, -0.36858315,  0.96932762,  1.00671141]])

In [18]:
## valores propios y vectores propios
eig_vals, eig_vectors=np.linalg.eig(cov_matrix)
print("Valores propios: %s"%eig_vals)
print("Vectores propios: %s"%eig_vectors)

Valores propios: [2.93808505 0.9201649  0.14774182 0.02085386]
Vectores propios: [[ 0.52106591 -0.37741762 -0.71956635  0.26128628]
 [-0.26934744 -0.92329566  0.24438178 -0.12350962]
 [ 0.5804131  -0.02449161  0.14212637 -0.80144925]
 [ 0.56485654 -0.06694199  0.63427274  0.52359713]]


##### b) Usando matriz de correlacion

In [19]:
corr_matrix=np.corrcoef(X_std.T)

In [28]:
eig_vals_corr, eig_vectors_corr=np.linalg.eig(corr_matrix)
print("Valores propios: %s"%eig_vals_corr)
print("Vectores propios: %s"%eig_vectors_corr)

Valores propios: [2.91849782 0.91403047 0.14675688 0.02071484]
Vectores propios: [[ 0.52106591 -0.37741762 -0.71956635  0.26128628]
 [-0.26934744 -0.92329566  0.24438178 -0.12350962]
 [ 0.5804131  -0.02449161  0.14212637 -0.80144925]
 [ 0.56485654 -0.06694199  0.63427274  0.52359713]]


## las correlaciones deben dar 1 en la diagonal, las covarianzas no necesariamente