# Análisis de las Compotentes Principales (PCA)

* Es una técnica muy utilizada para reducir las dimensiones de un conjunto de datos.
* Lo que hace es combinar los datos de algún modo y buscar la proyección según los datos queden mejor representados en términos de los **mínimos cuadráticos**. 
* Busca las variables que no estén relacionadas entre si (componentes principales), para reducir la dimensión de los datos, y quedarse con éstas.
* Las componentes que constan el dataset original se transforman (se crean unas nuevas) y se ordenan por la cantidad de varianza del dataset original que las nuevas variables describen.
* El **PCA** es una de las técnicas básicas y se suele utilizar mucho durante la etapa del análisis exploratorio de datos y para construir modelos predictivos, ya que comporta el cálculo de la descomposición en valores propios de la matriz de covarianza, normalmente después de centrar los datos con respecto con la media de cada atributo. 

<img src="img/ACP_1.jpg" width="700">

<img src="img/ACP_2.jpg" width="700">

<img src="img/ACP_3.jpg" width="700">

# Análisis de Componentes Principales - Paso a Paso

**1-** Estandarizar los datos (para cada una de las `m` observaciones)

**2-** Obtener los vectores y valores propios a partir de la matriz de covarianzas o de correlaciones o incluso la técnica de singular vector decomposition.

**3-** Ordenar los valores propios en orden descendente y quedarnos con los `p` que se correpondan a los `p` mayores y así disminuir el número de variables del dataset (`p<m`).

**4-** Construir la matriz de proyección `W` a partir de los `p` vectores propios.

**5-** Transformar el dataset original `X` a través de `W` para así obtener datos en el subespacio dimensional de dimensión `p`, que será `Y`.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("../datasets/iris/iris.csv")

In [3]:
df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [4]:
X = df.iloc[:,0:4].values #sin Species
y = df.iloc[:,4].values #columna de Species

In [5]:
X[0]

array([5.1, 3.5, 1.4, 0.2])

In [6]:
!pip install chart_studio
import chart_studio
import chart_studio.plotly as py
import plotly.graph_objs as ir 
import plotly.tools as tls
import plotly.graph_objects as go



In [7]:
#Cargamos las credenciales de nuestra cuenta en la página de Plotly.ly con nuestra clave autogenerada(se puede cambiar)
chart_studio.tools.set_credentials_file(username='dasafo', api_key='GcvEWHWyosJNEqDGeOcz')

In [8]:
traces = []
legend = {0:True, 1:True, 2:True, 3:True}

colors = {'setosa': 'rgb(255,127,20)',
         'versicolor': 'rgb(31, 220, 120)',
         'virginica': 'rgb(44, 50, 180)'}

for col in range(4): 
    for key in colors:
        traces.append(go.Histogram(x = X [y == key, col], opacity = 0.7, xaxis = 'x%s'%(col+1), 
                                   marker_color = colors [key], name= key, showlegend = legend[col] ) )
    legend = {0:False, 1:False, 2:False, 3:False}
        
data = go.Data(traces)
layout = go.Layout(barmode="overlay", 
                xaxis=go.XAxis(domain=[0,0.25], title="Long. Sépalos (cm)"),
                xaxis2=go.XAxis(domain=[0.3, 0.5], title = "Anch. Sépalos (cm)"),
                xaxis3=go.XAxis(domain = [0.55, 0.75], title = "Long. Pétalos (cm)"),
                xaxis4=go.XAxis(domain=[0.8,1.0], title = "Anch. Pétalos (cm)"),
                yaxis=go.YAxis(title="Número de ejemplares"),
                title="Distribución de los rasgos de las diferentes flores Iris")

fig = go.Figure(data = data, layout = layout)
chart_studio.plotly.iplot(fig)
py.iplot(fig)


plotly.graph_objs.Data is deprecated.
Please replace it with a list or tuple of instances of the following types
  - plotly.graph_objs.Scatter
  - plotly.graph_objs.Bar
  - plotly.graph_objs.Area
  - plotly.graph_objs.Histogram
  - etc.



plotly.graph_objs.XAxis is deprecated.
Please replace it with one of the following more specific types
  - plotly.graph_objs.layout.XAxis
  - plotly.graph_objs.layout.scene.XAxis



plotly.graph_objs.YAxis is deprecated.
Please replace it with one of the following more specific types
  - plotly.graph_objs.layout.YAxis
  - plotly.graph_objs.layout.scene.YAxis




In [None]:
''' Forma dada por el profesor peor que ya no funiona
import chart_studio.plotly as py

import plotly.graph_objects as ir

traces = []

legend = {0:True, 1:True, 2:True, 3:True}

colors = {'setosa': 'rgb(255,127,20)',
         'versicolor': 'rgb(31, 220, 120)',
         'virginica': 'rgb(44, 50, 180)'}

for col in range(4):

    for key in colors: #key el la clave del diccionario de arriba(el nombre de las flores)

        traces.append(ir.Histogram(x=X[y==key, col], opacity = 0.7, #creamos las trazas del dibujo
                                xaxis="x%s"%(col+1), marker=ir.Marker(color=colors[key]),
                               name = key, showlegend=legend[col]))

    legend = {0:False, 1:False, 2:False, 3:False}
       
data = ir.Data(traces) #asignamos el conjunto de datos a las trazas

layout = ir.Layout(barmode="overlay", #definimos la distribución de las trazas

                xaxis=ir.XAxis(domain=[0,0.25], title="Long. Sépalos (cm)"),

                xaxis2=ir.XAxis(domain=[0.3, 0.5], title = "Anch. Sépalos (cm)"),

                xaxis3=ir.XAxis(domain = [0.55, 0.75], title = "Long. Pétalos (cm)"),

                xaxis4=ir.XAxis(domain=[0.8,1.0], title = "Anch. Pétalos (cm)"),

                yaxis=ir.YAxis(title="Número de ejemplares"),

                title="Distribución de los rasgos de las diferentes flores Iris")


fig = ir.Figure(data = data, layout = layout)
fig.show()
'''

In [9]:
from sklearn.preprocessing import StandardScaler

In [11]:
X_std = StandardScaler().fit_transform(X)

In [13]:
traces = []
legend = {0:True, 1:True, 2:True, 3:True}

colors = {'setosa': 'rgb(255,127,20)',
         'versicolor': 'rgb(31, 220, 120)',
         'virginica': 'rgb(44, 50, 180)'}

for col in range(4): 
    for key in colors:
        traces.append(go.Histogram(x=X_std[y==key, col], opacity = 0.7, 
                                xaxis="x%s"%(col+1), marker_color = colors [key], 
                                name= key, showlegend = legend[col] ),
                               
    legend = {0:False, 1:False, 2:False, 3:False}
        
data = Data(traces)
layout = go.Layout(barmode="overlay", 
                xaxis=go.XAxis(domain=[0,0.25], title="Long. Sépalos (cm)"),
                xaxis2=go.XAxis(domain=[0.3, 0.5], title = "Anch. Sépalos (cm)"),
                xaxis3=go.XAxis(domain = [0.55, 0.75], title = "Long. Pétalos (cm)"),
                xaxis4=go.XAxis(domain=[0.8,1.0], title = "Anch. Pétalos (cm)"),
                yaxis=go.YAxis(title="Número de ejemplares"),
                title="Distribución de los rasgos de las diferentes flores Iris")

fig = go.Figure(data = data, layout = layout)
chart_studio.plotly.iplot(fig)

py.iplot(fig)

SyntaxError: invalid syntax (<ipython-input-13-7b8662b6bccf>, line 16)

### 1- Calculamos la descomposición de valores y vectores propios
##### a) Usando la Matriz de Covarianzas

In [14]:
from IPython.display import display, Math, Latex

In [37]:
display(Math(r'\sigma_{jk} = \frac{1}{n-1}\sum_{i=1}^m (x_{ij} - \overline{x_j})(x_{ik} - \overline{x_k})'))

<IPython.core.display.Math object>

In [38]:
display(Math(r'\Sigma = \frac{1}{n-1}((X-\overline{x})^T(X-\overline{x}))'))

<IPython.core.display.Math object>

In [39]:
display(Math(r'\overline{x} = \sum_{i=1}^n x_i\in \mathbb R^m'))

<IPython.core.display.Math object>

In [15]:
import numpy as np

In [16]:
mean_vect = np.mean(X_std, axis=0)
mean_vect

array([-4.73695157e-16, -7.81597009e-16, -4.26325641e-16, -4.73695157e-16])

In [17]:
cov_matrix = (X_std - mean_vect).T.dot((X_std - mean_vect))/(X_std.shape[0]-1) #es el sugma de arriba(simbolo sumatorio)
print("La matriz de covarianzas es \n%s"%cov_matrix)


La matriz de covarianzas es 
[[ 1.00671141 -0.11835884  0.87760447  0.82343066]
 [-0.11835884  1.00671141 -0.43131554 -0.36858315]
 [ 0.87760447 -0.43131554  1.00671141  0.96932762]
 [ 0.82343066 -0.36858315  0.96932762  1.00671141]]


In [18]:
#hacemos lo mismo que arriba pero usando numpy para calcular la matriz de covarianza
np.cov(X_std.T)

array([[ 1.00671141, -0.11835884,  0.87760447,  0.82343066],
       [-0.11835884,  1.00671141, -0.43131554, -0.36858315],
       [ 0.87760447, -0.43131554,  1.00671141,  0.96932762],
       [ 0.82343066, -0.36858315,  0.96932762,  1.00671141]])

In [19]:
eig_vals, eig_vectors = np.linalg.eig(cov_matrix)
print("Valores propios \n%s"%eig_vals)
print("Vectores propios \n%s"%eig_vectors)

Valores propios 
[2.93808505 0.9201649  0.14774182 0.02085386]
Vectores propios 
[[ 0.52106591 -0.37741762 -0.71956635  0.26128628]
 [-0.26934744 -0.92329566  0.24438178 -0.12350962]
 [ 0.5804131  -0.02449161  0.14212637 -0.80144925]
 [ 0.56485654 -0.06694199  0.63427274  0.52359713]]


##### b) Usando la Matriz de Correlaciones

In [20]:
corr_matrix = np.corrcoef(X_std.T)
corr_matrix

array([[ 1.        , -0.11756978,  0.87175378,  0.81794113],
       [-0.11756978,  1.        , -0.4284401 , -0.36612593],
       [ 0.87175378, -0.4284401 ,  1.        ,  0.96286543],
       [ 0.81794113, -0.36612593,  0.96286543,  1.        ]])

In [21]:
eig_vals_corr, eig_vectors_corr = np.linalg.eig(corr_matrix)
print("Valores propios \n%s"%eig_vals_corr)
print("Vectores propios \n%s"%eig_vectors_corr)

Valores propios 
[2.91849782 0.91403047 0.14675688 0.02071484]
Vectores propios 
[[ 0.52106591 -0.37741762 -0.71956635  0.26128628]
 [-0.26934744 -0.92329566  0.24438178 -0.12350962]
 [ 0.5804131  -0.02449161  0.14212637 -0.80144925]
 [ 0.56485654 -0.06694199  0.63427274  0.52359713]]


In [22]:
#si calculamos la matriz de correlación sin estandarizar los datos(usando X, en vez de X_std) obtenemos lo mismo
corr_matrix = np.corrcoef(X.T)
corr_matrix

array([[ 1.        , -0.11756978,  0.87175378,  0.81794113],
       [-0.11756978,  1.        , -0.4284401 , -0.36612593],
       [ 0.87175378, -0.4284401 ,  1.        ,  0.96286543],
       [ 0.81794113, -0.36612593,  0.96286543,  1.        ]])

##### c) Singular Value Decomposition

In [23]:
u,s,v = np.linalg.svd(X_std.T)
u #vectores propios

array([[-0.52106591, -0.37741762,  0.71956635,  0.26128628],
       [ 0.26934744, -0.92329566, -0.24438178, -0.12350962],
       [-0.5804131 , -0.02449161, -0.14212637, -0.80144925],
       [-0.56485654, -0.06694199, -0.63427274,  0.52359713]])

In [24]:
s 

array([20.92306556, 11.7091661 ,  4.69185798,  1.76273239])

In [25]:
v

array([[ 1.08239531e-01,  9.94577561e-02,  1.12996303e-01, ...,
        -7.27030413e-02, -6.56112167e-02, -4.59137323e-02],
       [-4.09957970e-02,  5.75731483e-02,  2.92000319e-02, ...,
        -2.29793601e-02, -8.63643414e-02,  2.07800179e-03],
       [ 2.72186462e-02,  5.00034005e-02, -9.42089147e-03, ...,
        -3.84023516e-02, -1.98939364e-01, -1.12588405e-01],
       ...,
       [ 5.43380310e-02,  5.12936114e-03,  2.75184277e-02, ...,
         9.89532683e-01, -1.41206665e-02, -8.30595907e-04],
       [ 1.96438400e-03,  8.48544595e-02,  1.78604309e-01, ...,
        -1.25488246e-02,  9.52049996e-01, -2.19201906e-02],
       [ 2.46978090e-03,  5.83496936e-03,  1.49419118e-01, ...,
        -7.17729676e-04, -2.32048811e-02,  9.77300244e-01]])

### 2 - Las componentes principales

In [26]:
for ev in eig_vectors:
    print("La longitud del VP es: %s"%np.linalg.norm(ev))

La longitud del VP es: 0.9999999999999997
La longitud del VP es: 1.0000000000000002
La longitud del VP es: 1.0
La longitud del VP es: 0.9999999999999997


In [27]:
eigen_pairs = [(np.abs(eig_vals[i]), eig_vectors[:,i]) for i in range(len(eig_vals))]
eigen_pairs

[(2.938085050199993,
  array([ 0.52106591, -0.26934744,  0.5804131 ,  0.56485654])),
 (0.9201649041624873,
  array([-0.37741762, -0.92329566, -0.02449161, -0.06694199])),
 (0.1477418210449481,
  array([-0.71956635,  0.24438178,  0.14212637,  0.63427274])),
 (0.020853862176462803,
  array([ 0.26128628, -0.12350962, -0.80144925,  0.52359713]))]

Ordenamos los vectores propios con valor propio de mayor a menor

In [28]:
eigen_pairs.sort()
eigen_pairs.reverse()
eigen_pairs

[(2.938085050199993,
  array([ 0.52106591, -0.26934744,  0.5804131 ,  0.56485654])),
 (0.9201649041624873,
  array([-0.37741762, -0.92329566, -0.02449161, -0.06694199])),
 (0.1477418210449481,
  array([-0.71956635,  0.24438178,  0.14212637,  0.63427274])),
 (0.020853862176462803,
  array([ 0.26128628, -0.12350962, -0.80144925,  0.52359713]))]

In [29]:
print("Valores propios en orden descendente:")
for ep in eigen_pairs:
    print(ep[0])

Valores propios en orden descendente:
2.938085050199993
0.9201649041624873
0.1477418210449481
0.020853862176462803


* Recordar que los valores propios son las varianzas de la nueva variable

In [30]:
total_sum = sum(eig_vals) #si sumamos todos los valore propios me dará la variabilidad total 
var_exp = [(i/total_sum)*100 for i in sorted(eig_vals, reverse=True)] #explicación de la varianza
print(var_exp)
cum_var_exp = np.cumsum(var_exp) #valor acumulado de la varianza
print(cum_var_exp)

[72.96244541329986, 22.850761786701774, 3.6689218892828794, 0.5178709107154932]
[ 72.96244541  95.8132072   99.48212909 100.        ]


* *var_exp* nos dice que quedándonos con 1 dimesión explicamos el 72.96% de la variabilidad, el segundo con el 22.85%...
* *cum_var_exp* es el valor de la variabilidad(varianza) acumulada

In [31]:
plot1 = go.Bar(x=["CP %s"%i for i in range(1,5)], y = var_exp, showlegend=False)
plot2 = go.Scatter(x=["CP %s"%i for i in range(1,5)], y = cum_var_exp, showlegend=True, name = "% de Varianza Explicada Acumulada")

data = go.Data([plot1, plot2])

layout = go.Layout(xaxis = go.XAxis(title="Componentes principales"), 
               yaxis = go.YAxis(title = "Porcentaje de varianza explicada"),
               title = "Porcentaje de variabilidad explicada por cada componente principal")

fig = go.Figure(data = data, layout = layout)
chart_studio.plotly.iplot(fig)
py.iplot(fig)


plotly.graph_objs.Data is deprecated.
Please replace it with a list or tuple of instances of the following types
  - plotly.graph_objs.Scatter
  - plotly.graph_objs.Bar
  - plotly.graph_objs.Area
  - plotly.graph_objs.Histogram
  - etc.



plotly.graph_objs.XAxis is deprecated.
Please replace it with one of the following more specific types
  - plotly.graph_objs.layout.XAxis
  - plotly.graph_objs.layout.scene.XAxis



plotly.graph_objs.YAxis is deprecated.
Please replace it with one of the following more specific types
  - plotly.graph_objs.layout.YAxis
  - plotly.graph_objs.layout.scene.YAxis




* Vemos que podríamos explicar el data set solo con las 2 primeras columnas de este. Podemos pasar por lo tanto de un espacio vectorial de dimensión 4 a otro de 2.
* Por ello vamos a elegir los 2 vectores propios con mayor valor propio

In [32]:
#pillamos los 2 primeros vectores propios uno por columna, con sus coeficientes debajo en cada fila
W = np.hstack((eigen_pairs[0][1].reshape(4,1), #hstack me lo coloca uno debajo del otro
               eigen_pairs[1][1].reshape(4,1)))
W

array([[ 0.52106591, -0.37741762],
       [-0.26934744, -0.92329566],
       [ 0.5804131 , -0.02449161],
       [ 0.56485654, -0.06694199]])

In [33]:
X[0] 

array([5.1, 3.5, 1.4, 0.2])

### 3- Proyectando las variables en el nuevo subespacio vectorial

In [34]:
display(Math(r'Y = X \cdot W, X \in M(\mathbb R)_{150, 4}, W \in M(\mathbb R)_{4,2}, Y \in M(\mathbb R)_{150, 2}'))

<IPython.core.display.Math object>

In [35]:
Y = X_std.dot(W)
Y

array([[-2.26470281, -0.4800266 ],
       [-2.08096115,  0.67413356],
       [-2.36422905,  0.34190802],
       [-2.29938422,  0.59739451],
       [-2.38984217, -0.64683538],
       [-2.07563095, -1.48917752],
       [-2.44402884, -0.0476442 ],
       [-2.23284716, -0.22314807],
       [-2.33464048,  1.11532768],
       [-2.18432817,  0.46901356],
       [-2.1663101 , -1.04369065],
       [-2.32613087, -0.13307834],
       [-2.2184509 ,  0.72867617],
       [-2.6331007 ,  0.96150673],
       [-2.1987406 , -1.86005711],
       [-2.26221453, -2.68628449],
       [-2.2075877 , -1.48360936],
       [-2.19034951, -0.48883832],
       [-1.898572  , -1.40501879],
       [-2.34336905, -1.12784938],
       [-1.914323  , -0.40885571],
       [-2.20701284, -0.92412143],
       [-2.7743447 , -0.45834367],
       [-1.81866953, -0.08555853],
       [-2.22716331, -0.13725446],
       [-1.95184633,  0.62561859],
       [-2.05115137, -0.24216355],
       [-2.16857717, -0.52714953],
       [-2.13956345,

In [36]:
results = []

for name in ('setosa', 'versicolor', 'virginica'):
    result = go.Scatter(x=Y[y==name,0], y = Y[y==name, 1], 
                    mode = "markers", name=name, 
                     marker=go.Marker(size = 12, line = go.Line(color='rgba(220,220,220,0.15)', width=0.5), opacity = 0.8))
    results.append(result)

data = go.Data(results)
layout = go.Layout(showlegend=True, scene =go.Scene(xaxis=go.XAxis(title="Componente Principal 1"),
                                             yaxis=go.YAxis(title="Componente Principal 2")))

fig = go.Figure(data=data, layout=layout)
chart_studio.plotly.iplot(fig)

py.iplot(fig)


plotly.graph_objs.Line is deprecated.
Please replace it with one of the following more specific types
  - plotly.graph_objs.scatter.Line
  - plotly.graph_objs.layout.shape.Line
  - etc.



plotly.graph_objs.Marker is deprecated.
Please replace it with one of the following more specific types
  - plotly.graph_objs.scatter.Marker
  - plotly.graph_objs.histogram.selected.Marker
  - etc.



plotly.graph_objs.Scene is deprecated.
Please replace it with one of the following more specific types
  - plotly.graph_objs.layout.Scene


