# Análisis de Componentes Principales - Paso a Paso

* Estandarizar los datos (para cada una de las m observaciones).
* Obtener los vectores y valores propios a partir de la matriz de covarianzas o de correlaciones, o ncluso la técnica de *singular vector descomposition*.
* Ordenar los valores propios en orden descendente y quedarnos con los *p* que se correspondan a los *p* mayores, y así disminuir el número de variables del dataset (p < m).
* Construir la matriz de proyección W a partir de los p vectores propios.
* Transformar el dataset original X a través de W para así obtener datos en el subespacio dimensional de dimensión *p*, que será Y.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("../datasets/iris/iris.csv")
df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [4]:
colnames = df.columns.values.tolist()
X = df[colnames[:-1]].values
Y = df[colnames[-1]].values

In [6]:
X[0]

array([5.1, 3.5, 1.4, 0.2])

In [8]:
import plotly.plotly as py
from plotly.graph_objs import *
import plotly.tools as tls

In [15]:
tls.set_credentials_file(username="DiegoGV95", api_key="1TOYCdq5tcWXmxS3lxRt")

In [18]:
traces = [] #Dibujo
legend = {0:True, 1:True, 2:True, 3:True}
colors = {
    "setosa": "rgb(255,127,30)",
    "versicolor": "rgb(31,220,120)",
    "virginica": "rgb(44,50,180)"
}

for col in range(4):
    for key in colors:
        traces.append(Histogram(x=X[Y==key, col], opacity=0.7, xaxis="x%s"%(col+1),
                               marker=Marker(color=colors[key]), name=key, showlegend=legend[col]))
    legend = {0:False, 1:False, 2:False, 3:False}
        
data = Data(traces) #Conjunto de datos
layout = Layout(barmode="overlay",
               xaxis = XAxis(domain=[0,0.25], title="Long. Sépalos (cm)"),
               xaxis2 = XAxis(domain=[0.3,0.5], title="Anch. Sépalos (cm)"),
               xaxis3 = XAxis(domain=[0.55,0.75], title="Long. Pétalos (cm)"),
               xaxis4 = XAxis(domain=[0.8,1], title="Anch . Pétalos (cm)"),
               yaxis = YAxis(title="Número de ejemplares"),
               title="Distribución de los rasgos de las diferentes flores Iris") #Distribución

fig = Figure(data=data, layout=layout)
py.iplot(fig)

In [19]:
from sklearn.preprocessing import StandardScaler

In [20]:
X_std = StandardScaler().fit_transform(X)

In [22]:
traces = [] #Dibujo
legend = {0:True, 1:True, 2:True, 3:True}
colors = {
    "setosa": "rgb(255,127,30)",
    "versicolor": "rgb(31,220,120)",
    "virginica": "rgb(44,50,180)"
}

for col in range(4):
    for key in colors:
        traces.append(Histogram(x=X_std[Y==key, col], opacity=0.7, xaxis="x%s"%(col+1),
                               marker=Marker(color=colors[key]), name=key, showlegend=legend[col]))
    legend = {0:False, 1:False, 2:False, 3:False}
        
data = Data(traces) #Conjunto de datos
layout = Layout(barmode="overlay",
               xaxis = XAxis(domain=[0,0.25], title="Long. Sépalos (cm)"),
               xaxis2 = XAxis(domain=[0.3,0.5], title="Anch. Sépalos (cm)"),
               xaxis3 = XAxis(domain=[0.55,0.75], title="Long. Pétalos (cm)"),
               xaxis4 = XAxis(domain=[0.8,1], title="Anch . Pétalos (cm)"),
               yaxis = YAxis(title="Número de ejemplares"),
               title="Distribución de los rasgos de las diferentes flores Iris") #Distribución

fig = Figure(data=data, layout=layout)
py.iplot(fig)