# El problema de la dimensión

La tecnica de la reducción de componentes principales es una tecnica para reducir la dimensionalidad del conjunto de datos. Las componentes del dataset original se transforman y se ordenan por la cantidad de varianza del dataset original. Esta tecnica es muy buena para explicar la varianza de los datos sacrificando un poco de varianza, pero ganando la ventaja de tener menos información. 

El ACP busca la proyección segun la cual los datos queden mejor representados en función de los minimos cuadrados. Esta convierte un conjunto de variables relacionadas entre si no presentan correlacion lineal que son estas las componentes principales. El ACP es una tecnica que se usa en la etapa de EDA y se usa para construir modelos predictivos, ya que explica la composición de los datos en valores propios de la matriz de covarianza, normalmente despues de centrar los datos respecto a la media de cada atributo. 

En muchos casos la reducción de variables es necesario en muchos casos. Y el concepto de la información que aporta una variable a un dataset esta estrictamente relacionado con la variable de mayor varianza. Cuanto mayor sea la varianza se considera que existe mayor información por de las mismas, esto esta relacionado con el concepto de entropia.

El concepto de ACP fue estudiado por Pearson a final del siglo 19. Pero la tecnica se hizo popular en el inicio de los computadores. La tecnica es algo pesada de calcular a mano. 

Para estudiar las relaciones entre variables correlacionadas, se puede transformar el conjunto original de variables en otro conjunto de nuevas variables incorreladas entre si (Que no tengan redundancia de información) llamado **componentes principales**.

Las nuevas variables son **combinaciones lineales** de las varaibles anteriores y se van construyendo según el orden de importancia en cuanto a la variabilidad total que recogen de la muestra. 

El objetivo es tomar la mayor cantidad de variabilidad en las menos variables posibles. 
El objetivo no es quitar datos sino reducir la dimensionalidad cuando tenga sentido, es decir, cuando se presente un cuello de botella por la cantidad de variales.

In [1]:
import pandas as pd

df = pd.read_csv('../datasets/iris/iris.csv')

df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [4]:
X = df.iloc[:, [0, 1, 2, 3]].values
y = df.iloc[:, 4].values # La columna species no se puede incluir en el analisis

from sklearn.preprocessing import StandardScaler





In [10]:
# calcular la descomposición de valores y vectores propios
import numpy as np
X_std = StandardScaler().fit_transform(X)
mean_vect = np.mean(X_std, axis=0)

cov_matrix = np.cov(X_std.T)
print("La matriz de covarianza es: \n", cov_matrix)

eig_vals, eig_vectors = np.linalg.eig(cov_matrix)

print("Valores propios: ", eig_vals)
print("Vectores propios:\n", eig_vectors)

La matriz de covarianza es: 
 [[ 1.00671141 -0.11835884  0.87760447  0.82343066]
 [-0.11835884  1.00671141 -0.43131554 -0.36858315]
 [ 0.87760447 -0.43131554  1.00671141  0.96932762]
 [ 0.82343066 -0.36858315  0.96932762  1.00671141]]
Valores propios:  [2.93808505 0.9201649  0.14774182 0.02085386]
Vectores propios:
 [[ 0.52106591 -0.37741762 -0.71956635  0.26128628]
 [-0.26934744 -0.92329566  0.24438178 -0.12350962]
 [ 0.5804131  -0.02449161  0.14212637 -0.80144925]
 [ 0.56485654 -0.06694199  0.63427274  0.52359713]]


In [11]:
# B) Descomposicion de la matriz de correlacion 
corr_matrix = np.corrcoef(X_std.T)
corr_matrix

array([[ 1.        , -0.11756978,  0.87175378,  0.81794113],
       [-0.11756978,  1.        , -0.4284401 , -0.36612593],
       [ 0.87175378, -0.4284401 ,  1.        ,  0.96286543],
       [ 0.81794113, -0.36612593,  0.96286543,  1.        ]])

In [12]:
eig_vals, eig_vectors = np.linalg.eig(corr_matrix)

In [13]:
# C) Singular value decomposition 
u,s,v = np.linalg.svd(X_std.T)

In [14]:
u

array([[-0.52106591, -0.37741762,  0.71956635,  0.26128628],
       [ 0.26934744, -0.92329566, -0.24438178, -0.12350962],
       [-0.5804131 , -0.02449161, -0.14212637, -0.80144925],
       [-0.56485654, -0.06694199, -0.63427274,  0.52359713]])

In [15]:
s

array([20.92306556, 11.7091661 ,  4.69185798,  1.76273239])

In [16]:
v

array([[ 1.08239531e-01,  9.94577561e-02,  1.12996303e-01, ...,
        -7.27030413e-02, -6.56112167e-02, -4.59137323e-02],
       [-4.09957970e-02,  5.75731483e-02,  2.92000319e-02, ...,
        -2.29793601e-02, -8.63643414e-02,  2.07800179e-03],
       [ 2.72186462e-02,  5.00034005e-02, -9.42089147e-03, ...,
        -3.84023516e-02, -1.98939364e-01, -1.12588405e-01],
       ...,
       [ 5.43380310e-02,  5.12936114e-03,  2.75184277e-02, ...,
         9.89532683e-01, -1.41206665e-02, -8.30595907e-04],
       [ 1.96438400e-03,  8.48544595e-02,  1.78604309e-01, ...,
        -1.25488246e-02,  9.52049996e-01, -2.19201906e-02],
       [ 2.46978090e-03,  5.83496936e-03,  1.49419118e-01, ...,
        -7.17729676e-04, -2.32048811e-02,  9.77300244e-01]])

In [18]:
# Seleccion de las componentes principales 
for ev in eig_vectors:
    print(np.linalg.norm(ev))

# Por propiedades los vectores propios siempre dan una norma = 1

0.9999999999999996
0.9999999999999999
0.9999999999999998
1.0000000000000004


In [19]:
eigen_pairs = [(np.abs(eig_vals[i]),eig_vectors[:, i]) for i in range(len(eig_vals))]

In [21]:
eigen_pairs

[(2.9184978165319966,
  array([ 0.52106591, -0.26934744,  0.5804131 ,  0.56485654])),
 (0.9140304714680693,
  array([-0.37741762, -0.92329566, -0.02449161, -0.06694199])),
 (0.14675687557131517,
  array([-0.71956635,  0.24438178,  0.14212637,  0.63427274])),
 (0.020714836428619144,
  array([ 0.26128628, -0.12350962, -0.80144925,  0.52359713]))]

In [24]:
total_sum = sum(eig_vals) # Valor total de la varianza
var_exp = [(i/total_sum*100) for i in eig_vals]

In [25]:
var_exp # Solo quedandome con las dos dimensiones se explica casi el 944% de la varianza

[72.96244541329992, 22.85076178670173, 3.6689218892828794, 0.5178709107154786]

In [26]:
W = np.hstack((eigen_pairs[0][1].reshape(4,1), eigen_pairs[1][1].reshape(4,1))) # Matriz de proyección 

In [27]:
X[0]

array([5.1, 3.5, 1.4, 0.2])

In [28]:
# Proyectando las variables en el nuevo S.E.V 
Y  = X_std.dot(W)
Y

array([[-2.26470281, -0.4800266 ],
       [-2.08096115,  0.67413356],
       [-2.36422905,  0.34190802],
       [-2.29938422,  0.59739451],
       [-2.38984217, -0.64683538],
       [-2.07563095, -1.48917752],
       [-2.44402884, -0.0476442 ],
       [-2.23284716, -0.22314807],
       [-2.33464048,  1.11532768],
       [-2.18432817,  0.46901356],
       [-2.1663101 , -1.04369065],
       [-2.32613087, -0.13307834],
       [-2.2184509 ,  0.72867617],
       [-2.6331007 ,  0.96150673],
       [-2.1987406 , -1.86005711],
       [-2.26221453, -2.68628449],
       [-2.2075877 , -1.48360936],
       [-2.19034951, -0.48883832],
       [-1.898572  , -1.40501879],
       [-2.34336905, -1.12784938],
       [-1.914323  , -0.40885571],
       [-2.20701284, -0.92412143],
       [-2.7743447 , -0.45834367],
       [-1.81866953, -0.08555853],
       [-2.22716331, -0.13725446],
       [-1.95184633,  0.62561859],
       [-2.05115137, -0.24216355],
       [-2.16857717, -0.52714953],
       [-2.13956345,

In [29]:
# ACP con sklearn 
from sklearn.decomposition import PCA

acp = PCA(n_components=2)

Y = acp.fit_transform(X) # Se usa singular value decomposition SVD 

Y

array([[-2.68412563,  0.31939725],
       [-2.71414169, -0.17700123],
       [-2.88899057, -0.14494943],
       [-2.74534286, -0.31829898],
       [-2.72871654,  0.32675451],
       [-2.28085963,  0.74133045],
       [-2.82053775, -0.08946138],
       [-2.62614497,  0.16338496],
       [-2.88638273, -0.57831175],
       [-2.6727558 , -0.11377425],
       [-2.50694709,  0.6450689 ],
       [-2.61275523,  0.01472994],
       [-2.78610927, -0.235112  ],
       [-3.22380374, -0.51139459],
       [-2.64475039,  1.17876464],
       [-2.38603903,  1.33806233],
       [-2.62352788,  0.81067951],
       [-2.64829671,  0.31184914],
       [-2.19982032,  0.87283904],
       [-2.5879864 ,  0.51356031],
       [-2.31025622,  0.39134594],
       [-2.54370523,  0.43299606],
       [-3.21593942,  0.13346807],
       [-2.30273318,  0.09870885],
       [-2.35575405, -0.03728186],
       [-2.50666891, -0.14601688],
       [-2.46882007,  0.13095149],
       [-2.56231991,  0.36771886],
       [-2.63953472,