# Análisis de componentes principales (PCA)

PCA es usado para reducir el número de variables de un problema, es decir, reducir la dimensionalidad, esto se hace construyendo una  matriz de covarianza

Para construir esta matriz primero se estandarizan los datos (si es necesario), y luego la matriz resultante, por ejemplo $ Z $
se multiplica por su transpuesta 

$ covmatrix = ZZ^T$

Esta matriz de covarianza la podemos representar con eigenvalores y eigenvectores, luego se realizan otras operaciones para tener la matriz final 

Las ventajas que tenemos son:
* Reducimos la complejidad
* Evitamos el sobreentrenamiento 
* Nos menciona que tan relacionada esta una variable con otra 

### Se realizará una prueba para ver como funciona

In [1]:
from sklearn.datasets import load_wine, load_iris, make_blobs
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt 
from sklearn.decomposition import PCA

#### Creamos un dataset de juguete pa probar

In [2]:
x, y = make_blobs(centers=10, n_samples=5000, n_features=100)

#### Con el variance ratio nos dice cuanta información tiene cada componente principal, entonces podemos sumar estos hasta  llegar a un porcentaje aceptable de información

In [3]:
pca = PCA()
x_pca = pca.fit_transform(x)
x_pca.shape
variance = pca.explained_variance_ratio_
cumulative_ratio = [variance[0]]
for i in range(1, len(variance)):
    cumulative_ratio.append(cumulative_ratio[i-1] + variance[i])

print("Suma de las PCA para saber cuanta información tienen: \n", cumulative_ratio[:10])

Suma de las PCA para saber cuanta información tienen: 
 [0.1492709362041403, 0.2894195602171052, 0.42558584702004393, 0.5534855396543777, 0.6562553509218308, 0.7503565414119009, 0.8343524535995124, 0.9142489952612682, 0.9714806496261547, 0.9718790440753258]


Con estos resultados vemos que con 10 componentes principales ya representamos el 97% de la información, no necesitamos más 

##### Creamos una máquina de vectores de soporte y la entrenamos con todos las dimensiones pa ver como se comporta 

In [4]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state = 42)

In [5]:
from sklearn.svm import SVC

clf = SVC(gamma='auto')
clf.fit(X_train, y_train)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

In [6]:
from sklearn.metrics import accuracy_score 
y_train_pred = clf.predict(X_train)
y_test_pred = clf.predict(X_test)
print("Acc train:", accuracy_score(y_train, y_train_pred))
print("Acc test:",  accuracy_score(y_test, y_test_pred))

Acc train: 1.0
Acc test: 1.0


##### Ahora lo entrenamos con  PCA  a ver como le va

In [7]:
pca = PCA(n_components=1)

pca.fit(x)
X_pca= pca.transform(x)
X_train_pca, X_test_pca, y_train, y_test = train_test_split(X_pca, y, test_size=0.3, random_state = 42)

In [8]:
clf = SVC(gamma='auto')
clf.fit(X_train_pca, y_train)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

In [9]:
y_train_pred_pca = clf.predict(X_train_pca)
y_test_pred_pca = clf.predict(X_test_pca)
print("Acc train:", accuracy_score(y_train, y_train_pred_pca))
print("Acc test:",  accuracy_score(y_test, y_test_pred_pca))

Acc train: 0.8525714285714285
Acc test: 0.8593333333333333
