# **PCA Regresión**

In [None]:
#Importamos las librerias
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

Para este ejemplo utilizaremos un conjunto de datos de una colección de vinos con 13 variables independientes y una variable dependiente, que nos da la clasificación del vino. Las variables independientes son valores característicos del vino en cuestión y que van desde el alcohol, el aroma, el sabor, la acidez, y otros componentes o ingredientes que clasifican un vino.

In [None]:
url='https://raw.githubusercontent.com/Geerdata/DS/main/Datacoder/Arc.%20Modelo/Wine.csv'
dataset= pd.read_csv(url,sep=',')
dataset.head()

Unnamed: 0,Alcohol,Malic_Acid,Ash,Ash_Alcanity,Magnesium,Total_Phenols,Flavanoids,Nonflavanoid_Phenols,Proanthocyanins,Color_Intensity,Hue,OD280,Proline,Customer_Segment
0,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065,1
1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050,1
2,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185,1
3,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480,1
4,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735,1


Una vez que importamos los datos, separamos las variables independientes en la matriz X y la variable dependiente en el vector y.

In [None]:
dataset.Customer_Segment.unique()

array([1, 2, 3])

In [None]:
X = dataset.iloc[:, 0:13].values
y = dataset.iloc[:, 13].values

Ahora dividimos el conjunto de datos en dos conjuntos para entrenamiento y prueba:

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

Nuestro siguiente paso será estandarizar las escalas para las 13 variables analizadas!

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

Una vez con los datos normalizados, aplicamos el PCA para reducir la dimensión de 13 a 2 variables.

In [None]:
from sklearn.decomposition import PCA
pca = PCA(n_components = 2)
X_train = pca.fit_transform(X_train)
X_test = pca.transform(X_test)

El conjunto de entrenamiento quedó ahora con 2 variables de la siguiente manera:

In [None]:
X_train #conjunto de entrenamiento reducido de 13 a 2 variables

array([[-2.17884511e+00, -1.07218467e+00],
       [-1.80819239e+00,  1.57822344e+00],
       [ 1.09829474e+00,  2.22124345e+00],
       [-2.55584748e+00, -1.66210369e+00],
       [ 1.85698063e+00,  2.41573166e-01],
       [ 2.58288576e+00, -1.37668170e+00],
       [ 8.72876119e-01,  2.25618512e+00],
       [-4.18384029e-01,  2.35415681e+00],
       [-3.04977245e-01,  2.27659433e+00],
       [ 2.14082532e+00, -1.10052871e+00],
       [-2.98136465e+00, -2.47159183e-01],
       [ 1.96188242e+00,  1.25407738e+00],
       [-2.16177795e+00, -9.75966550e-01],
       [ 2.21976084e+00, -2.39507167e+00],
       [-2.30179529e+00, -2.05791962e-01],
       [-3.00953827e+00, -2.79141212e-01],
       [ 2.63443473e+00, -8.68313119e-01],
       [-1.09219965e+00, -3.53906625e+00],
       [ 2.62578435e+00, -2.96852840e-03],
       [ 1.98077342e-01,  2.29193443e+00],
       [-2.67442753e+00, -2.58800132e+00],
       [-2.54763698e+00, -4.52703891e-01],
       [ 1.77416736e+00,  8.43586940e-01],
       [-2.

In [None]:
#Lo mismo sucedió con el conjunto de pruebas X_test
X_test

array([[ 2.20685211e+00, -1.02850086e+00],
       [-2.53651962e+00, -1.83644227e+00],
       [ 2.19183305e+00,  1.81240519e+00],
       [ 2.51489251e+00, -1.38907803e+00],
       [-3.47991313e-01,  5.25397912e-01],
       [ 1.44174066e+00, -2.89674514e-01],
       [ 2.11892046e+00, -1.62960181e+00],
       [-3.06045961e+00, -6.70950629e-01],
       [-2.35436876e-01,  2.16810201e+00],
       [-1.21230749e+00,  2.12204944e+00],
       [-2.20706720e+00, -2.61457262e-01],
       [-4.19759580e+00, -5.36505538e-01],
       [ 3.11063501e+00, -2.26380692e+00],
       [ 2.39878282e+00,  1.29482006e+00],
       [-2.16102953e+00, -1.95327620e+00],
       [ 9.26627235e-01,  3.35678339e+00],
       [ 1.96950425e+00, -1.65130081e+00],
       [ 3.61413167e+00, -2.68087967e+00],
       [-1.71986182e+00,  9.29936963e-01],
       [ 2.93212799e+00, -8.79320756e-01],
       [ 2.36911995e+00,  1.73171845e+00],
       [ 1.23368522e+00, -1.56525793e-01],
       [ 1.07525557e+00, -8.97240861e-01],
       [ 5.

In [None]:
# Explicación de la varianza de las componentes
explained_variance = pca.explained_variance_ratio_
explained_variance

#El primero componente explica el 36.9% de la variabilidad de mis datos y el segundo el 19.3%

array([0.36884109, 0.19318394])

Para comprobar que las dos componentes resultantes representan a las 13 variables originales vamos a hacer la predicción de la variable dependiente con la regresión logística, comprobando los resultados de predicción con la matriz de confusión:

In [None]:
from sklearn.linear_model import LogisticRegression
Reg_Log = LogisticRegression(random_state = 0)
Reg_Log.fit(X_train, y_train)

# Predicting the Test set results
y_pred = Reg_Log.predict(X_test)

# Making the Confusion Matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
cm

array([[14,  0,  0],
       [ 1, 15,  0],
       [ 0,  0,  6]])

**Insights**:

Como se observa en la matriz de confusión, sólo hay un error, un falso positivo en la primera de las tres clases de vinos. Por lo que concluimos que la predicción es correcta utilizando el conjunto de datos de dos variables, en lugar del conjunto de datos de 13 variables.

In [None]:
from sklearn.metrics import r2_score
print('El r^2 es:',r2_score(y_test,y_pred))

El r^2 es: 0.9451219512195121
