<a href="https://colab.research.google.com/github/cam2149/MachinelearningI/blob/main/PrincipalComponentRegression_PCR.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Principal Component Regression (PCR)

La regresión de componentes principales (PCR) es una técnica estadística para el análisis de regresión que se utiliza para reducir la dimensionalidad de un conjunto de datos proyectándolo en un subespacio de menor dimensión. Esto se hace encontrando un conjunto de combinaciones lineales ortogonales (es decir, no correlacionadas) de las variables originales, llamadas componentes principales, que capturan la mayor varianza en los datos. Los componentes principales se utilizan como predictores en el modelo de regresión, en lugar de las variables originales.

La PCR se utiliza a menudo como alternativa a la regresión lineal múltiple, especialmente cuando el número de variables es grande o cuando las variables están correlacionadas. Al utilizar PCR, podemos reducir la cantidad de variables en el modelo y mejorar la interpretabilidad y estabilidad de los resultados de la regresión.

### Características de la regresión de componentes principales (PCR)
Estas son algunas de las características clave de la regresión de componentes principales (PCR):

*   PCR reduce la dimensionalidad de un conjunto de datos proyectándolo en un subespacio de menor dimensión, utilizando un conjunto de combinaciones lineales ortogonales de las variables originales llamadas componentes principales.
*   La PCR se utiliza a menudo como alternativa a la regresión lineal múltiple, especialmente cuando el número de variables es grande o cuando las variables están correlacionadas.
*   Al utilizar PCR, podemos reducir la cantidad de variables en el modelo y mejorar la interpretabilidad y estabilidad de los resultados de la regresión.
*   Para realizar la PCR, primero debemos estandarizar las variables originales y luego calcular los componentes principales utilizando la descomposición de valores singulares (SVD) o la descomposición propia de la matriz de covarianza de los datos estandarizados.
*   Luego, los componentes principales se utilizan como predictores en un modelo de regresión lineal, cuyos coeficientes pueden estimarse mediante regresión de mínimos cuadrados o estimación de máxima verosimilitud.

###Desglosando las matemáticas detrás de la regresión de componentes principales (PCR)
A continuación se ofrece una breve descripción general de los conceptos matemáticos subyacentes a la regresión de componentes principales (PCR):

* **Reducción de dimensionalidad**: PCR reduce la dimensionalidad de un conjunto de datos proyectándolo en un subespacio de dimensiones inferiores, utilizando un conjunto de combinaciones lineales ortogonales de las variables originales llamadas componentes principales. Esta es una forma de resumir los datos capturando los patrones y relaciones más importantes en los datos mientras se ignora el ruido y la información irrelevante.
* **Componentes principales**: los componentes principales de un conjunto de datos son las combinaciones lineales ortogonales de las variables originales que capturan la mayor varianza en los datos. Se obtienen realizando descomposición en valores singulares (SVD) o descomposición propia de la matriz de covarianza de los datos estandarizados. Por lo general, se elige que el número de componentes principales sea el número de variables, pero se puede reducir si hay una gran cantidad de colinealidad entre las variables.
* **Regresión lineal**: PCR utiliza los componentes principales como predictores en un modelo de regresión lineal, cuyos coeficientes se pueden estimar mediante regresión de mínimos cuadrados o estimación de máxima verosimilitud. Luego, el modelo ajustado se puede utilizar para hacer predicciones sobre nuevos datos.

#####En general, la PCR utiliza conceptos matemáticos del álgebra lineal y la estadística para reducir la dimensionalidad de un conjunto de datos y mejorar la interpretabilidad y estabilidad de los resultados de la regresión.

#Limitaciones de la regresión de componentes principales (PCR)

Si bien la regresión de componentes principales (PCR) tiene muchas ventajas, también tiene algunas limitaciones que deben tenerse en cuenta al decidir si se utiliza para un análisis de regresión en particular:

* La PCR sólo funciona bien con relaciones lineales: la PCR supone que la relación entre los predictores y la variable de respuesta es lineal. Si la relación no es lineal, es posible que la PCR no pueda capturarla con precisión, lo que genera predicciones sesgadas o inexactas. En tales casos, los métodos de regresión no lineal pueden ser más apropiados.
* La PCR no maneja bien los valores atípicos: la PCR es sensible a los valores atípicos en los datos, lo que puede tener un impacto desproporcionado en los componentes principales y en el modelo de regresión ajustado. Por lo tanto, es importante identificar y manejar los valores atípicos en los datos antes de aplicar la PCR.
* La PCR puede no ser interpretable: la PCR implica un procedimiento matemático complejo que genera un conjunto de combinaciones lineales ortogonales de las variables originales. Es posible que estas combinaciones lineales no sean fácilmente interpretables, especialmente si el número de variables es grande. Por el contrario, la regresión lineal múltiple es más interpretable, ya que utiliza las variables originales directamente como predictores.
* Es posible que la PCR no sea eficiente: la PCR requiere una gran cantidad de cálculos, especialmente cuando el número de variables es grande. Por lo tanto, puede que no sea el método más eficaz para el análisis de regresión, especialmente cuando el conjunto de datos es grande. En tales casos, pueden ser más apropiados métodos de regresión más rápidos y eficientes.


#####En general, si bien la PCR tiene muchas ventajas, es importante considerar cuidadosamente sus limitaciones y posibles inconvenientes antes de utilizarla para el análisis de regresión.

#¿Cómo se compara la regresión de componentes principales (PCR) con otras técnicas de análisis de regresión?

La regresión de componentes principales (PCR) a menudo se compara con otras técnicas de análisis de regresión, como la regresión lineal múltiple, el análisis de componentes principales (PCA) y la regresión de mínimos cuadrados parciales (PLSR). A continuación se muestran algunas diferencias clave entre la PCR y estas otras técnicas:

* **PCR frente a regresión lineal múltiple**: la PCR es similar a la regresión lineal múltiple, en el sentido de que ambas técnicas utilizan la regresión lineal para modelar la relación entre un conjunto de predictores y una variable de respuesta. Sin embargo, la PCR se diferencia de la regresión lineal múltiple en que reduce la dimensionalidad de los datos proyectándolos en un subespacio de dimensiones inferiores utilizando los componentes principales. Esto puede mejorar la interpretabilidad y estabilidad de los resultados de la regresión, especialmente cuando el número de variables es grande o cuando las variables están correlacionadas.
* **PCR versus PCA: PCR es similar a PCA**, en el sentido de que ambas técnicas utilizan componentes principales para reducir la dimensionalidad de los datos. Sin embargo, la PCR se diferencia del PCA en que utiliza los componentes principales como predictores en un modelo de regresión lineal, mientras que el PCA es una técnica no supervisada que sólo analiza la estructura de los datos en sí, sin utilizar una variable de respuesta.
* **PCR versus PLSR**: PCR es similar a PLSR, en el sentido de que ambas técnicas utilizan componentes principales para reducir la dimensionalidad de los datos y mejorar la interpretabilidad y estabilidad de los resultados de la regresión. Sin embargo, la PCR se diferencia del PLSR en que utiliza los componentes principales como predictores en un modelo de regresión lineal, mientras que el PLSR utiliza una combinación ponderada de las variables originales como predictores en un modelo de regresión de mínimos cuadrados parciales. Esto permite que PLSR capture mejor las relaciones no lineales entre los predictores y la variable de respuesta.

#####En general, la PCR es una técnica útil para el análisis de regresión que se puede comparar con la regresión lineal múltiple, PCA y PLSR, según las características específicas de los datos y los objetivos del análisis.


#Regresión de componentes principales (PCR) en Python:

In [2]:
# Import the required modules
from sklearn.datasets import load_diabetes
from sklearn.decomposition import PCA
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

# Load the diabetes dataset
from sklearn.pipeline import Pipeline

X, y = load_diabetes(return_X_y=True)
X.shape


(442, 10)

Ahora reduzcamos la dimensionalidad del conjunto de datos original a la mitad, es decir, de datos de 10 dimensiones a datos de 5 dimensiones. Cree una canalización con PCA y regresión lineal: se crea una canalización que consta de dos pasos: PCA y regresión lineal. El paso PCA se inicializa con el parámetro n_components establecido en 6, lo que significa que solo se conservarán los primeros seis componentes principales. El paso de regresión lineal se inicializa con los parámetros predeterminados.


In [3]:
# Create a pipeline with PCA and linear regression
pca = PCA(n_components=5)

# Keep only the first six principal components
reg = LinearRegression()
pipeline = Pipeline(steps=[('pca', pca),
						('reg', reg)])

# Fit the pipeline to the data
pipeline.fit(X, y)

# Predict the labels for the data
y_pred = pipeline.predict(X)


Ahora evaluemos el rendimiento del modelo utilizando métricas como error absoluto medio, error cuadrático medio, error cuadrático medio y puntuación r2.

In [4]:
# Compute the evaluation metrics
mae = mean_absolute_error(y, y_pred)
mse = mean_squared_error(y, y_pred)
rmse = np.sqrt(mse)
r2 = pipeline.score(X, y)

# Print the number of features before and after PCR
print(f'Number of features before PCR: {X.shape[1]}')
print(f'Number of features after PCR: {pca.n_components_}')

# Print the evaluation metrics
print(f'MAE: {mae:.2f}')
print(f'MSE: {mse:.2f}')
print(f'RMSE: {rmse:.2f}')
print(f'R^2: {r2:.2f}')


Number of features before PCR: 10
Number of features after PCR: 5
MAE: 44.30
MSE: 2962.70
RMSE: 54.43
R^2: 0.50
