# Componentes principales y regresión lineal

In [None]:
import numpy as np
import pandas as pd
from scipy.stats import norm
from scipy.stats import t as tstudent
import scipy.stats as ss
import matplotlib.pyplot as plt
from datetime import datetime, date
from pandas.plotting import scatter_matrix
from sklearn.linear_model import LinearRegression
pd.set_option('display.max_columns',None)
pd.set_option('display.max_rows',None)

# Lectura de base

In [None]:
B = pd.read_csv("C:\\Users\\ricardo\\Desktop\\ComponentesPrincipales\\BaseEjemplo_CP.csv",dtype='str',encoding = "ISO-8859-1")
B[B.columns] = B[B.columns].astype(float)
B.head()

# Aproximación mediante una regresión lineal múltiple

In [None]:
X = np.asarray(B[["X_1","X_2","X_3","X_4","X_5"]])
y = np.asarray(B["Y"])
lin_reg = LinearRegression()
lin_reg.fit(X,y)
print(lin_reg.intercept_)
print(lin_reg.coef_)

In [None]:
y_hat = lin_reg.predict(X)

In [None]:
fig = plt.figure(figsize=(5.,5.))
ax = fig.add_subplot(1,1,1)
ax.set_title("Ajuste Regresión Lineal")
ax.plot(range(1,len(y)+1),y,color="darkblue",linewidth=2,label="Valor real")
ax.plot(range(1,len(y_hat)+1),y_hat,color="red",ls="--",label="Valor ajustado")
plt.xticks(rotation=90)
plt.legend()
plt.show()

# Regresión con componentes principales

In [None]:
#Paso 1. Cálculo de la matriz de varianza-covarianza
S = B[["X_1","X_2","X_3","X_4","X_5"]].cov()

In [None]:
#Paso 2. Cálculo de los valores y vectores propios
valp, vecp = np.linalg.eigh(S)

In [None]:
valp

In [None]:
vecp

In [None]:
#Verificación propiedad vectores y valor propios (Av = lambda v)
#Se observa que para determinar el vector propio, deben seleccionarse las columnas.
print(np.dot(S,vecp[:,3]))
print(valp[3]*vecp[:,3])

In [None]:
#Limpieza del valor de los valores propios
valp2 = []
for i in range(len(valp)):
    valp2.extend([abs(np.round(valp[i],5))])
valp2

In [None]:
#Verificación de la propiesdad que la suma de los valores propios es la varianza total
print("La suma de los valores propios es igual a ",sum(valp2))
print("La varianza total es igual a ",np.trace(S))

In [None]:
#Determinación de los vectores propios
v1, v2, v3, v4, v5 = vecp[:,0].copy(), vecp[:,1].copy(), vecp[:,2].copy(), vecp[:,3].copy(), vecp[:,4].copy()
l1, l2, l3, l4, l5 = valp2[0], valp2[1], valp2[2], valp2[3], valp2[4]

In [None]:
#Construcción de las componentes principales
BC = pd.DataFrame(index=range(len(B.index)),columns=["Y","Y1","Y2","Y3","Y4","Y5"])
BC["Y"] = B["Y"]
BC["Y1"] = v1[0]*B["X_1"] + v1[1]*B["X_2"] + v1[2]*B["X_3"] + v1[3]*B["X_4"] + v1[4]*B["X_5"]
BC["Y2"] = v2[0]*B["X_1"] + v2[1]*B["X_2"] + v2[2]*B["X_3"] + v2[3]*B["X_4"] + v2[4]*B["X_5"]
BC["Y3"] = v3[0]*B["X_1"] + v3[1]*B["X_2"] + v3[2]*B["X_3"] + v3[3]*B["X_4"] + v3[4]*B["X_5"]
BC["Y4"] = v4[0]*B["X_1"] + v4[1]*B["X_2"] + v4[2]*B["X_3"] + v4[3]*B["X_4"] + v4[4]*B["X_5"]
BC["Y5"] = v5[0]*B["X_1"] + v5[1]*B["X_2"] + v5[2]*B["X_3"] + v5[3]*B["X_4"] + v5[4]*B["X_5"]
BC.head()

In [None]:
print("La varianza de la CP Y5 es igual a ",np.std(BC["Y5"])**2, "el valor propio asociado es",valp2[4])
print("La varianza de la CP Y4 es igual a ",np.std(BC["Y4"])**2, "el valor propio asociado es",valp2[3])
print("La varianza de la CP Y3 es igual a ",np.std(BC["Y3"])**2, "el valor propio asociado es",valp2[2])
print("La varianza de la CP Y2 es igual a ",np.std(BC["Y2"])**2, "el valor propio asociado es",valp2[1])
print("La varianza de la CP Y1 es igual a ",np.std(BC["Y1"])**2, "el valor propio asociado es",valp2[0])

# Regresión lineal con la componente principal Y5

In [None]:
X = np.asarray(BC[["Y5"]])
y = np.asarray(BC["Y"])
lin_reg = LinearRegression()
lin_reg.fit(X,y)
print(lin_reg.intercept_)
print(lin_reg.coef_)
y_hat = lin_reg.predict(X)

In [None]:
fig = plt.figure(figsize=(5.,5.))
ax = fig.add_subplot(1,1,1)
ax.set_title("Ajuste Regresión Lineal (Y5)")
ax.plot(range(1,len(y)+1),y,color="darkblue",linewidth=2,label="Valor real")
ax.plot(range(1,len(y_hat)+1),y_hat,color="red",ls="--",label="Valor ajustado")
plt.xticks(rotation=90)
plt.legend()
plt.show()

In [None]:
print("La varianza explicada es igual a", 100*valp2[4]/sum(valp2)," por ciento")

# Ajuste de la regresión lineal con la componente principal Y4

In [None]:
X = np.asarray(BC[["Y4"]])
y = np.asarray(BC["Y"])
lin_reg = LinearRegression()
lin_reg.fit(X,y)
print(lin_reg.intercept_)
print(lin_reg.coef_)
y_hat = lin_reg.predict(X)

In [None]:
fig = plt.figure(figsize=(5.,5.))
ax = fig.add_subplot(1,1,1)
ax.set_title("Ajuste Regresión Lineal (Y4)")
ax.plot(range(1,len(y)+1),y,color="darkblue",linewidth=2,label="Valor real")
ax.plot(range(1,len(y_hat)+1),y_hat,color="red",ls="--",label="Valor ajustado")
plt.xticks(rotation=90)
plt.legend()
plt.show()

In [None]:
print("La varianza explicada es igual a", 100*valp2[3]/sum(valp2), "por ciento")

# Ajuste de la regresión lineal con las componentes Y4 y Y5

In [None]:
X = np.asarray(BC[["Y4","Y5"]])
y = np.asarray(BC["Y"])
lin_reg = LinearRegression()
lin_reg.fit(X,y)
print(lin_reg.intercept_)
print(lin_reg.coef_)
y_hat = lin_reg.predict(X)

In [None]:
fig = plt.figure(figsize=(5.,5.))
ax = fig.add_subplot(1,1,1)
ax.set_title("Ajuste Regresión Lineal (Y4)")
ax.plot(range(1,len(y)+1),y,color="darkblue",linewidth=2,label="Valor real")
ax.plot(range(1,len(y_hat)+1),y_hat,color="red",ls="--",label="Valor ajustado")
plt.xticks(rotation=90)
plt.legend()
plt.show()

In [None]:
print("La varianza explicada es igual a", 100*(valp2[3]+valp2[4])/sum(valp2), " por ciento")

# Ajuste de la regresión lineal con las componentes Y2

In [None]:
X = np.asarray(BC[["Y2"]])
y = np.asarray(BC["Y"])
lin_reg = LinearRegression()
lin_reg.fit(X,y)
print(lin_reg.intercept_)
print(lin_reg.coef_)
y_hat = lin_reg.predict(X)

In [None]:
fig = plt.figure(figsize=(5.,5.))
ax = fig.add_subplot(1,1,1)
ax.set_title("Ajuste Regresión Lineal (Y2)")
ax.plot(range(1,len(y)+1),y,color="darkblue",linewidth=2,label="Valor real")
ax.plot(range(1,len(y_hat)+1),y_hat,color="red",ls="--",label="Valor ajustado")
plt.xticks(rotation=90)
plt.legend()
plt.show()

In [None]:
print("La varianza explicada es igual a", 100*valp2[2]/sum(valp2), " por ciento")

# Ejercicio. El archivo "BaseEjercicio_CP.csv" contiene una variable dependiente y tres variables explicativas: 1) Mediante una regresión lineal múltiple realice un ajuste considerando toda la base, 2) Determine un número adecuado de componentes principales que proporcionen un ajuste a la variable dependiente, y 3) ¿cómo podría definirse un índice utilizando el resultado del inciso anterior?