<a href="https://colab.research.google.com/github/binaria010/Mate2B/blob/main/Segunda%20Parte/MinimosCuadrados/Clase%204.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Contenidos:

1. Finalizamos la práctica de regresión lineal haciendo el caso multivariado. 

2. Hacemos una introducción/calentamiento a Componentes principales. 

In [1]:
import numpy as np
import pandas as pd


# Regresion lineal multivariada:




Suponemos que tenemos un conjunto de datos de la forma
$$
({\bf x}_1, y_1), ({\bf x}_2, y_2), \dots, ({\bf x}_N, y_N)
$$

donde ahora cada ${\bf x}_i$ es un vector de digamos $p$ variables ${\bf x} = (x^{(1)}, x^{(2)},\dots, x^{(p)})$ y el indicie $i$ representa la observación i-esima de cada una de ellas.

El objetivo de la regresion multivariada es de nuevo buscar una función lineal de ajuste que ahora depende de estas $p$ variables.

La función es de la forma:

$$
f(x^{(1)}, \dots, x^{(p)}) = b_0 + b_1 x^{(1)} + b_2x^{(2)} + \cdots b_p x^{(p)}
$$

Donde los coeficientes $b_0,~b_1,~\cdots,b_p$ se determinan a partir del conjunto de datos.

Por ejemplo: Consideremos el conjunto de datos Iris:



In [2]:
path_file = "/content/HumanDevelopment.csv"
data = pd.read_csv(path_file, header = 0)


#visualicemos las primeras 10 filas del conjunto de datos
data.head(10)


Unnamed: 0,HDI,LifeExpectancy,MeanYearsofEducation,GNIcapita
0,0.944,81.6,12.6,64992
1,0.935,82.4,13.0,42261
2,0.93,83.0,12.8,56431
3,0.923,80.2,12.7,44025
4,0.922,81.6,11.9,45435
5,0.916,80.9,13.1,43919
6,0.916,80.9,12.2,39568
7,0.915,79.1,12.9,52947
8,0.913,82.0,13.0,42155
9,0.913,81.8,12.5,32689


PAra este conjunto de datos queremos poder predecir EL HDI (Indice de desarrollo humano) de un país a partir de las variables ```LifeExpectancy```: Esperanza de vida al nacer, ```MeanYearsofEducation```: promedio de anios de eduación formal de los adultos y    ```GNIcapita```: ingreso nacional por habitante en dólares, esta variable está emparentada con el PBI per capita


entonces en este caso:

$$
x^{(1)} = \text{ Life expectancy}
$$
$$
x^{(2)} = \text{Mean years of education}
$$
$$
x^{(3)} = \text{GNI per capita}
$$

y la variable $y$ que es la que pretendemos estimar es $y = \text{HDI}$

Entonces en este caso buscamos una funcion de ajuste

$$
f(x^{(1)}, x^{(2)}, x^{(3)}) = b_0 + b_1* x^{(1)} +b_2*x^{(2)} + b_3* x^{(3)}
$$

usando el conjunto de datos dado.

## Ecuaciones Normales:

En el caso de regresion lineal multivariada las ecuaciones normales que nos permiten determinar los coeficientes son muy similares a las que obtuvimos para regresión por funciones o regresión polinomial. Estas son:

$$
\begin{bmatrix}
b_0 \\ b_1 \\ b_2 \\ \vdots \\ b_p
\end{bmatrix} = (X^T X)^{-1}X^T {\bf y}
$$

donde $X$ es una matriz de tamaño $N \times p+1$ con $N =$ cantidad de observaciones o datos y $p$= cantidad de variables para hacer la regresión.

La matriz $X$ tiene todos unos en la primera columna, en la columna 2 tiene todas las N observaciones de la variable $x^{(1)}$, en la siguiente columna todas las observaciones de la variable $x^{(2)}$ y asi sucesivamente, es decir:

$$
X =\begin{bmatrix}
1 & x^{(1)}_1 & x^{(2)}_1 &\cdots  & x^{(p)}_1\\ 
1 & x^{(1)}_2 & x^{(2)}_2 &\cdots & x^{(p)}_2\\ 
\vdots &\vdots &\vdots & \cdots  & \vdots\\ 
1 & x^{(1)}_N & x^{(2)}_2 &\cdots & x^{(p)}_N
\end{bmatrix}, \qquad  {\bf y} =\begin{bmatrix} y_1\\ y_2 \\ \vdots \\ y_N\end{bmatrix}
$$




Implementemos una rutina que para un conjunto de datos nos devuelva la funcion de ajuste (el output de esta rutina va a ser un objeto función que podemos evaluar.)

In [3]:
def Reg_lineal_multivariada(data_X, data_y):

  """
  data_X = es una matrix de los datos de cada variable: es de tamanio N x p 
  donde N=cantidad de observaciones y p =cantidad de variables a usar
  data_y = es un array de numpy de longitud N

  coefs = [b_0, b_1, ..., b_p]

  f(x) = b_0 +b_1x^{1} + ... +b_p x^{p}
  """
  N , p = data_X.shape  # data_X tiene N filas p columnas

  X = np.ones((N, p+1))   # X es como data_X pero le agregamos los unos al principio

  X[:, 1:] = data_X     #decalramos que de la segunda columna en adelante X y data_X coincidan

  coefs = np.linalg.solve(X.T @ X, X.T @ data_y) # coef

  f = lambda x: coefs[0] + np.dot(coefs[1:], x)
  #print(coefs)

  return f



In [4]:

data_X = data.iloc[:, [1,2,3]]  # seleccionamos las columnas 1, 2,y 3 del dataframe data

data_X.shape   # esto quiere decir que tenemos 195 observaciones de 3 variables


(195, 3)

Convertimos X en un numpy array para manipularlo:

In [5]:
data_X = np.array(data_X)

type(data_X)

numpy.ndarray

In [6]:
data_y = data.iloc[:, 0]
data_y = np.array(data_y)

data_y.shape

(195,)

In [7]:
f = Reg_lineal_multivariada(data_X, data_y)

type(f)

function

Hay que tener en cuenta que el orden de las varaibles de f es el mismo en el que estan en data_X:

Por ejemplo si queremos predecir para un pais con 

$$
\text{LifeExpectancy} = 81.6
$$
$$\text{MeanYearsofEducation} =12.6$$

$$\text{GNIcapita} = 64992
$$

definimos $x = (81.6, 12.6, 64992)$ y calculamos $\hat{y} = f(x)$ donde el sombrerito $\hat{}$  denota la predicción.

In [8]:
x = np.array([81.6, 12.6, 64992])  # en estos valores queremos predecir

print("El HDI para un pais con LifeExp = 81.6, MYofEducation = 12.6 y GNI = 64992 es: \n", 
      f(x))

El HDI para un pais con LifeExp = 81.6, MYofEducation = 12.6 y GNI = 64992 es: 
 0.9603618824237572


si queremos predecir para un pais con 

$$
\text{LifeExpectancy} = 50
$$
$$
\text{MeanYearsofEducation} =10
$$
$$
\text{GNIcapita} = 64992
$$

definimos $x = (50, 10, 64992)$ y calculamos $\hat{y} = f(x)$ donde el sombrerito $\hat{}$  denota la predicción.

In [9]:
x = np.array([50, 10, 64992])

print("El HDI predicho es: ", f(x))

El HDI predicho es:  0.6476247266025903


se nota que aunque el GNI sea igual que antes, influyó el valor de LifeExpecta y de MeanYears of Education

In [10]:
x = np.array([81.6, 10, 64992])

print("El HDI predicho es: ", f(x))

El HDI predicho es:  0.8998179564327845


In [11]:
x = np.array([50, 12.6, 64992])

print("El HDI predicho es: ", f(x))

El HDI predicho es:  0.7081686525935632


Calculamos el $R^2$ de esta regresión:


$$R^2 = \displaystyle\frac{\sum_{i=1}^n(\hat{y_i} - \bar{y})^2}{\sum_{j=1}^n(y_j - y_j)^2}$$

donde $\hat{y_i} = f(x_i)$ el la predicción de $y_i$ usando la función de ajuste $f$.

In [12]:
def R2regmultiple(f, x,y):

  """
  Esta funcion calcula el r^2 de la regresion lineal dados los datos x, y
  """
  
  y_predicho = np.array([f(x[i,:]) for i in range(len(y))])

  avg_y = np.mean(y)

  numerador = np.sum((y_predicho - y)**2)
  denominador = np.sum((y - avg_y)**2)

  return 1 - numerador/denominador

In [13]:
r2 = R2regmultiple(f, data_X, data_y)

print("El R^2 de esta regresion es:", r2)

El R^2 de esta regresion es: 0.9553241223196648


# 2. PCA: una entrada en calor a componentes principales

Dado un conjunto de datos, para empezar este conjunto son N observaciones de dos variables, calculamos la matriz de covarianza/correlacion y sus autovalores y autovectores (componnentes principales)




In [14]:
indices = np.random.choice(195, size = 15, replace = False)


In [44]:
X = data_X[indices]
print(X)

[[6.8300e+01 8.2000e+00 5.7600e+03]
 [8.1700e+01 9.8000e+00 2.1290e+04]
 [6.9100e+01 9.7000e+00 3.4320e+03]
 [7.9100e+01 1.2900e+01 5.2947e+04]
 [7.4800e+01 7.6000e+00 1.3054e+04]
 [7.4600e+01 9.0000e+00 1.1015e+04]
 [7.4400e+01 7.3000e+00 1.3323e+04]
 [5.8800e+01 2.4000e+00 1.0960e+03]
 [5.6700e+01 2.7000e+00 7.5800e+02]
 [7.5600e+01 1.0500e+01 1.2488e+04]
 [6.3800e+01 2.6000e+00 3.5190e+03]
 [7.8800e+01 8.8000e+00 7.2570e+04]
 [6.3100e+01 3.8000e+00 3.5600e+03]
 [7.2900e+01 7.7000e+00 7.6430e+03]
 [4.9800e+01 5.9000e+00 3.3060e+03]]


In [45]:
X.shape


(15, 3)

Para este conjunto de 195 observaciones de 3 variables calculemos la matriz de covarianza y de correlacion:

Primero centremos los datos:

In [46]:
# Centramos los datos de cada variable por separado:

x1 = (X[:, 0] - np.mean(X[:, 0]))
x2 = X[:, 1] - np.mean(X[:, 1])
x3 = X[:, 2] - np.mean(X[:, 2])

print("x1 = \n", x1)
print("x2 = \n", x2)
print("x3 = \n", x3)
 
print("----------------------")
print("El promedio de las observaciones de x1 es: ", np.mean(x1))
print("El promedio de las observaciones de x2 es: ", np.mean(x2))
print("El promedio de las observaciones de x3 es: ", np.mean(x3))

x1 = 
 [-0.12693426  1.37387671 -0.03733361  1.08267458  0.60107106  0.5786709
  0.55627073 -1.19094204 -1.42614376  0.69067172 -0.63093795  1.04907434
 -0.70933852  0.38826951 -2.19894941]
x2 = 
 [ 7.38687406  8.98687406  8.88687406 12.08687406  6.78687406  8.18687406
  6.48687406  1.58687406  1.88687406  9.68687406  1.78687406  7.98687406
  2.98687406  6.88687406  5.08687406]
x3 = 
 [ 4074.30554382 19604.30554382  1746.30554382 51261.30554382
 11368.30554382  9329.30554382 11637.30554382  -589.69445618
  -927.69445618 10802.30554382  1833.30554382 70884.30554382
  1874.30554382  5957.30554382  1620.30554382]
----------------------
El promedio de las observaciones de x1 es:  -5.625129991434126e-16
El promedio de las observaciones de x2 es:  6.4468740558469255
El promedio de las observaciones de x3 es:  13365.038877153882


hmmmm deberia haber una forma mas facil de hacerlo que no sea variable por variable...sobre todo si en lugar de 3 variables fueran 15!

In [28]:
# para una matriz donde cada columna representa las observaciones de una variable, si calculamos
np.mean(X, axis = 0)

array([6.94333333e+01, 7.26000000e+00, 1.50507333e+04])

In [29]:
# comparemos con cada una por separado

print(np.mean(X[:,0]))
print(np.mean(X[:,1]))
print(np.mean(X[:,2]))

69.43333333333334
7.260000000000001
15050.733333333334


In [35]:
N = X.shape[0]
X_center = X - np.mean(X, axis = 0)
S = 1/N * X_center.T @ X_center  # esto nos da la matriz de covarianza 

Si quisieramos la matriz de correlacion tendriamos que ademas dividir por los desvios estandar

In [50]:
X_standard = (X - np.mean(X, axis = 0))/np.std(X, axis = 0)

Una vez que estandarizamos los datos (los centramos para que tengan media 0 y los dividimos por sus desvios para que tengan desvio 1) ahora si, podemos definir la matriz de correlacion como

$$
C = \frac{1}{N}X_{\text{standard}}^T X_{\text{standard}}
$$

In [51]:
C = 1/N *X_standard.T @ X_standard

print(C)

[[1.         0.76729956 0.60774974]
 [0.76729956 1.         0.55270675]
 [0.60774974 0.55270675 1.        ]]


El general el algoritmo de PCA (componentes principales) se le aplica ya sea a la matriz de covarianza o a la de correlacion. Nosotros en general se lo vamos a aplicar a la de correlacion, es decir ya los datos los dejamos estandarizados

## Componentes principales:

Para calcular las componentes principales debemos hacer la descomposicion en autovectores de la matriz C o de la S (segun se pida, preferiblemente de la C)

In [59]:
C_eigs = np.linalg.eigh(C, )

autovalores = C_eigs[0]

V = C_eigs[1]

In [54]:
print("Los autovalores de C son:", autovalores)

print("----------------\n")

print("Los autovectores de C son: \n", V)



Los autovalores de C son: [0.22816974 0.48214433 2.28968593]
----------------

Los autovectores de C son: 
 [[-0.74453999 -0.2850853  -0.60364441]
 [ 0.65752678 -0.46948242 -0.58927481]
 [ 0.11540685  0.83565102 -0.53699965]]


Una vez que tenemos la descomposicion espectral (descomposicion en autovectores) de $C$, las compnentes principales se calculan:

$$
Z = V @ X_{\text{standard}} 
$$

La componente principal $i$-esima es la columna i-esima de la matriz $Z$. 

In [60]:
V[:,::-1]  # con esto permuto las columnas la ultima aparezca de primera

array([[-0.60364441, -0.2850853 , -0.74453999],
       [-0.58927481, -0.46948242,  0.65752678],
       [-0.53699965,  0.83565102,  0.11540685]])

In [61]:
V = V[:,::-1]   # redefino V para que tenga el orden que quiero

Z = X_standard @ V

In [64]:
print("la componente principal z1 = \n ", Z[:, 0])

print("\n \nla componente principal z2 = \n ", Z[:, 1])

print("\n\nla componente principal  z3 = \n ", Z[:, 2])

la componente principal z1 = 
  [ 0.14786111 -1.48613868 -0.13118518 -2.76341718 -0.37401839 -0.57408418
 -0.29665597  2.03027038  2.12379926 -0.96964437  1.58816805 -2.48753421
  1.40395198 -0.11814767  1.90677505]

 
la componente principal z2 = 
  [-0.49937147 -0.51718345 -0.85256078  0.42640008 -0.30756621 -0.60134096
 -0.23755494  0.49464046  0.50154423 -0.80064515  0.40656065  1.89064951
  0.24705294 -0.49035611  0.33973121]


la componente principal  z3 = 
  [ 0.24181669 -0.44233487  0.48294969  0.62305096 -0.38629804 -0.08151976
 -0.41565611 -0.23589607  0.00153292  0.16506951 -0.59587839 -0.11615844
 -0.28014668 -0.23794156  1.27741014]


In [65]:
autovalores = autovalores[::-1]

print(autovalores)

[2.28968593 0.48214433 0.22816974]
