<a href="https://colab.research.google.com/github/binaria010/Mate2B/blob/main/Segunda%20Parte/MinimosCuadrados/Clase%204.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
import numpy as np
import pandas as pd


# Regresion lineal multivariada:


Finalizamos la práctica de regresión lineal haciendo el caso multivariado. 

Suponemos que tenemos un conjunto de datos de la forma
$$
({\bf x}_1, y_1), ({\bf x}_2, y_2), \dots, ({\bf x}_N, y_N)
$$

donde ahora cada ${\bf x}_i$ es un vector de digamos $p$ variables ${\bf x} = (x^{(1)}, x^{(2)},\dots, x^{(p)})$ y el indicie $i$ representa la observación i-esima de cada una de ellas.

El objetivo de la regresion multivariada es de nuevo buscar una función lineal de ajuste que ahora depende de estas $p$ variables.

La función es de la forma:

$$
f(x^{(1)}, \dots, x^{(p)}) = b_0 + b_1 x^{(1)} + b_2x^{(2)} + \cdots b_p x^{(p)}
$$

Donde los coeficientes $b_0,~b_1,~\cdots,b_p$ se determinan a partir del conjunto de datos.

Por ejemplo: Consideremos el conjunto de datos Iris:



In [5]:
path_file = "/content/HumanDevelopment.csv"
data = pd.read_csv(path_file, header = 0)


#visualicemos las primeras 10 filas del conjunto de datos
data.head(10)


Unnamed: 0,HDI,LifeExpectancy,MeanYearsofEducation,GNIcapita
0,0.944,81.6,12.6,64992
1,0.935,82.4,13.0,42261
2,0.93,83.0,12.8,56431
3,0.923,80.2,12.7,44025
4,0.922,81.6,11.9,45435
5,0.916,80.9,13.1,43919
6,0.916,80.9,12.2,39568
7,0.915,79.1,12.9,52947
8,0.913,82.0,13.0,42155
9,0.913,81.8,12.5,32689


PAra este conjunto de datos queremos poder predecir EL HDI (Indice de desarrollo humano) de un país a partir de las variables ```LifeExpectancy```: Esperanza de vida al nacer, ```MeanYearsofEducation```: promedio de anios de eduación formal de los adultos y    ```GNIcapita```: ingreso nacional por habitante en dólares, esta variable está emparentada con el PBI per capita


entonces en este caso:

$$
x^{(1)} = \text{ Life expectancy}
$$
$$
x^{(2)} = \text{Mean years of education}
$$
$$
x^{(3)} = \text{GNI per capita}
$$

y la variable $y$ que es la que pretendemos estimar es $y = \text{HDI}$

Entonces en este caso buscamos una funcion de ajuste

$$
f(x^{(1)}, x^{(2)}, x^{(3)}) = b_0 + b_1* x^{(1)} +b_2*x^{(2)} + b_3* x^{(3)}
$$

usando el conjunto de datos dado.

## Ecuaciones Normales:

En el caso de regresion lineal multivariada las ecuaciones normales que nos permiten determinar los coeficientes son muy similares a las que obtuvimos para regresión por funciones o regresión polinomial. Estas son:

$$
\begin{bmatrix}
b_0 \\ b_1 \\ b_2 \\ \vdots \\ b_p
\end{bmatrix} = (X^T X)^{-1}X^T {\bf y}
$$

donde $X$ es una matriz de tamaño $N \times p+1$ con $N =$ cantidad de observaciones o datos y $p$= cantidad de variables para hacer la regresión.

La matriz $X$ tiene todos unos en la primera columna, en la columna 2 tiene todas las N observaciones de la variable $x^{(1)}$, en la siguiente columna todas las observaciones de la variable $x^{(2)}$ y asi sucesivamente, es decir:

$$
X =\begin{bmatrix}
1 & x^{(1)}_1 & x^{(2)}_1 &\cdots  & x^{(p)}_1\\ 
1 & x^{(1)}_2 & x^{(2)}_2 &\cdots & x^{(p)}_2\\ 
\vdots &\vdots &\vdots & \cdots  & \vdots\\ 
1 & x^{(1)}_N & x^{(2)}_2 &\cdots & x^{(p)}_N
\end{bmatrix}, \qquad  {\bf y} =\begin{bmatrix} y_1\\ y_2 \\ \vdots \\ y_N\end{bmatrix}
$$




Implementemos una rutina que para un conjunto de datos nos devuelva la funcion de ajuste (el output de esta rutina va a ser un objeto función que podemos evaluar.)

In [6]:
def Reg_lineal_multivariada(data_X, data_y):

  """
  data_X = es una matrix de los datos de cada variable: es de tamanio N x p 
  donde N=cantidad de observaciones y p =cantidad de variables a usar
  data_y = es un array de numpy de longitud N

  coefs = [b_0, b_1, ..., b_p]

  f(x) = b_0 +b_1x^{1} + ... +b_p x^{p}
  """
  N , p = data_X.shape  # data_X tiene N filas p columnas

  X = np.ones((N, p+1))   # X es como data_X pero le agregamos los unos al principio

  X[:, 1:] = data_X     #decalramos que de la segunda columna en adelante X y data_X coincidan

  coefs = np.linalg.solve(X.T @ X, X.T @ data_y) # coef

  f = lambda x: coefs[0] + np.dot(coefs[1:], x)
  #print(coefs)

  return f



In [7]:

data_X = data.iloc[:, [1,2,3]]  # seleccionamos las columnas 1, 2,y 3 del dataframe data

data_X.shape   # esto quiere decir que tenemos 195 observaciones de 3 variables


(195, 3)

Convertimos X en un numpy array para manipularlo:

In [8]:
data_X = np.array(data_X)

type(data_X)

numpy.ndarray

In [9]:
data_y = data.iloc[:, 0]
data_y = np.array(data_y)

data_y.shape

(195,)

In [10]:
f = Reg_lineal_multivariada(data_X, data_y)

type(f)

function

Hay que tener en cuenta que el orden de las varaibles de f es el mismo en el que estan en data_X:

Por ejemplo si queremos predecir para un pais con 

$$
\text{LifeExpectancy} = 81.6
$$
$$\text{MeanYearsofEducation} =12.6$$

$$\text{GNIcapita} = 64992
$$

definimos $x = (81.6, 12.6, 64992)$ y calculamos $\hat{y} = f(x)$ donde el sombrerito $\hat{}$  denota la predicción.

In [11]:
x = np.array([81.6, 12.6, 64992])  # en estos valores queremos predecir

print("El HDI para un pais con LifeExp = 81.6, MYofEducation = 12.6 y GNI = 64992 es: \n", 
      f(x))

El HDI para un pais con LifeExp = 81.6, MYofEducation = 12.6 y GNI = 64992 es: 
 0.9603618824237572


si queremos predecir para un pais con 

$$
\text{LifeExpectancy} = 50
$$
$$
\text{MeanYearsofEducation} =10
$$
$$
\text{GNIcapita} = 64992
$$

definimos $x = (50, 10, 64992)$ y calculamos $\hat{y} = f(x)$ donde el sombrerito $\hat{}$  denota la predicción.

In [13]:
x = np.array([50, 10, 64992])

print("El HDI predicho es: ", f(x))

El HDI predicho es:  0.6476247266025903


se nota que aunque el GNI sea igual que antes, influyó el valor de LifeExpecta y de MeanYears of Education

In [14]:
x = np.array([81.6, 10, 64992])

print("El HDI predicho es: ", f(x))

El HDI predicho es:  0.8998179564327845


In [15]:
x = np.array([50, 12.6, 64992])

print("El HDI predicho es: ", f(x))

El HDI predicho es:  0.7081686525935632


Calculamos el $R^2$ de esta regresión:


$$R^2 = \displaystyle\frac{\sum_{i=1}^n(\hat{y_i} - \bar{y})^2}{\sum_{j=1}^n(y_j - y_j)^2}$$

donde $\hat{y_i} = f(x_i)$ el la predicción de $y_i$ usando la función de ajuste $f$.

In [45]:
def R2regmultiple(f, x,y):

  """
  Esta funcion calcula el r^2 de la regresion lineal dados los datos x, y
  """
  
  y_predicho = np.array([f(x[i,:]) for i in range(len(y))])

  avg_y = np.mean(y)

  numerador = np.sum((y_predicho - y)**2)
  denominador = np.sum((y - avg_y)**2)

  return 1 - numerador/denominador

In [46]:
r2 = R2regmultiple(f, data_X, data_y)

print("El R^2 de esta regresion es:", r2)

El R^2 de esta regresion es: 0.9553241223196648
