## Regresión Lineal.
Autor: Jośe Falcón


La regresión lineal es un modelo matemático que consiste en encontrar la **ecuación lineal** que mejor se ajuste o aproxime a un conjunto de datos dado. Dicho de otra manera, se busca aproximar la relación de dependencia entre una variable dependiente $Y$ y variables independientes $x_i$ de la siguiente forma:

$$Y=\sum_{i=0}^d \hat{\beta}_{i}x_i$$

en donde a los $\hat{\beta}_i$ se les conoce como **estimadores o pesos**. Vamos a considerar a $x_0=1$

Cuando nos referimos a la que mejor **aproxime** es en el sentido de aquella ecuación lineal que minimice una función llamada **función de error o de costo**, por lo que la regresión lineal se convierte en un problema de minimización


<div style="text-align: center"><img src="https://economipedia.com/wp-content/uploads/Regresi%C3%B3n-lineal.png"></div>

Durante este notebook vamos a deducir la ecuación
$$\hat{\beta} = (X^TX)^{-1}X^TY$$
en donde $X$ es el conjunto de datos, $Y$ la variable dependiente, y $\hat{\beta}$ es el vector de estimadores o de pesos

**Definición 1:** Sea $w \in \mathbb{R}^n$ y $x \in \mathbb{R}^m$, definimos la derivada de x con respecto a w como:
$$\frac{dx}{dw} = \begin{pmatrix}
\frac{\partial x_1}{\partial w_1} & \dots & \frac{\partial x_1}{\partial w_n}\\
\vdots & \ddots & \vdots\\
\frac{\partial x_m}{\partial w_1} & \dots & \frac{\partial x_m}{\partial w_n}
\end{pmatrix}
$$
es decir $\left(\frac{dx}{dw}\right)_{ij}= \frac{\partial x_i}{\partial w_j}$

**Proposición 1:** Sea $A \in M_{nxm}(\mathbb{R})$ y $w \in \mathbb{R}^m$ (o equivalentemente $w \in M_{mx1}(\mathbb{R})$). Si las entradas de $A$ no dependen de las entradas de $w$ entonces:
$$\frac{d(Aw)}{dw} = A$$
Demostración:
$$(Aw)_i = \sum_{k = 1}^n A_{ik}w_k$$
$$\implies \left(\frac{d(Aw)}{dw}\right)_{ij} = \frac{\partial (Aw)_i}{\partial w_j} = \frac{\partial \left(\sum_{k = 1}^n A_{ik}w_k\right)}{\partial w_j} = \sum_{k = 1}^n \frac{\partial(A_{ik}w_k)}{\partial w_j} = \sum_{k = 1}^n A_{ik}\frac{\partial w_k}{\partial w_j} = \sum_{k = 1}^n A_{ik}\delta_{kj} = A_{ij}$$

Por lo tanto $$ \left(\frac{d(Aw)}{dw}\right)_{ij} = A_{ij}$$
y se concluye que:
$$\frac{d(Aw)}{dw} = A$$

**Corolario**: Sea $A \in M_{mxn}(\mathbb{R})$ y $w \in \mathbb{R}^m$ (o equivalentemente $w \in M_{mx1}(\mathbb{R})$). Si las entradas de $A$ no dependen de las entradas de $w$ entonces:
$$\frac{d(w^TA)}{dw} = A^T$$

Para la regresión lineal vamos a utilizar la función RSS, la cual es:

$$RSS = \sum_{i = 1}^n (y_i - \hat{y}_i)^2$$

Esta función se conoce normalmente como la "función de costo", "loss function" o "función de error". Nos da la suma del error cuadrático para cada una de las predicciones.
Esta sería una función que depende de los estimadores $\hat{\beta_i}$ o el vector de estimadores $\hat{\beta}$.

Sea $X \in M_{nxp}\left(\mathbb{R}\right)$ el conjunto de datos y $\hat{\beta} \in M_{px1}\left(\mathbb{R}\right)$ el vector de estimadores, entonces
$$\hat{y} = X\hat{\beta}$$
Podemos reescribir a RSS en forma matricial como:
$$RSS = \sum_{i = 1}^n (y_i - \hat{y}_i)^2 = (y-\hat{y})^T(y-\hat{y})$$


![](https://iartificial.net/wp-content/uploads/2018/12/error-regresion-lineal2.png)

Lo que queremos hacer es obtener los estimadores o pesos que minimicen dicha función de error.

$$(AB)^T=B^TA^T$$

**Proposición 2:** El vector de estimadores que minimiza a RSS es:
$$\hat{\beta} = \left(X^TX\right)^{-1}X^Ty$$

Demostración:
$$RSS = (y-\hat{y})^T(y-\hat{y}) = y^Ty-y^T\hat{y}-\hat{y}^Ty+\hat{y}^T\hat{y} = y^Ty-y^TX\hat{\beta}-\hat{\beta}^TX^Ty+\hat{\beta}^TX^TX\hat{\beta}$$

Derivamos la expresión anterior con respecto a $\hat{\beta}$ e igualamos la derivada a 0 para encontrar el vector de estimadores que minimiza el error RSS:
$$\frac{dRSS}{d\hat{\beta}} \stackrel{Proposición 1}{=} -2y^TX + 2\hat{\beta}^TX^TX=0$$
$$\implies y^TX=\hat{\beta}^TX^TX$$
$$\implies X^TX\hat{\beta}=X^Ty$$
$$\implies \hat{\beta} = (X^TX)^{-1}X^Ty$$

# Problema 1

Tenemos un conjunto de datos que nos dice el salario dado el número de años de experiencia en una empresa.

## a) 
Realiza una gráfica de y= SALARIO versus x= AÑOS DE EXPERIENCIA

In [8]:
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt 

In [9]:
dataset = pd.read_csv("Salary_Data.csv")

FileNotFoundError: [Errno 2] No such file or directory: 'Salary_Data.csv'

In [None]:
type(dataset)

In [None]:
dataset.head()

In [None]:
dataset.tail()

In [None]:
dataset.shape

In [None]:
x = dataset["YearsExperience"].values

In [None]:
x 

In [None]:
y = dataset["Salary"].values

In [None]:
y 

In [None]:

plt.scatter(x,y,color="red", label ="Datos")
plt.title("Gráfica de salario vs años de experiencia")
plt.xlabel("Años de experiencia")
plt.ylabel("Salario (dólares)")
plt.legend()
plt.show()

## b)
Encuentra los estimadores por mínimos cuadrados $\widehat\beta_0$ y $\widehat\beta_1$.

In [10]:
len(x)

NameError: name 'x' is not defined

In [None]:
x_unos = np.ones((30,1))

In [None]:
x_unos

In [None]:
x = x.reshape((30,1))

In [None]:
x.shape

In [None]:
X = np.concatenate((x_unos,x), axis = 1) #Axis = 0 es renglones, Axis=1 es columnas

In [None]:
X.shape

In [None]:
X


$$\hat{\beta} = (X^TX)^{-1}X^Ty$$


In [11]:
y = y.reshape((30,1))

NameError: name 'y' is not defined

In [None]:
y.shape

In [None]:
y

In [None]:
aux1= np.matmul(X.T,X)
aux2= np.linalg.inv(aux1)
aux3= np.matmul(aux2, X.T)
pesos = np.matmul(aux3,y)

In [12]:
pesos

NameError: name 'pesos' is not defined

## c)
Haz la gráfica de la curva de ajuste $\widehat y=\widehat\beta_0+\widehat\beta_1x$


predicción = $$X\beta$$

In [None]:
pred = np.matmul(X,pesos)

In [None]:
pred

In [None]:
plt.scatter(x,y,color="red", label ="Datos originales")
plt.plot(x,pred.ravel(), color="green", label="Recta ajustada")
plt.title("Gráfica de salario vs años de experiencia")
plt.xlabel("Años de experiencia")
plt.ylabel("Salario (dólares)")
plt.legend()
plt.show()

# Problema 2

El banco internacional UBS produce regularmente un informe (UBS, 2009) sobre los precios y las ganancias en las principales ciudades del mundo. Tres de las medidas que incluyen son los precios de los productos básicos, a saber, 1 kg de arroz, una barra de pan de 1 kg y el precio de una hamburguesa Big Mac en McDonalds. Una característica interesante de los precios que informan es que los precios se miden en los minutos de trabajo necesarios para que un trabajador "típico" en ese lugar gane suficiente dinero para comprar el producto. El uso de minutos de trabajo corrige al menos en parte las fluctuaciones monetarias, las tasas salariales vigentes y los precios locales. El archivo de datos incluye mediciones de precios de arroz, pan y Big Mac de los informes de 2003 y 2009. El año 2003 fue antes de que la gran recesión golpeara a gran parte del mundo alrededor de 2006, y el año 2009 puede reflejar cambios en los precios debido a la recesión.

# a) 
Realiza un gráfico de dispersión de y = rice2009 versus x = rice2003, los precios del
arroz en 2009 y en 2003, respectivamente.


In [None]:
dataset_2 = pd.read_csv("UBSprices.csv")

In [13]:
dataset_2.head()

NameError: name 'dataset_2' is not defined

In [None]:
dataset_2.shape

In [None]:
x_2 = dataset_2["rice2003"].values

In [None]:
x_2

In [None]:
y_2 = dataset_2["rice2009"].values

In [None]:
y_2

In [None]:
plt.scatter(x_2,y_2,color="red", label="Datos originales")
plt.ylabel("Precio del arroz en 2009")
plt.xlabel("Precio del arroz en 2003")
plt.title("Gráfica del precio del arroz en 2009 vs arroz 2003")
plt.legend()
plt.show() 

# b)
Encuentra los estimadores por mínimos cuadrados $\widehat\beta_0$ y $\widehat\beta_1$. 

$$\hat{\beta} = (X^TX)^{-1}X^Ty$$

In [14]:
def regresion_lineal(X,y):
    m_1 = np.matmul(X.T,X)
    m_2 = np.linalg.inv(m_1)
    m_3 = np.matmul(m_2,X.T)
    return np.matmul(m_3,y)
    

In [15]:
len(x_2)

NameError: name 'x_2' is not defined

In [None]:
x_2_unos = np.ones((len(x_2),1))

In [None]:
x_2_unos

In [None]:
x_2 = x_2.reshape((-1,1))

In [None]:
x_2 

In [None]:
X_2 = np.concatenate((x_2_unos,x_2), axis = 1)

In [16]:
X_2.shape

NameError: name 'X_2' is not defined

In [None]:
X_2 

In [None]:
y_2 = y_2.reshape((-1,1))

In [None]:
y_2.shape

In [None]:
pesos_2 = regresion_lineal(X_2,y_2)

In [17]:
pesos_2

NameError: name 'pesos_2' is not defined

# c)

Haz la gráfica de la curva de ajuste $\widehat y=\widehat\beta_0+\widehat\beta_1x$


In [None]:
y_2_pred = np.matmul(X_2,pesos_2)

In [None]:
y_2_pred.shape

In [None]:
plt.scatter(x_2,y_2,color="red", label="Datos originales")
plt.plot(x_2,y_2_pred.ravel(), color="green", label="Recta ajustada")
plt.ylabel("Precio del arroz en 2009")
plt.xlabel("Precio del arroz en 2003")
plt.title("Gráfica del precio del arroz en 2009 vs arroz 2003")
plt.legend()
plt.show() 

# d)
Realiza nuevamente un gráfico de dispersión pero usando escalas logarítmicas, es decir, realiza el gráfico de dispersión de $y=\log(\mathtt{rice2009})$ versus $x=\log(\mathtt{rice2003})$.

# e)
Repite los incisos (b) y (c) pero con este representación alternativa en escalas logarítmicas.

In [18]:
x_2_log = np.log(x_2)

NameError: name 'x_2' is not defined

In [None]:
x_2_log

In [None]:
y_2_log = np.log(y_2)

In [19]:
X_2_log = np.concatenate((x_2_unos,x_2_log), axis = 1)

NameError: name 'x_2_unos' is not defined

In [None]:
X_2_log

In [None]:
pesos_2_log = regresion_lineal(X_2_log,y_2_log)

In [None]:
pesos_2_log

In [20]:
y_2_log_pred = np.matmul(X_2_log, pesos_2_log)

NameError: name 'X_2_log' is not defined

In [None]:
plt.scatter(x_2_log,y_2_log,color="red", label="Datos originales")
plt.plot(x_2_log,y_2_log_pred.ravel(), color="green", label="Recta ajustada")
plt.ylabel("ln(Precio del arroz en 2009)")
plt.xlabel("ln(Precio del arroz en 2003)")
plt.title("Gráfica en escala logarítmica del precio del arroz en 2009 vs arroz 2003")
plt.legend()
plt.show() 

# f) Regresando a la expresión original.
En la parte anterior, se realizó una regresión lineal para las variables $ln(y) = \beta_{0} + \beta_1ln(x)$, esto implica que:
$$y = e^{\beta_{0} + \beta_1ln(x)} = e^{\beta_{0} + ln\left(x^{\beta_1}\right)} = e^{\beta_0}e^{ln\left(x^{\beta_1}\right)} = e^{\beta_0}x^{\beta_1}$$
entonces, la función que se ajustó es:
$$y = e^{\beta_0}x^{\beta_1}$$

A continuación la vamos a graficar, junto con los datos originales, para ver como es el modelo.

In [21]:
pesos_2_log

NameError: name 'pesos_2_log' is not defined

In [None]:
pesos_2_log[1][0]

In [None]:
pesos_2_log.shape

In [None]:
pred_2_log_or = np.exp(pesos_2_log[0][0])*np.power(x_2,pesos_2_log[1][0])

In [None]:
x_dom_2 = np.linspace(np.min(x_2),np.max(x_2),1000)

In [22]:
x_dom_2

NameError: name 'x_dom_2' is not defined

In [None]:
pred_2_log_or = np.exp(pesos_2_log[0][0])*np.power(x_dom_2,pesos_2_log[1][0])

In [None]:
plt.scatter(x_2,y_2,color="red", label="Datos originales")
plt.plot(x_dom_2,pred_2_log_or, color="green", label="Curva ajustada")
plt.ylabel("Precio del arroz en 2009")
plt.xlabel("Precio del arroz en 2003")
plt.title("Gráfica del precio del arroz en 2009 vs arroz 2003")
plt.legend()
plt.show()

## Problema 3.

El Estudio de orientación de Berkeley  inscribió a niños nacidos en Berkeley, California, entre enero de 1928 y junio de 1929, y luego los midió periódicamente hasta los 18 años (Tuddenham y Snyder, 1954). Los datos que utilizamos incluyen alturas en centímetros a las edades de 2, 9 y 18 años ($\mathtt{HT2}$, $\mathtt{HT9}$ y $\mathtt{HT18}$), pesos en kilogramos ($\mathtt{WT2}$, $\mathtt{WT9}$ y $\mathtt{WT18}$), circunferencia de la pierna en centímetros ($\mathtt{LG2}$, $\mathtt{LG9}$ y $\mathtt{LG18}$) y fuerza en kilogramo ($\mathtt{ST2}$, $\mathtt{ST9}$ y $\mathtt{ST18}$). También se proporcionan dos medidas adicionales del tipo de cuerpo, $\mathtt{soma}$, somatotipo, una escala de 1, muy delgada, a 7, obesidad e índice de masa corporal, calculada como $\mathtt{IMC18}=\mathtt{WT18} / (\mathtt{HT18} / 100)^2$, peso en kilogramo dividido por el cuadrado de masa en metros, una medida estándar de la obesidad. 

## a)
Haga la matriz de diagramas de dispersión de $\mathtt{HT2}$, $\mathtt{HT9}$, $\mathtt{WT2}$, $\mathtt{WT9}$, $\mathtt{ST9}$, y $\mathtt{BMI18}$.

In [23]:
dataset_3 = pd.read_csv("BGSgirls.csv")

FileNotFoundError: [Errno 2] No such file or directory: 'BGSgirls.csv'

In [None]:
dataset_3.head()

In [None]:
dataset_4 = pd.DataFrame()

In [None]:
dataset_4["HT2"] = dataset_3["HT2"]
dataset_4["HT9"] = dataset_3["HT9"]
dataset_4["WT2"] = dataset_3["WT2"]
dataset_4["WT9"] = dataset_3["WT9"]
dataset_4["ST9"] = dataset_3["ST9"]
dataset_4["BMI18"] = dataset_3["BMI18"]






In [None]:
dataset_4.head()

In [None]:
pd.plotting.scatter_matrix(dataset_4, alpha=0.5, color="red", grid=False)

## b)
Ajuste el modelo de regresión lineal por mínimos cuadrados para la variable $y=\mathtt{BMI18}$ versus $x_1=\mathtt{HT2}$, $x_2=\mathtt{WT2}$, $x_3=\mathtt{HT9}$, $x_4=\mathtt{WT9}$ y $x_5=\mathtt{ST9}$.

$$y = ax_1+bx_2+cx_3+dx_4+ex_5+f$$

In [24]:
X_3 = dataset_4.iloc[:,[0,1,2,3,4]].values

NameError: name 'dataset_4' is not defined

In [None]:
X_3

In [None]:
y_3 = dataset_4["BMI18"].values

In [None]:
len(y_3)

In [None]:
y_3 = y_3.reshape((-1,1))

In [25]:
y_3.shape

NameError: name 'y_3' is not defined

In [None]:
X_3.shape

In [None]:
x_3_unos = np.ones((X_3.shape[0],1))

In [None]:
x_3_unos.shape

In [None]:
X_3 = np.concatenate((x_3_unos,X_3), axis = 1)

In [26]:
X_3

NameError: name 'X_3' is not defined

In [None]:
pesos_3 = regresion_lineal(X_3,y_3)

In [None]:
pesos_3

## Regresión polinomial.
Veamos un ejemplo de como aplicar el algoritmo de regresión lineal para poder hacer una regresión polinomial. En este caso, se transforman las variables a las potencias deseadas del polinomio por lo que cada estimador o peso $\hat{\beta}_i$ es el coeficiente que multiplica a una cierta potencia de la variable de nuestro polinomio.


In [None]:
dataset_5 = pd.read_csv("Position_Salaries.csv")

In [27]:
dataset_5.head()

NameError: name 'dataset_5' is not defined

In [None]:
x_5 = dataset_5["Level"].values

In [None]:
y_5 = dataset_5["Salary"].values

In [None]:
plt.scatter(x_5,y_5,color="red", label="Datos originales")
plt.ylabel("Salario")
plt.xlabel("Posición")
plt.title("Gráfica de la posición vs salario")
plt.legend()
plt.show()

In [28]:
x_5_unos = np.ones((len(x_5),1))

NameError: name 'x_5' is not defined

In [None]:
x_5 = x_5.reshape((-1,1))

In [None]:
x_5_cuadrado = x_5**2

In [None]:
X_5 = np.concatenate((x_5_unos,x_5,x_5_cuadrado), axis = 1)

In [None]:
X_5

In [None]:
y_5 = y_5.reshape((-1,1))

In [29]:
pesos_5 = regresion_lineal(X_5,y_5)

NameError: name 'X_5' is not defined

In [None]:
pesos_5

In [None]:
y_5_pred = np.matmul(X_5,pesos_5)

In [None]:
plt.scatter(x_5.ravel(),y_5.ravel(),color="red", label="Datos originales")
plt.plot(x_5.ravel(), y_5_pred.ravel(), color = "green", label ="Polinomio ajustado")
plt.ylabel("Salario")
plt.xlabel("Posición")
plt.title("Gráfica de la posición vs salario")
plt.legend()
plt.show()

In [None]:
x_5_cubico = x_5**3

In [None]:
x_5_cuarta = x_5**4

In [30]:
x_5_cubico.shape

NameError: name 'x_5_cubico' is not defined

In [None]:
X_5 = np.concatenate((X_5,x_5_cubico,x_5_cuarta), axis=1 )

In [None]:
X_5

In [None]:
pesos_5_cuarto = regresion_lineal(X_5, y_5)

In [None]:
pesos_5_cuarto

In [None]:
pred_5_cuarto = np.matmul(X_5, pesos_5_cuarto)

In [None]:
plt.scatter(x_5.ravel(),y_5.ravel(),color="red", label="Datos originales")
plt.plot(x_5.ravel(), pred_5_cuarto.ravel(), color = "green", label ="Polinomio ajustado")
plt.ylabel("Salario")
plt.xlabel("Posición")
plt.title("Gráfica de la posición vs salario")
plt.legend()
plt.show()

## Coeficiente de determinación $R^2$

El coeficiente de determinación $R^2$ nos dice que tan buena fue la bondad de ajuste. El máximo valor es 1 que dice que la curva ajustada fue perfecta y logro predecir exactamente todos los datos.
Se define de la siguiente forma:
$$R^2=1-\frac{SS_{res}}{SS_{tot}}$$
en donde $SS_{res}=\sum_{i=1}^n(y_i-\hat{y_i})^2=(y-\hat{y}) \cdot (y-\hat{y})$, $SS_{tot}=\sum_{i=1}^n(y_i-\bar{y})^2=(y-\bar{y}) \cdot (y-\bar{y})$, $\hat{y_i}$ es el valor predicho para la $x_i$ y $\bar{y}$ es el promedio de las $y$.

In [31]:
def R_2(y,y_pred):
    y = y.ravel()
    y_pred = y_pred.ravel()
    y_mean = np.mean(y)
    ss_res = np.dot(y-y_pred,y-y_pred)
    ss_tot = np.dot(y-y_mean,y-y_mean)
    return 1-(ss_res/ss_tot)

In [32]:
r_2_polinomio_4= R_2(y_5,pred_5_cuarto)

NameError: name 'y_5' is not defined

In [None]:
r_2_polinomio_4

In [None]:
r_2_polinomio_2 = R_2(y_5,y_5_pred)

In [None]:
r_2_polinomio_2

# Descenso por el gradiente.


A pesar de que tenemos un método exacto para realizar la regresión lineal, para grandes cantidades de datos no es muy eficiente en términos de tiempo de ejecución. Para solucionar ese problema se utiliza un método numérico para encontrar el mínimo en la función de error (función de costo).
El descenso del gradiente es un algoritmo para encontrar un mínimo local en una función diferenciable.
Este algoritmo se basa en la observación de que la función $f$ decrece más rápido si se va en la dirección de $-\nabla f$. Entonces para encontrar el mínimo se hace una iteración de la siguiente forma:
$$x_{n+1} = x_n-\alpha \nabla f(x_{n})$$
En donde $\alpha$ es un número suficientemente pequeño, al que comunmente se le conoce como "tasa de aprendizaje".
La elección de alpha es importante para que el algoritmo logre converger optimamente. Observemos unas imágenes para explicarlo visualmente.
![](https://miro.medium.com/max/1618/0*J8Gsz4498OOwD1Xd.png)
Una tasa de aprendizaje muy pequeña asegura llegar al mínimo pero en un número muy grande de iteraciones, mientras que una muy grande no va a converger.

Otro de los principales problemas que se tiene es encontrar el mínimo global de una función, ya que este método puede converger a un mínimo local y no al global. Si la función es convexa este problema se soluciona ya que en este tipo de funciones todo mínimo local es mínimo global. Es por eso que a continuación demostraremos que nuestra función de error (costo) RSS (a la que de ahora en adelante llamaremos $J(\theta)$) es convexa.
![](https://external-content.duckduckgo.com/iu/?u=http%3A%2F%2Fhome.agh.edu.pl%2F~horzyk%2Flectures%2Fai%2FGradientDescentOfErrorFunction.jpg&f=1&nofb=1)


**Definición 2:** (Conjunto convexo) Sea $S$ un espacio vectorial sobre los número reales. Se dice que $C \subseteq S$ es convexo si para todo $x,y \in C$ el segmento de línea que los une está en $C$, es decir $(1-t)x+ty \in C$, para todo $x,y \in C$ con $t \in [0,1]$

**Definición 3:** (Función convexa) Sea $X$ un conjunto convexo en un espacio vectorial y $f: X \rightarrow \mathbb{R}$ una función. Se dice que $f$ es convexa sí:
$$\forall x_1,x_2 \in X, \forall t \in [0,1]: \quad  f(tx_1 + (1-t)x_2)\leq tf(x_1) + (1-t)f(x_2)$$

![](https://upload.wikimedia.org/wikipedia/commons/thumb/d/d6/Convex_Function.png/1024px-Convex_Function.png)

**Proposición 3:** Sea $f: \mathbb{R} \rightarrow \mathbb{R}$ con $f(x) = x^2$, entonces $f$ es convexa.


**Demostración:**

Tomemos $x_1,x_2 \in  \mathbb{R}$ y $t \in [0,1]$, queremos probar que $f(tx_1 + (1-t)x_2)\leq tf(x_1) + (1-t)f(x_2)$.

Como $t \in [0,1]$ entonces $t^2\leq t$ $\implies$ $(t^2-t)\leq 0$. Al ser $(x_1-x_2)^2\geq 0$ se sigue que:
$$0\geq (t^2-t)(x_1-x_2)^2\\
   \quad \quad \quad \quad \quad     = -(t-t^2)[(x_1-x_2)^2+x_1^2-x_1^2]\\
   \quad \quad \quad \quad \quad \quad \quad   = -(t-t^2)[x_1^2-2x_1x_2+x_2^2+x_1^2-x_1^2]\\
   \quad \quad \quad \quad    = -(1-t)t[-2x_1x_2 + x_2^2 + x_1^2]\\
   \quad \quad \quad \quad \quad \quad= (1-t)[2tx_1x_2 -tx_2^2]-(t-t^2)x_1^2\\
   \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad = (1-t)[2tx_1x_2 +x_2^2(-t+1-1)]-(t-t^2)x_1^2\\
   \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad = (1-t)[2tx_1x_2 + (1-t)x_2^2 - x_2^2]-(t-t^2)x_1^2\\
   \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad = 2t(1-t)x_1x_2 + (1-t)^2x_2^2-(1-t)x_2^2-(t-t^2)x_1^2\\
   \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad = 2t(1-t)x_1x_2 + (1-t)^2x_2^2-(1-t)x_2^2-tx_1^2+t^2x_1^2\\
   \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad = t^2x_1^2+ 2t(1-t)x_1x_2 + (1-t)^2x_2^2 - tx_1^2 - (1-t)x_2^2\\
   \quad \quad \quad \quad \quad \quad  = (tx_1 + (1-t)x_2)^2 - tx_1^2 - (1-t)x_2^2$$
   
  $$ \implies 0 \geq (tx_1 + (1-t)x_2)^2 - tx_1^2 - (1-t)x_2^2 \\
  \implies tx_1^2 + (1-t)x_2^2 \geq (tx_1 + (1-t)x_2)^2\\
  \implies tf(x_1) + (1-t)f(x_2) \geq f(tx_1 + (1-t)x_2)$$
  Por lo tanto concluimos que $f$ es convexa.


**Proposición 4:** Sea $J: \mathbb{R}^d \rightarrow \mathbb{R}$ con $J(\theta) = (y-X\theta)^T(y-X\theta)$, es decir, $J=RSS$, entonces la función $J$ es convexa.

**Demostración:**

Al hacer la multiplicación de matrices de arriba queda $J$ de la siguiente forma:
$$J(\theta) = \sum_{i = 1}^n (y_i - (X\theta)_i)^2$$
Sea $f: \mathbb{R} \rightarrow \mathbb{R}$ con $f(x) = x^2$, entonces:
$$J(\theta) = \sum_{i = 1}^n f(y_i - (X\theta)_i)$$
Tomemos $\theta_1, \theta_2 \in \mathbb{R}^d$ y $t \in [0,1]$, se sigue que:
$$J(t\theta_1 + (1-t)\theta_2) = \sum_{i = 1}^n f\left(t(y_i - (X\theta_1)_i)+(1-t)(y_i - (X\theta_2)_i)\right)\\
\quad \quad \quad \quad \quad \quad \quad \stackrel{Proposición 3}{\leq} \sum_{i = 1}^n tf\left(y_i - (X\theta_1)_i\right)+(1-t)f\left(y_i - (X\theta_2)_i\right) \\
\quad \quad \quad \quad \quad \quad \quad \quad \quad = t\sum_{i = 1}^n f\left(y_i - (X\theta_1)_i\right) + (1-t)\sum_{i = 1}^n f\left(y_i - (X\theta_2)_i\right)\\
 = tJ(\theta_1) + (1-t)J(\theta_2)$$
 Por lo tanto:
 $$J(t\theta_1 + (1-t)\theta_2) \leq tJ(\theta_1) + (1-t)J(\theta_2)$$
 Concluimos que $J$ es convexa.

Al demostrar que nuestra función de error (costo) es convexa entonces con el método del descenso del gradiente podemos asegurar convergencia al mínimo global. Ahora encontremos el gradiente de $J$, es decir $\nabla_{\theta}J$.
 Recordemos que si derivamos un escalar con respecto a un vector tenemos:
 $\frac{dx}{d\bar{w}} = (\frac{dx}{dw_1}, \dots , \frac{dx}{dw_n})$, entonces esto sería el equivalente a encontrar el gradiente de una función. Recordemos que en la Proposición 2 calculamos $\frac{dRSS}{d\widehat{\beta}}$, lo cual corresponde a $\nabla_{\widehat{\beta}}J$.
De la derivada de la Proposición 2 se sigue que:
$$\nabla_{\widehat{\beta}}J = -2y^TX + 2\hat{\beta}^TX^TX$$
Como podemos ver, este es un vector de $1\times d$ (con d el número de características del conjunto de datos), pero $\widehat{\beta}$ es de $d \times 1$, entonces para hacer la iteración del descenso del gradiente vamos a tomar la transpuesta de $\nabla_{\widehat{\beta}}J$. Finalmente, nuestro metodo iterativo usando descenso del gradiente queda como:
$$\widehat{\beta}_{n+1} = \widehat{\beta}_n - \alpha (-2y^TX + 2\hat{\beta_n}^TX^TX)^T$$

In [33]:
def descenso_gradiente(lr,iteraciones,X,y):
    pesos_inicial = np.zeros((X.shape[1],1))
    for i in range(iteraciones):
        pesos_inicial = pesos_inicial -lr*(-2*np.matmul(y.T,X)+2*np.matmul(np.matmul(pesos_inicial.T,X.T),X)).T
        
    return pesos_inicial
    

In [34]:
pesos

NameError: name 'pesos' is not defined

In [None]:
X

In [None]:
y

In [None]:
pesos_descenso = descenso_gradiente(0.0005,5000,X,y)

In [None]:
pesos_descenso

In [35]:
pesos 

NameError: name 'pesos' is not defined

In [None]:
pesos_descenso_3 = descenso_gradiente(0.000000005,100, X_3, y_3) 

In [None]:
pesos_descenso_3

In [None]:
pesos_3

# Encontrar una tasa de aprendizaje óptima.
A pesar de que el método del gradiente parece ser muy bueno para encontrar mínimos locales, un problema que se tiene es el de encontrar una tasa de aprendizaje óptima para poder llegar al mínimo en un número pequeño de iteraciones, ya que como vimos anteriormente sin una tasa de aprendizaje óptima se necesita un número muy grande de iteraciones o puede que no llegue a converger si la tasa de aprendizaje no es lo suficientemente pequeña.
Para solucionar este problema, se explicará un método que se conoce como "adaptative step size" y lo llamaremos "tasa de aprendizaje adaptativa".

### Método de Barzilai y Borwein
Este método propuesto en 1988 por Barzilai y Borwein es el de encontrar la tasa de aprendizaje ($\alpha$) que minimice la función $||\Delta \theta - \alpha \Delta g(\theta)||^2$, es decir:
$$\alpha_k = \underset{\alpha}{arg \, min} ||\Delta \theta - \alpha \Delta g(\theta)||^2$$

donde $\Delta \theta = \theta_k - \theta_{k-1}$ y  $\Delta g(\theta) = \nabla f(\theta_k)-\nabla f(\theta_{k-1})$. En este caso tomaremos que $f:\mathbb{R}^d \rightarrow \mathbb{R}$ y por ende $\theta \in \mathbb{R}^d$. 

La solución a este problema es resuelta facilmente derivando con respecto a $\alpha$ e igualando a 0 (minimizando la función mediante la derivada).

Primero notemos que: 
$$||\Delta \theta - \alpha \Delta g(\theta)||^2 = (\Delta \theta - \alpha \Delta g(\theta))\cdot (\Delta \theta - \alpha \Delta g(\theta)) = (\Delta \theta - \alpha \Delta g(\theta))^T (\Delta \theta - \alpha \Delta g(\theta)) = \Delta \theta^T\Delta \theta -\alpha \Delta \theta^T\Delta g(\theta) -\alpha \Delta g(\theta)^T \Delta \theta + \alpha^2\Delta g(\theta)^T\Delta g(\theta)$$
Entonces:
$$\frac{d\left(||\Delta \theta - \alpha \Delta g(\theta)||^2\right)}{d\alpha} = - \Delta \theta^T\Delta g(\theta) - \Delta g(\theta)^T \Delta \theta + 2\alpha\Delta g(\theta)^T\Delta g(\theta) = - \Delta g(\theta)^T \Delta \theta - \Delta g(\theta)^T \Delta \theta + 2\alpha\Delta g(\theta)^T\Delta g(\theta) = -2\Delta g(\theta)^T \Delta \theta + 2\alpha\Delta g(\theta)^T\Delta g(\theta)$$

Igualando la derivada a cero, se tiene:

$$-2\Delta g(\theta)^T \Delta \theta + 2\alpha\Delta g(\theta)^T\Delta g(\theta)=0$$
$$\implies -\Delta g(\theta)^T \Delta \theta + \alpha\Delta g(\theta)^T\Delta g(\theta)=0$$
$$\implies   \alpha\Delta g(\theta)^T\Delta g(\theta)= \Delta g(\theta)^T \Delta \theta$$
$$ \implies \alpha = \frac{\Delta g(\theta)^T\Delta \theta}{\Delta g(\theta)^T\Delta g(\theta)}$$
Con esto ya se logró obtener la forma en que se calculará el valor de $\alpha$ en cada iteración

Este enfoque trabaja realmente bien, incluso para problemas de grandes dimensiones.

En nuestro caso la función $f$ que describimos en el método es la función $J$ de costo o error, por lo que $\Delta g(\theta) = \nabla J(\theta_k)-\nabla J(\theta_{k-1})$

In [36]:
i = 1
while i<10:
    print("hola")
    i = i+1

hola
hola
hola
hola
hola
hola
hola
hola
hola


In [39]:
def descenso_grandiente_bw(X,y):
    lr = 0.001
    pesos = np.zeros((X.shape[1],1))
    iteraciones = 0
    error = 1
    while error > 1e-10:
        pesos_anteriores = pesos
        gradiente_anterior = (-2*np.matmul(y.T,X)+2*np.matmul(np.matmul(pesos_anteriores.T,X.T),X)).T
        pesos = pesos_anteriores -lr*gradiente_anterior
        gradiente_nuevo = (-2*np.matmul(y.T,X)+2*np.matmul(np.matmul(pesos.T,X.T),X)).T
        delta_g = gradiente_nuevo-gradiente_anterior
        delta_theta = pesos-pesos_anteriores
        lr = ((np.matmul(delta_g.T,delta_theta))/(np.matmul(delta_g.T, delta_g))).ravel()[0]
        iteraciones = iteraciones + 1
        error = abs(sum(delta_theta))

    return pesos


In [41]:
pesos

NameError: name 'pesos' is not defined

In [None]:
pesos_bw = descenso_grandiente_bw(X,y)

In [None]:
pesos_bw

In [None]:
pesos_3

In [None]:
pesos_3_bw = descenso_grandiente_bw(X_3,y_3)

In [None]:
pesos_3_bw



