# **Regresión Lineal**

**Regresión:** Conjunto de tecnicas utilizadas para determinar la relación entre un conjunto de variables independientes con **una** variable dependiente que además será la variable a predecir (se establece una relación de dependencia entre las variables)

El objetivo de esta técnica consiste en determinar la contribución de la variable independiente(s) en la variable dependiente mediante un coeficiente para cada una de las variables ingresadas en nuestro modelo, el valor que obtendra cada coeficiente nos indicará la importancia relativa de cada una de las variables ingresadas en nuestra variable a explicar o predecir (nuestra variable dependiente).

En caso de que ocupemos solamente una variable independiente para explicar a nuestra variable dependiente, estaremos frente a un modelo de Regresión Lineal Simple y su formula esta expresada en la siguiente ecuación: 
$$
y = ax + b
$$

**$y$** corresponde a nuestra variable dependiente, la cual queremos explicar o predecir, mientras que $a$ corresponde a nuestra pendiente y $b$ es nuestro interpecto. En la ecuación descrita anteriormente aparece un $x$, este corresponde a nuestra variable independiente.

Un análisis de regresión lineal simple se manifiesta la relación directa y sencilla entre dos variables y esta relación es de caracter lineal. Es importante señalar que en caso de que trabajemos con una Regresión Lineal Simple las variables deben ser cuantitativas.

Un ejemplo de lo anterior sería querer predecir el salario de una persona según la cantidad de años de estudios, donde nuestra variable dependiente (Y) correspondería a salario y nuestra variable independiente(X) sería años de escolaridad cursados. a nivel logico la relación sería que entre más años de estudios tiene una persona mayor será su salario mensual, siendo una relación lineal. 

Al igual que en un análisis de varianza el objetivo de la Regresión Lineal consiste en alcanzar con la mayor precisión posible el conocimiento de la variable dependiente $y$ a través de los datos y de la dependencia que tiene con la variable independiente $x$.


Es decir, se busca reducir la variabilidad de $y$ mediante los valores de $x$. Esto quiere decir que la variable $x$ explica a la variable $y$, y también que la predice.

Elementos importantes a considerar: 


*   La variable dependiente siempre será cuantitativa 
*   Las variables independientes tambien conocidas como variables regresoras pueden ser cualitativas como cuantitativas. 

Ecuación de regresión: Se utliza una muestra representativa de nuestro publico objetivo, 

***Estimación de los parámetros***

La tarea a realizar en un análisis de Regresión Lineal corresponde a encontrar los valores de los parametros que nuestro modelo utilizará para predicir o explicar nuestra variable Y.

Recordando la forma vista anteriormente, será necesario calcular a y b donde a representa la intersacción de la recta mientras que b corresponde a la pendiente y la formula esta dada por la siguiente ecuación.


\begin{equation}
a_1 = \dfrac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum x_i^2 - (\sum x_i)^2}
\end{equation}

\begin{equation}
a_0 = \bar{y} - a_1 \bar{x}
\end{equation}

donde $\bar{y}$ y $\bar{x}$ son el promedio de $y$ y $x$, respectivamente


La forma más común y utilizada de calcular los parametros corresponde al método de "*mínimos cuadrados ordinarios*"(OLS por sus siglas en ingles). 
$$
W = (X^TX)^{-1}X^TY
$$
Este método consiste en minimizar la suma de los errores al cuadrado de nuestro modelo, esto quiere decir la diferencia al cuadrado del valor real con el valor predicho por nuestra ecuación. El modelo seleccionado y que tendremos en nuestro poder, será el que mejor ajuste la nube de puntos (los datos) que se forme con nuestras observaciones. 

Entonces en palabras sencillas, el método de MCO busca formar una recta de regresión que cruce de la manera más justa posible por todas las observaciones con las que entrenamos el modelo, minimizando la diferencia entre nuestros datos.

  Este método se puede ver afectado por la inclusión de casos atipicos (outlier), analizar esta situación es importante para determinar los casos a seguir para tener un modelo correcto, ya que podríamos eliminar observaciones, normalizar o estandarizar nuestros datos. 

  Otro elemento importante a considerar de los modelos de regresión lineal es que debe cumplir con ciertas condiciones para que nuestro modelo sea adecuado para la realidad. Estas condiciones son llamados supuestos y el no cumplimiento de alguno de ellos nos llevará a tomar decisiones sesgada sobre nuestros datos.


1.   Lienalidad (relación lineal entre la variable dependiente con las variables independiente (s))
2.   homocedasticidad (La varianza del error es constante en los residuos del modelo)

1.   Normalidad de los residuos (Que los residuos no se comporten siguiendo un patron)
2.   Independencia de los residuos (Los residuos no deben estar autocorrelacionados)


# **Regresión Lineal Múltiple**

El análisis de Regresión Lineal Simple busca explicar o predecir una determinada variable con la inclusión de otra variable llamada independiente, pero es altamente complejo poder predecir o explicar un suceso mediante una pura variable, ya que podemos estar sesgando la información entregada. 

Debido a esta complejidad es que se incluyen más variables independientes que nos ayudarán a explicar/predecir de mejor manera nuestro elemento a estudiar, al momento de incluir una mayor cantidad de variables independientes (+1V) comenzamos a referirnos a un modelo de Regresión Lineal Múltiple. 

$$y=w_0+w_1x_1+w_2x_2+...+w_nx_n$$


# **Regresión Lineal Simple en Python**

In [None]:
## Cargamos nuestras librerías
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
import seaborn as sns
sns.set()

  import pandas.util.testing as tm


In [None]:
## Cargamos nuestros datos 
data = pd.read_csv('/content/real_estate_price_size.csv')

In [None]:
## Hacemos una mirada rapida a nuestros datos
data.head()

Unnamed: 0,price,size
0,234314.144,643.09
1,228581.528,656.22
2,281626.336,487.29
3,401255.608,1504.75
4,458674.256,1275.46


In [None]:
## Hacemos un resumen estadistico de nuestro set de datos
data.describe()

Unnamed: 0,price,size
count,100.0,100.0
mean,292289.47016,853.0242
std,77051.727525,297.941951
min,154282.128,479.75
25%,234280.148,643.33
50%,280590.716,696.405
75%,335723.696,1029.3225
max,500681.128,1842.51


In [None]:
## Definimos nuestra variable dependiente (Y) y nuestra variable independiente
y = data['price']
x1 = data[['size']]

In [None]:
## Creamos nuestro modelo con el paquete STATSMODEL
x = sm.add_constant(x1)
results = sm.OLS(y,x).fit()
results.summary()

  x = pd.concat(x[::order], 1)


0,1,2,3
Dep. Variable:,price,R-squared:,0.745
Model:,OLS,Adj. R-squared:,0.742
Method:,Least Squares,F-statistic:,285.9
Date:,"Wed, 06 Jul 2022",Prob (F-statistic):,8.13e-31
Time:,01:10:19,Log-Likelihood:,-1198.3
No. Observations:,100,AIC:,2401.0
Df Residuals:,98,BIC:,2406.0
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1.019e+05,1.19e+04,8.550,0.000,7.83e+04,1.26e+05
size,223.1787,13.199,16.909,0.000,196.986,249.371

0,1,2,3
Omnibus:,6.262,Durbin-Watson:,2.267
Prob(Omnibus):,0.044,Jarque-Bera (JB):,2.938
Skew:,0.117,Prob(JB):,0.23
Kurtosis:,2.194,Cond. No.,2750.0
