# Analisis de Datos en Administracion
### Facultad de Ciencias Economicas y Administracion - Universidad de la Republica

# Regresion Lineal
## Ejercicio 1

Una Agencia Inmobiliaria vende casas en la costa. Una de las preguntas mas frecuentes de los compradores potenciales es: ¿Si compramos esta casa o no?, ¿cuanto gastaremos en calefaccion durante el invierno? Al departamento de investigacion de la Agencia se le pidio desarrollar algunas directrices respecto de los costos de calefaccion de casas unifamiliares. 

Se considera que cuatro variables claves inciden en dichos costos:
1. la temperatura externa diaria media
2. el numero de pulgadas de aislamiento en el atico
3. los anos de uso del calentador
4. la distancia de la playa a la casa


Para el estudio, el departamento de investigacion selecciono una muestra aleatoria de 45 casas de venta reciente. Determino el costo de calefaccion de cada casa en enero pasado, asi como la temperatura externa en enero en la region, el numero de pulgadas de aislamiento del atico, los anos de uso del calentador y la distancia a la playa. 

El primer paso es definir la variable dependiente y las variables independientes. La variable dependiente (Y) es el costo de calefaccion en enero. Hay cinco variables independientes: 
- La temperatura externa media en enero, representada por X<sub>1</sub>. 
- El numero de pulgadas de aislamiento del atico, representado por X<sub>2</sub>.
- La antiguedad en anos del calentador, representada por X<sub>3</sub>.
- La disponibilidad de Garage en la Casa, representada por X<sub>4</sub>.
- La distancia a la playa en mts, representada por X<sub>5</sub>.

El segundo paso es definir la forma general de la ecuacion de regresion multiple: 

 <center> Y = α + β<sub>1</sub>X<sub>1</sub> + β<sub>2</sub>X<sub>2</sub> + β<sub>3</sub>X<sub>3</sub> + β<sub>4</sub>X<sub>4</sub> + β<sub>5</sub>X<sub>5</sub> + u  </center>

El tercer paso es estimar los parametros del siguiente modelo de regresion lineal multiple a partir de los datos disponibles en el archivo "Costo de calefaccion - Base de datos.csv”.


#### Se pide:
1. ¿Cual es el criterio para definir las variables independiente y la variable dependiente en el modelo propuesto?
2. ¿Es significativo el modelo globalmente, en su conjunto?
3. ¿Cuales variables son significativas individualmente?
4. En el caso de que alguna variable no sea significativa, estime el modelo nuevamente sin la variable en cuestion.
5. ¿Como interpretaria el coeficiente de la variable temperatura y el coeficiente de la variable garage?
6. Convierta a dolares el costo de calefaccion y estime nuevamente el modelo. ¿Que pasa con los coeficientes estimados del modelo?
7. Pase la variable antiguedad a meses y estime nuevamente el modelo. ¿ Hay algun cambio en los coeficientes estimados?

#### Corremos el modelo:

In [2]:
# Tratamiento de datos
# ==============================================================================
import pandas as pd

# Preprocesado y modelado
# ==============================================================================
import statsmodels.api as sm
import statsmodels.formula.api as smf

In [3]:
# Datos
# ==============================================================================

df = pd.read_csv('Costo de calefacción - Base de datos.csv')
print(df.head())

   costo  temperatura  aislamiento  antiguedad  garage  distancia
0    250           35            3           6       0       7972
1    360           29            4          10       1       8003
2    165           36            7           3       0      15336
3     43           60            6           9       0       8133
4     92           65            5           6       0       5902


In [6]:
# División de los datos
# ==============================================================================

X = df[['garage', 'distancia', 'antiguedad', 'aislamiento', 'temperatura']]
y = df['costo']

# Creación del modelo utilizando matrices como en scikitlearn
# ==============================================================================
# A la matriz de predictores se le tiene que añadir una columna de 1s para el intercept del modelo

X = sm.add_constant(X)
modelo = sm.OLS(y, X)
modelo = modelo.fit()
print(modelo.summary())



                            OLS Regression Results                            
Dep. Variable:                  costo   R-squared:                       0.837
Model:                            OLS   Adj. R-squared:                  0.817
Method:                 Least Squares   F-statistic:                     40.17
Date:                Fri, 23 Sep 2022   Prob (F-statistic):           2.28e-14
Time:                        17:59:45   Log-Likelihood:                -224.15
No. Observations:                  45   AIC:                             460.3
Df Residuals:                      39   BIC:                             471.1
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
const         328.0203     44.929      7.301      

### Resolucion:

1. Interesa saber cuanto se gasta de calefaccion, por lo tanto la variable dependiente sera el costo de la calefaccion, en funcion de el resto de las variables. Las variables independientes seran la temperatura, el aislamiento, la antiguedad de la casa, la disponibilidad de garage y la distancia a la playa.

2. El modelo es significativo globalmente, ya que el p-valor es menor a 0.05.

3. Las variables que son significativas individualmente son la temperatura, el aislamiento, la antiguedad y la disponibilidad de garage. El p-valor de la variable distancia a la playa es mayor a 0.05, por lo tanto no es significativa.

4. Corremos el modelo nuevamente eliminanod las variables no significativas. El modelo al eliminar la variable distancia a la playa es significativo globalmente, ya que el p-valor es menor a 0.05.

In [7]:
# Corremos el modelo nuevamente para el punto 4.
# ==============================================================================

X = df[['garage', 'antiguedad', 'aislamiento', 'temperatura']]
y = df['costo']

# Creación del modelo utilizando matrices como en scikitlearn
# ==============================================================================
# A la matriz de predictores se le tiene que añadir una columna de 1s para el intercept del modelo

X = sm.add_constant(X)
modelo = sm.OLS(y, X)
modelo = modelo.fit()
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:                  costo   R-squared:                       0.837
Model:                            OLS   Adj. R-squared:                  0.821
Method:                 Least Squares   F-statistic:                     51.50
Date:                Fri, 23 Sep 2022   Prob (F-statistic):           2.96e-15
Time:                        18:04:27   Log-Likelihood:                -224.15
No. Observations:                  45   AIC:                             458.3
Df Residuals:                      40   BIC:                             467.3
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
const         326.7567     36.308      9.000      

5. El coeficiente de la variable temperatura indica que por cada grado que aumenta la temperatura, el costo de calefaccion disminuye en promedio 3.68 pesos, ceteris paribus. El coeficiente de la variable garage indica que si la casa tiene garage, el costo de calefaccion es 75 pesos mas costosa en promedio, ceteris paribus.

6. Convertimos a dolares el costo de la calefaccion y corremos el modelo nuevamente. Los coeficientes estimados del modelo cambian en la misma proporcion, dividido 40, tomando el dolar a ese precio.

In [9]:
# Corremos el modelo nuevamente para el punto 6.
# ==============================================================================

X = df[['garage', 'antiguedad', 'aislamiento', 'temperatura']]
y = df['costo']

# Creación del modelo utilizando matrices como en scikitlearn
# ==============================================================================
# A la matriz de predictores se le tiene que añadir una columna de 1s para el intercept del modelo

X = sm.add_constant(X)
y_dol = y.div(40)
modelo = sm.OLS(y_dol, X)
modelo = modelo.fit()
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:                  costo   R-squared:                       0.837
Model:                            OLS   Adj. R-squared:                  0.821
Method:                 Least Squares   F-statistic:                     51.50
Date:                Fri, 23 Sep 2022   Prob (F-statistic):           2.96e-15
Time:                        18:22:54   Log-Likelihood:                -58.147
No. Observations:                  45   AIC:                             126.3
Df Residuals:                      40   BIC:                             135.3
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
const           8.1689      0.908      9.000      

7. Convertimos la antiguedad de la casa a meses y corremos el modelo nuevamente. Los coeficientes estimados del modelo no cambian porque multiplicar por 12 se trata de una transformacion lineal. El costo de la calefaccion sigue estando expresado en pesos anuales.

In [17]:
# Corremos el modelo nuevamente para el punto 6.
# ==============================================================================
df['antiguedad'] = df['antiguedad'].apply(lambda x: x*12)
X = df[['garage', 'aislamiento', 'antiguedad', 'temperatura']]
y = df['costo']

# Creación del modelo utilizando matrices como en scikitlearn
# ==============================================================================
# A la matriz de predictores se le tiene que añadir una columna de 1s para el intercept del modelo

X = sm.add_constant(X)
modelo = sm.OLS(y, X)
modelo = modelo.fit()
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:                  costo   R-squared:                       0.837
Model:                            OLS   Adj. R-squared:                  0.821
Method:                 Least Squares   F-statistic:                     51.50
Date:                Fri, 23 Sep 2022   Prob (F-statistic):           2.96e-15
Time:                        18:42:48   Log-Likelihood:                -224.15
No. Observations:                  45   AIC:                             458.3
Df Residuals:                      40   BIC:                             467.3
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
const         326.7567     36.308      9.000      