# Predicción del precio de la Vivienda (Una variable)

En el siguiente notebook utilizarás datos sobre la venta de casas en Seattle, para predecir los precios de las casas utilizando una regresión lineal simple (Una sola característica). Tendrás que hacer:



*   Escribir una función en python que devuelva los parámetros de la regresión lineal simple
*   Escribir una función para hacer predicciones (salida) dado una variable de entrada.
*  Utilizando la regresión, predecir la entrada dada la salida.
*  Comparar dos modelos para predecir el precio de la vivienda

El dataset puedes encontrarlo aquí:

https://drive.google.com/file/d/1Bx5evxrcxmLJnliTfbS0z2QmhopbboUG/view?usp=share_link

Archivos:

* **kc_house_data.csv**
* **kc_house_train_data.csv**
* **kc_house_test_data.csv**






In [28]:
#Importamos las librearías que vamos a necesitar
import pandas as pd
from sklearn.linear_model import LinearRegression



## 1 - Carga los 3 csv utilizando pandas

**IMPORTANTE**: utiliza los siguientes tipos para las columnas al importar los archivos csv. De lo contrario, es posible que no se importen correctamente: 


{'bathrooms':float, 'waterfront':int, 
              'sqft_above':int, 'sqft_living15':float, 'grade':int, 
             'yr_renovated':int, 'price':float, 'bedrooms':float, 
             'zipcode':str, 'long':float, 'sqft_lot15':float, 
             'sqft_living':float, 'floors':str, 'condition':int, 'lat':float, 'date':str, 
             'sqft_basement':int, 'yr_built':int, 'id':str, 'sqft_lot':int, 'view':int})






In [29]:
## 1 - Carga los 3 csv utilizando pandas en 3 datasets distintos

In [30]:
#Cargamos los tres datasets

df = pd.read_csv('datasets/kc_house_data.csv')
df_train = pd.read_csv('datasets/kc_house_train_data.csv')
df_test = pd.read_csv('datasets/kc_house_test_data.csv')

df

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.00,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.7210,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.00,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.00,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.00,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21608,263000018,20140521T000000,360000.0,3,2.50,1530,1131,3.0,0,0,...,8,1530,0,2009,0,98103,47.6993,-122.346,1530,1509
21609,6600060120,20150223T000000,400000.0,4,2.50,2310,5813,2.0,0,0,...,8,2310,0,2014,0,98146,47.5107,-122.362,1830,7200
21610,1523300141,20140623T000000,402101.0,2,0.75,1020,1350,2.0,0,0,...,7,1020,0,2009,0,98144,47.5944,-122.299,1020,2007
21611,291310100,20150116T000000,400000.0,3,2.50,1600,2388,2.0,0,0,...,8,1600,0,2004,0,98027,47.5345,-122.069,1410,1287


## 2 - Escribe una función que acepte una columna de entrada (input) y otra columna 'Output' y devuelva los parámetros de regresión lineal intersección (intercept) y pendiente (slope)

In [31]:
def simple_linear_regression(input, output):
  X = input.values.reshape(-1,1)
  Y = output

  #Creamos un objeto de la clase linear_regression
  model = LinearRegression()

  #Entrenamos con el training set.
  model.fit(X, Y)

  #Predecimos la salida del modelo pasandole el conjunto de test.
  predictions = model.predict(X)
  intercept = float(model.intercept_)
  slope = float(model.coef_)

  return(intercept, slope)

### 3- Utiliza la función para calcular los coeficientes de intersección y pendiente de los datos de entrenamiento para predecir el precio 'price', dados los pies habitables 'sqft_living'

In [32]:
intercept, slope = simple_linear_regression(df_train.sqft_living, df_train.price)

In [33]:
print(intercept)
print(slope)

-47116.07907289383
281.9588396303424


¡¡Almacena el valor de la pendiente y el intercepto para más tarde en diferentes variables!!

### 4 - Escribe una función que acepte como parámetros una columna de datos 'input', una pendiente 'slope' y un coeficiente intersección (intercept) que has aprendido, y que devuelva una columna de predicciones 'predicted_values' para cada entrada en la columna input

In [34]:
def get_regression_predictions(input, intercept, slope):
  predicted_values = float(slope * input + intercept)
  return(predicted_values)

**6. Utiliza la Pendiente y el Intercepto del punto 3, Cual es el precdio predicho para una casa de 3000 sqft?**



In [35]:
get_regression_predictions(3000, intercept, slope)

798760.4398181335

### 7. Escribe una función que acepte las siguientes columnas: 'input', 'output' y los parámetros de regresión 'slope' e 'intercept' y devuelva la Suma del cuadrado de los resíduos (RSS)



In [36]:
def get_residual_sum_of_squares(input, output, intercept,slope):
    input = input.values.reshape(-1,1)
    rss = 0
    for i in range(len(input)):
        predicted_output = slope * input[i] + intercept
        rss += (output[i] - predicted_output) ** 2
    return float(rss)

**8. De acuerdo a la función, el intercepto y la pendiente del punto 3, cual es el RSS para la regresión lineal simple utilizando pies cuadrados para predecir el precio en los datos de ENTRENAMIENTO?**




In [37]:
get_residual_sum_of_squares(df_train.sqft_living, df_train.price, intercept, slope)

1201918354177286.0

9. Observa que, aunque hemos estimado la pendiente y el intercepto de la regresión para predecir la salida a partir de la entrada, como se trata de una relación lineal simple con sólo dos variables, ¡podemos invertir la función lineal para estimar la entrada a partir de la salida!

Escriba una función que acepte una columna de datos:'output' y los parámetros de regresión 'slope' e 'intercept' y devuelva como salida la columna de datos: 'estimated_input'. Hazlo resolviendo la función lineal **output = intercept + slope*input** para la variable 'input' (es decir, queremos despejar input de la ecuación)

In [38]:
def inverse_regression_predictions(output, intercept, slope):
  estimated_input=(output-intercept)/slope
  return(estimated_input)

**10. Según esta función, la pendiente y el intercepto del punto 3, ¿cuáles son los pies cuadrados (sq.ft) estimados para una casa que cuesta 800.000 $?**


In [39]:
inverse_regression_predictions(800000, intercept, slope)

3004.396245152277

11. En lugar de utilizar "sqft_living" para estimar los precios, podríamos utilizar "bedroom" (un recuento del número de dormitorios de la vivienda) para estimar los precios. Utilizando la función del punto 3, calcula la pendiente y el intercepto de la regresión lineal simple para estimar el precio en función de las habitaciones. Guarde la pendiente y el intercepto en nuevas variables

In [40]:
bed_intercept, bed_slope = simple_linear_regression(df_train.bedrooms, df_train.price)

In [41]:
print(bed_intercept)
print(bed_slope)

109473.17762296082
127588.95293398746


12, Ahora que tenemos 2 modelos diferentes, calcule el RSS de AMBOS modelos en los datos de PRUEBA.


In [42]:
get_residual_sum_of_squares(df_test.sqft_living, df_test.price, intercept, slope)

275402933617813.03

In [43]:
get_residual_sum_of_squares(df_test.bedrooms, df_test.price, bed_intercept, bed_slope)

493364585960301.44

#### Interpretación de los resultados
El RSS del primero modelo es 2.754e+14 y el RSS del segundo modelo es 4.933e+14. Eso significa que el primer modelo es mejor para predecir los precios de las viviendas en los datos de prueba, ya que tiene un RSS más bajo.

