# Linear Regression: Home appraiser example
M2U2 - Exercise 7

## What are we going to do?
- We will train a multivariate linear regression model
- We will create a synthetic dataset following a real data schema

Remember to follow the instructions for the submission of assignments indicated in [Submission Instructions](https://github.com/Tokio-School/Machine-Learning-EN/blob/main/Submission_instructions.md).

In [None]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Synthetic house valuation dataset

This time we are going to explore how to create a synthetic dataset that follows the structure we want to simulate a real dataset with full flexibility.

In this case, we are going to use a real estate dataset as an example, with the objective of training a housing dataset with the following features:

Target or dependent variable:
- Sale price (int)

Features, explanatory or independent variables:
- Useful surface area (int)
- Location (int, representing the neighbourhood as an ordinal category)
- Type of dwelling (int, representing flat, detached house, semi-detached house, penthouse, etc. as an ordinal category)
- Nº of rooms (int)
- Nº of bathrooms (int)
- Garage (int, 0/1 representing whether it has one, or not)
- Surface area of common areas (int)
- Year of construction (int)

Our model will attempt to approximate a multivariate linear function that allows us to interpret the housing market and make predictions about the selling price of new homes, based on the linear function:

$$Y = h_\Theta(x) = X \times \Theta^T$$
Where $h_\Theta(x)$ is the linear hypothesis.

### Creation of a synthetic dataset

First, we will create an example of a house with known data, with the values of its features and the sale price:

In [None]:
x_ej1 = np.asarray([100, 4, 2, 2, 1, 0, 30, 10])
y_ej1 = np.asarray([80000])

print('Sale price of the house:', y_ej1[0])
print('Useful surface area:', x_ej1[0])
print('Location:', x_ej1[1])
print('Dwelling type:', x_ej1[2])
print('Nº of rooms:', x_ej1[3])
print('Nº of bathrooms:', x_ej1[4])
print('Garage (yes/no):', x_ej1[5])
print('Surface area of common areas:', x_ej1[6])
print('Age:', x_ej1[7])

In this way, we can create new examples with the values we want as needed.

Modify the values of the previous dwelling to manually generate other dwellings.

In the same way that we have manually created a housing example, we will automatically create multiple random examples:

*Note*: For the sake of simplicity when generating random numbers with code, we will use *float* instead of *int* in the same logical ranges for the features of the dwellings.

In [None]:
m = 100           # nº of housing examples
n = x_ej1.shape[0]    # nº of features of each dwelling

X = np.random.rand(m, n)

print('First 10 examples of X:')
print(X[:10, :])
print('Size of the matrix of X examples:')
print(X.shape)

*How can we create the vector *Y* of sales prices from our synthetic dataset, so that it follows the linear relationship we want to approximate?*

To do this, we must start from a *Theta_true* as in previous exercises.

Sometimes, the problem is to get a Y in the range we want by modifying each value of *Theta_true*, which can be quite tedious.

In other cases, an alternative would be to manually create *X* and *Y*, and then calculate the *Theta_true* corresponding to those matrices.

In this case, we will manually create *Theta_true* in order to be able to interpret its values:

In [None]:
x = X[0, :]

print('Example of dwelling with random featuress:')
print(x)

Theta_true = np.asarray([1000., -500, 10000, 5000, 2500, 6000, 50, -1500])

print('\nEj. de pesos de características creados manualmente:')
print(Theta_verd)
print(Theta_verd.shape)

print('\nEl precio de venta de dicha vivienda viene dado por sus características:')
print('Por cada m2 de superficie útil:', Theta_verd[0])
print('Por cada km de distancia al centro:', Theta_verd[1])
print('Según el tipo de vivienda:', Theta_verd[2])
print('Según el nº de habitaciones:', Theta_verd[3])
print('Según el nº de cuartos de baño:', Theta_verd[4])
print('Según si tiene garaje:', Theta_verd[5])
print('Por cada m2 de superficie de zonas comunes:', Theta_verd[6])
print('Por cada año de antigüedad:', Theta_verd[7])

Cada uno de estos pesos multiplicará su característica correspondiente, sumando o restando al precio total de la vivienda.

Sin embargo, a nuestro set de datos sintético ideal le falta un término muy importante, el _bias_ o _intercept_:
El _bias_ es el término _b_ de cualquier recta $y = m * x \times b$, el que respresenta la suma de todas las constantes que afectan a nuestro modelo o el precio base, antes de verse modificado por el resto de características.

Este _bias_ es muy importante porque un modelo no sólo debe poder aproximar pesos o coeficientes que multipliquen a las características dadas, sino también a valores constantes que no dependan de las características concretas de cada ejemplo.

O lo que es lo mismo: _precio = coeficientes * características + "bias o precio base"_.

P. ej., en el caso de viviendas, sería el precio de partida de todas las viviendas, si lo hubiera, independientemente de sus características, las cuales suman o restan a partir del mismo. En el caso de un estudio sin habitaciones independientes, WC compartido, sin garaje, etc., etc., donde todas sus características fueran 0, nos permitiría determinar su precio de venta, *que no sería de 0 € seguramente*.

Añadimos a *Theta_verd* un _bias_ o precio de partida.

In [None]:
# CUIDADO: Cada vez que ejecutamos esta celda estamos añadiendo una columna
# de 1s a Theta_verd y X, por lo que sólo debemos ejecutarla una vez

Theta_verd = np.insert(Theta_verd, 0, 25000)    # 25000 € de precio de partida = theta[0]
X = np.insert(X, 0, np.ones(m), axis=1)

print('Theta verdadero y 10 primeros ejemplos (filas) de X:')
print(Theta_verd)
print(X[:10, :])
print('Tamaños de X y Tetha verdadero:')
print(X.shape)
print(Theta_verd.shape)

Contando con dicho *Theta_verd*, podemos establecer el vector *Y* de precios de venta de nuestros ejemplos:

In [None]:
# TODO: Modifica el siguiente código para añadir un término de error aleatorio a Y

error = 0.15

Y = np.matmul(X, Theta_verd)

print('Precios de venta:')
print(Y)
print(Y.shape)

*Nota*: Al no haber usado valores int finalmente, los precios de venta son también valores float.

## Entrenamiento del modelo

Una vez listo nuestro dataset de datos de entrenamiento, vamos a entrenar el modelo de regresión lineal.

Para ello, copia las celdas correspondientes de los últimos ejercicios para entrenar el modelo con estos datos y evalúa su comportamiento:

In [None]:
# TODO: Copia las celdas correspondientes para entrenar un modelo por regresión lineal y evaluar su entrenamiento

## Predicciones 

Por tanto, si creamos un nuevo ejemplo de vivienda manualmente con características aleatorias, podemos hacer una predicción sobre su precio de venta:

In [None]:
# TODO: Crea una nueva vivienda con características aleatorias y calcula su Y predicha
# Recuerda añadirle a X un término de bias de 1.
x_pred = [...]

y_pred = np.matmul(x_pred, theta)    # Usa la theta entrenada por tu modelo en el paso anterior

print('Ej. de vivienda aleatorio:')
print(x_pred)

print('Precio predicho para dicha vivienda:')
print(y_pred)

¿Y nuestro dataset sintético original? ¿Qué precio de venta tendría? ¿Y qué resíduos tendría nuestro modelo sobre ellos?

In [None]:
# TODO: Calcula y representa gráficamente los resíduos del modelo

Y_pred = [...]

residuos = [...]

plt.figure()

# Dale un título a la gráfica y etiquetas a sus ejes

plt.show()