<h2 style="color:green" align="center">Aprendizaje Automático con Python:
Regresión Lineal Simple y con Múltiples Variables</h2>

<h3 style="color:purple">Ejemplo de problema para predecir el precio de una vivienda en Monroe, Nueva Jersey (EE. UU.).</h3>

Ejemplo de problema para predecir el precio de una vivienda en Monroe, Nueva Jersey (EE. UU.).
A continuación se muestra una tabla con los precios de casas en Monroe Township, NJ.
Aquí, el precio depende del área (en pies cuadrados), del número de dormitorios y de la antigüedad de la casa (en años).
Dado este conjunto de datos, debemos predecir el precio de nuevas viviendas en función del área, los dormitorios y la antigüedad.

<img src="img/homepricetable.png" style="width:370px;height:250px">


Dado este conjunto de datos, debemos predecir el precio de nuevas viviendas en función del área, los dormitorios y la antigüedad.

---

Queremos calcular el precio de una vivienda que tenga:

* 3000 pies² de área, 3 dormitorios y 40 años de antigüedad
* 2500 pies² de área, 4 dormitorios y 5 años de antigüedad

---

Usaremos **regresión con múltiples variables**.
El precio puede calcularse mediante la siguiente ecuación:





<img src="img/scatterplot.png" style="width:600px;height:370px">

Si representamos los datos con un SCATTERPLOT,
obtenemos la siguiente gráfica en la que
podemos calcular de manera aproximada los
precios de cualquier casa siguiendo este modelo
lineal.

<img src="img/scatterplot2.png" style="width:600px;height:370px">

Pero … qué línea trazamos? Matemáticamente, la que minimice la suma de las
distancias entre los puntos y la línea.

<img src="img/minimizar_suma_distancias.png" >


Debemos saber que una ecuación lineal (recta) viene definida por:

<img src="img/ecuacion_lineal.png" >

* m: Pendiente de la recta
* b: Ordenada en el origen (altura que tiene la recta cuando x=0)

En Python lo llamamos ``coef_`` e ``intercept_``

In [None]:
import pandas as pd
import numpy as np
from sklearn import linear_model
import matplotlib.pyplot as plt
import seaborn as sns


In [None]:
df = pd.read_csv('dataset/homeprices.csv')
df

In [None]:
viz = df[['area','bedrooms','age','price']]
viz.hist()
plt.show()

In [None]:
%matplotlib inline
plt.xlabel('area')
plt.ylabel('price')
plt.scatter(df.area,df.price,color='red',marker='+')

In [None]:
# Data Preprocessing: Fill NA values with median value of a column
df.bedrooms = df.bedrooms.fillna(df.bedrooms.median())
df

In [None]:
reg = linear_model.LinearRegression()
reg.fit(df.drop(['price', 'age','bedrooms'],axis='columns'),df.price)

In [None]:
reg.coef_

In [None]:
reg.intercept_

**Predecir el precio de una casa con un área de 3000 metros cuadrados**

In [None]:
reg.predict([[3000]])

**Y = m * X + b (m es el coeficiente y b es el intercepto)**

In [None]:
3000*123.32089552 + 225625.00000000017

El problema planteado es un poco más complejo que el anterior: Tenemos un listado
de casas con información básica y queremos predecir el precio de estas según el
área, el número de habitaciones y la antigüedad de la casa.
1º) Debemos reemplazar el valor nulo (podemos
hacerlo por la mediana - la media da decimales- )
Podemos analizar los datos y ver el resultado gráfico de cada una de las variables
respecto al precio:

<img src="img/ecuacion_multivariable.png" >

Y adecuada a nuestro ejemplo:

<img src="img/ecuacion_multivariable2.png" >

En el ejemplo, price es la variable dependiente y área, bedrooms y age son las
variables independientes.

In [None]:
# df.corr()
df.corr(numeric_only=True)["price"].sort_values(ascending=False)


Para la aplicación de algoritmos de machine learning vamos a usar la librería Scikit-
learn (sklearn)
Dentro de esta librería, usaremos el modelo lineal:

In [None]:
reg = linear_model.LinearRegression()
reg.fit(df.drop('price',axis='columns'),df.price)

El modelo lineal tiene los coeficientes de la línea de regresión que hemos hablado
anteriormente. Para conocerlos, podemos acceder a:

In [None]:
reg.coef_


In [None]:
reg.intercept_

Con este método (fit) lo que hacemos es entrenar al algoritmo con los valores de x
(área, bedrooms y age) e y (precio)

**Cual es el precio de una casa de 3000 metros cuadrados, 3 dormitorios y de 40 años de antiguedad**


In [None]:
reg.predict([[3000, 3, 40]])


In [None]:
112.06244194*3000 + 23388.88007794*3 + -3231.71790863*40 + 221323.00186540384


* Cual es el precio de una casa de 2500 metros cuadrados, 4 dormitorios y de 5 años de antiguedad


In [None]:
reg.predict([[2500, 4, 5]])


<h3 style="color:purple">Generar un fichero CSV con la lista de predicciones de una serie de casas</h3>

In [None]:
area_df = pd.read_csv("dataset/homes.csv")
area_df.head(3)

In [None]:
p = reg.predict(area_df)
p

In [None]:
area_df['prices']=p
area_df

In [None]:
area_df.to_csv("dataset/prediction.csv")