<img src="../img/crowdlearning-etic.png" alt="Logo ETIC" align="right">


<h1><font color="#004D7F" size=6>Ejercicios Regresión Lineal</font></h1>

<br>
<br>
<br>
<br>
<div style="text-align: right">
<font color="#004D7F" size=3>Antonio Jesús Gil</font><br>
<font color="#004D7F" size=3>Fundamentos de Machine Learning</font><br>

</div>

# <font color="#004D7F"> Regresión/Clasificación con SciKit Learn</font>

El objetivo de un modelo de regresión es tratar de explicar la relación que existe entre una variable dependiente `Y` (variable respuesta) Y un conjunto de variables independientes (variables explicativas) `X1,..., Xn`.

En SciKit Learn, existen muchos de los algoritmos más utilizados ya vienen implementados, cómo la regresión lineal y la regresión logística. Todos los algoritmos de predicción implementan dos funciones: `fit` y `predict`.


Entonces:

1. Importar dataset
2. Inicializar parámetros
3. Dividir el conjunto en datos
4. Predecir valores
5. Evaluar el modelo


## <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio 1: Algoritmo para predecir el precio de la vivienda en USA</font> 

Nuestro primer algoritmo Machine Learning será una regresión lineal. El ejercicio consiste en crear un modelo y predecir el precio de las viviendas en USA.

Pasos previos:

1. Descargar el dataset de [kaggle](https://www.kaggle.com/aariyan101/usa-housingcsv) y lo cargamos.
2. Observar el conjunto de datos
3. Mediante seaborn mostraremos la distribución del precio y un mapa de calor con la correlación del resto de variables.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
housing = pd.read_csv('USA_housing.csv')

In [None]:
print(housing.shape)
housing.head(5)

In [None]:
# Información adicional del dataframe
#housing.info()
#housing.describe()

### <font color="#004D7F"> Gráficas interesantes

In [None]:
# Distribución de la variable target 'Price'

# sns.distplot(housing['Price'])

In [None]:
# Relación entre el precio y la media de Ingresos

# sns.jointplot(x=housing['Price'], y=housing['Avg. Area Income'], kind='kde');

In [None]:
# Matriz de correlación entre variables

# sns.heatmap(housing.corr(), annot=True)

### <font color="#004D7F"> Entrenar el modelo</font>

Para ello dividiremos el conjunto en datos de prueba `test` y datos de entrenamiento `fit`

El eje X contendrá todas las columnas características y el eje Y contendrá el target de salida.

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [None]:
# Hemos de identificar las columnas para el eje X y para el eje Y
# housing.columns
X = housing[['Avg. Area Income', 'Avg. Area House Age', 'Avg. Area Number of Rooms',
       'Avg. Area Number of Bedrooms', 'Area Population']]
Y = housing['Price']

Crear las variables para dividir en datos de entrenamiento 70% y prueba 30% restante. En este ejercicio utilizaremos una semilla aleatoria, `random_state` aceptada en la función de split.

Más información:
https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=42)

In [None]:
# Entrenar el modelo mediante el metodo fit
# Recordemos que son nuestros data y target
lrm = LinearRegression()
lrm.fit(X_train, Y_train)

### <font color="#004D7F">Evaluar el modelo</font>

Usamos el metodo `predict` a partir de lo aprendido en la función fit, esta función tomará como entrada nuevos casos y obtendrá una predicción para ellos.

prediction = our_predictor.predict(data)

#### <font color="#004D7F">Accuracy</font>	
Aquellos algoritmos capaces de dar un valor de lo bien o mal que se ajusta su entrenamiento ante nuevos datos de entrada sobre los que se conoce su salida pueden implementar una función `score`. Valores como la __tasa de aciertos__ o la __matriz de confusión__ son algunos de los scores más utilizados para medir el rendimiento de los algoritmos.
    
    score = obj.score(data, target)

In [None]:
# pasamos como parámetros las caracteristicas de pruebas y genera las predicciones
Y_pred = lrm.predict(X_test)
print('Tasa de acierto en el entorno de test: {:.2f}'.format(lrm.score(X_test, Y_test)))

#### <font color="#004D7F">Obtener los errores</font>
Podemos comparar los datos predecidos con distintos calculos de errores, error cuadrático medio, error media absoluta y el coeficiente de determinación, R2. También conocido como el coeficiente de correlación de Pearson.

In [None]:
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

# Mean squared error:
print("Mean squared error: %.1f" % mean_squared_error(Y_test,Y_pred))

# R2 score:
print('R2 Score: %.2f' % r2_score(Y_test,Y_pred))

# Mean absolute error:
print('Mean absolute error: %.2f' % mean_absolute_error(Y_test,Y_pred))

#### <font color="#004D7F">Diferencia entre precios actuales y predecidos</font>

Los datos predecidos deben ser comparados con el precio real para disponer de una aproximación al modelo o si por el contrario hemos de reajustar.

* Calcular la diferencia entre los precios `Y_test` menos `Y_pred`

Hay que tener en cuenta que `Y_pred`es una Serie y `Y_test` es un NDArray. Al lector se deja la posibilidad de ser convertidos en dataframes para su tratamiento.

In [None]:
# Comparamos el valor actual con el predecido:

df = pd.DataFrame({'Actual': Y_test, 'Predecido': Y_pred.flatten()})
df.head(5)

In [None]:
df2 = pd.DataFrame({'Actual': Y_test, 'Predecido': Y_pred, 'Diferencia':abs(Y_test - Y_pred)})
df2.head(5)

### <font color="#004D7F"> Gráficas interesantes

In [None]:
# Gráfico para ver las diferencias de tipo scatter
# El error se acerca mucho a la distribución normal.
# sns.distplot(Y_test - Y_pred)
# plt.scatter(Y_test, Y_pred)
# sns.jointplot(x=Y_test, y=housing_pred, kind='kde');

In [None]:
#plt.scatter(X_test, Y_test,  color='gray')
#plt.plot(X_test, Y_pred, color='red', linewidth=2)
#plt.show()

## <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio 2: Boston</font> 

La base de datos boston es un dicionario que contiene gran cantidad de datos relacionados con la ciudad, entre otras variables disponemos:

* CRIM: crime rate per capita
* ZN: proportion of residential land zoned
* INDUS: proportion of non-retail business acres
* CHAS: binary variable. 1 for tract bounds river and 0 otherwise
* NOX: nitric oxides concentration
* RM: average number of rooms
* AGE: owner occupied units
* DIS: weighted distance to employment centers.
* RAD: index of accessibility
* TAX: full value property tax rate
* PTRATIO: pupil-teacher ratio
* B: proportion of blacks
* LSTAT: lower status of population
* MEDV: owner occupied homes

Recordar que la variable target se encuentra en `boston_target`.

Se pide:

1. Obtener un mapa de calor con las correlaciones entre variables
2. Entrenar el modelo 
2. Dividir el conjunto de datos en un 80/20 
3. Evaluar el modelo y dar una tasa de acierto
4. Obtener los errores