<p style="text-align:center">
    <a href="https://skills.network" target="_blank">
    <img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/assets/logos/SN_web_lightmode.png" width="200" alt="Skills Network Logo">
    </a>
</p>


# Regresión Lineal Simple

Tiempo estimado: **15** minutos

## Objetivos

Al completar este laboratorio podrás:

* Usar scikit-learn para implementar una Regresión Lineal simple.
* Crear un modelo, entrenarlo, probarlo y utilizarlo.


### Importando paquetes necesarios


In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import pylab as pl
import numpy as np
%matplotlib inline

### Descargando Datos
Para descargar los datos, usaremos !wget para descargarlos desde IBM Object Storage.


In [None]:
!wget -O FuelConsumption.csv https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-ML0101EN-SkillsNetwork/labs/Module%202/data/FuelConsumptionCo2.csv

En caso de que estés trabajando **localmente**, elimina el comentario de la línea de abajo.


In [None]:
#!curl https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-ML0101EN-SkillsNetwork/labs/Module%202/data/FuelConsumptionCo2.csv -o FuelConsumptionCo2.csv

## Entendiendo los Datos 

---

### `FuelConsumption.csv`:
Hemos descargado un conjunto de datos de consumo de combustible, **`FuelConsumption.csv`**, que contiene clasificaciones de consumo de combustible específicas del modelo y emisiones estimadas de dióxido de carbono para vehículos nuevos de servicio liviano para la venta al por menor en Canadá. [Fuente del conjunto de datos](http://open.canada.ca/data/en/dataset/98f1a129-f628-4ce4-b24d-6f16bf24dd64)

- **MODELYEAR** (AÑO DEL MODELO) p.ej. 2014
- **MAKE** (MARCA) p.ej. Acura
- **MODEL** (MODELO) p.ej. ILX
- **VEHICLE CLASS** (CLASE DE VEHÍCULO) p.ej. SUV
- **ENGINE SIZE** (TAMAÑO DEL MOTOR) p.ej. 4.7
- **CYLINDERS** (CILINDROS) p.ej 6
- **TRANSMISSION** (TRANSMISIÓN) p.ej. A6
- **FUEL CONSUMPTION in CITY(L/100 km)** (CONSUMO DE COMBUSTIBLE EN CIUDAD (L/100 km)) p.ej. 9.9
- **FUEL CONSUMPTION in HWY (L/100 km)** (CONSUMO DE COMBUSTIBLE EN CARRETERA (L/100 km)) p.ej. 8.9
- **FUEL CONSUMPTION COMB (L/100 km)** (CONSUMO DE COMBUSTIBLE COMBINADO (L/100 km)) p.ej. 9.2
- **CO2 EMISSIONS (g/km)** (EMISIONES DE CO2 (g/km)) p.ej. 182   --> bajo --> 0

## Leyendo los datos 


In [None]:
df = pd.read_csv("FuelConsumption.csv")

# take a look at the dataset
df.head()



### Exploración de Datos 
Primero, realicemos una exploración descriptiva de nuestros datos.


In [None]:
# summarize the data
df.describe()

Seleccionemos algunas características para explorar más.

In [None]:
cdf = df[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB','CO2EMISSIONS']]
cdf.head(9)

Podemos graficar cada una de estas características:

In [None]:
viz = cdf[['CYLINDERS','ENGINESIZE','CO2EMISSIONS','FUELCONSUMPTION_COMB']]
viz.hist()
plt.show()

Ahora, grafiquemos cada una de estas características contra la Emisión, para ver cuán **lineal** es su relación:

In [None]:
plt.scatter(cdf.FUELCONSUMPTION_COMB, cdf.CO2EMISSIONS,  color='blue')
plt.xlabel("FUELCONSUMPTION_COMB")
plt.ylabel("Emission")
plt.show()

In [None]:
plt.scatter(cdf.ENGINESIZE, cdf.CO2EMISSIONS,  color='blue')
plt.xlabel("Engine size")
plt.ylabel("Emission")
plt.show()

## Práctica 
Grafica **CILINDROS** (*CYLINDER*) vs la Emisión, para ver cuán lineal es su relación:

In [None]:
# write your code here




#### Creando el conjunto de datos de entrenamiento y prueba
La División de Entrenamiento/Prueba (*Train/Test Split*) consiste en dividir el conjunto de datos en conjuntos de entrenamiento y prueba que son **mutuamente excluyentes**. Después, se entrena con el conjunto de entrenamiento y se prueba con el conjunto de prueba.
Esto proporcionará una evaluación más precisa sobre la **exactitud fuera de la muestra** (*out-of-sample accuracy*), ya que el conjunto de datos de prueba no forma parte del conjunto de datos que se ha utilizado para entrenar el modelo. Por lo tanto, nos da una mejor comprensión de qué tan bien nuestro modelo **generaliza** a nuevos datos.

Esto significa que conocemos el resultado de cada punto de datos en el conjunto de prueba, ¡lo que lo hace ideal para probar! Dado que estos datos no se han utilizado para entrenar el modelo, el modelo no tiene conocimiento del resultado de estos puntos de datos. Por lo tanto, en esencia, es verdaderamente una prueba fuera de la muestra.

Dividamos nuestro conjunto de datos en conjuntos de entrenamiento y prueba. El **80%** del conjunto de datos completo se utilizará para el entrenamiento y el **20%** para las pruebas. Creamos una máscara para seleccionar filas aleatorias utilizando la función **`np.random.rand()`**:

In [None]:
msk = np.random.rand(len(df)) < 0.8
train = cdf[msk]
test = cdf[~msk]

### Modelo de Regresión Simple
La Regresión Lineal ajusta un modelo lineal con coeficientes $\beta = (\beta_1, ..., \beta_n)$ para **minimizar la 'suma residual de cuadrados'** entre el valor real $y$ en el conjunto de datos, y el valor predicho $\hat{y}$ utilizando una aproximación lineal.

#### Distribución de los datos de entrenamiento

In [None]:
plt.scatter(train.ENGINESIZE, train.CO2EMISSIONS,  color='blue')
plt.xlabel("Engine size")
plt.ylabel("Emission")
plt.show()

#### Modelado 
Utilizando el paquete **sklearn** para modelar los datos.

In [None]:
from sklearn import linear_model
regr = linear_model.LinearRegression()
train_x = np.asanyarray(train[['ENGINESIZE']])
train_y = np.asanyarray(train[['CO2EMISSIONS']])
regr.fit(train_x, train_y)
# The coefficients
print ('Coefficients: ', regr.coef_)
print ('Intercept: ',regr.intercept_)

Como se mencionó antes, el **Coeficiente** y el **Intercepto** en la regresión lineal simple, son los parámetros de la línea de ajuste.
Dado que es una regresión lineal simple, con solo 2 parámetros, y sabiendo que los parámetros son el intercepto y la pendiente de la línea, sklearn puede estimarlos directamente a partir de nuestros datos.
Observa que todos los datos deben estar disponibles para recorrerlos y calcular los parámetros.

#### Gráficos de salida

Podemos graficar la línea de ajuste sobre los datos:

In [None]:
plt.scatter(train.ENGINESIZE, train.CO2EMISSIONS,  color='blue')
plt.plot(train_x, regr.coef_[0][0]*train_x + regr.intercept_[0], '-r')
plt.xlabel("Engine size")
plt.ylabel("Emission")

#### Evaluación 
Comparamos los valores reales y los valores predichos para calcular la **precisión** de un modelo de regresión. Las métricas de evaluación desempeñan un papel clave en el desarrollo de un modelo, ya que proporcionan información sobre las áreas que requieren mejora.

Existen diferentes métricas de evaluación de modelos; usemos **MSE** aquí para calcular la precisión de nuestro modelo basándonos en el conjunto de prueba:

* **Error Absoluto Medio (*Mean Absolute Error - MAE*)**: Es la media del valor absoluto de los errores. Esta es la métrica más fácil de entender ya que es simplemente el error promedio.

* **Error Cuadrático Medio (*Mean Squared Error - MSE*)**: El Error Cuadrático Medio (MSE) es la media del error al cuadrado. Es más popular que el Error Absoluto Medio porque la atención se centra más en los errores grandes. Esto se debe a que el término al cuadrado aumenta exponencialmente los errores mayores en comparación con los más pequeños.

* **Raíz del Error Cuadrático Medio (*Root Mean Squared Error - RMSE*)**.

* **R-cuadrado (*R-squared*)** no es un error, sino una métrica popular para medir el **rendimiento** de tu modelo de regresión. Representa cuán cerca están los puntos de datos de la línea de regresión ajustada. Cuanto mayor sea el valor de R-cuadrado, mejor se ajusta el modelo a tus datos. La mejor puntuación posible es **1.0** y puede ser negativa (porque el modelo puede ser arbitrariamente peor).

In [None]:
from sklearn.metrics import r2_score

test_x = np.asanyarray(test[['ENGINESIZE']])
test_y = np.asanyarray(test[['CO2EMISSIONS']])
test_y_ = regr.predict(test_x)

print("Mean absolute error: %.2f" % np.mean(np.absolute(test_y_ - test_y)))
print("Residual sum of squares (MSE): %.2f" % np.mean((test_y_ - test_y) ** 2))
print("R2-score: %.2f" % r2_score(test_y , test_y_) )

## Ejercicio


Veamos cuáles son las métricas de evaluación si entrenamos un modelo de regresión utilizando la característica **`FUELCONSUMPTION_COMB`**.

Comienza seleccionando **`FUELCONSUMPTION_COMB`** como los datos de `train_x` del *dataframe* `train`, luego selecciona **`FUELCONSUMPTION_COMB`** como los datos de `test_x` del *dataframe* `test`.

In [None]:
train_x = #ADD CODE

test_x = #ADD CODE

Ahora entrena un **Modelo de Regresión Lineal** utilizando el `train_x` que creaste y el `train_y` creado previamente.

In [None]:
regr = linear_model.LinearRegression()

#ADD CODE


Encuentra las predicciones usando la función **`predict`** del modelo y los datos de `test_x`.

In [None]:
predictions = #ADD CODE

Finalmente, utiliza las **`predictions`** y los datos de `test_y` y encuentra el valor del **Error Absoluto Medio (MAE)** usando las funciones **`np.absolute`** y **`np.mean`**, como se hizo anteriormente.

In [None]:
#ADD CODE


Podemos observar que el MAE es mucho **peor** cuando entrenamos usando **`ENGINESIZE`** que con **`FUELCONSUMPTION_COMB`**.

### ¡Gracias por completar este laboratorio! 🎉

---

## Autor

Saeed Aghabozorgi


### Otros Contribuidores

<a href="https://www.linkedin.com/in/joseph-s-50398b136/" target="_blank">Joseph Santarcangelo</a>

Azim Hirjani

### Traducción

<a href="https://www.linkedin.com/in/carlostessier/" target="_blank">Carlos Tessier</a>

## <h3 align="center"> © Corporación IBM. Todos los derechos reservados. <h3/>

