## Regresión lineal simple

### Objetivos

Después de completar este cuaderno, podrá:

* Usar scikit-learn para implementar una regresión lineal simple
* Crear un modelo, entrenarlo, probarlo y utilizarlo.


### Importando los paquete necesarios


In [None]:
!pip install scikit-learn
!pip install matplotlib
!pip install pandas 
!pip install numpy 
%matplotlib inline

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

### Descarga de datos
Para descargar los datos, utilizaremos !curl para descargar el conjunto de datos.



In [None]:
!curl https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-ML0101EN-SkillsNetwork/labs/Module%202/data/FuelConsumptionCo2.csv -o FuelConsumptionCo2.csv

### Entendiendo los Datos

#### `FuelConsumptionCo2.csv`:

Hemos descargado un conjunto de datos sobre el consumo de combustible, **`FuelConsumptionCo2.csv`**, que contiene calificaciones específicas de consumo de combustible y estimaciones de emisiones de dióxido de carbono para vehículos nuevos de servicio ligero destinados a la venta minorista en Canadá. [Fuente del conjunto de datos](http://open.canada.ca/data/en/dataset/98f1a129-f628-4ce4-b24d-6f16bf24dd64)

- **MODELYEAR** (Año del modelo) ej. 2014  
- **MAKE** (Marca) ej. Acura  
- **MODEL** (Modelo) ej. ILX  
- **VEHICLE CLASS** (Clase de vehículo) ej. SUV  
- **ENGINE SIZE** (Tamaño del motor) ej. 4.7  
- **CYLINDERS** (Cilindros) ej. 6  
- **TRANSMISSION** (Transmisión) ej. A6  
- **FUEL CONSUMPTION in CITY (L/100 km)** (Consumo de combustible en ciudad) ej. 9.9  
- **FUEL CONSUMPTION in HWY (L/100 km)** (Consumo de combustible en carretera) ej. 8.9  
- **FUEL CONSUMPTION COMB (L/100 km)** (Consumo de combustible combinado) ej. 9.2  
- **CO2 EMISSIONS (g/km)** (Emisiones de CO₂) ej. 182 → bajo → 0  


### Leyendo la data


In [None]:
df = pd.read_csv("FuelConsumptionCo2.csv")

# tomando una mirada al conjunto de datos
df.head()



### Exploracion de datos


In [None]:
# Resumen de la data
df.describe()

Selecciona algunas características para explorar más.


In [None]:
cdf = df[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB','CO2EMISSIONS']]
cdf.head(9)

Podemos dibujar cada una de esas características:


In [None]:
viz = cdf[['CYLINDERS','ENGINESIZE','CO2EMISSIONS','FUELCONSUMPTION_COMB']]
viz.hist()
plt.show()

Ahora, graficaremos cada una de estas características contra Emission, para ver cuán lineal es su relación:

In [None]:
plt.scatter(cdf.FUELCONSUMPTION_COMB, cdf.CO2EMISSIONS,  color='blue')
plt.xlabel("FUELCONSUMPTION_COMB")
plt.ylabel("Emission")
plt.show()

In [None]:
plt.scatter(cdf.ENGINESIZE, cdf.CO2EMISSIONS,  color='blue')
plt.xlabel("Engine size")
plt.ylabel("Emission")
plt.show()

### Práctica
Gráfica __CYLINDER__ vs Emission para ver qué tan lineal es su relación:


In [None]:
# Escribe tu codigo aqui


<details><summary>Click para la solución</summary>

```python    
plt.scatter(cdf.CYLINDERS, cdf.CO2EMISSIONS, color='blue')
plt.xlabel("Cylinders")
plt.ylabel("Emission")
plt.show()

```

</details>


 #### Creación del conjunto de datos de entrenamiento y prueba  

La división en entrenamiento y prueba (**Train/Test Split**) consiste en dividir el conjunto de datos en dos subconjuntos: uno para entrenamiento y otro para prueba, los cuales son mutuamente excluyentes. Primero, se entrena el modelo con el conjunto de entrenamiento y luego se evalúa con el conjunto de prueba.  

Esto proporciona una evaluación más precisa de la precisión en datos no vistos (**out-of-sample accuracy**) porque el conjunto de prueba no forma parte de los datos utilizados para entrenar el modelo. Por lo tanto, nos permite comprender mejor qué tan bien se generaliza el modelo a nuevos datos.  

Esto significa que conocemos el resultado de cada punto de datos en el conjunto de prueba, lo que lo convierte en una excelente opción para la evaluación. Dado que estos datos no se han utilizado en el entrenamiento del modelo, el modelo no tiene conocimiento previo de sus resultados. En esencia, esto representa una verdadera prueba con datos no vistos.  

Dividamos nuestro conjunto de datos en conjuntos de entrenamiento y prueba. Usaremos el **80%** de los datos para el entrenamiento y el **20%** para la prueba. Para seleccionar filas aleatorias, creamos una máscara utilizando la función **`np.random.rand()`**:  




In [None]:
msk = np.random.rand(len(df)) < 0.8
train = cdf[msk]
test = cdf[~msk]

### Modelo de regresión simple  

La **Regresión Lineal** ajusta un modelo lineal con coeficientes **B = (B1, ..., Bn)** para minimizar la **"suma de los residuos al cuadrado"** entre el valor real **y** en el conjunto de datos y el valor predicho **ŷ** utilizando una aproximación lineal.


#### Distribución de los datos de entrenamiento


In [None]:
plt.scatter(train.ENGINESIZE, train.CO2EMISSIONS,  color='blue')
plt.xlabel("Engine size")
plt.ylabel("Emission")
plt.show()

#### Modelado  

Usando el paquete **sklearn** para modelar los datos.


In [None]:
from sklearn import linear_model
regr = linear_model.LinearRegression()
train_x = np.asanyarray(train[['ENGINESIZE']])
train_y = np.asanyarray(train[['CO2EMISSIONS']])
regr.fit(train_x, train_y)
# The coefficients
print ('Coeficientes: ', regr.coef_)
print ('Intercepto: ',regr.intercept_)

Como se mencionó anteriormente, el **coeficiente** y la **intersección** en la regresión lineal simple son los parámetros de la línea ajustada.  

Dado que es una regresión lineal simple con solo **2 parámetros**, y sabiendo que estos representan la intersección y la pendiente de la línea, **sklearn** puede estimarlos directamente a partir de nuestros datos.  

Es importante notar que **todos los datos deben estar disponibles** para recorrerlos y calcular los parámetros.


#### Gráfico de los resultados


Podemos graficar la línea de ajuste sobre los datos:

In [None]:
plt.scatter(train.ENGINESIZE, train.CO2EMISSIONS,  color='blue')
plt.plot(train_x, regr.coef_[0][0]*train_x + regr.intercept_[0], '-r')
plt.xlabel("Engine size")
plt.ylabel("Emission")

#### Evaluación  

Comparamos los valores reales con los valores predichos para calcular la precisión de un modelo de regresión. Las métricas de evaluación juegan un papel clave en el desarrollo de un modelo, ya que proporcionan información sobre las áreas que requieren mejora.  

Existen diferentes métricas de evaluación de modelos, pero aquí utilizaremos **MSE** para calcular la precisión de nuestro modelo en función del conjunto de prueba:  

- **Error absoluto medio (Mean Absolute Error - MAE):** Es el promedio del valor absoluto de los errores. Es la métrica más fácil de entender, ya que representa simplemente el error promedio.  

- **Error cuadrático medio (Mean Squared Error - MSE):** Es el promedio del error al cuadrado. Es más popular que el **Error Absoluto Medio**, ya que se enfoca más en los errores grandes. Esto se debe a que el término cuadrático amplifica los errores más grandes en comparación con los más pequeños.  

- **Raíz del error cuadrático medio (Root Mean Squared Error - RMSE):** Es la raíz cuadrada del MSE y proporciona una medida más interpretable de los errores en las mismas unidades que los datos originales.  

- **R-cuadrado (R²):** No es un error, sino una métrica popular para medir el rendimiento de un modelo de regresión. Representa qué tan cerca están los puntos de datos de la línea de regresión ajustada. Un valor de **R²** más alto indica un mejor ajuste del modelo a los datos. El mejor valor posible es **1.0**, y puede ser negativo si el modelo es arbitrariamente peor que un modelo base simple.


In [None]:
from sklearn.metrics import r2_score

test_x = np.asanyarray(test[['ENGINESIZE']])
test_y = np.asanyarray(test[['CO2EMISSIONS']])
test_y_ = regr.predict(test_x)

print("Error abosluto medio: %.2f" % np.mean(np.absolute(test_y_ - test_y)))
print("Suma de los residuos al cuadrado (MSE): %.2f" % np.mean((test_y_ - test_y) ** 2))
print("R2-score: %.2f" % r2_score(test_y , test_y_) )

### Ejercicios



Veamos cuáles son las métricas de evaluación si entrenamos un modelo de regresión utilizando la característica **`FUELCONSUMPTION_COMB`**.  

Comencemos seleccionando **`FUELCONSUMPTION_COMB`** como los datos de **`train_x`** del **dataframe `train`**, y luego seleccionemos **`FUELCONSUMPTION_COMB`** como los datos de **`test_x`** del **dataframe `test`**.


In [None]:
train_x = #Agregar codigo

test_x = #Agregar codigo

<details><summary>Click para la solución</summary>

```python    
train_x = train[["FUELCONSUMPTION_COMB"]]

test_x = test[["FUELCONSUMPTION_COMB"]]

```

</details>


Ahora, entrena un modelo de **Regresión Lineal** utilizando los datos de **`train_x`** que creaste y los datos de **`train_y`** que seleccionaste previamente.


In [None]:
regr = linear_model.LinearRegression()

#Agrega codigo

<details><summary>Click para la solución</summary>

```python    
regr = linear_model.LinearRegression()

regr.fit(train_x, train_y)

```

</details>



Encuentra las predicciones utilizando la función **`predict`** del modelo y los datos de **`test_x`**.


In [None]:
#Click para la solución
predictions = #Agrega codigo

<details><summary>Click para la solución</summary>

```python    
predictions = regr.predict(test_x)

```

</details>


Finalmente, utiliza las **predicciones** y los datos de **`test_y`** para calcular el **Error Absoluto Medio (Mean Absolute Error - MAE)** utilizando las funciones **`np.absolute`** y **`np.mean`**, como se hizo anteriormente:



In [None]:
#Agrega codigo


<details><summary>Click para la solución</summary>

```python    
print("Mean Absolute Error: %.2f" % np.mean(np.absolute(predictions - test_y)))

```

</details>


Podemos ver que el **MAE** es mucho peor cuando entrenamos usando **`ENGINESIZE`** que cuando usamos **`FUELCONSUMPTION_COMB`**.
