<a href="https://colab.research.google.com/github/rsotop/Anal-tica-de-negocio/blob/main/LabRegLinMultYPolinomial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1><center>Laboratorio de Regresión</center></h1>

<h4>Acerca de este Laboratorio</h4>
Aprenderemos cómo utilizar la librería scikit-learn para implementar una Regresión Lineal Múltiple y una Regresión Polinómica. Descargaremos un set de datos relacionado al consumo de combustible y a la emisión del dióxido de Carbono en autos. Luego, separaremos nuestros datos en un set de entrenamiento y en otro set de prueba, crearemos un modelo utilizando un set de entrenamiento, se evaluará utilizando el set de prueba para finalmente usar el modelo para predecir valores desconocidos.


<h1>Indice</h1>

<div class="alert alert-block alert-info" style="margin-top: 20px">
    <ol>
        <li><a href="https://#download_data">Descarga de Datos</a></li>
        <li><a href="https://#multiple_regression_model">Regresión lineal múltiple</a></li>
        <li><a href="https://#polynomial_regression">Regresión Polinómica</a></li>
        <li><a href="https://#evaluation">Evaluación</a></li>
        <li><a href="https://#practice">Practica</a></li>
    </ol>
</div>
<br>
<hr>


### Importando los paquetes necesarios


In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import pylab as pl
import numpy as np
%matplotlib inline

<h2 id="download_data">Descarga de Datos</h2>
Para descargar los datos, usaremos !wget.

In [None]:
!wget -O FuelConsumption.csv https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/FuelConsumptionCo2.csv

## Entender los Datos

### `FuelConsumption.csv`:

Hemos descargado el dataset de consumo de combustible, **`FuelConsumption.csv`**, el cual contiene ratings específicos al consumo de combustible y emisiones de dióxido de carbono para aquellos vehículos ligeros en la venta minorista dentro de Canadá. [Fuente de Datos](http://open.canada.ca/data/en/dataset/98f1a129-f628-4ce4-b24d-6f16bf24dd64?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMML0101ESSkillsNetwork33325205-2021-01-01)

*   **MODELYEAR** (Año del modelo) e.g. 2014
*   **MAKE** (fabricante) e.g. Acura
*   **MODEL** (modelo) e.g. ILX
*   **VEHICLE CLASS** (tipo de vehiculo) e.g. SUV
*   **ENGINE SIZE** (tamaño del motor) e.g. 4.7
*   **CYLINDERS** (cilindrada) e.g 6
*   **TRANSMISSION** (transmisión) e.g. A6
*   **FUEL CONSUMPTION in CITY(L/100 km)** (consumo en ciudad) e.g. 9.9
*   **FUEL CONSUMPTION in HWY (L/100 km)** (consumo en carretera) e.g. 8.9
*   **FUEL CONSUMPTION COMB (L/100 km)** (consumo mixto) e.g. 9.2
*   **CO2 EMISSIONS (g/km)** (emisiones de dioxido de carbono) e.g. 182   --> low --> 0


## Leyendo los datos


In [None]:
df = pd.read_csv("FuelConsumption.csv")

# observar dentro del conjunto de datos
df.head()

Seleccionemos algunas caracaterísticas para usar en la regresión


In [None]:
cdf = df[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB','CO2EMISSIONS']]
cdf.head(9)

Grafiquemos los valores de emisión respecto al tamaño del motor:


In [None]:
plt.scatter(cdf.ENGINESIZE, cdf.CO2EMISSIONS,  color='blue')
plt.xlabel("Engine size")
plt.ylabel("Emission")
plt.show()

#### Crear conjunto de datos de entrenamiento y pruebas

In [None]:
msk = np.random.rand(len(df)) < 0.8
train = cdf[msk]
test = cdf[~msk]

<h2 id="multiple_regression_model">Regresión lineal múltiple</h2>

En realidad, existen múltiples variables que predicen la emisión de CO2. Cuando hay más de una variable independiente presente, el proceso se denomina regresión lineal múltiple. Por ejemplo, predecir las emisiones de co2 utilizando FUELCONSUMPTION_COMB, EngineSize (tamaño del motor) y Cilindros de automóviles. Lo bueno aquí es que la regresión lineal múltiple es la extensión del modelo de regresión lineal simple.

In [None]:
from sklearn import linear_model
regr = linear_model.LinearRegression()
x = np.asanyarray(train[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB']])
y = np.asanyarray(train[['CO2EMISSIONS']])
regr.fit (x, y)
# The coefficients
print ('Coefficients: ', regr.coef_)

Como se mencionó anteriormente, **Coefficient** e **Intercept** , son los parámetros de la línea curva de ajuste.
Dado que se trata de una regresión lineal múltiple, con 3 parámetros, y sabiendo que los parámetros son la intercepción y los coeficientes del hiperplano, sklearn puede estimarlos a partir de nuestros datos. Scikit-learn utiliza el método de los mínimos cuadrados ordinarios para resolver este problema.

<h2 id="prediction">Prediction</h2>

In [None]:
y_hat= regr.predict(test[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB']])
x = np.asanyarray(test[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB']])
y = np.asanyarray(test[['CO2EMISSIONS']])
print("Residual sum of squares: %.2f"
      % np.mean((y_hat - y) ** 2))

# Explained variance score: 1 is perfect prediction
print('Variance score: %.2f' % regr.score(x, y))

**explained variance regression score:**\
Si $\hat{y}$ es la salida teórica estimada, y la salida teórica correspondiente (correcta), y Var es Varianza, el cuadrado de la desviación estándar, entonces la varianza explicada se estima de la siguiente manera:

$\texttt{explainedVariance}(y, \hat{y}) = 1 - \frac{Var{ y - \hat{y}}}{Var{y}}$\

La mejor puntuación posible es 1.0, los valores más bajos son peores.


<h2 id="practice">Practice</h2>
Intente usar una regresión lineal múltiple con el mismo conjunto de datos pero esta vez use __FUEL CONSUMPTION (CONSUMO DE COMBUSTIBLE) en CITY__ y 
FUEL CONSUMPTION en HWY__ en lugar de FUELCONSUMPTION_COMB. ¿Resulta en una mejor precisión?

In [None]:
# write your code here


<h2 id="polynomial_regression">Regresión Polinómica</h2>


Digamos que quiere realizar un Regresión Polinómica de segundo grado:

$y = b + \theta\_1  x + \theta\_2 x^2$

Ahora la pregunta es: ¿Como podemos ajustar los datos en esta ecuación teniendo solo valores de $x$, como el caso de **Engine Size**?
Podemos generar unas pocas características adicionales: 1, $x$, and $x^2$.

La función **PloynomialFeatures()** de la librería Scikit-learn maneja un nuevo conjunto de características del conjunto original. Esto es, un matriz será generada y que consiste de todas las combinaciones polinomicas de las características de menor o los mismos grados especificados. Por ejemplo, digamos que el conjunto de características original tiene solo una, *ENGINESIZE*. Ahora, si seleccionamos el grado del polinomio como 2, generará 3 características; degree=0, degree=1 and degree=2:


In [None]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn import linear_model
train_x = np.asanyarray(train[['ENGINESIZE']])
train_y = np.asanyarray(train[['CO2EMISSIONS']])

test_x = np.asanyarray(test[['ENGINESIZE']])
test_y = np.asanyarray(test[['CO2EMISSIONS']])


poly = PolynomialFeatures(degree=2)
train_x_poly = poly.fit_transform(train_x)
train_x_poly

**fit_transform** toma los valores de x e imprime una lista de los datos que van desde la magnitud 0 a la 2 (ya que hemos seleccionado que nuestro polinómio sea de segundo grado).

$
\begin{bmatrix}
v\_1\\\\
v\_2\\\\
\vdots\\\\
v_n
\end{bmatrix}
$
$\longrightarrow$
$
\begin{bmatrix}
\[ 1 & v\_1 & v\_1^2]\\\\
\[ 1 & v\_2 & v\_2^2]\\\\
\vdots & \vdots & \vdots\\\\
\[ 1 & v_n & v_n^2]
\end{bmatrix}
$

en nuestro ejemplo

$
\begin{bmatrix}
2.\\\\
2.4\\\\
1.5\\\\
\vdots
\end{bmatrix}
$
$\longrightarrow$
$
\begin{bmatrix}
\[ 1 & 2. & 4.]\\\\
\[ 1 & 2.4 & 5.76]\\\\
\[ 1 & 1.5 & 2.25]\\\\
\vdots & \vdots & \vdots\\\\
\end{bmatrix}
$


Parecen unos conjuntos de características para el analisis de la regresión lineal multiple, ¿verdad?, si, lo es. De hecho la regresión polinomial es un caso especial de regresión lineal con la idea principal de como se seleccionan las características. Considere cambiar $x$ with $x\_1$, $x\_1^2$ por $x\_2$ y así en adelante. La ecuación de segundo grado quedaría asi:

$y = b + \theta\_1  x\_1 + \theta\_2 x\_2$

Ahora podemos manejar el problema como si se tratara de una 'regresión lineal'. Por lo tanto, esta regresión polinomica se considera como un caso especial de regresión lineal múltiple. Puede utilizar la misma mecánica para resolver dicho problema.

Usemos la función **LinearRegression()** para resolver:


In [None]:
clf = linear_model.LinearRegression()
train_y_ = clf.fit(train_x_poly, train_y)
# los coeficientes 
print ('Coefficients: ', clf.coef_)
print ('Intercept: ',clf.intercept_)

Como se mencionó anteriormente **Coeficiente** e **Intercepción** son los parámetros de ajuste de la línea curva. Dado que se trata de una regresión lineal multiple con 3 parámetros y sabiendo que estos son la intercepción y el coeficiente del hiperplano, sklearn los estimó desde un nuevo conjunto de características. Grafiquemoslo:


In [None]:
plt.scatter(train.ENGINESIZE, train.CO2EMISSIONS,  color='blue')
XX = np.arange(0.0, 10.0, 0.1)
yy = clf.intercept_[0]+ clf.coef_[0][1]*XX+ clf.coef_[0][2]*np.power(XX, 2)
plt.plot(XX, yy, '-r' )
plt.xlabel("Engine size")
plt.ylabel("Emission")

<h2 id="evaluation">Evaluación</h2>


In [None]:
from sklearn.metrics import r2_score

test_x_poly = poly.fit_transform(test_x)
test_y_ = clf.predict(test_x_poly)

print("Mean absolute error: %.2f" % np.mean(np.absolute(test_y_ - test_y)))
print("Residual sum of squares (MSE): %.2f" % np.mean((test_y_ - test_y) ** 2))
print("R2-score: %.2f" % r2_score(test_y_ , test_y) )

<h2 id="practice">Practica</h2>

Trate de usar la regresión polinómica con el conjunto de datos pero en esta ocasión de tercer grado (cúbica). ¿Tiene mejor precisión?


In [None]:
# Escribe tu código aquí y presiona Shift+Enter para ejecutar


<h3>¡Gracias por completar esta lección!</h3>

<h4>Autor:  <a href="https://ca.linkedin.com/in/saeedaghabozorgi?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMML0101ESSkillsNetwork33325205-2021-01-01">Saeed Aghabozorgi</a></h4>

<h4>Adaptado por:  <a href="https://github.com/rsotop/">Rodolfo Soto</a></h4>
