<h1><center>Régression polynomiale</center></h1>

<h4>À propos de ce notebook</h4>
Dans ce cahier, nous apprenons à utiliser scikit-learn pour la régression polynomiale. Nous téléchargeons un ensemble de données lié à la consommation de carburant et aux émissions de dioxyde de carbone des voitures. Ensuite, nous divisons nos données en ensembles d'entraînement et de test, créons un modèle à l'aide d'un ensemble d'apprentissage, évaluons notre modèle à l'aide d'un ensemble de test et enfin, utilisons le modèle pour prédire une valeur inconnue.

<h1>Table des matières</h1>

<div class="alert alert-block alert-info" style="margin-top: 20px">
    <ol>
        <li><a href="#download_data">Téléchargement des données</a></li>
        <li><a href="#polynomial_regression">Régression polynomiale</a></li>
        <li><a href="#evaluation">Evaluation</a></li>
        <li><a href="#practice">Practice</a></li>
    </ol>
</div>
<br>
<hr>

### Importing Needed packages

In [12]:
#import matplotlib.pyplot as plt
from matplotlib import pyplot as plt
import pandas as pd
import pylab as pl
import numpy as np
%matplotlib inline

ImportError: cannot import name 'pyplot' from 'matplotlib' (unknown location)

<h2 id="download_data">Téléchargement des données</h2>
Pour télécharger les données, nous utiliserons! Wget pour les télécharger à partir d'IBM Object Storage.

In [None]:
!wget -O FuelConsumption.csv https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/FuelConsumptionCo2.csv

__Le saviez-vous?__ En ce qui concerne le Machine Learning, vous travaillerez probablement avec de grands ensembles de données. En tant qu'entreprise, où pouvez-vous héberger vos données? IBM offre une opportunité unique aux entreprises, avec 10 To d'IBM Cloud Object Storage: [Inscrivez-vous maintenant gratuitement] (http://cocl.us/ML0101EN-IBM-Offer-CC)

## Comprendre les données

### `FuelConsumption.csv`:
Nous avons téléchargé un ensemble de données sur la consommation de carburant, **`FuelConsumption.csv`**, qui contient les cotes de consommation de carburant propres au modèle et les émissions de dioxyde de carbone estimées pour les véhicules légers neufs vendus au détail au Canada. [Source de l'ensemble de données] (http://open.canada.ca/data/en/dataset/98f1a129-f628-4ce4-b24d-6f16bf24dd64)
- **MODELYEAR** e.g. 2014
- **MAKE** e.g. Acura
- **MODEL** e.g. ILX
- **VEHICLE CLASS** e.g. SUV
- **ENGINE SIZE** e.g. 4.7
- **CYLINDERS** e.g 6
- **TRANSMISSION** e.g. A6
- **FUEL CONSUMPTION in CITY(L/100 km)** e.g. 9.9
- **FUEL CONSUMPTION in HWY (L/100 km)** e.g. 8.9
- **FUEL CONSUMPTION COMB (L/100 km)** e.g. 9.2
- **CO2 EMISSIONS (g/km)** e.g. 182   --> low --> 0

## Lecture des données 

In [6]:
df = pd.read_csv("FuelConsumption.csv")

# take a look at the dataset
df.head()

NameError: name 'pd' is not defined

Permet de sélectionner certaines fonctionnalités que nous voulons utiliser pour la régression.

In [7]:
cdf = df[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB','CO2EMISSIONS']]
cdf.head(9)

NameError: name 'df' is not defined

Permet de tracer les valeurs d'émission par rapport à la taille du moteur:

In [None]:
plt.scatter(cdf.ENGINESIZE, cdf.CO2EMISSIONS,  color='blue')
plt.xlabel("Engine size")
plt.ylabel("Emission")
plt.show()

#### Création d'un ensemble de données de train et de test
Train / Test Split implique la division de l'ensemble de données en ensembles d'apprentissage et de test respectivement, qui sont mutuellement exclusifs. Après quoi, vous vous entraînez avec l'ensemble d'entraînement et testez avec l'ensemble de test.

In [None]:
msk = np.random.rand(len(df)) < 0.8
train = cdf[msk]
test = cdf[~msk]

<h2 id="polynomial_regression">Régression polynomiale</h2>

Parfois, la tendance des données n'est pas vraiment linéaire et semble sinueuse. Dans ce cas, nous pouvons utiliser des méthodes de régression polynomiale. En fait, il existe de nombreuses régressions différentes qui peuvent être utilisées pour ajuster tout ce à quoi ressemble le jeu de données, comme quadratique, cubique, etc., et cela peut continuer à des degrés infinis.

Essentiellement, nous pouvons appeler tous ceux-ci, la régression polynomiale, où la relation entre la variable indépendante x et la variable dépendante y est modélisée comme un polynôme au nième degré dans x. Disons que vous voulez avoir une régression polynomiale (faisons un polynôme à 2 degrés):


$y = b + \theta_1  x + \theta_2 x^2$

Maintenant, la question est: comment pouvons-nous ajuster nos données sur cette équation alors que nous n'avons que x valeurs, telles que __Engine Size__?
Eh bien, nous pouvons créer quelques fonctionnalités supplémentaires: 1, $x$ et $x^2$.



__La fonction PloynomialFeatures ()__ dans la bibliothèque Scikit-learn, pilote un nouvel ensemble de fonctionnalités à partir de l'ensemble de fonctionnalités d'origine. Autrement dit, une matrice sera générée composée de toutes les combinaisons polynomiales des caractéristiques avec un degré inférieur ou égal au degré spécifié. Par exemple, disons que l'ensemble de fonctionnalités d'origine n'a qu'une seule fonctionnalité, _ENGINESIZE_. Maintenant, si nous sélectionnons le degré du polynôme comme étant 2, alors il génère 3 caractéristiques, degré = 0, degré = 1 et degré = 2:

In [8]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn import linear_model
train_x = np.asanyarray(train[['ENGINESIZE']])
train_y = np.asanyarray(train[['CO2EMISSIONS']])

test_x = np.asanyarray(test[['ENGINESIZE']])
test_y = np.asanyarray(test[['CO2EMISSIONS']])


poly = PolynomialFeatures(degree=2)
train_x_poly = poly.fit_transform(train_x)
train_x_poly

NameError: name 'np' is not defined

**fit_transform** prend nos valeurs x et affiche une liste de nos données élevées de la puissance de 0 à la puissance de 2 (puisque nous définissons le degré de notre polynôme sur 2).

$
\begin{bmatrix}
    v_1\\
    v_2\\
    \vdots\\
    v_n
\end{bmatrix}
$
$\longrightarrow$
$
\begin{bmatrix}
    [ 1 & v_1 & v_1^2]\\
    [ 1 & v_2 & v_2^2]\\
    \vdots & \vdots & \vdots\\
    [ 1 & v_n & v_n^2]
\end{bmatrix}
$

dans notre exemple

$
\begin{bmatrix}
    2.\\
    2.4\\
    1.5\\
    \vdots
\end{bmatrix}
$
$\longrightarrow$
$
\begin{bmatrix}
    [ 1 & 2. & 4.]\\
    [ 1 & 2.4 & 5.76]\\
    [ 1 & 1.5 & 2.25]\\
    \vdots & \vdots & \vdots\\
\end{bmatrix}
$

Cela ressemble à des ensembles de fonctionnalités pour l'analyse de régression linéaire multiple, non? Oui. Cela fait.
En effet, la régression polynomiale est un cas particulier de régression linéaire, avec l'idée principale de savoir comment sélectionner vos entités. Pensez simplement à remplacer $x$ par $x_1$, $x_1^2$ par $x_2$, et ainsi de suite. Ensuite, l'équation de degré 2 serait transformée en:

$y = b + \theta_1  x_1 + \theta_2 x_2$

Maintenant, nous pouvons le traiter comme un problème de «régression linéaire». Par conséquent, cette régression polynomiale est considérée comme un cas particulier de régression linéaire multiple traditionnelle. Ainsi, vous pouvez utiliser le même mécanisme que la régression linéaire pour résoudre de tels problèmes.



nous pouvons donc utiliser la fonction __LinearRegression ()__ pour le résoudre:

In [None]:
clf = linear_model.LinearRegression()
train_y_ = clf.fit(train_x_poly, train_y)
# The coefficients
print ('Coefficients: ', clf.coef_)
print ('Intercept: ',clf.intercept_)

Comme mentionné précédemment, __Coefficient__ et __Interception__, sont les paramètres de la ligne courbe d'ajustement.
Étant donné qu'il s'agit d'une régression linéaire multiple typique, avec 3 paramètres, et sachant que les paramètres sont l'intersection et les coefficients d'hyperplan, sklearn les a estimés à partir de notre nouvel ensemble de fonctionnalités. Permet de le tracer:

In [9]:
plt.scatter(train.ENGINESIZE, train.CO2EMISSIONS,  color='blue')
XX = np.arange(0.0, 10.0, 0.1)
yy = clf.intercept_[0]+ clf.coef_[0][1]*XX+ clf.coef_[0][2]*np.power(XX, 2)
plt.plot(XX, yy, '-r' )
plt.xlabel("Engine size")
plt.ylabel("Emission")

NameError: name 'plt' is not defined

<h2 id="evaluation">Evaluation</h2>

In [None]:
from sklearn.metrics import r2_score

test_x_poly = poly.fit_transform(test_x)
test_y_ = clf.predict(test_x_poly)

print("Mean absolute error: %.2f" % np.mean(np.absolute(test_y_ - test_y)))
print("Residual sum of squares (MSE): %.2f" % np.mean((test_y_ - test_y) ** 2))
print("R2-score: %.2f" % r2_score(test_y_ , test_y) )

<h2 id="practice">Practique</h2>
Essayez d'utiliser une régression polynomiale avec l'ensemble de données, mais cette fois avec le degré trois (cubique). Cela se traduit-il par une meilleure précision?

In [None]:
# write your code here


Double-click __ici__ pour voir la solution.

<!-- Your answer is below:

poly3 = PolynomialFeatures(degree=3)
train_x_poly3 = poly3.fit_transform(train_x)
clf3 = linear_model.LinearRegression()
train_y3_ = clf3.fit(train_x_poly3, train_y)
# The coefficients
print ('Coefficients: ', clf3.coef_)
print ('Intercept: ',clf3.intercept_)
plt.scatter(train.ENGINESIZE, train.CO2EMISSIONS,  color='blue')
XX = np.arange(0.0, 10.0, 0.1)
yy = clf3.intercept_[0]+ clf3.coef_[0][1]*XX + clf3.coef_[0][2]*np.power(XX, 2) + clf3.coef_[0][3]*np.power(XX, 3)
plt.plot(XX, yy, '-r' )
plt.xlabel("Engine size")
plt.ylabel("Emission")
test_x_poly3 = poly3.fit_transform(test_x)
test_y3_ = clf3.predict(test_x_poly3)
print("Mean absolute error: %.2f" % np.mean(np.absolute(test_y3_ - test_y)))
print("Residual sum of squares (MSE): %.2f" % np.mean((test_y3_ - test_y) ** 2))
print("R2-score: %.2f" % r2_score(test_y3_ , test_y) )


-->

Thanks for completing this lesson!