# Régression linéaire

La régression liéaire est un concepte statistique utilisé en machine learning pour expliquer,prédire une variable en fonction d'une ou plusieurs autre variables.

Il y a donc une **variable cible** et des **variables explicatives** servant à décrire **cette variable cible**. 

La viable cible ou encore target doit être nécessairement une variable continue, tandis que les autres peuvent être catégorielles. 

Lorsqu'il y a plusieurs variables explicatives, on parle de régression linéaire multiple et de régression linéaire simple quand il y en a qu'une seule. 

Dans la rubrique suivante nous appliquerons ce concepte à notre jeu de donnée [pétrol price prediction].



---



# Objectif

L'objectif de cette étude sera de prédire le prix en dollars (usd)du litre du pétrol




# Importation des bibliothèques

In [None]:
# pandas pour manipuler les données en générale
# seaborn et matplotlib pour la visualisation des données
# numpy bibliothèque mathématique servant au calculs matriciels

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# chargement des données

In [None]:
data = pd.read_csv("/content/Petrol Dataset June 23 2022 -- Version 2.csv", encoding ="ISO-8859-1")#lecture du fichier


In [None]:
data

Unnamed: 0,S#,Country,Daily Oil Consumption (Barrels),World Share,Yearly Gallons Per Capita,Price Per Gallon (USD),Price Per Liter (USD),Price Per Liter (PKR),GDP Per Capita ( USD ),Gallons GDP Per Capita Can Buy,xTimes Yearly Gallons Per Capita Buy
0,1,United States,19687287,20%,934.3,5.19,1.37,289.97,63414,12218,13
1,2,China,12791553,13%,138.7,5.42,1.43,302.87,10435,1925,14
2,3,India,4443000,5%,51.4,5.05,1.33,281.93,1901,376,7
3,4,Japan,4012877,4%,481.5,4.69,1.24,262.05,40193,8570,18
4,5,Russia,3631287,4%,383.2,3.41,0.90,190.56,10127,2970,8
...,...,...,...,...,...,...,...,...,...,...,...
176,177,Belize,4001,0%,166.5,6.68,1.76,373.09,4436,664,4
177,178,Niue,51,0%,484.4,11.43,3.02,638.73,15586,1364,3
178,179,Saint Pierre & Miquelon,660,0%,1705.1,8.27,2.19,462.13,34900,4220,2
179,180,Montserrat,400,0%,1231.1,4.57,1.21,255.07,12589,2755,2


# exploration des données

In [None]:
data =data.drop('S#', axis = 1)
# la colonne des indices n'est pas utile. 

In [None]:
# Puisque nous voulons prédire le prix du litre en dollar nous n'avons donc pas besoin de sa valeur exprimée en une autre monnaie
data = data.drop('Price Per Liter (PKR)', axis = 1)

In [None]:
data.shape

(181, 9)

In [None]:
data.describe()

Unnamed: 0,Yearly Gallons Per Capita,Price Per Gallon (USD),Price Per Liter (USD),xTimes Yearly Gallons Per Capita Buy
count,181.0,181.0,181.0,181.0
mean,332.00663,5.695691,1.505138,14.20442
std,436.558735,4.370484,1.154575,48.613866
min,2.2,0.08,0.02,1.0
25%,53.9,4.15,1.1,6.0
50%,180.2,5.28,1.4,9.0
75%,424.6,6.76,1.79,12.0
max,3679.5,54.89,14.5,654.0


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 181 entries, 0 to 180
Data columns (total 9 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   Country                               181 non-null    object 
 1   Daily Oil Consumption (Barrels)       181 non-null    object 
 2   World Share                           181 non-null    object 
 3   Yearly Gallons Per Capita             181 non-null    float64
 4   Price Per Gallon (USD)                181 non-null    float64
 5   Price Per Liter (USD)                 181 non-null    float64
 6   GDP Per Capita ( USD )                181 non-null    object 
 7   Gallons GDP Per Capita Can Buy        181 non-null    object 
 8   xTimes Yearly Gallons Per Capita Buy  181 non-null    int64  
dtypes: float64(3), int64(1), object(5)
memory usage: 12.9+ KB


In [None]:
data.isna().sum()

Country                                 0
Daily Oil Consumption (Barrels)         0
World Share                             0
Yearly Gallons Per Capita               0
Price Per Gallon (USD)                  0
Price Per Liter (USD)                   0
GDP Per Capita ( USD )                  0
Gallons GDP Per Capita Can Buy          0
xTimes Yearly Gallons Per Capita Buy    0
dtype: int64

In [None]:
data.dtypes

Country                                  object
Daily Oil Consumption (Barrels)          object
World Share                              object
Yearly Gallons Per Capita               float64
Price Per Gallon (USD)                  float64
Price Per Liter (USD)                   float64
GDP Per Capita ( USD )                   object
Gallons GDP Per Capita Can Buy           object
xTimes Yearly Gallons Per Capita Buy      int64
dtype: object

Notre dataset ne contient pas de valeurs nan(manquantes), mais elle contient des données catégorielles.
Nous allons donc les encoder

# Pré-traitement des donées

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
s = (data.dtypes =="object")
object_cols = list(s[s].index)
print("Categorical variables:")
print(object_cols)

Categorical variables:
['Country', 'Daily Oil Consumption (Barrels)', 'World Share', 'GDP Per Capita ( USD )', 'Gallons GDP Per Capita Can Buy']


In [None]:
label_data = data.copy()


In [None]:
label_encoder = LabelEncoder()
for col in object_cols:
    label_data[col] = label_encoder.fit_transform(label_data[col])
label_data.head()

Unnamed: 0,Country,Daily Oil Consumption (Barrels),World Share,Yearly Gallons Per Capita,Price Per Gallon (USD),Price Per Liter (USD),GDP Per Capita ( USD ),Gallons GDP Per Capita Can Buy,xTimes Yearly Gallons Per Capita Buy
0,172,44,4,934.3,5.19,1.37,149,36,13
1,35,18,2,138.7,5.42,1.43,26,27,14
2,72,96,7,51.4,5.05,1.33,19,100,7
3,80,94,6,481.5,4.69,1.24,110,158,18
4,134,79,6,383.2,3.41,0.9,24,73,8


# Segmentation des données

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X= label_data.drop(["Price Per Liter (USD)"],axis =1)
y= label_data["Price Per Liter (USD)"]
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.25, random_state=7)

# Création du modèle

In [None]:
from sklearn.linear_model import LinearRegression


In [None]:
model = LinearRegression()


# Entrainement du modèle

In [None]:
model.fit(X_train, y_train)

LinearRegression()

# Evaluation du modèle

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score

In [None]:
# Evaluation du training set
from sklearn.metrics import r2_score
y_train_predict = model.predict(X_train)
rmse = (np.sqrt(mean_squared_error(y_train, y_train_predict)))
r2 = r2_score(y_train, y_train_predict)
 
print('La performance du modèle sur la base dapprentissage')
print('--------------------------------------')
print('Lerreur quadratique moyenne est {}'.format(rmse))
print('le score R2 est {}'.format(r2))
print('\n')
 
# model evaluation for testing set
y_test_predict = model.predict(X_test)
rmse = (np.sqrt(mean_squared_error(y_test, y_test_predict)))
r2 = r2_score(y_test, y_test_predict)
 
print('La performance du modèle sur la base de test')
print('--------------------------------------')
print('Lerreur quadratique moyenne est {}'.format(rmse))
print('le score R2 est {}'.format(r2))

La performance du modèle sur la base dapprentissage
--------------------------------------
Lerreur quadratique moyenne est 0.002778759815684651
le score R2 est 0.9999953910283284


La performance du modèle sur la base de test
--------------------------------------
Lerreur quadratique moyenne est 0.003090749089996988
le score R2 est 0.9999631366550175


# Prédiction

In [None]:
cross_check = pd.DataFrame({'Actual' : y_test, 'Predicted' : y_test_predict})
cross_check# l'indexe 50 dans x_test correspond à 198 dans la dataset originale, ce qui corespond à la DrugX comme prédit

In [None]:
model.predict([X_test.iloc[5]])



array([1.78337867])

In [None]:
data.iloc[[133]]

Unnamed: 0,Country,Daily Oil Consumption (Barrels),World Share,Yearly Gallons Per Capita,Price Per Gallon (USD),Price Per Liter (USD),GDP Per Capita ( USD ),Gallons GDP Per Capita Can Buy,xTimes Yearly Gallons Per Capita Buy
133,Moldova,18001,0%,67.9,6.75,1.78,4551,674,10


L'indexe 5 de X_test correspond à l'indexe 133 de la dataset originale.
On remarque que nous avons bien prédit le prix du litre d'essence en moldavie.

<---- [sklearn](https://colab.research.google.com/drive/1yDPyMmN8biMU3qY8jdXxHQWexIq1ezl4?usp=sharing)

[classification](https://colab.research.google.com/drive/1clvVvJNhTnH0bIhGFy8U7Hfdq9tjyA0H?usp=sharing) ---->