# Implémentation de la régression linéaire en Python

La régression linéaire est une technique statistique pour décrire les relations entre les variables 
dépendantes avec un certain nombre de variables indépendantes. Ce didacticiel abordera les 
concepts de base de la régression linéaire ainsi que son application dans Python.

Afin de donner une compréhension des bases du concept de régression linéaire, nous 
commençons par la forme la plus élémentaire de régression linéaire, c'est-à-dire la "régression 
linéaire simple"

## Régression linéaire simple

La régression linéaire simple (SLR) est une méthode permettant de prédire une réponse à 
l'aide d'une caractéristique. On pense que les deux variables sont linéairement liées. Ainsi, 
nous nous efforçons de trouver une équation linéaire qui peut prédire une valeur de réponse 
(y) aussi précisément que possible par rapport aux caractéristiques ou à la variable dérivée 
indépendamment (x).

Considérons un jeu de données dans lequel nous avons un nombre de
réponses **y** par caractéristique **x** :

![image.png](attachment:c02697ba-1b35-4b8d-b392-797376d23dff.png)

Pour simplifier, on définit :

x comme **vecteur de caractéristiques**, c'est-à-dire x = \[x 1 , x 2
, x 3 , …., x n \],

y comme **vecteur de réponse**, c'est-à-dire y = \[y 1 , y 2 , y 3 ….,
y n \]

pour **n** observations (dans l'exemple ci-dessus, n = 10).
Un nuage de points de l'ensemble de données ci-dessus ressemble à : -


![image.png](attachment:cf8f5414-dfa5-4b08-bcee-982385d94c6d.png)

L'étape suivante consiste à identifier la ligne la plus appropriée
pour ce graphique en nuage de points afin que nous puissions anticiper
la réponse de toute nouvelle valeur pour une caractéristique.

(c'est-à-dire que la valeur de x n'est pas dans l'ensemble de données)
Cette droite est appelée droite de régression.

L'équation de la droite de régression peut être représentée comme suit
:

$$h(xi)=β0+β1Xi$$

Ici,

* oh(xi ) signifie la **valeur de réponse prédite** pour ième
* oβ0 et β1 sont des coefficients de régression et représentent respectivement **l'ordonnée** **à l'origine** et **la pente de la droite de régression.**

Afin de construire notre modèle, nous devons "apprendre" ou estimer la
valeur des coefficients de régression. Après avoir déterminé ces
coefficients, nous pouvons utiliser ce modèle pour prévoir la réponse
!

Dans ce didacticiel, nous allons utiliser le concept des **moindres
carrés.**

Considérons:

$$Yj =β0 + β1Xj + εj =h(xj)+ εj => εj =Yj - h(xj)$$

Ici, εj est une **erreur résiduelle** dans la jème observation.

Donc, notre objectif est de minimiser l'erreur résiduelle totale.


Nous avons défini la fonction de coût ou l'erreur quadratique, **J**
comme :

![image.png](attachment:7dede037-6984-4644-a012-69e4d0c2876c.png)

et notre mission est de trouver la valeur de β0 et β1 pour lequel J(β0
,β1 ) est minimum.

Sans entrer dans les détails mathématiques, nous présentons ci-dessous
le résultat :

![image.png](attachment:02db0ced-7a1b-4c79-af58-d02b6ea8c904.png)

Où, ssxy serait la somme des écarts croisés de "y" et "x":

![image.png](attachment:c5800f67-1dac-4568-b516-95e0656bceb7.png)

Et ssxx serait la somme des écarts au carré de "x"

![image.png](attachment:f6bfe1f2-6067-41c6-8025-8c8f98a283ec.png)

**Code :**

In [5]:
#code

### Sortie:

In [6]:
#sortie

## La régression linéaire multiple

Les tentatives de régression linéaire multiple expliquent comment les
relations existent entre plusieurs éléments, puis répondent en
appliquant une équation linéaire aux données. De toute évidence, ce
n'est rien de plus qu'une extension de la régression linéaire.

Imaginez un ensemble de données qui a une ou plusieurs
caractéristiques (ou variables indépendantes) ainsi qu'une réponse (ou
variable dépendante).

L'ensemble de données comprend également n lignes/observations
supplémentaires.

Nous définissons:  

**X** (Feature Matrix) = c'est une matrice de taille **"n \* p"** où
"x ij " représente les valeurs du jième attribut pour la ième
observation .

Donc,

![image.png](attachment:aa0e9dc6-9741-4027-b317-a48baff36135.png)

Et,  
**y** (vecteur de réponse) = C'est un vecteur de taille **n** où
**yi** représente la valeur de réponse pour la $i^{ème}$ observation.

![image.png](attachment:361ac994-312a-4e1c-b85c-d47d9fbdaa79.png)


La droite de régression pour les caractéristiques "p" est représentée
par :  
$$h(xi) = β0 + β1 Xi1 + β2 Xi2 + β3 Xi3 + … + βp Xip$$
Où h(x i ) est la valeur de réponse prévue pour le i ème point
d'observation et β0 , β1 , β2 ,....,βp sont les coefficients de
régression.

On peut aussi écrire :  
$$h(xi) = β0 + β1 Xi1 + β2 Xi2 + β3 Xi3 + … + βp Xip + εi$$ or
$$yi = h(xi) + εi => εi = yi – h(xi)$$
Où, εi représente l'erreur résiduelle au ième point d'observation.

Nous pouvons également généraliser un peu plus notre modèle linéaire
en représentant la matrice d'attributs de "X" comme :

![image.png](attachment:a16c4434-ee18-4c79-a92c-47619cf71022.png)

Par conséquent, le modèle linéaire peut être exprimé en termes de
matrices comme indiqué ci-dessous :

y=Xβ+ε

Où,

![image.png](attachment:6b87e8a7-5c19-4336-a552-585ec7f07a59.png)

Nous déterminons maintenant une estimation de β, c'est-à-dire ̂ avec un
algorithme appelé la méthode des moindres carrés. Comme mentionné
précédemment, cette méthode des moindres

carrés est utilisée pour trouver ̂ dans le cas où l'erreur résiduelle
total est minimisée.

Nous présenterons les résultats comme indiqué ci-dessous :

![image.png](attachment:491e27aa-3af6-4a9f-92a9-4b83b23e415f.png)

Où ́ est la transposée de la matrice X et ́-1 est l'inverse de la
matrice ́.

A l'aide des plus moindres carrées ̂, le modèle de régression
multilinéaire est maintenant calculé par :

![image.png](attachment:20608832-31a2-4d63-81ba-627c621d516e.png)

où ̂ est le vecteur de réponse estimé.

**Code :**

In [7]:
#code

In [8]:
#sortie

Dans l'exemple ci-dessus, nous calculons le score de précision à
l'aide du score de variance expliqué.

Nous définissons:

![image.png](attachment:2455dbc0-961b-49b6-911d-7c0296c3c52e.png)

où ̂ est la cible de sortie estimée, et Var est la variance, qui est
le carré de l'écart type.

Le score le plus idéal est de 1,0. Les scores inférieurs sont pires.

## Hypothèses:

Voici les principales hypothèses sur lesquelles repose le modèle de
régression linéaire en ce qui concerne l'ensemble de données sur la
base duquel il est utilisé :

* **Relations linéaires** : la relation entre les variables de
caractéristique et de réponse doit
être linéaire. L'hypothèse de linéarité est testée à l'aide de nuages
de points. Comme
nous pouvons le voir, la 1ère figure est une représentation de
variables linéairement
liées, alors que les variables des 3ème et 2ème figures sont
probablement non
linéaires. Ainsi, le 1er chiffre peut faire des prédictions plus
précises en utilisant la
régression linéaire.

![image.png](attachment:de69ab4f-0f14-42eb-9f55-c01fe86cf872.png)!
* **Peu ou pas de multicolinéarité :** est l'hypothèse qu'il y a peu ou
pas de multicolinéarité présente dans les données. La
multi-colinéarité se produit lorsque les caractéristiques (ou
variables indépendantes) ne sont pas indépendantes les unes des
autres.
* **Peu ou pas d'auto-corrélation :** une autre théorie pourrait être
qu'il n'y a pas beaucoup ou pas d'auto-corrélation dans les données.
L'autocorrélation se produit lorsque les erreurs résiduelles ne sont
pas indépendantes les unes des autres.
* **Homoscédasticité** : fait référence à un cas où les erreurs sont un
facteur (c'est-à-dire le "bruit" ou la perturbation aléatoire dans la
relation entre les variables indépendantes et les variables
dépendantes) qui reste le même pour toutes les variables
indépendantes. La figure 1 est homoscédastique, tandis que la figure 2
affiche une hétéroscédasticité.

![image.png](attachment:c56d267f-a5ea-45c9-ae1e-b4ab87192fef.png)!

À la fin du didacticiel, nous aborderons certaines des applications de
la régression linéaire.

## Applications:

Voici les domaines d'applications basés sur la régression linéaire :

* **Lignes de tendance :** illustrent les changements dans la quantité
de données au fil du temps (comme le PIB ou les prix du pétrole, par
exemple.). Ils ont généralement une connexion linéaire. Par
conséquent, la régression linéaire pourrait être utilisée pour prédire
la valeur future. Cependant, la méthode n'est pas en mesure de
répondre aux exigences de crédibilité scientifique dans des situations
où d'autres changements possibles peuvent altérer les données.

* **Économie :** la régression linéaire est le principal outil utilisé
en économie. Il peut être utilisé pour prédire le montant des dépenses
des consommateurs et des dépenses d'investissement fixes dans les
stocks, les achats d'exportations d'un pays, les dépenses
d'importation, la demande de stockage de liquidités, la demande de
main-d'œuvre et l'offre.

* **Financier :** Un modèle d'actifs à valeur en capital utilise la
régression linéaire pour étudier et quantifier les facteurs de risque
de l'investissement.

* **Biologie** : La régression linéaire est une méthode pour expliquer
les relations causales entre les variables dans les systèmes
biologiques.

# Arbres de Décision 

Un arbre de décision est l'un des algorithmes d'apprentissage
automatique supervisé les plus fréquemment et largement utilisés qui
peut effectuer à la fois des tâches de régression et de
classification. L'intuition derrière l'algorithme de l'arbre de
décision est simple, mais aussi très puissante.

Pour chaque attribut de l'ensemble de données, l' algorithme d'arbre de
décision forme un nœud, où l'attribut le plus important est placé au
nœud racine. Pour l'évaluation, nous

commençons au nœud racine et descendons dans l'arborescence en suivant
le nœud correspondant qui répond à notre condition ou "décision". Ce
processus se poursuit jusqu'à ce qu'un nœud feuille soit atteint, qui
contient la prédiction ou le résultat de l'arbre de décision.

Cela peut sembler un peu compliqué au début, mais ce que vous ne
réalisez probablement pas, c'est que vous avez utilisé des arbres de
décision pour prendre des décisions toute votre vie sans même le
savoir. Considérez un scénario où une personne vous demande de lui
prêter votre voiture pour une journée et vous devez prendre la
décision de lui prêter ou non la voiture. Il existe plusieurs facteurs
qui aident à déterminer votre décision, dont certains sont énumérés
ci-dessous :
1. Cette personne est-elle un ami proche ou juste une connaissance ? Si la personne n'est qu'une connaissance, déclinez la demande ; si la personne est amie, passez à l'étape suivante.
1. La personne demande-t-elle la voiture pour la première fois ? Si
c'est le cas, prêtez- leur la voiture, sinon passez à l'étape
suivante.
1. La voiture a-t-elle été endommagée la dernière fois qu'ils ont rendu
la voiture ? Si oui, déclinez la demande ; sinon, prêtez-leur la
voiture.

L'arbre de décision pour le scénario susmentionné ressemble à ceci :

![image.png](attachment:bb742394-1660-4cb7-b4e6-89a6f0a2133b.png)


## Avantages des arbres de décision 

L'utilisation d'arbres de décision pour l'analyse prédictive présente
plusieurs avantages : 
1. Les arbres de décision peuvent être utilisés
pour prédire des valeurs continues et discrètes, c'est-à-dire qu'ils
fonctionnent bien pour les tâches de régression et de classification.

2. Ils nécessitent relativement moins d'efforts pour entraîner
l'algorithme.

3. Ils peuvent être utilisés pour classer des données non linéairement
séparables.

4. Ils sont très rapides et efficaces par rapport à et à d'autres
algorithmes de classification.

Implémentation d'arbres de décision avec Python Scikit Learn

sification et de régression à l'aide de l'arbre de décision.

Remarque : les tâches de classification et de régression ont été écutées dans un Jupyter iPython Notebook.
e

## 1. Arbre de décision pour la classification

Dans cette section, nous allons prédire si un billet de banque est
authentique ou faux en fonction des quatre attributs différents de
l'image du billet. Les attributs sont la variance de l'image
transformée en ondelettes, la courbure de l'image, l'entropie et
l'asymétrie de l'image.