# TP : Régression Linéaire Multiple - Prédiction du Profit

Ce notebook est structuré pour vous guider à travers les étapes de construction d'un modèle de prédiction de profit pour des startups.

## Objectif 1 : Préparer un jeu de donnée pour l’analyse

### Question 1.1
Importez les bibliothèques Python nécessaires (`numpy`, `matplotlib`, `pandas`) et chargez le dataset `50_Startups.csv`.

In [182]:
import numpy as np
import pandas as pd

df = pd.read_csv("./data/50_Startups.csv")


print(df.head())


   R&D Spend  Administration  Marketing Spend       State     Profit
0  165349.20       136897.80        471784.10    New York  192261.83
1  162597.70       151377.59        443898.53  California  191792.06
2  153441.51       101145.55        407934.54     Florida  191050.39
3  144372.41       118671.85        383199.62    New York  182901.99
4  142107.34        91391.77        366168.42     Florida  166187.94


In [183]:
X = df.iloc[:,:-1].values
print(X)


Y = df.iloc[:,4].values
print(Y)



[[165349.2 136897.8 471784.1 'New York']
 [162597.7 151377.59 443898.53 'California']
 [153441.51 101145.55 407934.54 'Florida']
 [144372.41 118671.85 383199.62 'New York']
 [142107.34 91391.77 366168.42 'Florida']
 [131876.9 99814.71 362861.36 'New York']
 [134615.46 147198.87 127716.82 'California']
 [130298.13 145530.06 323876.68 'Florida']
 [120542.52 148718.95 311613.29 'New York']
 [123334.88 108679.17 304981.62 'California']
 [101913.08 110594.11 229160.95 'Florida']
 [100671.96 91790.61 249744.55 'California']
 [93863.75 127320.38 249839.44 'Florida']
 [91992.39 135495.07 252664.93 'California']
 [119943.24 156547.42 256512.92 'Florida']
 [114523.61 122616.84 261776.23 'New York']
 [78013.11 121597.55 264346.06 'California']
 [94657.16 145077.58 282574.31 'New York']
 [91749.16 114175.79 294919.57 'Florida']
 [86419.7 153514.11 0.0 'New York']
 [76253.86 113867.3 298664.47 'California']
 [78389.47 153773.43 299737.29 'New York']
 [73994.56 122782.75 303319.26 'Florida']
 [67532

### Question 1.2
Encodez les données catégorielles (colonne 'State') en utilisant `LabelEncoder` et `OneHotEncoder`. 

In [184]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder


uniqueStates = df['State'].nunique()
print(uniqueStates)


3


In [185]:
# labelEnc = LabelEncoder()

# df['state_enc'] = labelEnc.fit_transform(df['State'])
# print(df)

# X[:,3] = labelEnc.fit_transform(X[:,3])
# print(X)


In [186]:
oneHotEnc = OneHotEncoder(sparse_output=False,max_categories=uniqueStates)

statesEncoded = oneHotEnc.fit_transform(df[['State']])

# print(statesEncoded)


X_states = oneHotEnc.fit_transform(X[:,[3]])

X = np.append( values=np.delete(X, 3, axis=1),arr=X_states, axis=1)

print(X)


[[0.0 1.0 0.0 165349.2 136897.8 471784.1]
 [1.0 0.0 0.0 162597.7 151377.59 443898.53]
 [0.0 0.0 1.0 153441.51 101145.55 407934.54]
 [0.0 1.0 0.0 144372.41 118671.85 383199.62]
 [0.0 0.0 1.0 142107.34 91391.77 366168.42]
 [0.0 1.0 0.0 131876.9 99814.71 362861.36]
 [1.0 0.0 0.0 134615.46 147198.87 127716.82]
 [0.0 0.0 1.0 130298.13 145530.06 323876.68]
 [0.0 1.0 0.0 120542.52 148718.95 311613.29]
 [1.0 0.0 0.0 123334.88 108679.17 304981.62]
 [0.0 0.0 1.0 101913.08 110594.11 229160.95]
 [1.0 0.0 0.0 100671.96 91790.61 249744.55]
 [0.0 0.0 1.0 93863.75 127320.38 249839.44]
 [1.0 0.0 0.0 91992.39 135495.07 252664.93]
 [0.0 0.0 1.0 119943.24 156547.42 256512.92]
 [0.0 1.0 0.0 114523.61 122616.84 261776.23]
 [1.0 0.0 0.0 78013.11 121597.55 264346.06]
 [0.0 1.0 0.0 94657.16 145077.58 282574.31]
 [0.0 0.0 1.0 91749.16 114175.79 294919.57]
 [0.0 1.0 0.0 86419.7 153514.11 0.0]
 [1.0 0.0 0.0 76253.86 113867.3 298664.47]
 [0.0 1.0 0.0 78389.47 153773.43 299737.29]
 [0.0 0.0 1.0 73994.56 122782.75 3

### Question 1.3
Supprimez la première colonne du dummy variable pour éviter le 'Dummy Variable Trap'.

In [187]:

X = X[:,1:]

print(X)

[[1.0 0.0 165349.2 136897.8 471784.1]
 [0.0 0.0 162597.7 151377.59 443898.53]
 [0.0 1.0 153441.51 101145.55 407934.54]
 [1.0 0.0 144372.41 118671.85 383199.62]
 [0.0 1.0 142107.34 91391.77 366168.42]
 [1.0 0.0 131876.9 99814.71 362861.36]
 [0.0 0.0 134615.46 147198.87 127716.82]
 [0.0 1.0 130298.13 145530.06 323876.68]
 [1.0 0.0 120542.52 148718.95 311613.29]
 [0.0 0.0 123334.88 108679.17 304981.62]
 [0.0 1.0 101913.08 110594.11 229160.95]
 [0.0 0.0 100671.96 91790.61 249744.55]
 [0.0 1.0 93863.75 127320.38 249839.44]
 [0.0 0.0 91992.39 135495.07 252664.93]
 [0.0 1.0 119943.24 156547.42 256512.92]
 [1.0 0.0 114523.61 122616.84 261776.23]
 [0.0 0.0 78013.11 121597.55 264346.06]
 [1.0 0.0 94657.16 145077.58 282574.31]
 [0.0 1.0 91749.16 114175.79 294919.57]
 [1.0 0.0 86419.7 153514.11 0.0]
 [0.0 0.0 76253.86 113867.3 298664.47]
 [1.0 0.0 78389.47 153773.43 299737.29]
 [0.0 1.0 73994.56 122782.75 303319.26]
 [0.0 1.0 67532.53 105751.03 304768.73]
 [1.0 0.0 77044.01 99281.34 140574.81]
 [0

### Question 1.4
Fractionnez les données en un ensemble d'apprentissage (`X_train`, `y_train`) et un ensemble de test (`X_test`, `y_test`) avec un ratio de 20% pour le test.

In [None]:
from sklearn.model_selection import train_test_split

X_train,Y_train,X_test,Y_test = train_test_split(X,Y,test_size=.2,random_state=0)


## Objectif 2 : Construire un modèle de prédiction

### Question 2.1
Ajustez le modèle de régression linéaire multiple (`LinearRegression`) aux données d'apprentissage.

### Question 2.2
Prédisez les résultats de l'ensemble de test et affichez les valeurs prédites (`y_pred`) face aux valeurs réelles (`y_test`).

## Objectif 3 : Optimisation du modèle (Backward Elimination)

### Question 3.1
Ajoutez une colonne de 1 à votre matrice `X` pour prendre en compte la constante $b_0$ dans le modèle `statsmodels`.

### Question 3.2
Réalisez l'élimination arrière (Backward Elimination) étape par étape en éliminant les variables ayant une P-value supérieure à 0.05. Affichez le résumé (`summary`) à chaque étape.

## Objectif 4 : Prédiction finale

### Question 4.1
Utilisez le modèle optimal final pour prédire le profit d'une nouvelle entrée avec les caractéristiques suivantes : `[1, 66051.5, 118148]`.