---
jupyter:
  jupytext:
    text_representation:
      extension: .md
      format_name: markdown
      format_version: '1.3'
      jupytext_version: 1.16.0
  kernelspec:
    display_name: Python 3
    language: python
    name: python3
---

<!-- #region id="eb0dad00" -->
# Table des matières
- [Exemples de régression multilinéaire avec variable catégorielle](#exemples-de-régression-multilinéaire-avec-variable-catégorielle)
        - [Une approche par petits pas](#une-approche-par-petits-pas)
  - [Lecture des données](#lecture-des-données)
      - [Lecture et affichage de la base de données '50_Startups.csv'.](#lecture-et-affichage-de-la-base-de-données-50_startupscsv)
  - [Partie I: Recalage linéaire simple n'incluant pas la variable catégorielle State](#partie-i-recalage-linéaire-simple-nincluant-pas-la-variable-catégorielle-state)
      - [Séparons les variables X et la réponse y de la base de données.](#séparons-les-variables-x-et-la-réponse-y-de-la-base-de-données)
      - [Affichage des premières lignes des variables X.](#affichage-des-premières-lignes-des-variables-x)
      - [Séparation des données en un ensemble d'entraînement ($80~\%$ des données) et de test ($20~\%$ des données)](#séparation-des-données-en-un-ensemble-dentraînement-80-des-données-et-de-test-20-des-données)
      - [Normalisation  des données](#normalisation--des-données)
      - [Entrainons le modèle de régression linéaire.](#entrainons-le-modèle-de-régression-linéaire)
      - [Calculons la réponse prédite pour les données de test.](#calculons-la-réponse-prédite-pour-les-données-de-test)
      - [Calcul de la métrique $R^2$ à partir des vraies valeurs et les valeurs prédites pour les données de test.](#calcul-de-la-métrique-r%5E2-à-partir-des-vraies-valeurs-et-les-valeurs-prédites-pour-les-données-de-test)
    - [Affichage des résultats](#affichage-des-résultats)
      - [Affichage des coefficients du modèle et de la métrique $R^2$.](#affichage-des-coefficients-du-modèle-et-de-la-métrique-r%5E2)
      - [Interprétation des résultats](#interprétation-des-résultats)
      - [Comparaison des profits réels et prédits](#comparaison-des-profits-réels-et-prédits)
  - [Partie II: Recalage linéaire simple incluant la variable catégorielle State](#partie-ii-recalage-linéaire-simple-incluant-la-variable-catégorielle-state)
      - [Séparons les variables X et la réponse y de la base de données.](#séparons-les-variables-x-et-la-réponse-y-de-la-base-de-données-1)
      - [Génération des variables nominales](#génération-des-variables-nominales)
      - [Affichage des premières lignes des variables X.](#affichage-des-premières-lignes-des-variables-x-1)
    - [Affichage des résultats](#affichage-des-résultats-1)
      - [Affichage des coefficients du modèle et de la métrique $R^2$.](#affichage-des-coefficients-du-modèle-et-de-la-métrique-r%5E2-1)
      - [Interprétation des résultats](#interprétation-des-résultats-1)
      - [Comparaison des profits réels et prédits](#comparaison-des-profits-réels-et-prédits-1)
        - [Prédiction d'une valeur unique](#prédiction-dune-valeur-unique)
<!-- #endregion -->

<!-- #region id="d6d57a4b" -->
---
# Exemples de régression multilinéaire avec variable catégorielle
---
<!-- #endregion -->

<!-- #region id="ba55f0f4" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/importance-of-crowd-funding.png"  width="600" />
    <div>
    <font size="0.5">Image Source: https://www.finsmes.com/2019/06/the-importance-of-crowdfunding.html/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="7a046863" -->
Dans cette section, nous allons montrer quelques exemples d'applications des modèles de régression décrits
dans la section sur la théorie de la régression multilinéaire.

Nous allons utiliser la base de données suivante provenant du
site de Kaggle:   https://www.kaggle.com/amineoumous/50-startups-data.

Elle liste les profits de 50 compagnies jeunes-pousses (*startups*) uniformément réparties dans
les états de New York, de la Californie et de la Floride. Elle contient les variables suivantes:


- R&D Spend: dépenses investies en recherche et développement,
- Administration: frais d'administration,
- Marketing Spend: dépenses investies en marketing,
- State: localisation géographique (New York, California, Florida).

Les trois premières sont continues alors que la quatrième est catégorielle. On voudrait prédire les profits
des compagnies en fonction de ces variables.

##### Une approche par petits pas

Puisqu'il n'existe pas de modèle analytique exact dans ce type de problème, nous allons utiliser
des modèles linéaires pour analyser les données. Bien que très simples, ils se sont souvent révélés utiles
pour analyser des données financières. De plus, leur simplicité facilite l'interprétation des résultats et
l'identification des variables les plus importantes.

Dans ce qui suit, nous allons utiliser deux modèles linéaires de complexité croissante. Le premier modèle
n'utilise que les variables continues. Le second modèle les inclut toutes. On y verra
comment intégrer des variables catégorielles à l'analyse. Il faut savoir qu'une grande part des problèmes en apprentissage automatique
utilisent des données de différents types; numériques, ordinales et catégorielles. Il faut apprendre à les utiliser
correctement. Ce point important est discuté dans le module sur le prétraitement des données. Nous allons en donner
un exemple simple d'utilisation dans ce qui suit.

Modèle I: on n'utilise que les variables numériques
$$Profit \approx a_{0} + a_{1}R\&D + a_{2}Administration + a_{3}Marketing$$

Modèle II: On rajoute la variable catégorielle associée à la position géographique
$$Profit \approx a_{0} + a_{1}R\&D + a_{2}Administration + a_{3}Marketing + a_{4}Florida + a_{5}NewYork$$

Puisque la variable State contient trois catégories; elle peut être convertie en deux variables
nominales Florida et New York. Les variables nominales étant mutuellement exclusives, nous n'avons pas
besoin d'inclure une variable California, car elle est sélectionnée par élimination lorsque
Florida=0 et New York=0.

<!-- #endregion -->



In [None]:
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(color_codes=True)

%matplotlib inline

# Pour la reproductibilité des résultats
np.random.seed(seed)



<!-- #region id="693e542d" -->
## Lecture des données

#### Lecture et affichage de la base de données '50_Startups.csv'.

La dernière colonne correspond aux profits des
compagnies (en k\~\$). C'est la réponse $y$ que l'on veut prédire
à partir des variables $X$ dans les colonnes précédentes. Notez que les trois premières variables contiennent des
valeurs numériques continues alors que la quatrième (State) est catégorielle et contient les noms d'état.

<!-- #endregion -->



In [None]:
# Lecture de la base de données en format CSV.
dataset = pd.read_csv('/pax/shared/GIF-U014/50_Startups.csv')

# Affichage des cinq premières lignes du fichier.
dataset.head()



<!-- #region id="f8143126" -->
## Partie I: Recalage linéaire simple n'incluant pas la variable catégorielle State

Dans ce premier exemple, le modèle n'utilise que les variables numériques *R&D Spend*, *Administration*
et *Marketing Spend*.

Le modèle recalé a ainsi quatre paramètres et est de la forme:

$$Profit = a_{0} + a_{1}R\&D + a_{2}Administration + a_{3}Marketing$$

#### Séparons les variables X et la réponse y de la base de données.
<!-- #endregion -->



In [None]:
X = dataset.iloc[:, :-1]
y = dataset.iloc[:, 4]

# Élimination de l'information géographique
X = X.drop('State', axis=1)



<!-- #region id="4df2d689" -->
#### Affichage des premières lignes des variables X.
<!-- #endregion -->



In [None]:
print('\nVariables utilisées (cinq premières lignes des données) :\n')
print(X.head())



<!-- #region id="869ba320" -->
Seules trois colonnes apparaissent puisque les variables nominales ne sont pas utilisées.

#### Séparation des données en un ensemble d'entraînement ($80~\%$ des données) et de test ($20~\%$ des données)

Les données d'entraînement vont servir à entraînement le modèle de régression. C'est-à-dire, à estimer les valeurs des
paramètres $a_0, a_1, a_2, a_3$. Les données de test vont ensuite servir à mesurer les performances du modèle entrainé à prédire correctement les profits.
<!-- #endregion -->



In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)



<!-- #region id="92ce758f" -->
#### Normalisation  des données

La normalisation a pour effet de mettre toutes les variables $x_i$ sur un même pied d'égalité. Les différences d'unités de mesure et d'échelle de grandeur sont éliminées. La normalisation est expliquée plus en détail dans un des modules sur le prétraitement des données.

Il faut sélectionner une fonction de normalisation et l'entraînement avec les données d'**entraînement**. On peut ensuite l'appliquer aux données de **test**.

Selon la méthode StandardScaler, chaque colonne $x_i$ de la matrice $X$ est transformée de la façon suivante

$$x'_i = \dfrac{x_i-\mu_i}{\sigma_i}$$

où $\mu_i$ et $\sigma_i$ sont la moyenne et l'écart-type des valeurs de $x_i$ calculées avec les données d'**entraînement**.

<!-- #endregion -->



In [None]:
norm = StandardScaler()
X_train = norm.fit_transform(X_train)
X_test = norm.transform(X_test)



<!-- #region id="b08f4813" -->
#### Entrainons le modèle de régression linéaire.
<!-- #endregion -->



In [None]:
reg = LinearRegression()
reg.fit(X_train, y_train);



<!-- #region id="e4682097" -->
#### Calculons la réponse prédite pour les données de test.
<!-- #endregion -->



In [None]:
y_pred = reg.predict(X_test)



<!-- #region id="f632f7db" -->
#### Calcul de la métrique $R^2$ à partir des vraies valeurs et les valeurs prédites pour les données de test.
<!-- #endregion -->



In [None]:
score = r2_score(y_test, y_pred)



<!-- #region id="401d583a" -->
### Affichage des résultats

#### Affichage des coefficients du modèle et de la métrique $R^2$.
<!-- #endregion -->



In [None]:
print("Coefficients: \n")
print("\t a_{0} = %f\n" % (reg.intercept_))
for i, coeff in enumerate(reg.coef_):
    print("\t a_{%d} = %f\n" % (i + 1, reg.coef_[i]))
print("\nMétrique R2:  %0.1f %%\n" % (100 * score))



<!-- #region id="be2eb45d" -->
#### Interprétation des résultats

Selon la métrique $R^2$, ce premier modèle explique $93,9~\%$ de l'information dans les données.

On voit que $a_1 > a_3 > a_2$ et qu'ils sont tous positifs. Ainsi, les variables en ordre d'importance sont


- R&D Spend: dépenses investies en recherche et développement,
- Marketing Spend: dépenses investies en marketing,
- Administration: frais d'administration.


Plus les dépenses sont importantes, meilleurs sont les profits. Celles en recherche et développement,
suivies de celles en marketing, sont les plus importantes. Celles en administration contribuent aussi, car
il faut engager plus de personnel pour faire de la R et D et du marketing.

Attention toutefois, on observe des corrélations entre les variables, mais pas nécessairement des liens de causalité! En effet, est-ce qu'une compagnie faisant plus de profits investit plus en R et D ou est-ce que ce sont plutôt les investissements en R et D qui mènent à plus de profits?

Autre point important. Il est possible que la base de données ne contienne que des données provenant de
compagnies jeunes-pousses ayant survécu à leurs premières années. Il y a donc un effet de sélection et les conclusions qu'on est tentés de tirer peuvent être biaisées. Elles ne s'appliqueraient alors qu'aux compagnies **ayant survécu à leurs premières années!**

#### Comparaison des profits réels et prédits

<!-- #endregion -->



In [None]:
# Conversion en k$
y_test = y_test / 1000
y_pred = y_pred / 1000

fig = plt.figure(figsize=(8, 6))
plt.plot(y_test, y_pred, 'o')
plt.plot(y_test, y_test, '-r', label='Prédiction parfaite')
plt.title("Modèle n'utilisant pas l'information géographique", fontsize=16)
plt.xlabel('Profit réel (k$)', fontsize=16)
plt.ylabel('Profit prédit (k$)', fontsize=16)
plt.legend()
fig.tight_layout()
plt.show()



<!-- #region id="b5934bf3" -->
Bien que le modèle linéaire utilisé soit simple, ses prédictions sont plutôt bonnes comme le montre l'adéquation entre les
valeurs prédites et les valeurs réelles de test. Les points sont bien répartis le long de la droite de prédiction parfaite.

## Partie II: Recalage linéaire simple incluant la variable catégorielle State

Dans ce second exemple, le modèle utilise l'information géographique contenue dans la variable State de la base de données.
Il y a maintenant cinq variables utilisées lors du recalage, soient les trois numériques et les deux nominales.

Le modèle recalé a six paramètres et est de la forme:

$$Profit = a_{0} + a_{1}R\&D + a_{2}Administration + a_{3}Marketing + a_{4}Florida + a_{5}NewYork$$

#### Séparons les variables X et la réponse y de la base de données.
<!-- #endregion -->



In [None]:
X = dataset.iloc[:, :-1]
y = dataset.iloc[:, 4]



<!-- #region id="ade5ba67" -->
#### Génération des variables nominales

Puisqu'on utilise l'information géographique contenue dans la variable State, il faut convertir la variable
State={New York, California, Florida} en deux variables nominales Florida et New York. Les variables
nominales étant mutuellement exclusives, nous n'avons pas besoin d'inclure une variable California,
car elle est sélectionnée par élimination lorsque Florida=0 et New York=0.

Si l'on utilisait trois variables nominales au lieu de deux, on aurait un jeu de variables corrélées
entre elles puisque la valeur de la variable California se déduit de celles de Floride et New York.
Plusieurs méthodes de régressions sont sensibles au problème de covariance entre les données.
C'est une leçon importante à retenir.

On utilise la fonction
[get_dummies](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html) de la librairie Pandas.

<!-- #endregion -->



In [None]:
states = pd.get_dummies(X['State'], drop_first=True)

X = X.drop('State', axis=1)
X = pd.concat([X, states], axis=1)



<!-- #region id="384298d3" -->
#### Affichage des premières lignes des variables X.
<!-- #endregion -->



In [None]:
print('\nVariables utilisées (cinq premières lignes des données) :\n')
print(X.head())



<!-- #region id="aadd8007" -->
Il y a maintenant cinq colonnes puisque les variables nominales sont utilisées. Il y a plusieurs
ordres de grandeur entre les différentes variables; raison de plus pour normaliser les données.

La section de code suivante traite de l'entraînement et du test du modèle de régression. Elle est identique à celle
utilisée pour le premier modèle. Elle est répétée ici sous forme plus condensée.
<!-- #endregion -->



In [None]:
# Séparation des données en un ensemble d'entraînement (80 % des données) et
# de test (20 % des données)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Sélectionnons une fonction de normalisation et entrainons-la avec les
# données d'entraînement
norm = StandardScaler()
X_train = norm.fit_transform(X_train)
X_test = norm.transform(X_test)

# Entraînement du modèle de régression linéaire sans interaction
reg = LinearRegression()
reg.fit(X_train, y_train)

# Calculons la réponse prédite pour les données de test.
y_pred = reg.predict(X_test)

# Calcul de la métrique R2 à partir des vraies valeurs et les valeurs prédites
# pour les données de test.
score = r2_score(y_test, y_pred)



<!-- #region id="91d84352" -->
### Affichage des résultats

#### Affichage des coefficients du modèle et de la métrique $R^2$.
<!-- #endregion -->



In [None]:
print("Coefficients: \n")
print("\t a_{0} = %f\n" % (reg.intercept_))
for i, coeff in enumerate(reg.coef_):
    print("\t a_{%d} = %f\n" % (i + 1, reg.coef_[i]))
print("\nMétrique R2:  %0.1f %%\n" % (100 * score))



<!-- #region id="a2f9dc03" -->
#### Interprétation des résultats

Selon la métrique $R^2$, le second modèle explique $93,5~\%$ de l'information dans les données. C'est légèrement inférieur
au modèle précédent, mais probablement dû à des fluctuations statistiques. Les résultats sont essentiellement comparables.

Les principales variables en ordre d'importance n'ont pas changé:


- R&D Spend,
- Marketing Spend,
- Administration.


On voit que les valeurs de $\alpha_{4}$ et $\alpha_{5}$ sont faibles par rapport aux autres. Ainsi, l'effet
géographique est moins important que même les dépenses en administration!

Comment interpréter les signes de $\alpha_{4}$ (Floride) et $\alpha_{5}$ (New York)? La variable nominale
qui n'apparaît pas, la Californie, sert de référence. L'interprétation est la suivante:


- $\alpha_{4}<0$ signifie que les profits diminuent si l'on investit en Floride plutôt qu'en Californie,
- $\alpha_{5}>0$ signifie que les profits augmentent si l'on investit à New York plutôt qu'en Californie.


Attention encore une fois; il faut se rappeler que des corrélations entre les variables n'impliquent pas nécessairement des liens de causalité. Peut-être que les taxes sont différentes entre les états. Les différences de profit ne seraient pas expliquées par une meilleure performance des compagnies de New York, mais simplement dues à des taxes plus faibles dans cet état.

#### Comparaison des profits réels et prédits
<!-- #endregion -->



In [None]:
# Conversion en k$
y_test = y_test / 1000
y_pred = y_pred / 1000

fig = plt.figure(figsize=(8, 6))
plt.plot(y_test, y_pred, 'o')
plt.plot(y_test, y_test, '-r', label='Prédiction parfaite')
plt.title("Modèle utilisant l'information géographique", fontsize=16)
plt.xlabel('Profit réel (k$)', fontsize=16)
plt.ylabel('Profit prédit (k$)', fontsize=16)
plt.legend()
fig.tight_layout()
plt.show()



<!-- #region id="4f992627" -->
Les prédictions du second modèle sont aussi bonnes que pour le premier modèle, plus simple.

##### Prédiction d'une valeur unique

Jusqu'à maintenant, on a effectué des prédictions sur les ensembles d'entraînement et de test
qui contenaient les données de plusieurs compagnies. Voici comment le faire pour une compagnie à la fois.

Quel serait le profit d'une compagnie californienne ayant investi 50 k\~\$ en R et D, 200 k\~\$ en marketing
et 150 k\~\$ en administration?

> À noter que le cas de la Californie correspond à Florida=0 et New York=0.
<!-- #endregion -->



In [None]:
X0 = pd.DataFrame(
    {
        'R&D Spend': 50000,
        'Administration': 150000,
        'Marketing Spend': 20000,
        'Florida': 0,
        'New York': 0,
    },
    index=[0],
)

# Normalisation des données
X0_n = norm.transform(X0)

# Prédiction du profit
y0 = reg.predict(X0_n)

print("\t Profits = %0.1f k$" % (y0 / 1000))
