# Le prix du vin

Ce problème reprend des données et un  modèle ayant donné lieu à une intense polémique : en mars 1990, Orley Ashenfelter, un professeur d'économie de Princeton publie un article affirmant que l'on peut prédire la qualité du vin, et son prix, sans même le goûter, à partir d'une formule mathématique. Scandale chez les experts de l’œnologie : *“Ashenfelter is an absolute
total sham”* ou *“rather like a movie critic who
never goes to see the movie but
tells you how good it is based on
the actors and the director”*. Dans les faits, la *“Bordeaux-formula”* donne des résultats intéressants qui parfois dépassent les prévisions des experts. L'approche analytique est maintenant lentement adoptée par la communauté. Vous pourrez lire sur data-business.fr un [article](http://www.data-business.fr/statistiques-prediction-qualite-prix-vin-parker-ashenfelter/) à ce sujet. 

**Les données** : ces données proviennent du site de Ashenfelter,  [Liquid Assets](http://www.liquidasset.com/winedata.html).

- la variable dépendante : le prix de vente (une approximation de la qualité du vin) en 1990
- variables indépendantes (prédicteurs)
  - Age (en général les vins les plus anciens sont plus chers)
  - Température moyenne pendant la croissance (*Average Growing Season Temperature* : AGST)
  - Précipitations pendant l'été, *Harvest Rain*
  - Précipitations pendant l'hiver,  *Winter Rain*
  - La population française

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf
import matplotlib.pyplot as plt
import seaborn as sns
#
from LinearRegression_in_Python_like_in_R import lm, summary

In [None]:
%matplotlib inline

La librairie `LinearRegression_in_Python_like_in_R` a été développée pour ce TP et vous permet d'utiliser *grosso modo* les mêmes méthodes qu'en R. Vous pourrez consulter avec intérêt le code source. 
Pour créer un modèle de régression linéaire, il vous suffit de faire des opérations similaires à
```
>> model = lm('response ~ predictor1 + predictor2)
```
Vous disposerez ensuite de méthodes pour obtenir le résultat et les performances `model.summary()` ou `summary(model)`, pour afficher les graphes de diagnostic `model.plot()`. 
Pour tracer des scatter plots, vous pourrez par exemple utiliser la méthode `sns.scatterplot()` de la librairie seaborn. 

**Question 1.** Lire le fichier `wine.csv` (utiliser par exemple `pd.read_csv`). Utiliser les méthodes `info` et `describe` pour examiner quelles sont les caractéristiques des variables disponibles. Tracer le logarithme du prix de vente en fonction de AGST d'une part puis de HarvestRain. Qu'en déduisez-vous sur les relations entre ces variables ? 

In [None]:
#wine =

**Question 2.** Quel est le modèle *baseline* ou par défaut ? Effectuer une première régression `model1` du Prix en fonction de AGST. Utiliser pour cela la fonction `lm`. Calculer le RSS pour ce modèle et comparez le au modèle baseline (il s'agit alors du TSS). Vous pourrez obtenir les résultats pour le modèle *baseline* `model0`, si besoin, en effectuant la régression `Price ~ 1`. Déduisez-en le R2 du modèle, et comparez le à celui qui est fourni par la sortie `summary(model1)`.

In [None]:
# model1 =

Calcul du RSS:

In [None]:
# RSS =

Modèle *Baseline*

In [None]:
# model0 =

In [None]:
# TSS =

On en déduit le R2:

In [None]:
R2 = (TSS - RSS) / TSS
print("R2=", R2)

**Question 3.** Ajouter la nouvelle variable indépendante `HarvestRain` pour un nouveau modèle `model2`. Considérez la nouvelle valeur du R2 : le modèle est il amélioré, cette variable est-elle significative ?  Donner à nouveau la valeur du RSS. 

In [None]:
# model2 =

Encore le RSS

In [None]:
# RSS =

**Question 4.** Construire maintenant un modèle avec l'ensemble des variables disponibles.Vous supprimerez la variable  `Year`, qui est redondante avec `Age` par la commande  `wine.drop('Year', axis=1, inplace=True)`. Examiner quelles sont-les $p$-values des différents prédicteurs. Quelles sont a priori les variables à conserver ? Noter quelle est la valeur du Adjusted-R2. 

In [None]:
wine.drop('Year', axis=1, inplace=True)

In [None]:
# model3 =

In [None]:
# SSE =

**Question 5.** Construire un nouveau modèle `model4` en supprimant les variables non sigificatives. Commencez par supprimer uniquement `FrancePop`. Comment évolue le modèle ? 

In [None]:
# model4 =

**Question 6.** Examiner quels sont les liens entre `Age` et `FrancePop`. Pour cela, tracer les l'un en fonction de l'autre. Vous pourrez utiliser `sns.scatterplot` ou `plt.plot`.

Une autre manière de procéder peut être de tracer toutes les inter-relations en utilisant la fonction `sns.pairplot`. Enfin, calculer et afficher les différentes corrélations, méthode `corr()` d'un dataframe 

**Question 7.** Comme les deux variables `FrancePop` et `Age` étaient annoncées comme non significatives, supprimer ces deux variables du modèle `model5`. Comment évoluent alors les performances ? Faut-il maintenir l'une des variables et dans l'affirmative laquelle ?

In [None]:
# model5 =

**Question 8.**  Il s'agit enfin de prédire le prix de vente pour les années 1979 et 1980. Ces données sont fournies dans le fichier `wine_test.csv`, que vous chargerez. Vous effectuerez la prédiction method `predict`. 

Pour les intervalles de confiance, vous utiliserez les commandes
```
res = model1.get_prediction(newdata)
res.summary_frame()
```

Une explication de la différence entre ces deux types d'intervalles [ici](http://stats.stackexchange.com/questions/16493/difference-between-confidence-intervals-and-prediction-intervals).

Enfin, comparer ces deux résultats aux valeurs exactes.

In [None]:
# wineTest =

In [None]:
res = model4.get_prediction(wineTest)
res.summary_frame()

In [None]:
# predictTest =

Avec les vraies valeurs qui sont :

In [None]:
wineTest.Price