# Housing prices in Boston : utilisation de l'interface graphique d'OpenTURNS


This dataset contains information collected by various sources concerning housing in the area of Boston Mass in 1970. The sources are the U.S Census Service, FBI and other sources. The dataset contains 506 cases. 

There are 14 variables:

* CRIM : per capita crime rate by town
* ZN : proportion of residential land zoned for lots over 25,000 sq.ft. (high value restricts construction of small lot houses)
* INDUS : proportion of non retail business acres per town (measures the impact of noise, heavy traffic and visual effects)
* CHAS : Charles River dummy variable (1 if tract bounds river; 0 otherwise). Captures the amenities of a riverside location.
* NOX : nitric oxides concentration (parts per 10 million) (measures air pollution)
* RM : average number of rooms per dwelling (measures the spaciousness)
* AGE : proportion of owner occupied units built prior to 1940 (related to structure quality)
* DIS : weighted distances to five Boston employment centres
* RAD : index of accessibility to radial highways
* TAX : full value property tax rate per 10,000 US Dollars (measures the cost of public services)
* PTRATIO : pupil teacher ratio by town (measures public sector benefits in each town)
* B : $1000(Bk - 0.63)^2$ US Dollars where Bk is the proportion of blacks by town
* LSTAT : percent lower status of the population (proportion of adults without some high school education and proportion of male workers classified as laborers)
* MEDV : median value of owner occupied homes in 1,000 US Dollars

The classical goal is to predict MEDV depending on the first 13 variables.

## Reference

* Regression Analysis with Python, Luca Massaron, Alberto Boschetti, Packt Publishing
* Harrison, Jr., David, Rubinfeld, Daniel L. (1978/03)."Hedonic housing prices and the demand for clean air." Journal of Environmental Economics and Management 5(1): 81-102. 
* Belsley, Kuh & Welsch, "Regression diagnostics: Identifying Influential Data and Sources of Collinearity", Wiley, 1980. 244-261.
* Quinlan,R. (1993). Combining Instance-Based and Model-Based Learning. In Proceedings on the Tenth International Conference of Machine Learning, 236-243, University of Massachusetts, Amherst. Morgan Kaufmann.

## Description

On souhaite analyser les données du fichier suivant dans l'interface graphique.

    Housing-prices-Boston.csv

L'objectif de cette étude est de déterminer quels facteurs sont les plus influents sur le prix d'une maison dans la réunion de Boston en 1978. Pour cela, nous proposons d'utiliser des outils d'exploration graphique interactive, ainsi que des méthodes d'analyse de sensibilité.

Dans l'interface graphique, créer une nouvelle étude, puis sélectionner "Modèle de données".

<img src="Boston-new-datamodel.PNG" width="600">

Dans le diagramme d'utilisation, sélectionner "Définition du modèle".

<img src="Boston-diagram.PNG" width="400">

Sélectionner le fichier suivant sur votre disque :

    Housing-prices-Boston.csv

<img src="Boston-select-CSV.PNG" width="400">

Dans l'arbre d'étude, choisissez l'élément "Définition" et, avec le bouton droit de la souris, choisissez "Analyse de données".

<img src="Boston-analyse-donnees.PNG" width="400">


## Exercice 1 : analyse du modèle de données

* Quelles sont les principales caractéristiques de l'échantillon des prix des maisons ?
* Quelle est la distribution des prix des maisons ? Quelles sont ses caractéristiques ?
* Analyser les boxplots : quelles sont les variables qui sont associées à des données qui ne sont pas gaussiennes du tout ?
* Analyser la matrice de dépendance des coefficients de corrélation de Spearman. 
  * Quelles sont les variables qui semblent moins dépendantes ? 
  * Quelles sont les variables qui semblent plus dépendantes ?
  * Peut-on utiliser les indices de sensibilité de Sobol' dans cette situation ?
* Analyser le cobweb.
  * Quelles sont les variables qui sont associées à une discrétisation des valeurs ?
  * Quelles sont les variables qui semblent mener à des prix MEDV élevés ?

## Solution de l'exercice 1 : analyse du modèle de données

Les principales caractéristiques du prix d'une maison sont les suivantes.

| Statistique | MEDV (1000\$) |
|---|---|
| Min | 5 |
| Max | 50 |
| Moyenne | 22.5328 |
| Écart type | 9.1971 |

<img src="Boston-exercice-1-summary-solution.png" width="500">

<img src="Boston-exercice-1-PDF-MEDV-solution.png" width="500">

Le prix des maisons dans cet échantillon suit une distribution associée à deux pics.

* Un premier mode apparaît entre 18 et 23 mille \$.
* On observe un second pic de prix, moindre, entre 45 et 50 mille \$.
* On observe une distribution des prix entre 5 et 50 mille \$.

Graphique boîte à moustache

* 50% de la population est contenue dans la boîte bleue, associée aux quantiles à 25% et 75%,
* la médiane (quantile à 50%) est le trait horizontal rouge,
* si l'échantillon suit la loi gaussienne, alors les moustaches correspondent approximativement aux quantiles à 1% et 99%,
* si l'échantillon contient des données aberrantes, alors ces points apparaissent comme des étoiles rouges au dessus et en dessous des moustaches.

On observe que la variable de sortie MEDV, ainsi que B, ZN et CRIM contiennent des données atypiques, qui s'éloignent beaucoup de la loi gaussienne.

<img src="boiteAmoustaches-MEDV-solution.png" width="300">
<img src="boiteAmoustaches-B-solution.png" width="300">
<img src="boiteAmoustaches-ZN-solution.png" width="300">
<img src="boiteAmoustaches-CRIM-solution.png" width="300">

L'analyse de la matrice des coefficients de Spearman révèle des dépendantes.
* B, PRATIO et CHAS semblent moins dépendantes des autres variables.
* INDUS, NOX, AGE, RAD et TAX semblent plus dépendantes des autres variables.

<img src="spearman-matrix-solution.PNG" width="800">

Dans le cobweb, analysons les données dans l'espace des rangs. Pour une variable donnée, les valeurs sont triées par ordre croissant. Cela implique que, pour une variable donnée, si il n'y a aucune paire de valeurs égales dans l'échantillon, alors les rangs sont uniforméments distribués. En conséquence, l'apparition de clusters dans l'espace des rangs révèle que certains valeurs dans l'échantillon sont égales. Cela peut être causée par exemple par une variable entière, ou bien par une variable réelle qui a été discrétisée lors de l'enregistrement de la valeur (par exemple, par un appareil de mesure physique associé à une précision limitée). 

<img src="cobweb-sans-selection-solution.PNG" width="1000">

Nous observons que les variables suivantes sont discrétisées : ZN, INDUS, CHAS (qui vaut 0 ou 1), RAD, TAX, PTRATIO, B.

* Le fait que la variable CHAS soit discrétisée est un résultat attendu, puisque c'est une variable booléenne.
* Dans la table, nous trions les valeurs numériques par ordre décroissant pour la variable ZN. On observe qu'une forte proportion de valeurs sont égales à zéro. En utilisant le widget probabilité/quantile, on obtient que 72% des valeurs de ZN sont égales à 0.

<img src="Analyse-ZN-quantiles-solution.PNG" width="600">

Dans le cobweb, analysons les données dans l'espace des rangs. Nous sélectionnons les valeurs de MEDV supérieures au quantile à 90%. Pour avoir un prix élevé, il est préférable d'avoir :

* une valeur basse de INDUS (peu d'industrie), NOX (peu de pollution), LSTAT (moins de personnes peu éduquées)
* une valeur élevée de RM (la surface de la maison)

<img src="cobweb-solution.PNG" width="1000">

## Exercice 2 : Création d'un métamodèle

* Créer un métamodèle de krigeage.
  * Quelle valeur de Q2 observez-vous ? 
  * Est-ce un métamodèle satisfaisant ?
* Créer un métamodèle de chaos polynomial creux de degré 3. 
  * Quelle valeur de Q2 observez-vous ?
  * Est-ce un métamodèle satisfaisant ?
  * Observez la taille de base polynomiale en fonction du degré du polynôme : combien de termes sont retenus ?
  * Observez la moyenne, l'écart-type et la décomposition de la variance : qu'observez-vous ? Que peut-on conclure ?
  * Analyser les multi-indices dans la décomposition : que peut-on conclure ?

## Solution de l'exercice 2 : Création d'un métamodèle

Le métamodèle de krigeage requiert une longue phase de calcul pour réaliser le calcul d'optimisation de la vraisemblance nécessaire pour estimer les hyperparamètres. On obtient un coefficient de prédictivité Q2 de 88%, ce qui est plutôt satisfaisant. 

<img src="krigeage-solution.PNG" width="1000">

Pour pouvoir réaliser l'analyse de sensibilité, il faut identifier les lois de probabilité associées à chaque variable, ainsi qu'une éventuelle dépendance. Au vu de la matrice de dépendance de Spearman, il est impossible d'utiliser les indices de Sobol' sur cet échantillon (sans faire de traitement supplémentaire) car les dépendances sont trop fortes. 

La figure suivante présente un chaos polynomial creux de degré 3. Dans l'onglet "Validation", on observe un Q2 analytique de 84%. 

<img src="boston-chaos-degre-3-solution.png" width="500">

La figure suivante présente l'analyse des moments d'un chaos polynomial creux de degré 3. On observe que la moyenne du chaos est égale à 2.960 et que l'écart-type est égal à 5.600. Or on sait que la moyenne des prix est égale à 22.53. L'écart entre la moyenne des données et la moyenne du chaos est dû à l'absence d'indépendance dans les variables d'entrée. En conséquence, les moments du chaos polynomial ne coïncident pas avec les moments de l'échantillon. Par conséquent, les valeurs numériques des moments indiqués dans cet onglet sont à ignorer.

<img src="boston-chaos-moments-solution.png" width="600">

On observe également que le multi-indice associé à la plus grande part de variance (17.25%) est associé à un polynôme de degré 3. Cela montre que, pour correctement représenter la fonction, le chaos polynomial a été contraint de sélectionner un coefficient de degré élevé. Cela indique que des fortes non-linéarités sont présentent dans l'échantillon. 

* TODO : pour un métamodèle, qu'est-ce que le résidu ? Qu'est-ce que l'erreur relative ?
* TODO : avec 13 variables, l'inférence est fastidieuse, car il faut ajouter toute la liste de distributions pour chaque variable
* TODO : quand on convertit le métamodèle en modèle physique, le nom du métamodèle est perdu : la description est "metamodele_0 metamodel", alors que j'ai placé le nom "kriging0"
* TODO : aucun avertissement n'est présenté dans l'onglet "Résumé" du chaos, alors qu'une forte dépendance est présente. Pourquoi ne pas indiquer la paire de variable (Xi,Xj) associée au coefficient de corrélation de Pearson le plus élevé ?

## Exercice 3 : inférence des marginales

Pour chacune des variables RM, LSTAT et CRIM, répondre aux questions suivantes :

* Quelle loi s'ajuste le mieux à cet échantillon ?
* L'ajustement est-il satisfaisant ?
* Peux-t-on améliorer l'ajustement et comment ?

## Solution de l'exercice 3 : inférence des marginales

La figure suivante présente l'ajustement de la distribution de la variable RM. On observe que c'est la loi de Laplace qui s'ajuste le mieux, à la fois en terme de critère BIC et en terme de p-valeur pour le test de Kolmogorov-Smirnov.

<img src="RM-distribution-solution.PNG" width="1000">

Le QQ-plot pour la variable RM montre une adéquation qui est plutôt satisfaisante.

<img src="RM-diagrammeQQ-solution.png" width="400">

La loi qui s'ajuste le mieux à la variable LSTAT est la loi de Weibull. L'ajustement est de bonne qualité.

<img src="LSTAT-distribution-solution.PNG" width="1000">

La figure suivante présente l'ajustement de la distribution de la variable CRIM. Aucune loi ne s'ajuste correctement. Pour améliorer la qualité de l'ajustement, on pourrait utiliser une méthode d'estimation à noyaux.

<img src="CRIM-distribution-solution.PNG" width="1000">