# Housing prices in Boston : utilisation de l'interface graphique d'OpenTURNS


This dataset contains information collected by various sources concerning housing in the area of Boston Mass in 1970. The sources are the U.S Census Service, FBI and other sources. The dataset contains 506 cases. 

There are 14 variables:
* CRIM : per capita crime rate by town
* ZN : proportion of residential land zoned for lots over 25,000 sq.ft. (high value restricts construction of small lot houses)
* INDUS : proportion of non retail business acres per town (measures the impact of noise, heavy traffic and visual effects)
* CHAS : Charles River dummy variable (1 if tract bounds river; 0 otherwise). Captures the amenities of a riverside location.
* NOX : nitric oxides concentration (parts per 10 million) (measures air pollution)
* RM : average number of rooms per dwelling (measures the spaciousness)
* AGE : proportion of owner occupied units built prior to 1940 (related to structure quality)
* DIS : weighted distances to five Boston employment centres
* RAD : index of accessibility to radial highways
* TAX : full value property tax rate per 10,000 US Dollars (measures the cost of public services)
* PTRATIO : pupil teacher ratio by town (measures public sector benefits in each town)
* B : $1000(Bk - 0.63)^2$ US Dollars where Bk is the proportion of blacks by town
* LSTAT : percent lower status of the population (proportion of adults without some high school education and proportion of male workers classified as laborers)
* MEDV : median value of owner occupied homes in 1,000 US Dollars

The classical goal is to predict MEDV depending on the first 13 variables.

## Reference

* Regression Analysis with Python, Luca Massaron, Alberto Boschetti, Packt Publishing
* Harrison, Jr., David, Rubinfeld, Daniel L. (1978/03)."Hedonic housing prices and the demand for clean air." Journal of Environmental Economics and Management 5(1): 81-102. 
* Belsley, Kuh & Welsch, "Regression diagnostics: Identifying Influential Data and Sources of Collinearity", Wiley, 1980. 244-261.
* Quinlan,R. (1993). Combining Instance-Based and Model-Based Learning. In Proceedings on the Tenth International Conference of Machine Learning, 236-243, University of Massachusetts, Amherst. Morgan Kaufmann.

## Description

On souhaite analyser les données du fichier suivant dans l'interface graphique.

    Housing-prices-Boston.csv

L'objectif de cette étude est de déterminer quels facteurs sont les plus influents sur le prix d'une maison dans la réunion de Boston en 1978. Pour cela, nous proposons d'utiliser des outils d'exploration graphique interactive, ainsi que des méthodes d'analyse de sensibilité.

Dans l'interface graphique, créer une nouvelle étude, puis sélectionner "Modèle de données".

<img src="Boston-new-datamodel.PNG" width="600">

Dans le diagramme d'utilisation, sélectionner "Définition du modèle".

<img src="Boston-diagram.PNG" width="400">

Sélectionner le fichier suivant sur votre disque :

    Housing-prices-Boston.csv

<img src="Boston-select-CSV.PNG" width="400">

Dans l'arbre d'étude, choisissez l'élément "Définition" et, avec le bouton droit de la souris, choisissez "Analyse de données".

<img src="Boston-analyse-donnees.PNG" width="400">


## Exercice 1 : analyse du modèle de données

* Quelles sont les principales caractéristiques de l'échantillon des prix des maisons ?
* Quelle est la distribution des prix des maisons ? Quelles sont ses caractéristiques ?
* Analyser les boxplots : quelles sont les variables qui sont associées à des données qui ne sont pas gaussiennes du tout ?
* Analyser la matrice de dépendance des coefficients de corrélation de Spearman. 
  * Quelles sont les variables qui semblent moins dépendantes ? 
  * Quelles sont les variables qui semblent plus dépendantes ?
  * Peut-on utiliser les indices de sensibilité de Sobol' dans cette situation ?
* Analyser le cobweb.
  * Quelles sont les variables qui sont associées à une discrétisation des valeurs ?
  * Quelles sont les variables qui semblent mener à des prix MEDV élevés ?

## Exercice 2 : Création d'un métamodèle

* Créer un métamodèle de krigeage.
  * Quelle valeur de Q2 observez-vous ? 
  * Est-ce un métamodèle satisfaisant ?
* Créer un métamodèle de chaos polynomial creux de degré 3. 
  * Quelle valeur de Q2 observez-vous ?
  * Est-ce un métamodèle satisfaisant ?
  * Observez la taille de base polynomiale en fonction du degré du polynôme : combien de termes sont retenus ?
  * Observez la moyenne, l'écart-type et la décomposition de la variance : qu'observez-vous ? Que peut-on conclure ?
  * Analyser les multi-indices dans la décomposition : que peut-on conclure ?

## Exercice 3 : inférence des marginales

Pour chacune des variables RM, LSTAT et CRIM, répondre aux questions suivantes :
* Quelle loi s'ajuste le mieux à cet échantillon ?
* L'ajustement est-il satisfaisant ?
* Peux-t-on améliorer l'ajustement et comment ?