# Statistique descriptive pour des données bivariées

In [None]:
%matplotlib nbagg

import matplotlib
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

###  Nuage des points

Pour tracer un nuage des points, dont les coordonnées sont données par **x** et **y**, vous pouvez utiliser la fonction **plt.plot** comme vu précédemment. 

Alternativement, on peut utiliser la fonction **plt.scatter**. 

Exemple :

In [None]:
x = (np.random.rand(100) - .5 )* 10
y = x ** 2  + np.random.randn(100)

plt.figure()
plt.subplot(121)
plt.plot(x,y,'k.')

plt.subplot(122)
plt.scatter(x,y)

### Covariance et corrélation

Pour calculer la covariance ou le coefficient de corrélation de deux *Series* **x** et **y**, on peut utiliser les fonctions **np.cov(x,y)** et **np.corrcoef(x,y)**, qui calculent les covariances/corrélations entre **x** et **y**, mais aussi de **x** avec **x** et **y** avec **y**.

In [None]:
print 'Cov(x,y) :\n', np.cov(x,y)
print 'Cor(x,y) :\n', np.corrcoef(x,y)

Avec le module **pandas**, on peut  calculer toute la matrice de covariances ou de corrélations d'un *DataFrame* **tab** par les instructions **tab.cov()** et **tab.corr()**.

In [None]:
z = np.abs(x) ** 2 + y 
tab = pd.DataFrame({'x' : x, 
                    'y' : y, 
                    'z' : z })

print 'Matrice de covariance :\n', tab.cov()
print 'Matrice de correlation :\n', tab.corr()

On peut aussi afficher la matrice de corrélations de manière graphique:

In [None]:
X = np.random.rand(100)
Y = np.random.rand(100)
D = pd.DataFrame({'x1': X, 'x2': Y, 'x3': X+Y, 'x4': np.power(X,3.), 'x5': X+np.power(Y,-1.), 'x6': np.cos(Y)})
plt.matshow(D.corr())
plt.colorbar()

# Exercice à rendre


Dans cet exercice, nous allons analyser des données sur le vin. Les données sont disponible sur Moodle sous le nom "vins.csv". Sinon, si vous avez le module sklearn d'installé, vous pouvez les récupérer avec le code suivant:

In [None]:
from sklearn.datasets import load_wine
vins = load_wine()
Data = pd.DataFrame(vins['data'],columns=vins['feature_names'])
Data['class'] = vins['target']

Le jeu de donnée est le résulat d'une analyse chimique de vins produit par 3 cultivateurs. Chaque ligne représente un vin testé où la variable **class** donne numéro du cultivateur qui la produit et les autres variables donnent le résultat de l'analyse chimique de ce vin.

Si vous avez importé les données avec le module sklearn, vous pouvez avoir une description (en anglais) du jeu de donnée en utilisant le code suivant:

In [None]:
print(vins['DESCR'])

Vous répondrez aux questions soit dans ce même notebook, dans un autre notebook ou dans un script python. Dans tous les cas, indiquez clairement le numéro des questions auxquelles vous répondez. Renommez le fichier en **Nom_Prénom_NB3**, puis déposez le sur Moodle dans la rubrique devoirs.

1. Importez les données sous forme d'un dataframe. Familiarisez-vous avec le tableau des données : Vérifiez la taille du tableau, regardez le type des différentes variables etc.

 ##### Distribution marginale
 ---

2. Calculez les statistiques d'ordre de la variable **flavanoids**. 

3. En déduire les quartiles de cette variable. Quelle statistique de dispersion pouvez-vous calculer à partir de vos résultats précédents ? Calculez cette statistique.

4. Quelle représentation graphique vous permettrait de répondre à la question 3 ? Affichez ce graphique.

5. Calculez la distribution (les valeurs et fréquences) de la variable **flavanoids**. Définissez une fonction qui prends en paramètres un entier r, des valeurs et des fréquences et qui renvoie le moment centré d'ordre r. Utilisez cette fonction pour calculer la variance de la variable **flavanoids** à partir de sa distribution.

 ##### Distribution conditionnelle
 ---

6. Calculez la moyenne conditionnelle et la variance conditionnelle de la variable **alcohol** sachant que la variable **class** vaut 0, 1 et 2. Interpretez les résultats.

7. Affichez sur une même figure l'histogramme de la distribution de la variable **alcohol** sachant que la variable **class** vaut 0, 1 et 2 (conseil: utilisez le paramètre **alpha** de la fonction hist pour mieux voir les superpositions). En quoi cette représentation graphique confirme vos précédents résultats ?

8. Calculez les fréquences de la variable **alcohol** pour les intervalles (10.,12.5], (12.5,13.5] et (13.5,15.] sachant que la variable **class** vaut 0, 1 et 2. (La notation (a,b] signifie que l'intervalle est ouvert à gauche et fermé à droite)

 ##### Distribution jointe et statistiques de dépendance
 ---

9. Affichez le nuage de points des variables **flavanoids** et **total_phenols** et le nuage de points des variables **flavanoids** et **nonflavanoid_phenols** sur des figures différentes (mais dans une même fenêtre). Interpretez ces deux graphiques.
    
10. Quelle statistique utiliseriez-vous pour justifier votre réponse à la question précédente ? Justifiez votre choix et calculez la valeur de cette statistique pour les deux cas.
    
11. À partir des résultats de la question 8, comment feriez-vous pour calculer la distribution jointe des variables **alcohol** et **class** ? (où les valeurs sont 0, 1 et 2 pour la variable class et les intervalles (10.,12.5], (12.5,13.5] et (13.5,15.] pour la variable alcohol) Calculez cette distribution jointe. Faites le produit entre la distribution marginale de la variable **alcohol** et celle de la variable **class**. Qu'est-ce que vous en concluez ? 

12. Ecrivez une fonction **scatter_matrix** qui trace les nuages de points de toutes les variables du tableau de données passé à la fonction en argument, où les graphiques sont organisés en forme de matrice (c'est à dire que le nuage de points des variables i et j se trouve sur la ième ligne et la jème ligne dans la fenêtre). Appliquez cette fonction à votre tableau de données et comparez votre résultat à la matrice de corrélations.

13. Imaginez que l'on veuille maintenant prédire la variable **class** en fonction des autres variables. Dans ce cas, quelles variables seraient utiles pour faire cette prédiction ? Justifiez votre choix.
 