# TP 2 : Statistiques avec Numpy et Pandas

## Installation de packages

In [None]:
# A faire executer une fois au début
! pip install pydataset

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import scipy.stats.mstats as ms
from pydataset import data

## Exercice 1 : Statistiques avec numpy (np)
On import les données à l'aide de la commande suivante

In [None]:
data('cars',show_doc=True)
cars=data('cars')

1. Calculer la moyenne, variance empirique, variance empirique non-biaisée, médiane, écart-type des variables <code>speed</code> et <code>dist</code>.

In [None]:
# Question 1
# ddof = 0 --> Empirique 
# ddof = 1 --> non biaisé

print('*** Vitesse ***',2*'\n',
      'Moyenne : ',np.mean(cars.speed),'\n',
      'Variance empirique (normalisée par 1/N) : ', np.var(cars.speed),'\n',
      'Variance non biaisée (normalisée par 1/(N-1)) : ',np.var(cars.speed,ddof=1),'\n',
      'Ecart type (non-biaisé)',np.std(cars.speed,ddof=1),'\n',
      'Médiane : ',np.median(cars.speed),'\n')

print('*** Distance ***',2*'\n',
      'Moyenne : ',np.mean(cars.dist),'\n',
      'Variance empirique (normalisée par 1/N) : ', np.var(cars.dist),'\n',
      'Variance non biaisée (normalisée par 1/(N-1)) : ',np.var(cars.dist,ddof=1),'\n',
      'Ecart type (non-biaisé)',np.std(cars.dist,ddof=1),'\n',
      'Médiane : ',np.median(cars.dist))


2. Calculer les 3 quartiles selon la définition du cours

In [None]:
# Question 2

print("Quartiles pour la vitesse : ", 
      np.quantile(cars.dist, [0.25,0.5,0.75],interpolation="lower"),'\n')

# Si version après 1.22.0: changer interpolation pour méthode (par exemple sur Colab)

print("Quartiles pour la distance : ",
      np.quantile(cars.speed, [0.25,0.5,0.75],interpolation="lower"), '\n')


3. Que fait la fonction <code>cars.describe()</code>?

In [None]:
# Question 3

cars.describe()



4. Selon le type de variables à notre disposition, quelle représentation graphique suggérez-vous ?    
Tracer l’histogramme de la variable <code>speed</code>. Ajouter un titre, et des étiquettes aux axes $x$ et $y$.

In [None]:
# Question 4

fig, ax = plt.subplots();
ax.hist(cars.speed, color="blue");
ax.set_ylabel('Effectifs');
ax.set_xlabel('Vitesses');
fig.suptitle("Histogramme de la variable speed");


## Exercice 2 : Statistiques avec pandas

Représentation graphique d’une variable qualitative.
1. Charger le jeu de données <code>iris</code>.

In [None]:
# Question 1

iris=data("iris")


2. Tracer le diagramme circulaire pour la variable qualitative.    
Calculer la moyenne, variance empirique, variance non-biaisée, le minimum et le maximum pour les variables quantitatives. 
Calculer la moyenne et la variance non-biaisée par type de Species. 
Que remarquez vous ? 
Quelle est l’autre façon de représenter une variable qualitative ?

In [None]:
# Question 2

# Remarques :
# numeric_only=True ignorer les nan (possiblement source d'erreur)
print("* Statistiques générales pour toutes les espèces : \n\n",iris.describe(), '\n')

print("Variance empirique :\n")
print(iris.var(ddof=0,numeric_only=True),'\n')

print("Variance empirique non-biaisée : \n")
print(iris.var(ddof=1,numeric_only=True),'\n')

print("* Statistiques générales pour Setosa : \n")
print(iris[iris["Species"]=="setosa"].describe(),'\n')

print("Variance empirique non-biaisée : \n")
print(iris[iris["Species"]=="setosa"].var(ddof=1,numeric_only=True),'\n')

In [None]:
# Moyenne pour chaque espèce
print('* Moyenne par espèces :','\n')
print('Setosa : ')
print(iris[iris["Species"]=="setosa"].mean(numeric_only=True),'\n')
print('Versicolor : ')
print(iris[iris["Species"]=="versicolor"].mean(numeric_only=True),'\n')
print('Virginica : ')
print(iris[iris["Species"]=="virginica"].mean(numeric_only=True),'\n')
# Variance pour chaque espèce
print('* Variances par espèces :','\n')
print('Setosa : ')
print(iris[iris["Species"]=="setosa"].var(ddof=1,numeric_only=True),'\n')
print('Versicolor : ')
print(iris[iris["Species"]=="versicolor"].var(ddof=1,numeric_only=True),'\n')
print('Virginica : ')
print(iris[iris["Species"]=="virginica"].var(ddof=1,numeric_only=True),'\n')

In [None]:
# Diagramme circulaire

#--- Solution 1
plt.title("Solution 1")
iris["Species"]=iris["Species"].astype("category");
plt.pie(iris["Species"].value_counts(),labels=iris["Species"].cat.categories);
plt.show()

#--- Solution 2
plt.title("Solution 2")
plt.pie(iris["Species"].value_counts(),labels=iris["Species"].value_counts().keys())
plt.show()

#--- Histogramme
plt.figure(2)
iris["Species"].hist();


3. Tracer la boite à moustache de <code>Sepal.Length</code> en fonction de <code>Species</code>. Quel est le but de cette
représentation ?

In [None]:
# Question 3

iris.boxplot(column="Sepal.Length",by="Species");
iris.boxplot(column="Petal.Width",by="Species");


## Exercice 3 : Rappel sur les vecteurs

Rappels sur les vecteurs de <code>numpy</code>.
1. Créer le vecteur $x=(1,8,5,1)$ grâce à la commande code <code>np.array</code>

In [None]:
# Question 1
x=np.array([1,8,5,1])


2. Créer le vecteur $y=(0,1,3,5,7,9)$ en utilisant <code>np.array</code>,<code>range</code> et <code>np.concatenate</code>

In [None]:
# Question 2

y=np.concatenate(([0],1+2*np.array(range(5))))
y=np.concatenate(([0],[i for i in range(10) if i%2==1]))
y=np.concatenate(([0],range(1,10,2))) 


3. Etudier les résultats des commandes <code>y[4]</code>, <code>y[2:4]</code>, <code>y[-2]</code>, et <code>y[y<=5]</code>

In [None]:
# Question 3 

print(y[4])
print(y[2:4]) # !! y[4] n'est pas affiché !!
print(y[-2]) # 2 ème élément en partant de la fin
print(y[y<=5])


4. Extraire les éléments en position paire de $y$. Extraire les éléments plus grands que 1 de $y$.

In [None]:
# Question 4

y1 = y[2*np.arange(3)]
y2 = y[y>=1]


5. Conserver tous les élements de $y$, sauf le premier.

In [None]:
# Question 5

print(y[1:])


6. A l’aide de les commandes <code>np.repeat()</code> et <code>np.reshape()</code>, créer un vecteur $X$ de taille 100 obtenu
en mettant bout à bout 25 copies de $x$. (Donc, $X$ commence ainsi $X = (1, 8, 5, 1, 1, 8, 5, 1, \ldots)$)

In [None]:
# Question 6
# Remarque : pas de problème le x est défini Question 1 !!!
X=np.repeat(x.reshape(1,4),25,axis=0).reshape(100)


## Exercice 4 : Représentation et Regression linéaire 

On considère à nouveau les vecteurs $x=(1,8,5,1)$ et $y=(0,1,3,5,7,9)$.
1. Pourquoi la commande <code>plt.plot(x,y)</code> retourne-t-elle une erreur?

In [None]:
# Question 1

x=np.array([1,8,5,1])
y=np.array([0,1,3,5,7,9])
plt.plot(x,y) #--> impossible car x et y ont des tailles différentes



2. Ajouter $(3,5)$ au vecteur $x$ et représnter le nuage des points $(x_i,y_i)$.

In [None]:
# Question 2

x=np.array([1,8,5,1])
y=np.array([0,1,3,5,7,9])
x=np.concatenate((x,[3,5]))
fig,ax=plt.subplots()
ax.plot(x,y,'.');


3. Ajouter le point $(\bar{x},\bar{y})$ en rouge en utilisant la commande <code>plt.plot</code>.

In [None]:
# Question 3

fig,ax=plt.subplots()
ax.plot(x,y,'.')
ax.plot(np.mean(x),np.mean(y),'r+');


4. Ajouter la droite de régression en utilisant <code>plt.axline</code> et <code>ms.linregress</code>

In [None]:
# Question 4

a,b=ms.linregress(x,y)[:2]
print("La droite de regression est y= %.5f x + %.5f" % (a,b))
fig,ax=plt.subplots()
ax.plot(x,y,'.')
ax.plot(np.mean(x),np.mean(y),'r+')
ax.axline(xy1=(0,b),slope=a,color="green")
fig.suptitle("Droite de regression de y en fonction de x");


5. Calculer la corrélation empirique $\text{cor}(x,y)$ pour décider si une approximation par une droite est raisonnable.

In [None]:
# Question 5

np.corrcoef(x,y)[0,1]


# Exercices Bilans

## Exercice 5 : 

1. Charger le jeu de données <code>women</code>. Représenter les deux variables "taille" et "poids" par un nuage de points, avec la droite de régression du poids en fonction de la taille

In [None]:
# Question 1


women=data("women")
x=women.height
y=women.weight
a,b=ms.linregress(x,y)[:2]
fig,ax=plt.subplots()
ax.set_xlim(min(x),max(x))
ax.set_ylim(100,180)
ax.plot(x,y,'.')
ax.axline(xy1=(0,b),slope=a,color="green")
fig.suptitle("Droite de regression du poids en fonction de la taille");


2. Discuter si cette approximation est raisonnable. Comment interprète-t-on un point qui se trouve nettement au-dessus/au-dessous de la droite de régression

## Exercice 6

### Importer les données avec Google Colab 

Importer le fichier "Donnes.csv". Pour cela placer le fichier dans le dossier de votre drive où est situé ce notebook, puis recopier et exécuter les cellules suivantes.

<code>from google.colab import drive </code>

<code>import os</code>

<code>drive.mount('/content/drive')</code>

In [None]:
# Compléter /... avec le path vers le dossier où sont situés le Notebook et le fichier .csv
# Décommenter les trois lignes :
# - os.getcwd() permet de voir votre path courant
# - os.listdir() liste les fichiers et dossiers de votre path courant.
# Utiliser ses lignes en cas d'erreur pour voir si le path est bon.

### 3 LIGNES A DECOMMENTER  ###
#os.chdir("drive/My Drive/Colab Notebooks/...")
#print(os.getcwd())
#os.listdir()

### Importer les données avec Jupyter Notebook

Placer le fichier "Donnees.csv"  dans le même dossier que le ipynb. Importer ce fichier avec la function <code>pd.read_csv("fichier.csv",sep="\t") </code>.

### Exercice

Ces données correspondent à l’âge, au poids, à la taille, à la consommation hebdomadaire d’alcool (en nombre de verres bus), au sexe, au ronflement et au tabagisme, d’un échantillon de 100 personnes. 
1. Commencer par identifier les variables qualitatives nominales, ordinales et quantitative discrètes, continues. Typer les données qualitatives correctement en Python (on pourra utiliser les commandes <code>astype</code>) et renommer les niveaux avec la variable <code>cat.categories</code>.


In [None]:
# Question 1
Donnees= pd.read_csv("Donnees.csv",sep="\t") 

# Création des séries pour chaque variable
for nom in Donnees.keys():
    globals()[nom] = Donnees[nom]

#Qualitatives Nominales

# Version 1
Donnees["sexe"]=Donnees["sexe"].astype('category')
Donnees["sexe"].cat.categories=["Femme","Homme"]

# Version 2
sexe=sexe.astype('category')
sexe.cat.categories=["Femme","Homme"]

# Qualitatives Ordinales

# Version 1
Donnees["ronfle"]=Donnees["ronfle"].astype('category')
Donnees["ronfle"].cat.categories=["Non-ronfleur","Ronfleur"]
Donnees["tabac"]=Donnees["tabac"].astype('category')
Donnees["tabac"].cat.categories=["Non-fumeur","Fumeur"]

# Version 2
ronfle=ronfle.astype('category')
ronfle.cat.categories=["Non-ronfleur","Ronfleur"]
tabac=tabac.astype('category')
tabac.cat.categories=["Non-fumeur","Fumeur"]

# Quantitatives Continues

# Version 1
Donnees["taille"]=Donnees["taille"].astype('float64')
Donnees["poids"]=Donnees["poids"].astype('float64')
Donnees["age"]=Donnees["age"].astype('float64')

# Version 2
taille=taille.astype('float64')
poids=poids.astype('float64')
age=age.astype('float64')

#Quantitatives discrètes

# Version 1
Donnees["alcool"]=Donnees["alcool"].astype('int64')
# Version 2
alcool=alcool.astype('int64')


2. Calculer la corrélation entre poids et taille.   
Quelles sont les variables continues les plus corrélées entre elles ?


In [None]:
import seaborn as sns 
df=pd.DataFrame({"age":Donnees['age'],
                  "poids":Donnees['poids'],
                  "taille":Donnees['taille']})

print('Premier print :\n',df.cov(),'\n'); 

print('Deuxième print :\n',df.corr(),'\n')

sns.pairplot(df);
# Cela trace sur la diagonale l'histogramme de chaque variable, 
# et en dehors, les nuages de points entre les variables 2 par 2.

# df.cov() donne la covariance entre les variables 2 à 2 
#(les termes diagonaux étant les variances de chaque variable).

# df.cor() donne le coefficient de corrélation entre les variables 2 à 2.
# On trouve 0.926974 comme valeur max pour la corrélation de la taille et du poids.

# Ce sont aussi visiblement les plus alignés sur les nuages de points



3. Tracer un nuage de points du **poids** en fonction de la **taille.**              
Calculer la droite de régression de ces deux variables et l’ajouter en rouge au nuage de points.    
Discuter si cette approximation est raisonnable. Avez-vous un commentaire sur cet échantillon de données ?

In [None]:
# Question 3

alpha,beta=ms.linregress(taille,poids)[:2]
fig,ax=plt.subplots()
ax.set_xlim(min(taille),max(taille))
ax.set_ylim(min(poids),max(poids))
ax.plot(taille,poids,'.')
ax.axline(xy1=(0,beta),slope=alpha,color="red")
fig.suptitle("Droite de régression du poids en fonction de la taille");
ax.set_xlabel('Taille');ax.set_ylabel('Poids');


4. Tracer sur un même graphique les diagrammes à moustaches de **age**, **poids** et **taille**.

In [None]:
# Question 4

df.boxplot();


5. Calculer la table de contingence des fréquences de **ronfle** et **tabac.**      
Quel est le mode du couple **(tabac,ronfle)** ?

In [None]:
# Question 5

pd.crosstab(ronfle,tabac,normalize=True)


6. Tracer les fonctions de répartition empirique de **alcool** et **poids.**            
Le diagramme en escalier vous paraît-il pertinent pour les deux?    
Indication : <code>from statsmodels.distributions .empirical_distribution import ECDF </code>

In [None]:
# Question 6 

fig,ax=plt.subplots(nrows=2,ncols=2)

ax[0,0].hist(alcool,cumulative=True,histtype="step")
ax[0,0].set_xlabel('Consommation Alcool')
ax[0,0].set_ylabel('Effectif')


ax[0,1].hist(poids,cumulative=True,histtype='step')
ax[0,1].set_xlabel('Poids')
ax[0,1].set_ylabel('Effectifs');

# Alternative
from statsmodels.distributions.empirical_distribution import ECDF

ecdfA=ECDF(alcool)
ax[1,0].step(ecdfA.x,ecdfA.y)
ax[1,0].set_xlabel('Consommation Alcool')
ax[1,0].set_ylabel('Densité')

ecdfP=ECDF(poids)
ax[1,1].step(ecdfP.x,ecdfP.y)
ax[1,1].set_xlabel('Poids')
ax[1,1].set_ylabel('Densité')

fig.tight_layout();

# Le poids étant une variable continue un histogramme en escalier ne semble pas approprié.
# La fonction continue approximée par ECDF semble plus pertinente.
