# Statistiques avec Python et la librairie Pandas : TUTO et exercice

Autre tutoriel :
https://www.kaggle.com/learn/pandas

In [None]:
import pandas

## Les Series

On parle de _Série_ quand on prend un vecteur.

In [None]:
s=pandas.Series([2,3,5,10])

In [None]:
print(s)

Comme tous les vecteurs en Python, la numérotation commence à 0 :

In [None]:
print(s[0])
print(s[1])
print(s[2])
print(s[3])

La longueur de la série est donnée par :

In [None]:
s.size

In [None]:
s2=pandas.Series(['Maxime','Julien'])

In [None]:
print(s2)

Le type de données peut être des "object" ou quantitatif ("int" ou "float").

In [None]:
s2.dtype

In [None]:
s.dtype

Si la numéroation ne suffit pas, on peut ajouter des noms pour indexer les données :

In [None]:
poids = pandas.Series([70,70,90,100,85], index = ['Guillaume','Loic','Anthony','Julien','Ghislain'])

In [None]:
poids

In [None]:
poids.index

In [None]:
poids[3]

Usage du slicing :

In [None]:
poids[2:4]

In [None]:
poids[0:3]

In [None]:
poids['Julien']

In [None]:
'Maxime' in poids

In [None]:
'Julien' in poids

In [None]:
poids.get('Julien')

Pour trier les données, on peut spécifier des contraintes vues comme des booléens sur les indices de la série :

In [None]:
poids[poids>84]

In [None]:
poids.value_counts()

In [None]:
poids.value_counts(normalize=True)

Pour avoir les indicateurs statistiques courants :

In [None]:
poids.describe()

ou bien un seul, par exemple la moyenne :

In [None]:
poids.mean()

On peut trier les données par rapport à l'index (ici des noms, donc par ordre alphabétique) :

In [None]:
poids.sort_index()

ou par valeurs :

In [None]:
poids.sort_values()

ou encore réindexer la série :

In [None]:
poids2 = poids.reindex({'Julien','Maxime'})
print(poids2)

Un petit point sur les "non valeurs", les NaN :

In [None]:
poids2.notna()

Il est classique d'avoir des valeurs manquantes. On peut vouloir les repérer, ou encore éliminer les lignes correspondantes :

In [None]:
poids2[poids2.notna()] #série dont on a éliminé les NaN

## Les DataFrame 

Une dataframe est un tableau : on peut le définir comme un dictionnaire ou comme une matrice avec des noms de lignes et de colonnes :

In [None]:
pandas.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

In [None]:
pandas.DataFrame([[50,131],[21,2]], index = [0,1], columns = ['Yes','No'])

On convertit la série "poids" en dataframe :

In [None]:
tableau_poids = pandas.DataFrame({'Noms':poids.index, 'Poids':poids.values})

In [None]:
tableau_poids

On ajoute une colonne, par exemple de cette manière :

In [None]:
tableau_poids['Sexe'] = ['M','M','M','M','M']

In [None]:
tableau_poids

On ajoute une ligne :

In [None]:
tableau_poids = tableau_poids.append({'Noms':'Coline', 'Poids':60, 'Sexe':'F'}, ignore_index=True)

In [None]:
tableau_poids

On peut se repérer dans un tableau comme avec des coordonnées :

In [None]:
tableau_poids.iloc[0,1]

In [None]:
tableau_poids.iloc[[0,2],2]

In [None]:
tableau_poids.iloc[1:3,2]

In [None]:
tableau_poids.iloc[1:3,:]

In [None]:
tableau_poids.iloc[2]

ce qui donne les mêmes informations que cette commande :

In [None]:
tableau_poids[tableau_poids.Noms == 'Anthony']

Il peut être utile de convertir des données qualitatives en données quantitatives :

In [None]:
tableau_poids['Sexe'] = tableau_poids['Sexe'].map( {'F': 1, 'M': 0} ).astype(int)

In [None]:
tableau_poids

Dans la vraie vie, les tableaux de données sont un peu plus gros ! Ils sont souvent stockés dans des fichiers .csv qu'il est aussi possible de lire avec un logiciel de tableur. 

In [None]:
url =   "https://raw.githubusercontent.com/justmarkham/DAT8/master/data/drinks.csv"

In [None]:
drinks= pandas.read_csv(url)

In [None]:
drinks

In [None]:
drinks.shape

Chaque colonne peut être manipulée comme une série :

In [None]:
drinks.country

In [None]:
drinks['country']

In [None]:
drinks.country[0:5]

In [None]:
drinks.continent.unique()

In [None]:
drinks[drinks.continent=='OC']

In [None]:
drinks[drinks.continent=='OC'].wine_servings

Que donne la commande suivante ?

In [None]:
drinks[drinks.continent=='OC'].wine_servings.mean()

...

In [None]:
drinks.groupby('continent').wine_servings.mean()

## Exercice : statistiques sur le Titanic

On charge les données du Titanic disponibles à cette adresse :

In [None]:
url = "https://raw.githubusercontent.com/pandas-dev/pandas/master/doc/data/titanic.csv"

Afficher un aperçu des données :

In [None]:
titanic = ...
print(titanic)

Explications des paramètres :

    survival - Survival (0 = No; 1 = Yes)
    class - Passenger Class (1 = 1st; 2 = 2nd; 3 = 3rd)
    name - Name
    sex - Sex
    age - Age
    sibsp - Number of Siblings/Spouses Aboard
    parch - Number of Parents/Children Aboard
    ticket - Ticket Number
    fare - Passenger Fare
    cabin - Cabin
    embarked - Port of Embarkation (C = Cherbourg; Q = Queenstown; S = Southampton)
    boat - Lifeboat (if survived)
    body - Body number (if did not survive and body was recovered)


Calculer l'âge moyen des passagers :

In [None]:
...

Définir une variable contenant toutes les données dont la mention "cabine" est non vide :

In [None]:
passager_cabine = ...

Compter le nombre de passagers masculins en filtrant la variable 'passager_cabine' puis en extrayant la donnée "PassengerId" avant d'en compter le nombre de valeurs.

In [None]:
...

Afficher le nombre de survivants par classe :

In [None]:
...

Statistiquement, combien d'enfants valait-il mieux avoir pour survivre au Titanic ?

In [None]:
...

Quel est l'âge moyen des passagers en fonction de leur classe de voyage ?
Y a-t-il plus de femmes ou d'hommes qui ont voyagé en cabine ?
Comparer la proportion de survivants en fonction de la classe de voyage.

Pour aller plus loin avec les manipulations de données :

https://www.math.univ-toulouse.fr/~besse/Wikistat/pdf/st-tutor2-python-pandas.pdf

Pour aller plus loin avec les illustrations graphiques :
https://openclassrooms.com/fr/courses/4452741-decouvrez-les-librairies-python-pour-la-data-science/5559011-realisez-de-beaux-graphiques-avec-seaborn