***
# UTILISATION DE PANDAS
***

Pandas est une librairie python qui permet de manipuler facilement des données à analyser. La bibliothèque contient un grand nombre d'outils pour récupérer, agréger, combiner, transformer, trier, découper, déplacer et exporter les données, calculer des statistiques et produire des graphiques.

Documentation : https://linuxfr.org/news/pandas-une-bibliotheque-pour-manipuler-facilement-des-donnees

https://ghajba.developpez.com/tutoriels/python/analyse-donnees-avec-pandas/

https://pandas.pydata.org/pandas-docs/stable/user_guide/

http://www.python-simple.com/python-pandas/creation-series.php

http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx3/notebooks/td1a_cenonce_session_10.html

https://riptutorial.com/Download/pandas-fr.pdf

### 1) On importe la librairie pandas pour tout le notebook :

In [1]:
import pandas as pd

### 2) Premiers pas

- Création de séries :

In [None]:
serie1=pd.Series([0,1,4,9])
serie1

Pour la visualiser :

In [None]:
tab1=pd.DataFrame(serie1,columns=['Série 1'])
tab1

In [None]:
serie2=pd.DataFrame({'A': [4, 5, 6, 7,8],
                    'B': [10, 20, 30, 40,50],
                    'C': [100, 50, -30, -50,0]})
serie2

In [None]:
serie3=pd.Series({'Couleur': ['rouge','bleu','vert'],
                    'Taille': [5, 3.5, 2],
                    'En stock': [True, False, True]})
serie3

Dans pandas, les principaux types de variables sont :

- int 
- float 
- object -> chaînes de caractères
- datetime -> dates
- bool 


In [None]:
data2.describe()

In [None]:
data2.median()

In [None]:
data2.quantile([.25, .75])

Calculs statistiques :

In [None]:
data1.describe()

data+100

In [None]:
data>2

In [None]:
from numpy.random import randint
result = pd.DataFrame(columns=['dé 1', 'dé 2'])
for i in range(10):
    result.loc[i] = [randint(1,6)]+[randint(1,6)]

result.style.hide_index()

D'une autre façon :

In [None]:
result2 = pd.DataFrame(randint(1,6,size=(10, 2)), columns=['dé 1', 'dé 2'])
result2.style.hide_index()

In [None]:
result['somme']=result['dé 1']+result['dé 2']
result

### 3) Import de fichiers csv ou autres fichiers de données

Les femmes au parlement européen (législature 2014 - 2019) :

In [2]:
df = pd.read_csv('parlement.csv', sep=',')

In [3]:
df

Unnamed: 0,Pays,Femmes,Ensemble
0,Belgique,4,21
1,Bulgarie,5,17
2,République tchèque,5,21
3,Croatie,5,11
4,Danemark,5,13
5,Allemagne,35,96
6,Estonie,3,6
7,Grèce,5,21
8,Espagne,23,54
9,France,31,74


In [4]:
df['% Femmes']=df['Femmes']/df['Ensemble']*100
df.style.format({'% Femmes': "{:.1f}"})

Unnamed: 0,Pays,Femmes,Ensemble,% Femmes
0,Belgique,4,21,19.0
1,Bulgarie,5,17,29.4
2,République tchèque,5,21,23.8
3,Croatie,5,11,45.5
4,Danemark,5,13,38.5
5,Allemagne,35,96,36.5
6,Estonie,3,6,50.0
7,Grèce,5,21,23.8
8,Espagne,23,54,42.6
9,France,31,74,41.9


In [5]:
#df.loc[28]=['Total',df['Femmes'].sum(),df['Ensemble'].sum(),df.loc[28,'Femmes']/df.loc[28,'Ensemble']*100]
df.loc[28,'Femmes']=df['Femmes'].sum()
df.loc[28,'Ensemble']=df['Ensemble'].sum()
df.loc[28,'% Femmes']=df.loc[28,'Femmes']/df.loc[28,'Ensemble']*100
df.style.format({'% Femmes': "{:.1f}"})

Unnamed: 0,Pays,Femmes,Ensemble,% Femmes
0,Belgique,4,21,19.0
1,Bulgarie,5,17,29.4
2,République tchèque,5,21,23.8
3,Croatie,5,11,45.5
4,Danemark,5,13,38.5
5,Allemagne,35,96,36.5
6,Estonie,3,6,50.0
7,Grèce,5,21,23.8
8,Espagne,23,54,42.6
9,France,31,74,41.9


In [25]:
df[['Femmes','Ensemble']].describe()

Unnamed: 0,Femmes,Ensemble
count,29.0,29.0
mean,18.965517,51.793103
std,50.199234,136.687177
min,1.0,6.0
25%,4.0,11.0
50%,5.0,20.0
75%,11.0,32.0
max,275.0,751.0


In [26]:
df[['Femmes','Ensemble']].median()

Femmes       5.0
Ensemble    20.0
dtype: float64

In [27]:
df[['Femmes','Ensemble']].quantile([.25, .75])

Unnamed: 0,Femmes,Ensemble
0.25,4.0,11.0
0.75,11.0,32.0


### 4) Utilisation pour des tableaux de valeurs

#### a) Loi de probabilité

Représentons sous forme de tableaux la loi de probabilité de la loi binomiale $B(20,\frac{1}{2})$ ainsi que les valeurs de $p(X \leqslant k)$.

- Commençons par générer les données :

In [None]:
from scipy.stats import binom

listek=range(21)                          # liste des entiers de 0 à 20
loiproba=binom.pmf(range(21), 20, 0.5)    # loi de proba
repartition=binom.cdf(range(21), 20, 0.5) # proba cumulées croissantes


- Visualisons maintenant ces données sous forme de tableaux :

In [None]:
tableau2=pd.DataFrame({r'$k$':listek,r'$p(X=k)$':loiproba,r'$p(X \leqslant k)$':repartition}) #
tableau2


Pour ne pas faire apparaître la première colonne des index, il suffit de la cacher !

In [None]:
tableau2.style.hide_index()


#### b) Tableau de valeurs d'une fonction

Dressons le tableau de valeurs de la fonction $ f : x \mapsto x^2 + 1$ pour $x$ variant de $0$ à $9$ avec un pas de $1$.

- Génération des données :

In [None]:
antec1=range(10)

def f(val):
    images=[]
    for x in val:
        images.append(x**2+1)
    return images

f(antec1)

- Le tableau :

In [None]:
tabval1=pd.DataFrame({r'$x$':antec1,r'$f(x)$':f(antec1)})
tabval1.style.hide_index()

Pour laisser de la place au labef $f(x)$, on formate la deuxième colonne en arrondi à 2 décimales par exemple : 

In [None]:
tabval1.style.format({r'$f(x)$': '{:.2f}'}).hide_index()

Dressons maintenant le tableau de valeurs de la fonction $ g : x \mapsto x^2 +\frac{1}{x}$ pour $x$ prenant ses valeurs dans l'ensemble {-2 ; -0,5 ; 0,5 ; 1,5 ; 3} en arrondissant les valeurs des images au centième.
On peut formater l'arrondi en sortie sur le tableau comme précédemment ou sur les calculs d'images.

In [None]:
anteced=[-2 , -0.5 , 0.5 , 1.5, 3]

def g(val):
    images=[]
    for x in val:
        images.append('{:.2f}'.format(x**2+1/x))
    return images

g(anteced)

In [None]:
tabvalg=pd.DataFrame({r'$x$':anteced,r'$g(x)$':g(anteced)})
tabvalg.style.hide_index()

Et si on veut avoir le tableau horizontalement plutôt :

In [None]:
antec2=range(10)           # la première ligne
imag=f(antec2)          # la deuxième ligne 
label=[r'$x$ ',r'$f(x)$ '] # label pour chaque ligne
entete=list(' '*10)        # entête vide pour chaque colonne
tabval2=pd.DataFrame([antec2,imag], columns=entete,index=label)
tabval2

Et si on veut le tableau de valeurs pour $x$ variant de -1 à 2 avec un pas de 0.5 !

In [None]:
import numpy as np         # range n'accepte que des pas entiers, 
                           # on importe alors numpy pour travailler avec des pas non entiers

antec3=np.arange(-1,2.5,0.5) # la première ligne contient 7 valeurs
imag=f(antec3)                # la deuxième ligne 
label=[r'$x$ ',r'$f(x)$ '] # label pour chaque ligne
entete=list(' '*len(antec3))       # entête vide pour chaque colonne
tabval3=pd.DataFrame([antec3,imag], columns=entete,index=label)
tabval3

On reprend la fonction $ g : x \mapsto x^2 +\frac{1}{x}$. On veut les images de -2 ; -1,5 ; 0,5 ; 2,2  et 3 en arrondissant les valeurs au centième :

In [None]:
antec4=[-2 ,-1.5 ,0.5 , 2.2,3]   # la première ligne 
imag=g(antec4)                   # la deuxième ligne 
label=[r'$x$',r'$f(x)$']         # label pour chaque ligne
entete=list(' '*len(antec4))     # entête vide pour chaque colonne
tabval4=pd.DataFrame([antec4,imag], columns=entete,index=label)
tabval4