# Pandas, une librairie "structurante"
__Durée : 1h__

## Pourquoi utiliser Pandas
 * Construit sur les librairies de la stack Scipy : bonne compatibilité avec l'ensemble des autres outils
 * Manipulation "facile" de tableaux : un "Excel" en Python
 * Fonctionne comme une base de données pour des jeux de données de tailles "raisonnables" (sinon passer avec des requêtes sur une vraie base de données, ou Dask)
 * Permet de faire plein d'opérations utiles en analyse des données : regrouper, filtrer, afficher, calculer...

## Charger la librairie

In [1]:
import pandas as pd

## Bases de Pandas

De nouveaux "types" d'objet : la série (colonne) et le tableau (assemblage de colonnes)

* Le format DataSerie
 * Créer une DataSerie avec les dates
 * Ajouter/supprimer un élément
* Le format DataFrame
 * Créer une nouvelle série avec les titres
 * Créer un DataFrame avec les deux ensembles
 * Ajouter une colonne
 * Sélectionner un élément particulier
 * Faire un masque de sélection
 * Faire une boucle sur le tableau

Créer une série Pandas avec des âges : envelopper des données existantes

In [53]:
ages = pd.Series([32,43,12,32,32,87,20,20,20])

In [33]:
type(ages)

pandas.core.series.Series

On peut maintenant facilement manipuler cette série

(remarque : il est bien de manipuler des types de données homogènes)

In [34]:
ages

0    32
1    43
2    12
3    32
4    32
5    87
6    20
7    20
8    20
dtype: int64

In [35]:
ages.unique() #les différentes valeurs

array([32, 43, 12, 87, 20])

In [36]:
ages.value_counts() #la fréquence

20    3
32    3
12    1
43    1
87    1
dtype: int64

In [37]:
ages.mean() #la moyenne des ages

33.111111111111114

In [38]:
ages.median()

32.0

On peut appliquer une fonction sur chaque cellule (la fonction de recodage définie dans le module précédent)

In [48]:
def recodage_age(age_en_entree):
    if type(age_en_entree) != int: #on vérifie que c'est un nombre, sinon on retourne problème
        return "Problème"
    if age_en_entree<18:
        return "mineur.e"
    else:
        return "majeur.e"

In [54]:
ages.apply(recodage_age)

0    majeur.e
1    majeur.e
2    mineur.e
3    majeur.e
4    majeur.e
5    majeur.e
6    majeur.e
7    majeur.e
8    majeur.e
dtype: object

Et stocker sous une nouvelle série

In [55]:
ages_reco = ages.apply(recodage_age)

Et recompter

In [56]:
ages_reco.value_counts()

majeur.e    8
mineur.e    1
dtype: int64

### Les DataFrames : un tableau

Un ensemble de séries

In [67]:
df = pd.DataFrame()

In [59]:
type(df)

pandas.core.frame.DataFrame

On transforme la série des âges en DataFrame

In [57]:
ages = pd.DataFrame(ages)

In [58]:
ages

Unnamed: 0,0
0,32
1,43
2,12
3,32
4,32
5,87
6,20
7,20
8,20


In [59]:
ages.columns  = ["Ages"] #On donne un nom à la colonne

In [60]:
ages

Unnamed: 0,Ages
0,32
1,43
2,12
3,32
4,32
5,87
6,20
7,20
8,20


On crée une nouvelle colonne avec l'âge recodé

In [61]:
ages["Ages recodés"] = ages_reco

In [62]:
ages

Unnamed: 0,Ages,Ages recodés
0,32,majeur.e
1,43,majeur.e
2,12,mineur.e
3,32,majeur.e
4,32,majeur.e
5,87,majeur.e
6,20,majeur.e
7,20,majeur.e
8,20,majeur.e


In [71]:
ages.columns

Index(['Ages', 'Ages recodés'], dtype='object')

In [72]:
ages.index

RangeIndex(start=0, stop=9, step=1)

Accéder aux données

In [64]:
ages.loc[2] #Accéder à la deuxième ligne

Ages                  12
Ages recodés    mineur.e
Name: 2, dtype: object

In [65]:
ages.loc[2:4] #Aux lignes de 2 à 4

Unnamed: 0,Ages,Ages recodés
2,12,mineur.e
3,32,majeur.e
4,32,majeur.e


In [38]:
ages.iloc[-1] #Accéder à la dernière ligne

Ages                  20
Ages recodés    majeur.e
Name: 8, dtype: object

Ajouter une ligne à la fin : on rajoute un index en plus, et on met les valeurs

In [79]:
ages.loc[ages.index[-1]+1] = [None,"mineur.e"]

In [80]:
ages

Unnamed: 0,Ages,Ages recodés
0,32.0,majeur.e
1,43.0,majeur.e
2,12.0,mineur.e
3,32.0,majeur.e
4,32.0,majeur.e
5,87.0,majeur.e
6,20.0,majeur.e
7,20.0,majeur.e
8,20.0,majeur.e
9,,mineur.e


Faire une boucle sur le tableau pour afficher

In [83]:
for index,contenu in ages.iterrows():
    print("La ligne %d correspond à une personne de %d années, donc c'est un.e %s" % (index, contenu[0],contenu[1]))

La ligne 0 correspond à une personne de 32 années, donc c'est un.e majeur.e
La ligne 1 correspond à une personne de 43 années, donc c'est un.e majeur.e
La ligne 2 correspond à une personne de 12 années, donc c'est un.e mineur.e
La ligne 3 correspond à une personne de 32 années, donc c'est un.e majeur.e
La ligne 4 correspond à une personne de 32 années, donc c'est un.e majeur.e
La ligne 5 correspond à une personne de 87 années, donc c'est un.e majeur.e
La ligne 6 correspond à une personne de 20 années, donc c'est un.e majeur.e
La ligne 7 correspond à une personne de 20 années, donc c'est un.e majeur.e
La ligne 8 correspond à une personne de 20 années, donc c'est un.e majeur.e


TypeError: %d format: a number is required, not NoneType

Chercher les lignes où il y a une valeur nulle

In [81]:
ages[pd.isnull(ages["Ages"])]

Unnamed: 0,Ages,Ages recodés
9,,mineur.e


Ou avec une condition

In [57]:
ages[ages["Ages recodés"]=="mineur.e"]

Unnamed: 0,Ages,Ages recodés
2,12.0,mineur.e
9,,mineur.e


Se débarasser des valeurs nulles

In [82]:
ages.dropna()

Unnamed: 0,Ages,Ages recodés
0,32,majeur.e
1,43,majeur.e
2,12,mineur.e
3,32,majeur.e
4,32,majeur.e
5,87,majeur.e
6,20,majeur.e
7,20,majeur.e
8,20,majeur.e


Il y a une erreur car une valeur est nulle ; penser à utiliser .dropna() pour supprimer toutes les lignes manquantes

## Travailler sur un Dataframe

* Charger un fichier excel
 * Charger la base de données complètes base.xlsx
 * Recoder des colonnes
 * Grouper les données

Pour charger, plusieurs fonctions suivant le type de fichier

In [84]:
corpus = pd.read_excel("./../Données/corpus-mis-en-forme.xlsx")

In [85]:
corpus[0:3]

Unnamed: 0,Date_reco,Date,Titre,Journal,Contenu
0,2018-05-23,"Science & Médecine, mercredi 23 mai 2018 246...",Homéopathie Une réglementation à haute diluti...,Le Monde,(Lyon; correspondant); - Quand on lui parle ...
1,2018-06-16,"Événement, samedi 16 juin 2018 1243 mots, p. 4",Principale «Réduire l'homéopathie à un effet ...,"Libération, no. 11524","Le regard, au-dessus des petites lunettes ce..."
2,2018-04-10,"Sciences et éthique, mardi 10 avril 2018 105...",Faut-il en finir avec l'homéopathie? Une trib...,"La Croix, no. 41073",Faut-il se débarrasser de l'homéopathie? Voi...


Créer une nouvelle colonne année

Un nouveau type de données : les temps

In [87]:
type(corpus["Date_reco"].loc[0])

pandas._libs.tslibs.timestamps.Timestamp

In [88]:
corpus["Date_reco"].loc[0].year

2018

Définir une fonction

In [89]:
def get_year(x):
    return x.year

In [None]:
corpus["Date_reco"].apply(get_year)

Une autre façon de faire

In [69]:
corpus["Annee"] = corpus["Date_reco"].apply(lambda valeur : valeur.year)

Mettre la date en index

In [70]:
corpus = corpus.set_index("Date_reco")

Grouper par une colonne, puis compter le nombre d'éléments

In [82]:
corpus.groupby("Annee")["Titre"].count()

Annee
2017     6
2018    38
2019     6
Name: Titre, dtype: int64

##  Ajouter des données à son tableau : aller vers le traitement de données

Enrichir son jeu de données

 * Nombre de mots par texte
 * Faire une fonction pour calculer la fréquence d'un mot
 * Calculer la fréquence de certains mots dans les textes (4 ou 5 jugés pertinents)
 * Sauvegarder le corpus

Compter le nombre de mots par article
* définir une fonction qui découpe par mots
* la tester
* l'appliquer sur l'ensemble des éléments

In [71]:
def compter_nombre_mots(texte):
    texte = texte.replace("'",' ') # il y a des apostrophes à gérer
    texte = texte.replace("  "," ") # il y a de temps en temps deux espaces à la suite
    mots = texte.split(" ")
    return len(mots)

In [72]:
corpus["Nombre de mots"] = corpus["Contenu"].apply(compter_nombre_mots)

In [73]:
corpus[0:2]

Unnamed: 0_level_0,Date,Titre,Journal,Contenu,Annee,Nombre de mots
Date_reco,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-05-23,"Science & Médecine, mercredi 23 mai 2018 246...",Homéopathie Une réglementation à haute diluti...,Le Monde,(Lyon; correspondant); - Quand on lui parle ...,2018,2679
2018-06-16,"Événement, samedi 16 juin 2018 1243 mots, p. 4",Principale «Réduire l'homéopathie à un effet ...,"Libération, no. 11524","Le regard, au-dessus des petites lunettes ce...",2018,1341


### Chercher des mots "signifiants" spécifiques :
 * homéopath..
 * alterna...
 * allopath..
 * nofakemed
 * remboursement

Une fonction pour chercher un mot dans un texte

In [122]:
def frequence_homeo(texte):
    mot = "homeopath"
    
    #règles de nettoyage du texte
    texte = texte.replace("é","e") #virer les accents
    texte = texte.lower() #mettre en minuscule
    
    #calcul des fréquences
    frequence = len(texte.split(mot))-1
    return frequence

Tester

In [121]:
frequence_homeo("il y avait un homéopathe caché derrière le rideau homéopathique")

2

Appliquer au corpus

In [125]:
corpus["freq-homeo"] = corpus["Contenu"].apply(frequence_homeo)

Définir une fonction générique qui prend un mot quelconque pour le chercher

In [74]:
def freq_mot(texte,mot):
    
    #règles de nettoyage du texte
    texte = texte.replace("é","e") #virer les accents
    texte = texte.lower() #mettre en minuscule
    
    #calcul des fréquences
    frequence = len(texte.split(mot))-1
    return frequence

L'appliquer pour différents mots

In [76]:
corpus["freq-homeo"] = corpus["Contenu"].apply(lambda contenu : freq_mot(contenu,"homeopath"))
corpus["freq-alterna"] = corpus["Contenu"].apply(lambda contenu : freq_mot(contenu,"alterna"))
corpus["freq-allopath"] = corpus["Contenu"].apply(lambda contenu : freq_mot(contenu,"allopath"))
corpus["freq-nofakemed"] = corpus["Contenu"].apply(lambda contenu : freq_mot(contenu,"nofakemed"))

In [77]:
corpus[0:2]

Unnamed: 0_level_0,Date,Titre,Journal,Contenu,Annee,Nombre de mots,freq-homeo,freq-alterna,freq-allopath,freq-nofakemed
Date_reco,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2018-05-23,"Science & Médecine, mercredi 23 mai 2018 246...",Homéopathie Une réglementation à haute diluti...,Le Monde,(Lyon; correspondant); - Quand on lui parle ...,2018,2679,43,2,2,0
2018-06-16,"Événement, samedi 16 juin 2018 1243 mots, p. 4",Principale «Réduire l'homéopathie à un effet ...,"Libération, no. 11524","Le regard, au-dessus des petites lunettes ce...",2018,1341,26,0,12,0


Sauvegarder le corpus complété en format Excel

In [134]:
corpus.to_excel("corpus.xlsx")

### En résumé

Avec la librairie Pandas :
- construire un dataframe / charger un fichier (différents formats possibles, y compris des bases de données)
- le mettre en forme, ajouter des informatoins
- le sauvegarder sous un format

## Et maintenant : il faut l'analyser :)