# Manipuler les données avec Pandas pour aller vers l'analyse statistique

En un mot : Pandas est une gamme d'outils pour manipuler des tableaux, et aller jusqu'à l'analyse des données

Cela simplifie beaucoup de traitements, surtout pour l'exploration.

## Avant Pandas : avoir un tableau de données

Articles du Monde, quotidien français, sur une période, mentionnant le terme "islamogauchisme" : construire un unique fichier CSV qui comprend : la date de l'article, son titre, le nombre de mots qu'il contient, et le nombre de fois où le terme "islamogauchisme" ou "islamo-gauchisme" est contenu.

On peut le faire uniquement avec les outils déjà vu. Nous allons utiliser Pandas pour faire ça dans ce cours, puis analyser les données

In [8]:
try:
    import openpyxl
except ModuleNotFoundError:
    print("""
    Nous aurons besoins de openpyxl, installez le avec
        
        conda install openpyxl
    ou 
    
        pip install openpyxl
    """)

In [9]:
import os
import pandas as pd

# Fonction pour compter
def compter(x):
    mots = ["islamogauchisme", "islamo-gauchisme"]
    total = 0
    for m in mots:
        total+=x.lower().count(m)
    return total

# Créer le corpus
corpus = []
for fichier in os.listdir("./Data/articles/"):
    date = fichier[0:10]
    titre = fichier[12:]
    with open("./Data/articles/"+fichier,"r") as f:
        contenu = f.read()
    total_titre_ig = compter(titre)
    total_contenu_ig = compter(contenu)
    total_mots = len(contenu.split())
    corpus.append([date,titre,contenu,total_mots,total_titre_ig,total_contenu_ig])

corpus = pd.DataFrame(corpus)
corpus.to_excel("Data/tableau.xlsx")

## Manipuler un tableau Pandas

In [10]:
import pandas as pd
data = pd.read_excel("./Data/extraction-ig-europresse.xls")

### Sélectionner les éléments : colonnes, lignes, cases

### Mettre en forme : colonne et index

### Filtrer le tableau

### Rajouter des colonnes

Recoder les journaux ; Rajouter une colonne nombre de mots ; une colonne présence des termes ; une colonne densité du terme

In [12]:
data["nombre_ig"] = data["Contenu"].apply(compter)
data["nombre_mots"] = data["Contenu"].apply(lambda x: len(x.split()))
data["densite"] = data.apply(lambda x : None if x["nombre_mots"]==0 else x["nombre_ig"]/x["nombre_mots"],axis=1)
def reco_journal(x):
    journals = {"Humanité": "L'Humanité",
                "Le Monde": "Le Monde",
                "La Croix": "La Croix",
                "Le Figaro": "Figaro",
                "Les Echos": "Les Echos",
                "La Tribune": "La Tribune",
                "Aujourd'hui en France": "Aujourd'hui en France"}
    for j in journals:
        if j in x:
            return journals[j]
    return x

data["Journal"] = data["Journal"].apply(reco_journal)

data.to_excel("Data/tableau_statistiques.xlsx")

In [15]:
data["Journal"].unique()

array(['Figaro', ' Libération   ', "L'Humanité", 'La Croix', 'Le Monde',
       'Les Echos', "Aujourd'hui en France", 'La Tribune'], dtype=object)

### Créer un tableau Pandas de 0

### Sauvegarder un tableau Pandas

## Début de mise en forme

### Le tri à plat

### Les tableaux croisés

### Ensuite ? Mettre en forme ...

## Exemple d'utilisation avancée

### La manipulation de séries temporelles