# Exploration des données forums de la France Insoumise

Nous utiliserons le package python [pandas](https://pandas.pydata.org/) pour manipuler les données. L'idée c'est de manipuler les données rapidement quelques lignes de code. 

Les fichiers `csv` sont dispos dans le drive de datapol (voire doc « table des données »). Par commodité nous avons converti les données en dataframe pandas et exporté le tout en dump pickle.

  - `jvc.csv` regroupe les messages des topics suivants du sous-forum « Blabla 18-25 ans », consacrés au mouvement France Insoumise et à son fondateur Jean-Luc Mélenchon, du 12/11/2016 au 31/10/2017
  - `blabla.csv` canal discord, discussion sur tous sujets, du 03/09/2017 au 30/10/2017
  - `debat_actu.csv` canal discord, discussion sur différents sujets d'actualité, 15/10/2017 au 30/10/2017
  - `debat_direct_an.csv` canal discord, discussion à propos des séances de l'Assemblée Nationale, du 10/07/2017 au 30/10/2017
  - `discussion_fi.csv` canal discord, discussion au sujet de différentes actions et projets de FI, du 07/02/2017 au 30/10/2017
  - `radio_insoumise.csv` canal discord, discussion autour des sujets abordés par les différentes émissions de Radio Insoumise, du 09/05/2017 au 30/10/2017

## Prise en main 

Commençons par charger les données en mémoire dans un dataframe.

In [None]:
import pandas as pd
import pandas_fi
from datetime import datetime

from IPython.display import display, HTML

df = pd.read_pickle('pickle_pandas_fi.bz', 'bz2')
df.info()

Les données ont été indexées sur le champ 'date', ça va bien nous aider par la suite

Un aperçu des données avec les 5 premières lignes (pas par ordre chrono attention)

In [None]:
df.head()

Pour simplifier l'affichage on peut sélectionner les colonnes à afficher.
Que la colonne 'content' par exemple.

In [None]:
df.content[:10]

Ou 'content' et 'file'

In [None]:
df[['content', 'file']]

Pour trier par date on se sert de l'indexation et hop

In [None]:
df[['content', 'file']].sort_index().head()

## Filtre sur une colonne ('file' par exemple)

On peut réduire les données à un fichier

In [None]:
df.loc[df['file'] == 'jvc.csv'].head()

Ou à plusieurs fichiers

In [None]:
df.loc[df['file'].isin(('jvc.csv', 'blabla.csv'))]

## Filtre sur le contenu

La fonction `pandas_fi.regex_filter` va nous permettre de chercher un motif regex dans le contenu des posts.

Ici les "flexions" de "stenchon", avec malheureusement du bruit lié aux URL.

In [None]:
pandas_fi.regex_filter(df, 'stenchon\w+\W')

## Filtre par date

Le filtrage par date est grandement simplifié par l'indexation réalisée à l'import des fichiers. Il suffit d'indiquer une date au format 'année' ou 'année-mois' ou 'année-mois-jour'

In [None]:
#df['2016'].sort_index() #toutes les données de 2016
#f['2016-11'].sort_index() #toutes les données de novembre 2016
df['2016-11-22'].sort_index() #toutes les données du 22 ovembre 2016

On peut aussi définir un intervalle temporel à la manière d'un slice python

In [None]:
#toutes les données entre le 20 janvier et le 3 mars 2017
df['2017-01-20':'2017-03-03'].sort_index()

Et puis combiner requête regex et sélection temporelle

In [None]:
pd.set_option('display.max_colwidth', -1) # pour afficher l'intégralité du contenu
res = pandas_fi.regex_filter(df, 'écologi(e|que)s?\W')
display(res['2017-01-20':'2017-03-03'].sort_index())