Convert a french national assembly report into TEI lite. Written specifically for "mariage pour tous" sessions.
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
files
Encoding.fr.md
LICENSE
LICENSE.fr
Makefile
Readme.md
deputes_id.json
enfant.png
gen_txm_metadata.sh
interruptions.png
tei_to_gexf.py
xmltei_to_plaintext.xsl

Readme.md

Ce projet vise a encoder en XML les séances de l'Assemblée Nationale sur l'ouverture du mariage aux couples de même sexe afin de pouvoir les retransformer « proprement » en quoique ce soit (docbook, xhtml...), dans le but, par exemple, de faire des recherches lexicographiques avec des outils comme Philologic ou TXM.

Je décris l'encodage sur sa propre page.

Télécharger

mpt-src, est importable en l'état dans Philologic ou dans TXM) via le module XML+w/CSV.

mpt.txm est un export des fichiers chargés et lemmatisés pour TXM que vous pouvez recharger dans votre propre instance de TXM. Attention à la présence des questions au gouvernement ou d'autres discussion dans le corpus. Pour n'interroger que les débats sur l'ouverture du mariage, il faut créer un sous corpus à partir du tag « metadata », de l'attribute « debat » avec la valeur « mpt ».

Exemples de résultats

J'ai écris sur mon carnet hypothèse un premier billet débroussaillant ce que l'on peut tirer de ces débats.

Il est aussi possible de générer des graphiques de ce type :

enfant

Vous voyez tous les mots coocurrents du mot « enfant » avec leur propre fréquence, leur fréquence de cooccurrence ainsi que la distance moyenne de chaque mots avec le mot « enfant ».

Ce graphique a été réalisé avec un résultat de cooccurrences de TXM et la bibliothèque ggplot2 de R.

On peut aussi parser le XML avec le script tei_to_gexf.py (fichier généré par le make dans files/gexf/ - actuellement cassé) et faire un graph des interruptions :

interruptions

Plus un député interrompt un autre (pour le féliciter ou le contredire : « Bravo », « C'est faux » etc...) plus son nœud apparaît en gros. L'arête grossi en fonction du nombre d'interruption qui ont lieu entre les deux protagonistes. Ce diagramme pose encore des problèmes : on n'y voit pas Christianne Taubira. Cela dit, on voit déjà qu'Hervé Mariton et Philippe Gosselin ont été particulièrement virulents, et notament contre Erwann Binet qui n'a lui que peu interrompu les autres.

Référence

Serge Heiden m'a averti de l'existence de deux articles de la revue Mots, les langages du politique de 1999 donnant de très bonnes idées d'exploitation de ce type de corpus :

Todo

Tester automatiquement la validité du XML (fait grossièrement par xsltproc(1)).

Bugs

  • L'attribut intervention marqué « intervention » ou « interruption » a été mis en place automatiquement et devrait être entièrement relu ;

  • Il faudrait ajouter les métadonnées nécessaire à Alain Vidalies, qui est mal repéré ;

  • Il faudrait ajouter les métadonnées nécessaire pour les ministres lors des questions au gouvernement.

Erreur ?

regardscitoyen fait déjà des extractions de cette base et met des dumps SQL à disposition. L'utilisation de ce dump aurait sans doute été plus propre. Cependant comme j'ai commencé avec ma méthode avec laquelle je suis familiarisé, je rechigne à comprendre le dump SQL pour l'exploiter. J'aurais clairement préféré un fichier XML comme donnée textuelle.

En revanche un nouveau travail qui consisterait à charger d'autres débats, voir l'ensemble des débats depuis 2007 gagnerait à utiliser le travail de regardscitoyens.

Et non, je n'ai pas honte de réinventer la roue :), parce que je m'amuse beaucoup et que de toutes façons, je fais ça pour le fun.