# Exploration

In [1]:
import pandas as pd
import csv
import re
from collections import Counter, defaultdict
from itertools import islice
from tqdm import tqdm_notebook
from fog.key import fingerprint

In [2]:
# Params
DATA = '../data/interventions.csv'
OUTPUT = '../data/didascalies.csv'

# Match for "group"
GROUPS = [
    ('LREM', ('larem', 'lrem', 'rem'), 'en marche'),
    ('MODEM', ('modem', ), 'mouvement démocrate'),
    ('LR', ('lr', ), 'républicains'),
    ('LFI', ('lfi', 'fi'), 'insoumise'),
    ('UAI', ('udi', 'lc', 'uai'), 'constructifs'),
    ('NG', ('ng', ), 'nouvelle gauche'),
    ('GDR', ('gdr', ), 'gauche démocrate'),
    ('NI', ('ni', ), 'non inscrit')
]

GROUPS = [(t, tuple(re.compile('\\b' + p + '\\b') for p in ps), e) for t, ps, e in GROUPS]

BLACK_LIST = [
    'article',
    'motion',
    'séance', # Possibilité d'étudier les suspensions via ce mot-clé
    'seance',
    'amendement',
    'projet',
    'scrutin',
    'proposition',
    'votants',
    'remplace',
    'adopté',
    'tirage au sort'
]

EXCLAMATION_RE = re.compile('«([^»]+)»')
HYPHENS_RE = re.compile('[\\-‐‒–—―−‑⁃]')
QUOTES_RE = re.compile('[«»]')
DIDASCALIES_SPLITTER_RE = re.compile('[.\s]-')

In [3]:
# Helpers
TAGS_RE = re.compile(r'<[^>]+>')

def strip_tags(html):
    return re.sub(TAGS_RE, '', html)

def is_didascalie(line):
    if line['nom'] != 'NULL' or line['parlementaire'] != 'NULL':
        return False
    
    raw_intervention = fingerprint(strip_tags(re.sub(QUOTES_RE, '', line['intervention'])))
    
    if fingerprint(re.sub(QUOTES_RE, '', line['titre'].replace(' (suite)', ''))) == raw_intervention:
        return False
    
    for b in BLACK_LIST:
        if b in raw_intervention:
            print(raw_intervention)
            return False
    
    return True

def split_didascalies(intervention):
    intervention = strip_tags(intervention)
    intervention = re.sub(HYPHENS_RE, '-', intervention)
    
    return [d.strip('. ') for d in DIDASCALIES_SPLITTER_RE.split(intervention.strip('. '))]

def extract_groups(didascalie):
    raw_didascalie = didascalie.lower()
    
    groups = set()
    
    for name, patterns, expression in GROUPS:
        if expression in raw_didascalie:
            groups.add(name)
            
            continue
            
        for pattern in patterns:
            if re.search(pattern, raw_didascalie):
                groups.add(name)
                break
                
    return list(groups)

In [4]:
def find_reference_point(lines, didascalie_line, index):
    index -= 1
    
    while is_didascalie(lines[index]) or (lines[index]['nom'] == 'NULL' and lines[index]['parlementaire'] == 'NULL'):
        index -=1
        
    if lines[index]['seance_id'] != didascalie_line['seance_id']:
        print(didascalie_line)
        print(lines[index])
        print()
        
    return lines[index]

In [5]:
DIDASCALIES = []

with open(DATA, 'r') as f:
    reader = csv.DictReader(f)
    
    LINES = list(reader)
    
    for i, line in enumerate(LINES):
        if not is_didascalie(line):
            continue
            
        didascalies = split_didascalies(line['intervention'])
        
        reference_point = find_reference_point(LINES, line, i)
        
        for didascalie in didascalies:
            meta = dict(reference_point)
            meta['didascalie'] = didascalie

            DIDASCALIES.append(meta)

a est heures la ouverte quinze seance
a dix est heures le ouvert quinze scrutin
a cinq cinquantecinq est heures la reprise seance seize suspendue
a est heures la levee quinze seance seize
compte de directrice du joly la lassemblee nationalecatherine rendu seancede service
a est heures la ouverte quinze seance
a est heures le ouvert quinze scrutin
a dix dixsept est heures la quinze reprise seance suspendue
a dixhuit dixsept est heures la quinze reprise seance suspendue vingt
a dixhuit dixneuf est heures la reprise seance suspendue trentecinq vingtcinq
a dixneuf est heures la quarantecinq reprise seance suspendue trentecinq vingtdeux
2017 29 a cinquantecinq est heure heures jeudi juin la le reprise seance suspendue trente vingtdeux zero
a est heure la levee seance trentecinq zero
compte de directrice du joly la lassemblee nationalecatherine rendu seancede service
a est heures la ouverte quinze seance
a est heures la reprise seance seize suspendue trente trentecinq
a cinq dixhuit est heur

233 accepte adopte est gouvernement lamendement le no par rectifie
5 adopte amende bis est larticle
557 est lamendement no retire
234 accepte adopte est gouvernement lamendement le no par
228 accepte adopte est gouvernement lamendement le no par
5 adopte amende est larticle ter
de et la reprise seance suspension
a cinq dix est heures la onze quarantecinq reprise seance suspendue
au est il procede scrutin
absolue70pour de exprimes139majorite ladoption16contre123 nombre suffrages votants149nombre
179 adopte lamendement nest no pas
67 est lamendement no retire
32 adopte gouvernement lamendement le nest no par pas repousse
246 adopte gouvernement lamendement le nest no par pas repousse
au est il procede scrutin
absolue86pour de exprimes170majorite ladoption64contre106 nombre suffrages votants183nombre
247 adopte lamendement nest no pas
au est il procede scrutin
absolue91pour de exprimes180majorite ladoption111contre69 nombre suffrages votants192nombre
34 adopte est lamendement no
34 adopte

249 417 adoptes amendements et identiques les ne nos pas sont
250 adopte lamendement nest no pas
355 adopte lamendement nest no pas
144 adopte lamendement nest no pas
520 adopte lamendement nest no pas
414 452 adoptes amendements et identiques les ne nos pas sont
183 251 adoptes amendements aux et les mis ne nos pas sont successivement voix
180 204 321 adoptes amendements et identiques lamendement les no nos sont tombe
165 39 73 adoptes amendements aux et les mis ne nos pas sont successivement voix
482 adopte lamendement nest no pas
111 146 40 adoptes amendements et identiques les ne nos pas sont
205 29 378 418 501 517 adoptes amendements aux et les mis ne nos pas sont successivement voix
112 adopte lamendement nest no pas
105 adopte lamendement nest no pas
491 adopte lamendement nest no pas
379 adopte lamendement nest no pas
322 461 adoptes amendements et identiques les ne nos pas rectifie sont
41 adopte lamendement nest no pas
102 adopte lamendement nest no pas
113 325 99 adoptes ame

86 87 adoptes amendements aux et les mis ne nos pas sont successivement voix
65 adopte lamendement nest no pas
73 adopte commission la lamendement nest no par pas repousse
61 adopte lamendement nest no pas
59 adopte commission la lamendement nest no par pas repousse
88 adopte lamendement nest no pas
89 adopte lamendement nest no pas
15 80 adoptes amendements aux et les mis ne nos pas sont successivement voix
99 adopte lamendement nest no pas
69 adopte commission la lamendement nest no par pas repousse
60 adopte lamendement nest no pas
90 adopte lamendement nest no pas
25 adopte commission la lamendement nest no par pas repousse
au est il procede scrutin
absolue56pour de exprimes111majorite ladoption100contre11 nombre suffrages votants115nombre
adopte ainsi de est la larticle lensemble proposition que resolution unique
adopte ainsi de est la larticle lensemble proposition que resolution unique
absolue56pour de exprimes111majorite ladoption100contre11 nombre suffrages votants115nombre
11

a cinquantecinq est heure la levee seance une
compte de directrice du joly la lassemblee nationalecatherine rendu seancede service
a est heures la ouverte seance seize
2018 de finances loi pour projet
2018 de finances loi pour projet
a est heures la ouverte seance seize
163 243 349 adoptes amendements aux et les mis ne nos pas sont successivement voix
au est il procede scrutin
absolue45pour de exprimes88majorite ladoption80contre8 nombre suffrages votants89nombre
27 adopte est larticle
27 adopte est larticle
absolue45pour de exprimes88majorite ladoption80contre8 nombre suffrages votants89nombre
de et la reprise seance suspension
a cinq dixneuf est heures la reprise seance suspendue vingt
1146 1380 adopte consequence en est lamendement no tombe
28 a adoptes amendes et larticle letat sont
a est heures la levee seance vingt vingtcinq
compte de directrice du joly la lassemblee nationalecatherine rendu seancede service
a est heures la ouverte quinze seance
de et la reprise seance suspension

911 adopte commission et gouvernement la lamendement le nest no par pas repousse
711 adopte commission et gouvernement la lamendement le nest no par pas repousse
705 adopte lamendement nest no pas
697 adopte commission et gouvernement la lamendement le nest no par pas repousse
43 adopte est larticle
188 301 342 adoptes amendements identiques les ne nos pas sont
947 adopte lamendement nest no pas
189 194 864 adoptes amendements aux et les mis ne nos pas sont successivement voix
803 adopte commission et gouvernement la lamendement le nest no par pas repousse
44 adopte est larticle
332 783 787 788 789 793 adoptes amendements et identiques les ne nos pas sont
85 adopte lamendement nest no pas
765 768 769 774 889 adoptes amendements et identiques les ne nos pas sont
759 760 762 763 adoptes amendements et identiques les ne nos pas sont
759 760 762 763 adoptes amendements et identiques les ne nos pas sont
235 adopte lamendement nest no pas
1223 894 adopte est et lamendement no rectifie tombe


14 2017 a deux dix est heures la le levee mardi novembre seance
compte de directrice du joly la lassemblee nationalecatherine rendu seancede service
a est heures la ouverte quinze seance
de et la reprise seance suspension
a de dix est fur heures la le m marc presidence reprise seance seize sous suspendue vingtcinq
2018 de finances loi pour projet
2018 de finances loi pour projet
2018 de finances loi pour projet
2018 de finances loi pour projet
1876 adopte est lamendement no
1214 adopte gouvernement lamendement le nest no par pas repousse
1224 1225 adoptes amendements aux et les mis ne nos pas sont successivement voix
1202 adopte lamendement nest no pas
au est il procede scrutin
absolue47pour de exprimes93majorite ladoption25contre68 nombre suffrages votants99nombre
1218 adopte lamendement nest no pas
1223 adopte lamendement nest no pas
1217 adopte lamendement nest no pas
2018 de finances loi pour projet
2018 de finances loi pour projet
1153 adopte lamendement nest no pas
1185 adopte la

464 adopte commission et gouvernement la lamendement le nest no par pas repousse
689 adopte gouvernement lamendement le nest no par pas repousse
466 est lamendement no retire
de et la reprise seance suspension
a dixhuit est heures la reprise seance suspendue trentecinq vingtcinq
1327 adopte gouvernement lamendement le nest no par pas repousse
1569 450 adoptes amendements et identiques les ne nos pas sont
1870 adopte est lamendement no
1871 adopte est lamendement no
1871 adopte est lamendement no
a au de dixneuf fauteuil francois heures houlie la m presidence quinze remplace rugy sacha
1689 adopte est lamendement no
1689 adopte est lamendement no
1357 1413 adoptes amendements et identiques les ne nos pas sont
1363 adopte gouvernement lamendement le nest no par pas repousse
1628 adopte est lamendement no
1631 est lamendement no retire
1333 1356 1392 adoptes amendements aux et les mis ne nos pas sont successivement voix
au est il procede scrutin
absolue41pour de exprimes81majorite ladopti

427 adopte est lamendement no
8 adopte amende est larticle
549 adopte est lamendement no
162 449 adoptes amendements et identiques les ne nos pas sont
253 89 adoptes amendements aux et les mis ne nos pas sont successivement voix
1 474 87 adoptes amendements et identiques les ne nos pas sont
90 91 92 adoptes amendements aux et les mis ne nos406 pas sont successivement voix
2017 5 a decembre est heure la le levee mardi seance une
compte de directrice du joly la lassemblee nationalecatherine rendu seancede service
a est heures la ouverte quinze seance
de et la reprise seance suspension
a annie cinq de est genevard heures la mme presidence reprise seance seize sous suspendue trente
383 adopte est lamendement no
3 adopte lamendement nest no pas
4 adopte gouvernement lamendement le nest no par pas repousse
5 adopte lamendement nest no pas
7 adopte lamendement nest no pas
8 adopte lamendement nest no pas
19 adopte commission et gouvernement la lamendement le nest no par pas repousse
9 adopte 

3 361 adopte ainsi est et lamendement larticle no retabli ter
153 3 adopte est et lamendement larticle no quater supprime
96 est lamendement no retire
204 adopte est lamendement no
4 adopte amende est larticle
15 362 6 97 a acceptes adoptes amendements bis commission est et gouvernement identiques la larticle le les nos par sont supprime
230 adopte est lamendement no
253 adopte commission et gouvernement la lamendement le nest no par pas repousse
254 adopte commission et gouvernement la lamendement le nest no par pas repousse
255 adopte commission et gouvernement la lamendement le nest no par pas repousse
256 adopte commission et gouvernement la lamendement le nest no par pas repousse
490 accepte adopte commission est la lamendement no par
6 a adopte amende est larticle ter
363 6 accepte adopte b est et gouvernement lamendement larticle le no par supprime ter
257 6 de est et la lamendement larticle maintenue no retire suppression ter
6 adopte est larticle quater
6 adopte est larticle q

78 adopte commission et gouvernement la lamendement le nest no par pas repousse
88 adopte lamendement nest no pas
au est il procede scrutin
absolue34pour de exprimes66majorite ladoption65contre1 nombre suffrages votants69nombre
53 77 adoptes amendements et identiques les nos sont
18 adopte amende est larticle
129 adopte est lamendement no
28 adopte lamendement nest no pas
20 79 80 adoptes amendements aux et les mis ne nos pas sont successivement voix
adopte de est le loi projet
adopte de est le loi projet
21 a decembre est heure jeudi la le levee seance trente une
compte de directrice du joly la lassemblee nationalecatherine rendu seancede service
a est heures la neuf ouverte seance trente
2018 de finances loi pour projet
adoptee aux de la mise motion nest pas prealable rejet voix
adoptee aux commission de en la mise motion nest pas renvoi voix
adopte de est le loi projet
adopte de est le loi projet
adoptee aux de la mise motion nest pas prealable rejet voix
adoptee aux commission de e

45 adopte commission et gouvernement la lamendement le nest no par pas rectifie repousse
32 adopte lamendement nest no pas
69 est lamendement no retire
18 63 adoptes amendements aux et les mis ne nos pas sont successivement voix
156 accepte adopte est gouvernement lamendement le no par
89 est lamendement no retire
111 116 92 adoptes amendements commission et gouvernement identiques la le les ne nos par pas repousses sont
2 adopte amende est larticle
3 adopte est larticle
au est il procede scrutin
absolue30pour de exprimes58majorite ladoption5contre53 nombre suffrages votants60nombre
76 adopte lamendement nest no pas
au est il procede scrutin
absolue31pour de exprimes60majorite ladoption4contre56 nombre suffrages votants63nombre
74 adopte lamendement nest no pas
au est il procede scrutin
absolue31pour de exprimes61majorite ladoption4contre57 nombre suffrages votants63nombre
75 adopte lamendement nest no pas
66 adopte gouvernement lamendement le nest no par pas repousse
au est il procede

a cinq est heures la levee seance vingt
compte de directrice du joly la lassemblee nationalecatherine rendu seancede service
a est et heures la ouverte seance trente une vingt
de et la reprise seance suspension
a est heures la quarante quarantecinq reprise seance suspendue vingtdeux
3 est lamendement no retire
19 accepte adopte est gouvernement lamendement le no par
16 adopte lamendement nest no pas
15 adopte lamendement nest no pas
4 adopte gouvernement lamendement le nest no par pas repousse
5 adopte lamendement nest no pas
9 adopte lamendement nest no pas
18 adopte est le no sousamendement
11 adopte est lamendement no sousamende
14 accepte adopte est et gouvernement lamendement le no no1 par tombe
17 adopte lamendement nest no pas
10 adopte lamendement nest no pas
12 adopte lamendement nest no pas
13 adopte gouvernement lamendement le nest no par pas repousse
au est il procede scrutin
absolue52pour de exprimes102majorite ladoption96contre6 nombre suffrages votants103nombre
adopte ai

a est heures la quarante reprise seance suspendue trentecinq vingtdeux
de et la reprise seance suspension
2018 29 a est heure jeudi la le mars quinze reprise seance suspendue vingt zero
19 adopte lamendement nest no pas
au est il procede scrutin
absolue26pour de exprimes51majorite ladoption44contre7 nombre suffrages votants54nombre
77 adopte est et lamendement no no1 tombe
2018 29 a cinq est heure jeudi la le levee mars seance une
compte de directrice du joly la lassemblee nationalecatherine rendu seancede service
a est heures la neuf ouverte seance trente
39 40 adoptes amendements aux et les mis ne nos pas sont successivement voix
70 est lamendement no retire
de et la reprise seance suspension
a est heures la neuf quaranteneuf quarantesept reprise seance suspendue
au est il procede scrutin
absolue20pour de exprimes39majorite ladoption6contre33 nombre suffrages votants40nombre
41 adopte lamendement nest no pas
17 adopte gouvernement lamendement le nest no par pas repousse
61 adopte lam

au est il procede scrutin
absolue91pour de exprimes181majorite ladoption39contre142 nombre suffrages votants184nombre
1117 adopte lamendement nest no pas
426 adopte lamendement nest no pas
427 adopte lamendement nest no pas
491 adopte lamendement nest no pas
889 adopte lamendement nest no pas
428 adopte lamendement nest no pas
257 258 adoptes amendements aux et gouvernement le les mis ne nos par pas repousses sont successivement voix
490 557 adoptes amendements et identiques les ne nos pas sont
429 adopte lamendement nest no pas
614 est lamendement no retire
au est il procede scrutin
absolue72pour de exprimes142majorite ladoption48contre94 nombre suffrages votants144nombre
1118 adopte lamendement nest no pas
489 adopte lamendement nest no pas
1er adopte est larticle
551 adopte gouvernement lamendement le nest no par pas repousse
259 adopte lamendement nest no pas
891 adopte lamendement nest no pas
au est il procede scrutin
absolue54pour de exprimes107majorite ladoption21contre86 nombre

absolue86pour de exprimes171majorite ladoption28contre143 nombre suffrages votants173nombre
402 adopte lamendement nest no pas
737 est lamendement no retire
33 adopte bis est larticle
997 adopte lamendement nest no pas
au est il procede scrutin
absolue66pour de exprimes131majorite ladoption75contre56 nombre suffrages votants155nombre
356 59 70 79 790 adoptes amendements et identiques lamendement les no nos sont tombe
356 59 70 79 790 adoptes amendements et identiques lamendement les no nos sont tombe
absolue66pour de exprimes131majorite ladoption75contre56 nombre suffrages votants155nombre
au est il procede scrutin
absolue71pour de exprimes140majorite ladoption7contre133 nombre suffrages votants146nombre
849 adopte lamendement nest no pas
849 adopte lamendement nest no pas
absolue71pour de exprimes140majorite ladoption7contre133 nombre suffrages votants146nombre
469 adopte commission et gouvernement la lamendement le nest no par pas repousse
659 adopte lamendement nest no pas
467 adopt

3 adopte lamendement nest no pas
5 accepte adopte est gouvernement lamendement le no par
adopte amende est larticle unique
1 adopte lamendement nest no pas
2 adopte lamendement nest no pas
adoptee de est la loi proposition
adoptee de est la loi proposition
a est heures la levee seance vingt
compte de directrice du joly la lassemblee nationalecatherine rendu seancede service
a est heures la ouverte quinze seance
de et la reprise seance suspension
a de est heures hugues la m presidence quinze renson reprise seance seize sous suspendue trente
adoptee aux commission de en la mise motion nest pas renvoi voix
a est heures la levee seance vingt
compte de directrice du joly la lassemblee nationalecatherine rendu seancede service
a est et heures la ouverte seance trente une vingt
2 adopte gouvernement lamendement le nest no par pas repousse
6 adopte gouvernement lamendement le nest no par pas repousse
3 adopte gouvernement lamendement le nest no par pas repousse
791 832 846 adoptes amendements 

464 adopte gouvernement lamendement le nest no par pas repousse
1754 adopte lamendement nest no pas rectifie
1465 adopte gouvernement lamendement le nest no par pas repousse
au est il procede scrutin
absolue25pour de exprimes49majorite ladoption15contre34 nombre suffrages votants52nombre
2457 adopte lamendement nest no pas
11 apres larticle undeciessuite
2277 adopte lamendement nest no pas
2200 511 adoptes amendements et identiques les ne nos pas sont
1992 2181 adoptes amendements commission et gouvernement identiques la le les ne nos par pas repousses sont
2056 509 adoptes amendements commission et gouvernement identiques la le les ne nos par pas repousses sont
2074 adopte lamendement nest no pas
2148 est lamendement no rectifie retire
1792 2458 adoptes amendements et gouvernement identiques le les ne nos par pas rectifie repousses sont
au est il procede scrutin
absolue43pour de exprimes85majorite ladoption18contre67 nombre suffrages votants87nombre
969 adopte lamendement nest no pas


de et la reprise seance suspension
a de dix est heures hugues la m presidence renson reprise seance seize sous suspendue trente
14 apres larticle septies suite
1138 adopte lamendement nest no pas
au est il procede scrutin
absolue46pour de exprimes90majorite ladoption18contre72 nombre suffrages votants114nombre
2004 adopte lamendement nest no pas
1456 adopte lamendement nest no pas
au est il procede scrutin
absolue40pour de exprimes79majorite ladoption25contre54 nombre suffrages votants104nombre
2448 962 adoptes amendements et identiques les ne nos pas sont
1453 adopte lamendement nest no pas
au est il procede scrutin
absolue58pour de exprimes115majorite ladoption45contre70 nombre suffrages votants118nombre
2447 adopte lamendement nest no pas
au est il procede scrutin
absolue52pour de exprimes103majorite ladoption41contre62 nombre suffrages votants108nombre
118 1471 16 208 217 39 469 949 963 adoptes amendements et identiques les ne nos pas sont
1815 adopte gouvernement lamendement le ne

2 a cinquantecinq est heure juin la le levee samedi seance zero
compte de directrice du joly la lassemblee nationalecatherine rendu seancede service
a est heures la neuf ouverte seance trente
au est il procede scrutin
absolue38pour de exprimes74majorite ladoption15contre59 nombre suffrages votants75nombre
2081 2234 810 adoptes amendements et identiques les ne nos pas sont
2633 adopte gouvernement lamendement le nest no par pas repousse
2634 adopte lamendement nest no pas
300 est lamendement no retire
1993 adopte gouvernement lamendement le nest no par pas repousse
737 adopte lamendement nest no pas
2635 2903 adoptes amendements et identiques les ne nos pas sont
1829 498 893 amendements et identiques les nos retires sont
2058 adopte lamendement nest no pas
1253 2059 adoptes amendements et identiques les nos sont
1348 adopte gouvernement lamendement le nest no par pas repousse
1704 2350 adoptes amendements et identiques les nos sont
1705 adopte gouvernement lamendement le nest no par pas

2859 adopte lamendement nest no pas
1625 adopte lamendement nest no pas
3191 adopte lamendement nest no pas
1336 adopte lamendement nest no pas
1596 adopte lamendement nest no pas
938 est lamendement no retire
1536 est lamendement no retire
1536 est lamendement no retire
2830 adopte gouvernement lamendement le nest no par pas repousse
au est il procede scrutin
absolue32pour de exprimes62majorite ladoption55contre7 nombre suffrages votants66nombre
35 adopte amende est larticle
1884 est lamendement no rectifie retire
au est il procede scrutin
absolue28pour de exprimes55majorite ladoption12contre43 nombre suffrages votants57nombre
2727 adopte lamendement nest no pas
1400 adopte commission et gouvernement la lamendement le nest no par pas repousse
au est il procede scrutin
absolue27pour de exprimes52majorite ladoption13contre39 nombre suffrages votants61nombre
2705 444 adoptes amendements et identiques les ne nos pas rectifie sont
de et la reprise seance suspension
a dixhuit est heures la 

de et la reprise seance suspension
a est et heures la quarante quarantetrois reprise seance suspendue une vingttrois
220 adopte est lamendement no
11 18 adoptes amendements et identiques les ne nos pas sont
au est il procede scrutin
absolue29pour de exprimes56majorite ladoption9contre47 nombre suffrages votants57nombre
24 6 8 adoptes amendements et identiques les ne nos pas sont
162 adopte gouvernement lamendement le nest no par pas repousse
19 adopte lamendement nest no pas
de et la reprise seance suspension
2018 8 a est heure immediatement juin la le quinze reprise seance suspendue vendredi zero
au est il procede scrutin
absolue26pour de exprimes51majorite ladoption37contre14 nombre suffrages votants54nombre
209 adopte est lamendement no
209 adopte est lamendement no
absolue26pour de exprimes51majorite ladoption37contre14 nombre suffrages votants54nombre
82 adopte lamendement nest no pas
12 adopte lamendement nest no pas
214 accepte adopte est gouvernement lamendement le no par
71 ac

16 a est heures la ouverte seance
au est il procede scrutin
absolue32pour de exprimes63majorite ladoption10contre53 nombre suffrages votants64nombre
adoptee de la motion nest pas prealable rejet
au est il procede scrutin
absolue28pour de exprimes54majorite ladoption19contre35 nombre suffrages votants57nombre
adoptee commission de en la motion nest pas renvoi
a cinquantecinq dixneuf est heures la levee seance
compte de directrice du joly la lassemblee nationalecatherine rendu seancede service
a est et heures la ouverte seance trente une vingt
12 a est heure juin la le levee mardi seance une
compte de directrice du joly la lassemblee nationalecatherine rendu seancede service
a est heures la neuf ouverte seance trente
est immediatement instants la quelques reprise seance suspendue
de et la reprise seance suspension
a de deux dix est heures la m presidence reprise seance sous suspendue sylvain waserman
de et la reprise seance suspension
a cinquante cinquantecinq de dix est heures jego la m

1827 adopte commission et gouvernement la lamendement le nest no par pas repousse
1184 1559 1626 757 adoptes amendements et identiques les ne nos pas sont
1685 244 71 adoptes amendements et identiques les ne nos pas sont
1589 adopte est lamendement no
730 adopte est lamendement no
2191 527 adoptes amendements et identiques les ne nos pas sont
944 accepte adopte commission est et gouvernement la lamendement le no par
945 accepte adopte commission est et gouvernement la lamendement le no par
1731 adopte lamendement nest no pas
1318 217 478 70 712 73 adoptes amendements et gouvernement identiques le les ne nos par pas repousses sont
218 630 adoptes amendements commission et gouvernement identiques la le les ne nos par pas repousses sont
245 adopte commission et gouvernement la lamendement le nest no par pas repousse
2131 accepte adopte commission est et gouvernement la lamendement le no par
632 adopte commission et gouvernement la lamendement le nest no par pas repousse
1319 188 246 74 76

18 adopte lamendement nest no pas
adoptee de est la loi proposition
2018 22 a cinquantecinq est heure juin la le levee seance vendredi zero
compte de directrice du joly la lassemblee nationalecatherine rendu seancede service


In [6]:
Counter(d['didascalie'].lower() for d in DIDASCALIES if 'même' in d['didascalie'].lower()).most_common()

[('mêmes mouvements', 485),
 ('applaudissements sur les mêmes bancs', 14),
 ('mêmes mouvements sur les mêmes bancs', 10),
 ('même mouvement', 8),
 ('nouveaux applaudissements sur les mêmes bancs', 3),
 ('exclamations persistantes sur les mêmes bancs', 3),
 ('même mouvements', 3),
 ('exclamations sur les mêmes bancs', 2),
 ('protestations sur les mêmes bancs', 2),
 ('mêmes mouvement', 2),
 ('« eh oui ! » sur les mêmes bancs', 1),
 ('« si ! » sur les mêmes bancs', 1),
 ('nouvelles protestations sur les mêmes bancs', 1),
 ('« non ! » sur les mêmes bancs', 1),
 ('brouhaha grandissant sur les mêmes bancs', 1),
 ('nouvelles exclamations sur les mêmes bancs', 1),
 ('mêmes mouvements et exclamations sur les bancs des groupes rem et modem',
  1),
 ('« ah ! » sur les mêmes bancs', 1),
 ('vifs applaudissements sur les mêmes bancs', 1),
 ('« bravo ! » et rires sur les mêmes bancs', 1),
 ('les mêmes se lèvent et applaudissent longuement', 1),
 ('« pas de la même manière ! »sur les bancs du groupe l

In [7]:
# Handling "mêmes mouvements"
MEMES_MOUVEMENTS_RE = re.compile('mêmes?\s+mouvements?')

for i, d in enumerate(DIDASCALIES):
    if re.search(MEMES_MOUVEMENTS_RE, d['didascalie'].lower()):
        # print(d['didascalie'])
        last_d = DIDASCALIES[i - 1]
        meta = dict(last_d)
        meta['didascalie'] = MEMES_MOUVEMENTS_RE.sub(d['didascalie'], last_d['didascalie'])
        DIDASCALIES[i] = meta

In [8]:
# Extracting groups
for d in DIDASCALIES:
    groups = extract_groups(d['didascalie'])
    d['groups'] = '|'.join(groups)

In [9]:
# All groups at once
ALL_GROUPS_KEY = '|'.join(g for g, _, _ in GROUPS)
for d in DIDASCALIES:
    raw_didascalie = d['didascalie'].lower()
        
    if 'tous les banc' in raw_didascalie or 'mmes et mm. les députés' in raw_didascalie:
        d['groups'] = ALL_GROUPS_KEY

In [10]:
# Handling "mêmes bancs"
MEMES_BANCS_RE = re.compile('mêmes?\s+bancs?')

for i, d in enumerate(DIDASCALIES):
    raw_didascalie = d['didascalie'].lower()
    
    if re.search(MEMES_BANCS_RE, raw_didascalie):
        last_d = DIDASCALIES[i - 1]
        
        groups = set(d['groups'].split('|') if d['groups'] else []) | set(last_d['groups'].split('|') if last_d['groups'] else [])

        d['groups'] = '|'.join(groups)

In [11]:
pd.DataFrame(DIDASCALIES).head(1000)

Unnamed: 0,date,didascalie,fonction,groups,id,intervention,moment,nb_mots,nom,parlementaire,parlementaire_groupe_acronyme,seance_id,sexe,source,timestamp,titre,titre_complet,type
0,2017-06-27,Applaudissements,"président, doyen d'âge",,14,<p>Monsieur le secrétaire d'État chargé des re...,15:00,636,,Bernard Brochand,NI,1,H,http://www.assemblee-nationale.fr/15/cri/2016-...,170,allocution du doyen d'âge,allocution du doyen d'âge,loi
1,2017-06-27,Il est procédé au tirage au sort,"président, doyen d'âge",,17,"<p>L'ordre du jour appelle, conformément à l'a...",15:00,140,,Bernard Brochand,NI,1,H,http://www.assemblee-nationale.fr/15/cri/2016-...,220,Élection du président de l'assemblée nationale,Élection du président de l'assemblée nationale,loi
2,2017-06-27,Il est procédé au tirage au sort,"président, doyen d'âge",,19,<p>Sont désignés scrutateurs titulaires : M. B...,15:00,51,,Bernard Brochand,NI,1,H,http://www.assemblee-nationale.fr/15/cri/2016-...,250,Élection du président de l'assemblée nationale,Élection du président de l'assemblée nationale,loi
3,2017-06-27,Mmes et MM. les députés et M. le secrétaire d'...,"président, doyen d'âge",LREM|MODEM|LR|LFI|UAI|NG|GDR|NI,26,<p>La séance est reprise.</p><p>Mes chers coll...,15:00,63,,Bernard Brochand,NI,1,H,http://www.assemblee-nationale.fr/15/cri/2016-...,350,Élection du président de l'assemblée nationale,Élection du président de l'assemblée nationale,loi
4,2017-06-27,Applaudissements,"président, doyen d'âge",,28,<p>M. Jean-Charles Taugourdeau : 94 voix</p>,15:00,6,,Bernard Brochand,NI,1,H,http://www.assemblee-nationale.fr/15/cri/2016-...,370,Élection du président de l'assemblée nationale,Élection du président de l'assemblée nationale,loi
5,2017-06-27,Applaudissements,"président, doyen d'âge",,30,<p>Mme Laure de La Raudière : 34 voix</p>,15:00,9,,Bernard Brochand,NI,1,H,http://www.assemblee-nationale.fr/15/cri/2016-...,390,Élection du président de l'assemblée nationale,Élection du président de l'assemblée nationale,loi
6,2017-06-27,Applaudissements,"président, doyen d'âge",,32,<p>Mme Laurence Dumont : 32 voix</p>,15:00,6,,Bernard Brochand,NI,1,H,http://www.assemblee-nationale.fr/15/cri/2016-...,410,Élection du président de l'assemblée nationale,Élection du président de l'assemblée nationale,loi
7,2017-06-27,Applaudissements,"président, doyen d'âge",,34,<p>Mme Caroline Fiat : 30 voix</p>,15:00,6,,Bernard Brochand,NI,1,H,http://www.assemblee-nationale.fr/15/cri/2016-...,430,Élection du président de l'assemblée nationale,Élection du président de l'assemblée nationale,loi
8,2017-06-27,Mmes et MM. les députés et M. le secrétaire d'...,"président, doyen d'âge",LREM|MODEM|LR|LFI|UAI|NG|GDR|NI,36,<p>M. François de Rugy ayant obtenu la majorit...,15:00,34,,Bernard Brochand,NI,1,H,http://www.assemblee-nationale.fr/15/cri/2016-...,450,Élection du président de l'assemblée nationale,Élection du président de l'assemblée nationale,loi
9,2017-06-27,M. François de Rugy prend place au fauteuil pr...,"président, doyen d'âge",,36,<p>M. François de Rugy ayant obtenu la majorit...,15:00,34,,Bernard Brochand,NI,1,H,http://www.assemblee-nationale.fr/15/cri/2016-...,450,Élection du président de l'assemblée nationale,Élection du président de l'assemblée nationale,loi


In [12]:
Counter(d['parlementaire'] if d['parlementaire'] != 'NULL' else d['nom'] for d in DIDASCALIES if 'applaud' in d['didascalie'].lower()).most_common()

[('Edouard Philippe', 367),
 ('Gérard Collomb', 312),
 ('Bruno le Maire', 294),
 ('Gérald Darmanin', 289),
 ('Agnès Buzyn', 233),
 ('Jean-Luc Mélenchon', 225),
 ('Éric Coquerel', 212),
 ('Muriel Pénicaud', 204),
 ('Danièle Obono', 185),
 ('François de Rugy', 164),
 ('Nicole Belloubet', 161),
 ('André Chassaigne', 159),
 ('Sébastien Jumel', 155),
 ('François Ruffin', 153),
 ('Alexis Corbière', 136),
 ('Julien Denormandie', 129),
 ('Stéphane Travert', 128),
 ('Jean-Michel Blanquer', 126),
 ('Jacques Mézard', 125),
 ('Ugo Bernalicis', 118),
 ('Stéphane Peu', 117),
 ('Bastien Lachaud', 112),
 ('Marc Fesneau', 110),
 ("Loïc Prud'homme", 110),
 ('Nicolas Hulot', 107),
 ('Gilles Lurton', 106),
 ('Fabien Di Filippo', 105),
 ('Christian Jacob', 103),
 ('Jacqueline Gourault', 94),
 ('Mathilde Panot', 93),
 ('élisabeth Borne', 93),
 ('Richard Ferrand', 91),
 ('Fabien Roussel', 91),
 ('Adrien Quatennens', 91),
 ('Christophe Castaner', 91),
 ('Jean-Paul Lecoq', 90),
 ('Clémentine Autain', 90),
 ('V

In [13]:
Counter(d['parlementaire_groupe_acronyme'] for d in DIDASCALIES if 'applaud' in d['didascalie'].lower()).most_common()

[('LREM', 3649),
 ('NULL', 3451),
 ('LR', 2335),
 ('LFI', 1821),
 ('GDR', 1039),
 ('MODEM', 958),
 ('NG', 887),
 ('UAI', 491),
 ('LC', 300),
 ('NI', 281)]

In [14]:
Counter(d['sexe'] for d in DIDASCALIES if 'applaud' in d['didascalie'].lower()).most_common()

[('H', 8109), ('F', 3652), ('NULL', 3451)]

In [15]:
Counter(d['didascalie'] for d in DIDASCALIES if d['parlementaire'] == 'Jean Lassalle').most_common()

[('Sourires', 34),
 ('Rires', 13),
 ('Applaudissements sur divers bancs', 3),
 ('Applaudissements sur les bancs des groupes FI et GDR', 2),
 ('Applaudissements sur les bancs du groupe LR', 2),
 ('rires sur plusieurs bancs', 1),
 ('Applaudissements et rires sur plusieurs bancs', 1),
 ('Applaudissements sur les bancs des groupes REM et MODEM, ainsi que sur plusieurs bancs de chacun des autres groupes',
  1),
 ('Applaudissements sur plusieurs bancs de chacun des groupes', 1),
 ('Sourires sur plusieurs bancs', 1),
 ('Exclamations', 1),
 ('Plusieurs députés du groupe LR se lèvent et applaudissent', 1),
 ('Applaudissements sur les bancs du groupe REM et sur quelques bancs du groupe FI',
  1),
 ('Applaudissements sur plusieurs bancs du groupe REM', 1),
 ('Murmures', 1),
 ('Rires et applaudissements sur de nombreux bancs', 1),
 ('Applaudissements sur les bancs du groupe LR et sur quelques bancs du groupe REM',
  1),
 ('Applaudissements sur les bancs du groupe FI', 1),
 ('Rires et applaudisseme

In [16]:
for d in DIDASCALIES:
    raw_didascalie = d['didascalie'].lower()
    
    if 'pupitr' in raw_didascalie or 'claquem' in raw_didascalie:
        print(d['didascalie'])

Claquements de pupitre sur un banc du groupe LR
Claquements de pupitres sur plusieurs bancs des groupes REM et MODEM
Exclamations et claquements de pupitres sur les bancs du groupe REM
Claquements de pupitre sur quelques bancs du groupe REM
Claquements de pupitres sur les bancs du groupe REM
Exclamations et claquements de pupitre sur les bancs du groupe REM
Très vives protestations et claquements de pupitres sur les bancs des groupes LR, UDI-Agir, NG et GDR
Très vives protestations et claquements de pupitres sur les bancs des groupes LR, UDI-Agir, NG et GDR
Claquements de pupitres sur les bancs du groupe LaREM
Exclamations et claquements de pupitres sur les bancs du groupe LR
Claquements de pupitres sur certains bancs des députés non inscrits
Exclamations sur les bancs des groupes FI et NG, claquements de pupitre sur les bancs du groupe GDR
Claquements de pupitres sur les bancs du groupe GDR, puis des groupes LR, FI et NG
Les claquements de pupitres s'intensifient
Les claquements de pu

In [17]:
Counter(d['parlementaire'] for d in DIDASCALIES if 'rappel' in d['didascalie'].lower() and 'présid' not in d['fonction']).most_common()

[('NULL', 48),
 ('Sébastien Jumel', 12),
 ('Sébastien Chenu', 5),
 ('Jean-Paul Lecoq', 4),
 ('André Chassaigne', 4),
 ('Naïma Moutchou', 4),
 ('Marc Le Fur', 4),
 ('Olivier Véran', 4),
 ('Stéphane Peu', 4),
 ('Richard Lioger', 4),
 ('Gérard Cherpion', 3),
 ('Olivier Faure', 3),
 ('Danièle Obono', 3),
 ('Éric Coquerel', 3),
 ('Christian Hutin', 3),
 ('Philippe Latombe', 2),
 ('Nadia Hai', 2),
 ('Valérie Boyer', 2),
 ('Ludovic Pajot', 2),
 ('Fabien Di Filippo', 2),
 ('Pierre Dharréville', 2),
 ('Valérie Rabault', 2),
 ('Julien Borowczyk', 2),
 ('Thierry Benoit', 2),
 ('Emmanuelle Ménard', 2),
 ('Ugo Bernalicis', 2),
 ('Pierre-Henri Dumont', 2),
 ('Thibault Bazin', 2),
 ('Delphine Batho', 2),
 ('Christelle Dubos', 2),
 ('François Pupponi', 2),
 ('Mickaël Nogal', 1),
 ('David Habib', 1),
 ('Philippe Gosselin', 1),
 ('Christian Jacob', 1),
 ('Laurent Saint-Martin', 1),
 ('Véronique Louwagie', 1),
 ('Fabien Roussel', 1),
 ('Joël Giraud', 1),
 ('Alexis Corbière', 1),
 ('Valérie Lacroute', 1),

In [18]:
Counter(d['didascalie'].lower() for d in DIDASCALIES if 'rappel' in d['didascalie'].lower()).most_common()

[('rappel au règlement', 257),
 ('rappels au règlement', 64),
 ('« rappel au règlement ! » sur les bancs des groupes lr, ng et fi', 1),
 ("« ce n'est pas un rappel au règlement ! » sur divers bancs", 1)]

In [19]:
# Normalizing `parlementaire_groupe_acronyme`
for d in DIDASCALIES:
    g = d['parlementaire_groupe_acronyme']
    g = 'UAI' if g == 'LC' else g
    
    d['parlementaire_groupe_norme'] = g

In [29]:
# Adding tonality marker


POSITIVE_KEY_WORDS = [
  'applaud',
  'sourir',
  'oui',
  'approb',
  'approuv',
  'rir',
  'assentiment'
];

NEGATIVE_KEY_WORDS = [
  'protest',
  'non',
  'exclam',
  'rappel au règlement',
  'rappels au règlement',
  'interrupt',
  'scandal',
  'oh',
  'dénégat',
  'faux',
  'stop',
  'hué',
  'brouhaha',
  'sifflement',
  'tumult'
];

for d in DIDASCALIES:
  didasc = d['didascalie']
  ton = None
  for word in POSITIVE_KEY_WORDS:
        if (word in didasc):
            ton = 'positif'
            break
            
  for word in NEGATIVE_KEY_WORDS:
        if (word in didasc):
            ton = 'negatif'
            break

  if (ton is None):
    ton = 'neutre'
  d['ton'] = ton;

In [30]:
with open(OUTPUT, 'w') as f:
    writer = csv.DictWriter(f, fieldnames=list(DIDASCALIES[0].keys()))
    writer.writeheader()
    
    for d in DIDASCALIES:
        writer.writerow(d)
print('written at', OUTPUT)

written at ../data/didascalies.csv


In [31]:
# Sanity test
for d in DIDASCALIES:
    if d['nom'] == 'NULL' and d['parlementaire'] == 'NULL':
        print(d['intervention'])

In [32]:
sum(int(d['nom'] == 'NULL' and d['parlementaire'] == 'NULL') for d in DIDASCALIES)

0