# Scraping et formatage des données DATAN

<div style="text-align: right"> André Mounier </div>

---
Application sur les données DATAN

In [50]:
import os
import pandas as pd
import tqdm
from pathlib import Path
import numpy as np
from collections import Counter
import matplotlib.pyplot as plt
from textwrap import wrap
from matplotlib.offsetbox import OffsetImage, AnnotationBbox

### Liste des votes

In [2]:
df_allvotes = pd.read_html('https://datan.fr/votes/legislature-16')[0]
df_allvotes = df_allvotes.set_index('N°')

In [3]:
df_allvotes.iloc[3702]

Date                                               27-10-2022
Titre       L'amendement n° 1882 de M. Schreck à l'article...
Résultat                                               REJETÉ
Name: 403, dtype: object

### Tests de récupération des détails des votants (groupes et parlementaires)

In [4]:
vote_number = 403

In [5]:
vote_infos = pd.read_html('https://datan.fr/votes/legislature-16/vote_{}'.format(vote_number))
df_desc, _, df_groups, df_deputees = vote_infos[:4]
# df_deputees

### Création d'un unique tableau de données

In [6]:
output_path = os.path.join('output','DATAN')
Path(output_path).mkdir(parents=True, exist_ok=True)

In [7]:
dict_group = {'ni':'Non inscrit (NI)',
              'dem':'Démocrate (MoDem et Indépendants) (DEM)',
              'lfi-nupes':'La France insoumise - NUPES (LFI-NUPES)',
              'soc-a':'Socialistes et apparentés - NUPES (SOC)',
              'gdr-nupes':'Gauche démocrate et républicaine - NUPES (GDR-NUPES)',
              'lr':'Les Républicains (LR)',
              'hor':'Horizons et apparentés (HOR)',
              'rn':'Rassemblement National (RN)',
              'ecolo':'Écologiste - NUPES (ECOLO)',
              'liot':'Libertés, Indépendants, Outre-mer et Territoires (LIOT)',
              're':'Renaissance (RE)'}

dict_group_deputees = {'ni':7,
                       'dem':50,
                       'lfi-nupes':75,
                       'soc-a':31,
                       'gdr-nupes':22,
                       'lr':61,
                       'hor':31,
                       'rn':88,
                       'ecolo':21,
                       'liot':22,
                       're':169}

dict_group_2024 = {'ni':None,
                   'dem':'EN',
                   'lfi-nupes':'FP',
                   'soc-a':'FP',
                   'gdr-nupes':'FP',
                   'lr':'RN',
                   'hor':'EN',
                   'rn':'RN',
                   'ecolo':'FP',
                   'liot':None,
                   're':'EN'}

In [8]:
if 'datan.csv' not in os.listdir(output_path):

    # initilisation des colonnes du tableau de sortie
    columns = {'vote':[],'date':[],'type':[],'dossier':[]}
    for group in dict_group.keys():
        columns['{}_nb-pour'.format(group)] = []
        columns['{}_nb-contre'.format(group)] = []
        columns['{}_nb-abstention'.format(group)] = []
        columns['{}_participation'.format(group)] = []
    
    # construction du tableau
    for vote in tqdm.tqdm(df_allvotes.index):
        vote_infos = pd.read_html('https://datan.fr/votes/legislature-16/vote_{}'.format(vote))
        df_desc, _, df_groups, df_deputees = vote_infos[:4]
        
        # formatage du tableau des votes de groupe
        df_groups_formatted = df_groups.set_index('Groupe')
        
        # formatage du tableau descriptif du vote
        df_desc_formatted = df_desc.T
        df_desc_formatted = df_desc_formatted.rename(columns={i:n for i,n in enumerate(df_desc_formatted.iloc[1])})
        df_desc_formatted
        
        # ajout de la date
        try:
            date = df_desc_formatted['Date'].values[-1]
        except KeyError:
            date = np.nan
        
        # ajout du type de vote 
        try:
            type_vote = df_desc_formatted['Type de vote'].values[-1]
        except KeyError:
            type_vote = np.nan
            
        # ajout du dossier
        try:
            dossier = df_desc_formatted['Dossier'].values[-1]
        except KeyError:
            dossier = np.nan
            
        columns['vote'].append(vote)
        columns['date'].append(date)
        columns['type'].append(type_vote)
        columns['dossier'].append(dossier)
        
        # ajout des statistiques de votes par groupe parlementaire
        for group, group_name in dict_group.items():
            filter_group = df_groups_formatted.index.str.startswith(group_name[:10])
            df_group = df_groups_formatted.loc[filter_group]
            nb_pour, nb_contre, nb_abstention, ratio_particip = df_group[['Pour','Contre','Abstention','Participation']].values[0]
            ratio_particip = float(ratio_particip.replace('%',''))/100
            
            columns['{}_nb-pour'.format(group)].append(nb_pour)
            columns['{}_nb-contre'.format(group)].append(nb_contre)
            columns['{}_nb-abstention'.format(group)].append(nb_abstention)
            columns['{}_participation'.format(group)].append(ratio_particip)

    # sauvegarde
    datan = pd.DataFrame().from_dict(columns)
    datan.to_csv(os.path.join(output_path,'datan.csv'),index=False)

### Ouverture et manipulation du jeu de données

In [9]:
datan = pd.read_csv(os.path.join(output_path,'datan.csv'))

In [10]:
# pas terminé
dict_categories = {'Vieillesse et fin de vie':['Accompagnement des malades et fin de vie',
                                              ],
                   'Loi de finances':['Projet de loi de financement de la sécurité sociale pour 2024',
                                      'Projet de loi de finances de fin de gestion pour 2023',
                                      'Projet de loi de finances pour 2024',
                                      'Programmation des finances publiques pour les années 2023 à 2027',
                                      'Projet de loi de financement rectificative de la sécurité sociale pour 2023',
                                      'Financement de la sécurité sociale pour 2023',
                                      'Projet de loi de finances rectificative pour 2022',
                                      'Projet de loi de finances pour 2023',
                                      'Loi de finances rectificative pour 2022',
                                      "Approbation des comptes de la sécurité sociale pour l'année 2022"],
                   'Dématérialisation':["Proposition de loi visant à poursuivre la dématérialisation de l'état civil du ministère de l'Europe et des affaires étrangères",],
                   'Économie des entreprises':['Accroître le financement des entreprises et l’attractivité de la France',],
                   'Fiscalité':['Charge fiscale de la pension alimentaire',
                                'Assurer une justice patrimoniale au sein de la famille',],
                   'Retraite':['Calculer la retraite de base des non-salariés agricoles en fonction de leurs seules vingt-cinq meilleures années de revenus'],
                   'Union européenne':['Projet de loi portant diverses dispositions d’adaptation au droit de l’Union européenne en matière d’économie, de finances, de transition écologique, de droit pénal, de droit social et en matière agricole',
                                      ],
                   'Commerce international':["Accord commercial entre l'Union européenne et le Mercosur",
                                             'Accords entre la France et le Sénégal du 7 septembre 2021 et entre la France et le Sri Lanka du 23 février 2022'],
                   'Nucléaire':['Projet de loi relatif à l’organisation de la gouvernance de la sûreté nucléaire et de la radioprotection pour répondre au défi de la relance de la filière nucléaire',],
                   'Outre-mer':['Projet de loi ratifiant l’ordonnance n° 2023-285 du 19 avril 2023 portant extension et adaptation à la Polynésie française, à la Nouvelle-Calédonie et aux îles Wallis et Futuna de diverses dispositions législatives relatives à la santé',
                                "Projet de loi ratifiant l'ordonnance n° 2023-389 du 24 mai 2023 modifiant les dispositions du code général de la propriété des personnes publiques relatives à la Polynésie française",
                                'Projet de loi ratifiant les ordonnances relatives à la partie législative du livre VII du code monétaire et financier et portant diverses dispositions relatives à l’outre-mer',
                                'Projet de loi ratifiant l’ordonnance n° 2021-1605 du 8 décembre 2021 étendant et adaptant à la fonction publique des communes de Polynésie française certaines dispositions statutaires relatives à la fonction publique territoriale'],
                   'Service public':["Professionnaliser l'enseignement de la danse en tenant compte de la diversité des pratiques",
                                     'Pérenniser les jardins d’enfants gérés par une collectivité publique ou bénéficiant de financements publics',],
                   'Santé':['Le dérapage du coût pour l’État de la couverture santé des étrangers en situation irrégulière et des demandeurs d’asile provenant de pays d’origine sûrs et au nombre d’étrangers en situation irrégulière',
                            "Mieux manger en soutenant les Français face à l'inflation et en favorisant l'accès à une alimentation saine",
                            "Abrogation de l'obligation vaccinale contre la covid-19 dans les secteurs médicaux, paramédicaux et d'aide à la personne et visant à la réintégration des professionnels et étudiants suspendus",
                            'Amélioration de l’accès aux soins par la confiance aux professionnels de santé',
                            "Améliorer l'accès aux soins par l'engagement territorial des professionnels",
                            "Améliorer l'accès aux soins par la territorialisation et la formation",],
                   'Finance':["Élargir l'assiette de la taxe sur les transactions financières",
                              'Compléter les dispositions applicables au Haut Conseil de stabilité financière'],
                   'Éducation':['Faciliter la mobilité internationale des alternants pour un « Erasmus de l’apprentissage »'],
                   'Droit':['Adapter le droit de la responsabilité civile aux enjeux actuels',
                            'Allonger la durée de l’ordonnance de protection et à créer l’ordonnance provisoire de protection immédiate',
                            "Améliorant l'efficacité des dispositifs de saisie et de confiscation des avoirs criminels",
                            'Confidentialité des consultations des juristes d’entreprise'],
                   'Écologie':['Appeler à un accord ambitieux lors de la quinzième conférence des parties à la convention sur la diversité biologique',
                               "Approbation du premier amendement et du protocole à la convention d'Espoo"],
                   'Culture':["Assurer la pérennité des établissements de spectacles cinématographiques et l'accès au cinéma dans les outre-mer"],
                   'Fraude fiscale':['Approbation des conventions entre la France et le Danemark et entre la France et la Grèce pour l’élimination de la double imposition en matière d’impôts sur le revenu et la prévention de l’évasion et de la fraude fiscales'],
                   'Sécurité sociale':['Constitutionnaliser la sécurité sociale'],
                  }


datan_dossiers = set(datan.dossier.values)
for l in dict_categories.values():
    for dossier in l:
        datan_dossiers.remove(dossier)


In [11]:
datan[datan.dossier=='Pérenniser les jardins d’enfants gérés par une collectivité publique ou bénéficiant de financements publics']

Unnamed: 0,vote,date,type,dossier,ni_nb-pour,ni_nb-contre,ni_nb-abstention,ni_participation,dem_nb-pour,dem_nb-contre,...,ecolo_nb-abstention,ecolo_participation,liot_nb-pour,liot_nb-contre,liot_nb-abstention,liot_participation,re_nb-pour,re_nb-contre,re_nb-abstention,re_participation
771,3334,01 février 2024,Proposition de loi,Pérenniser les jardins d’enfants gérés par une...,0,0,0,0.0,0,4,...,0,0.17,1,0,0,0.05,12,0,0,0.07


### Étude des similitudes RN/ENSEMBLE

In [111]:
fig_path = os.path.join(output_path,'figs')
Path(fig_path).mkdir(parents=True, exist_ok=True)

fpcolor = tuple(e/255 for e in (193, 34, 72))
fpcolor_dark = tuple(e/255 for e in (146, 34, 92))
csfont = {'fontname':'Comic Sans MS'}

for dossier in tqdm.tqdm(list(set(datan.dossier.values))):
    if type(dossier)!=str:
        continue
        
    df = datan[datan.dossier==dossier]
    df = df[~df.type.isin(['Amendement'])]
    
    kept_columns = ['{}_nb-pour'.format(group) for group in dict_group.keys()]
    kept_columns += ['{}_nb-contre'.format(group) for group in dict_group.keys()]
    kept_columns += ['{}_nb-abstention'.format(group) for group in dict_group.keys()]
    kept_columns += ['{}_participation'.format(group) for group in dict_group.keys()]
    df = df[kept_columns]
    df = df.mean()
    
    dict_group_votes = {'EN':{'pour':0,'contre':0,'abstention':0},
                        'FP':{'pour':0,'contre':0,'abstention':0},
                        'RN':{'pour':0,'contre':0,'abstention':0},}
    dict_group_graphics = {'EN':(0.33,42/822),
                           'FP':(0.66,42/296),
                           'RN':(0.05,42/281),}
    
    for group in dict_group_2024.keys():
        pour = df['{}_nb-pour'.format(group)]
        contre = df['{}_nb-contre'.format(group)]
        abstention = df['{}_nb-abstention'.format(group)]
        
        group_2024 = dict_group_2024.get(group)
        if group_2024 is None:
            continue
            
        dict_group_votes[group_2024]['pour'] += pour
        dict_group_votes[group_2024]['contre'] += contre
        dict_group_votes[group_2024]['abstention'] += abstention

    dict_group_results = {g:max(dict_group_votes[g], key=dict_group_votes[g].get) for g in dict_group_votes.keys()}
    
    fig, (ax1,ax2) = plt.subplots(1,2,figsize=(6,3))

    title_dossier = wrap(dossier,width=50)
    nb_lines_title = len(title_dossier)
    title_dossier = '\n'.join(title_dossier)
    fig.suptitle(title_dossier,y=0.98, color=fpcolor_dark, weight='bold')
    
    def make_space_above(fig,axes, topmargin=1):
        """ increase figure size to make topmargin (in inches) space for 
            titles, without changing the axes sizes"""
        s = fig.subplotpars
        w, h = fig.get_size_inches()
        figh = h - (1-s.top)*h  + topmargin
        fig.subplots_adjust(bottom=s.bottom*h/figh, top=1-topmargin/figh)
        fig.set_figheight(figh)

    base_margin = 0.3
    top_margin = base_margin+(1-base_margin)/4*nb_lines_title
    make_space_above(fig,(ax1,ax2), topmargin=top_margin)   

    ax1.text(0.5,0.978,'POUR',horizontalalignment='center', backgroundcolor='w', color=fpcolor, weight='bold')
    ax2.text(0.5,0.978,'CONTRE',horizontalalignment='center', backgroundcolor='w', color=fpcolor, weight='bold')
    
    #ax1.axis(False)
    #ax2.axis(False)
    ax1.get_xaxis().set_ticks([])
    ax1.get_yaxis().set_ticks([])
    ax2.get_xaxis().set_ticks([])
    ax2.get_yaxis().set_ticks([])

    for ax in [ax1, ax2]:
        plt.setp(ax.spines.values(), color=fpcolor)
        plt.setp([ax.get_xticklines(), ax.get_yticklines()], color=fpcolor)

    for g,v in dict_group_results.items():
        if v == 'pour':
            ax=ax1
        elif v == 'contre':
            ax=ax2
        (height, zoom), logo_path = dict_group_graphics.get(g), os.path.join('input','logos','logo_{}.png'.format(g))
        im = OffsetImage(plt.imread(logo_path), zoom=zoom)
        ab = AnnotationBbox(im, (0.5, height), xycoords='axes fraction', frameon=False, box_alignment=(0.5,0))
        ax.add_artist(ab)
        
    plt.savefig(os.path.join(fig_path,'{}.png'.format(dossier.replace(' ','_')[:90])),bbox_inches='tight')
    plt.close()
    

100%|█████████████████████████████████████████| 165/165 [00:13<00:00, 12.46it/s]
