### Project Description DataFrame

In [1]:
import os
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np

In [2]:
data = [os.path.join('html_data', f) for f in os.listdir('html_data') if os.path.isfile(os.path.join('html_data', f))]

l = []
for d in data:
    with open(d, 'r', encoding='utf-8') as f:
        content = f.read()

    project_id = int(d.split("/")[1].split("_")[2].replace(".html", ""))

    soup = BeautifulSoup(content, 'html.parser')

    project_title = soup.find('h2', class_='heading2')
    project_description = soup.find('div', class_='ql-editor-display')    

    divs_m_botton = soup.find_all('div', class_='m-bottom')

    project_budget = None
    for div in divs_m_botton:
        title_span = div.find('span', class_='definition-data__title')
        if title_span and title_span.text.strip() == 'Budget':
            project_budget = div
            break

    project_votes = soup.find('span', class_='project-votes display-block')

    ul_project_tags = soup.find('ul', class_='tags tags--project')

    if ul_project_tags:
        li_project_tags = ul_project_tags.find_all('li')
        category = li_project_tags[0].find_all('span')
        location = li_project_tags[1].find_all('span')
    else:
        category = None
        location = None

    winner_div = soup.find('span', class_='success label project-status')

    project = {}
    
    if project_id:
        project['project_id'] = project_id

    if project_title:
        project["project_name"] = project_title.text
    
    if project_description:
        project["description"] = project_description.text

    if project_budget:
        project_budget = project_budget.text.strip().replace("Budget\n","")
        project_budget = float(project_budget.replace('€', '').replace(' ', ''))
        project['cost'] = project_budget
    
    if project_votes:
        project['votes'] = project_votes.text.replace(" votes", "")

    if category:
        project['category'] = category[1].text

    if location:
        project['district'] = location[1].text
    
    l.append(project)


In [3]:
l

[{'project_id': 116,
  'project_name': 'Création d’abris pour la faune',
  'description': "La création d’abris à chauve souris, oiseaux et insecte. Recréer une chaîne alimentaire urbaine qui aura pour avantage entre autres de diminuer la présence de moustiques.Modalités de réalisation - Avis technique :Ce projet est réalisable , si l'idée est votée, pose de douze nichoirs à oiseaux sur le site des argoulets et au jardin du bout du monde à Amouroux et d'un hôtel à insectes aux argoulets. Concernant les nichoirs à chauves souris l'analyse technique de la direction compétente relève que leur installation n'apporte pas de solution à la problématique des moustiques tigres qui ont une activité diurne alors que les chauves souris ont une activité nocturne, il est donc proposé d'installer des pièges pondoirs en remplacement.",
  'cost': 4000.0,
  'votes': '38',
  'category': 'Nature en ville',
  'district': '10 - Jolimont / Soupetard / Roseraie / Gloire / Gramont / Amouroux'},
 {'project_id': 

##### Non-Voted Projects (1)

In [14]:
from utils import *
project_id = 3324
file = f'html_data/project_id_{project_id}.html'

p = get_project_data(file)
p['project_name'] = 'Abribus chemin de Lanusse'
p['votes'] = 0
p['category'] = 'Cadre de vie'
p['district'] = '9 - Trois Cocus / Borderouge / Croix-Daurade / Paléficat / Grand Selve'
p['cost'] = 10000

l.append(p)

In [15]:
project = pd.DataFrame(l)
project = project[~project.project_name.isna()]
project.votes = project.votes.astype('int')
project

Unnamed: 0,project_id,project_name,description,cost,votes,category,district
0,116,Création d’abris pour la faune,"La création d’abris à chauve souris, oiseaux e...",4000.0,38,Nature en ville,10 - Jolimont / Soupetard / Roseraie / Gloire ...
1,180,Pépinière-jardin du quartier Reynerie-Bellefon...,"Pour accompagner le projet ""quartier fertile"" ...",75000.0,20,Nature en ville,17 - Mirail-Université / Reynerie / Bellefontaine
2,124,Toilettes publiques Bois de Limayrac,Créer des toilettes publiques dans le bois de ...,60000.0,23,Cadre de vie,11 - Bonhoure / Guilheméry / Château de l'Hers...
3,13,Esthétique des conteneurs de recyclage,"à Céret dans les PO, j'ai vu une belle idée: h...",4000.0,14,Cadre de vie,1 - Capitole / Arnaud Bernard / Carmes
4,37,Clarifier les priorités à la sortie de la rue ...,Proposition : Clarifier voire repenser les règ...,40000.0,9,Cadre de vie,6 - Saint-Cyprien
...,...,...,...,...,...,...,...
204,90,Installer un filtre à pollution Place Job,Je propose d'installer un filtre à pollution s...,80000.0,24,Nature en ville,7 - Sept Deniers / Ginestous-Sesquières / Lalande
205,149,Un jardin en mouvement le long de la voie ferr...,Pour accroitre la connaissance des citadins da...,11000.0,50,Nature en ville,5 - Saint-Michel / Saint-Agne / Empalot / Le B...
206,113,Personne en situation de handicap,Pour les trottoirs et passages piétons? TOUS L...,200000.0,40,Cadre de vie,10 - Jolimont / Soupetard / Roseraie / Gloire ...
207,143,Lampadaires à détecteur de mouvement piste cyc...,"Bonjour, Modifier les lampadaires actuellement...",50000.0,50,Énergie,13 - Rangueil / Sauzelong / Jules-Julien / Pec...


In [8]:
## Districts

In [16]:
district_str = ""
for d in project.district.tolist():
    district_str=district_str+f"{d};"

print(district_str)

10 - Jolimont / Soupetard / Roseraie / Gloire / Gramont / Amouroux;17 - Mirail-Université / Reynerie / Bellefontaine;11 - Bonhoure / Guilheméry / Château de l'Hers / Limayrac / Côte Pavée;1 - Capitole / Arnaud Bernard / Carmes;6 - Saint-Cyprien;20 - Arènes Romaines / Ancely / Saint-Martin du Touch / Purpan;20 - Arènes Romaines / Ancely / Saint-Martin du Touch / Purpan;8 - Minimes / Barrière de Paris / Ponts-Jumeaux / La Vache / Raisins / Fondeyre;15 - Croix de Pierre / Route d'Espagne;7 - Sept Deniers / Ginestous-Sesquières / Lalande;6 - Saint-Cyprien;4 - Lapujade / Bonnefoy / Périole / Marengo / La Colonne;16 - Fontaine-Lestang / Arènes / Bagatelle / Papus / Tabar / Bordelongue / Mermoz / La Faourette;18 - Lardenne / Pradettes / Basso-Cambo;6 - Saint-Cyprien;5 - Saint-Michel / Saint-Agne / Empalot / Le Busca / Ile du Ramier / Monplaisir;4 - Lapujade / Bonnefoy / Périole / Marengo / La Colonne;9 - Trois Cocus / Borderouge / Croix-Daurade / Paléficat / Grand Selve;18 - Lardenne / Pradet

### Detail Validation

In [19]:
detail = pd.read_excel('PBToulouse2022/idvotant-idprojet.xlsx')

## cleaned voter file
detail = detail[detail.vote_finished==True]
detail = detail[detail.checked_out_at < '2022-11-01']
detail.project_id = detail.project_id.astype('int')

detail

Unnamed: 0,ID,project_id,project_title,created_at,checked_out_at,project_url,vote_finished
0,56,215,CHEMIN DE BALADE AU CŒUR DE NOS QUARTIERS,2022-10-03 12:51:57.621,2022-10-03 12:53:28.056,https://jeparticipe.metropole.toulouse.fr/proc...,True
1,107,215,CHEMIN DE BALADE AU CŒUR DE NOS QUARTIERS,2022-10-03 14:44:45.279,2022-10-03 14:47:20.746,https://jeparticipe.metropole.toulouse.fr/proc...,True
2,114,215,CHEMIN DE BALADE AU CŒUR DE NOS QUARTIERS,2022-10-03 15:14:09.332,2022-10-03 15:14:51.580,https://jeparticipe.metropole.toulouse.fr/proc...,True
3,115,215,CHEMIN DE BALADE AU CŒUR DE NOS QUARTIERS,2022-10-03 15:18:12.251,2022-10-03 15:22:43.887,https://jeparticipe.metropole.toulouse.fr/proc...,True
4,132,215,CHEMIN DE BALADE AU CŒUR DE NOS QUARTIERS,2022-10-03 17:28:34.272,2022-10-03 17:28:46.168,https://jeparticipe.metropole.toulouse.fr/proc...,True
...,...,...,...,...,...,...,...
12480,5002,72,Anti-moustiques - Distribuer des nichoirs à ch...,2022-10-30 17:18:45.205,2022-10-30 17:20:36.086,https://jeparticipe.metropole.toulouse.fr/proc...,True
12481,5020,72,Anti-moustiques - Distribuer des nichoirs à ch...,2022-10-30 19:18:23.254,2022-10-30 19:20:02.884,https://jeparticipe.metropole.toulouse.fr/proc...,True
12482,5027,72,Anti-moustiques - Distribuer des nichoirs à ch...,2022-10-30 19:56:13.973,2022-10-30 20:08:35.799,https://jeparticipe.metropole.toulouse.fr/proc...,True
12483,5097,72,Anti-moustiques - Distribuer des nichoirs à ch...,2022-10-31 11:00:27.279,2022-10-31 11:02:23.781,https://jeparticipe.metropole.toulouse.fr/proc...,True


In [20]:
votes_by_projects = detail.groupby(['project_id']).ID.nunique()
votes_by_projects = votes_by_projects.reset_index().rename(columns={'ID': 'votes'}, inplace=False)
votes_by_projects

Unnamed: 0,project_id,votes
0,4,36
1,5,358
2,6,61
3,7,467
4,8,49
...,...,...
202,209,29
203,210,49
204,211,49
205,214,77


In [21]:
val_df = pd.merge(left=project, right=votes_by_projects, on='project_id', how='left')
print("missmatch in votes : ", len(val_df[val_df.votes_x != val_df.votes_y]))

missmatch in votes :  1


In [22]:
finalAgg_ = project.filter(['project_id', 'project_name', 'description', 'category', 'cost','district', 'votes'])
finalAgg_.to_csv("projectsAgg2.csv", sep=";", index=False)

In [23]:
# cleaned detail voting df:
detail = detail[detail.project_id.isin(project.project_id.tolist())]

In [24]:
#set of voters
voters = set(detail.ID.tolist())
print("voter_id;project_id")
for v in voters:
    votesdf = detail[detail.ID == v]
    print(f"{v};{votesdf.project_id.tolist()}")

voter_id;project_id
9;[115]
11;[115]
12;[35, 36, 34]
13;[81, 88, 5]
15;[66, 34, 68]
16;[136, 134, 115]
17;[58, 52, 54]
18;[156, 151]
19;[136, 134, 115]
20;[68]
21;[73, 79, 77]
22;[6, 19, 5]
23;[68]
24;[163]
25;[68, 7, 94]
26;[71]
27;[95]
28;[115]
29;[115]
30;[82, 91, 94]
32;[157, 148, 139]
35;[136, 132, 128]
36;[143, 136, 132]
37;[173, 185, 197]
38;[144]
39;[27, 29, 30]
40;[115]
41;[136, 132, 128]
42;[143, 144, 139]
43;[115]
44;[82, 90, 84]
45;[132, 128, 137]
46;[6, 13, 162]
47;[115]
48;[68]
49;[67, 66, 64]
50;[136, 132, 128]
51;[144, 26, 137]
52;[44, 41, 45]
53;[67, 66, 68]
54;[143, 144, 153]
58;[144, 141, 139]
59;[148, 150, 155]
61;[143, 144, 146]
62;[99, 95, 91]
63;[136, 129, 135]
64;[136, 125, 133]
65;[157, 150, 153]
66;[6, 128, 137]
68;[136, 132, 137]
70;[139]
71;[63, 68, 69]
72;[71, 91, 74]
73;[115]
74;[136, 203, 7]
76;[62, 66, 70]
77;[136, 156, 151]
78;[201]
79;[58]
80;[44, 92, 5]
81;[136, 134]
83;[136]
86;[124]
87;[157, 154, 149]
89;[115]
90;[157, 153, 149]
91;[11, 172, 79]
92;

In [26]:
len(voters)

4532