# Imports de Llibreries

In [1]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns
import json
import re

# C√†rrega del dataset

In [2]:
with open("./data/dades_assemblea_clima.json") as file:
    file_contents = file.read()

parsed_json = json.loads(file_contents)

# Preprocessing i Exploratory Data Analysis

Les dades que hem obtingut sobre les propostes realitzades al proc√©s de l'Assemblea Ciutadana pel Clima de Catalunya han estat recollides a trav√©s de l'api oficial amb GraphQL. Aix√≤ ha fet que les dades estiguin en format JSON i que, per tant, si volem treballar amb fitxers de format CSV, cal que les transformem.

In [3]:
df = pd.json_normalize(parsed_json) 

In [4]:
df.info()
df.head(1)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1 entries, 0 to 0
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           1 non-null      object
 1   slug         1 non-null      object
 2   publishedAt  1 non-null      object
 3   stats        1 non-null      object
 4   components   1 non-null      object
dtypes: object(5)
memory usage: 168.0+ bytes


Unnamed: 0,id,slug,publishedAt,stats,components
0,562,assembleaclima,2023-09-13T13:28:49+02:00,"[{'name': 'results_count', 'value': 0}, {'name...","[{'id': '3827', 'name': {'translation': 'Propo..."


Observem que al convertir el fitxer JSON de les dades a un dataframe amb Pandas no ens mostra una columna per cada atribut, sin√≥ que ho divideix en quatre columnes: 
- `id`: Id del proc√©s participatiu
- `slug`: URI i en aquest cas tamb√©, nom del proc√©s participatiu
- `publishedAt`: Data de publicaci√≥ del proc√©s participatiu
- `stats`: Objecte JSON amb diverses estad√≠stiques del proc√©s, com nombre de propostes totals, nombre de p√†gines, nombre de meetings i nombre d'enquestes.
- `components`: Components del proc√©s participatiu, en aquest cas, el component de Proposals.

In [17]:
df_propostes = pd.json_normalize(parsed_json['components'][0]['proposals']['edges'])
df_comments = df_propostes['node.comments']
print(df_comments[2])

[{'id': '53324', 'author': {'name': 'Jordi Sanjuan Fuentes '}, 'body': 'Ho veig molt b√©.  Per√≤ √©s tendr√≠a que poder trobar la manera que tothom pugui accedir-hi.  Treure burocr√†cia. Hi h√† qui no pot ni a√Øllar-se t√®rmicament el pis\n (Es el mes eficient) els materials s√≥n car√≠ssims i accedir a les ajudes es tan farragos, que acabes no fent-lo.  ü§∑üèª\u200d‚ôÇÔ∏è ', 'alignment': 1, 'comments': []}, {'id': '53355', 'author': {'name': 'Nora Stalins'}, 'body': 'agreed. There should be technical transparency and social justice to ensure fairness. ', 'alignment': 1, 'comments': []}]


Dividim el dataset anterior en dos datasets diferents per poder analitzar millor les dades m√©s importants:
- `df_propostes`: Dataset que cont√© la totalitat de les propostes "arrel" i els atributs de cadascuna.
- `df_comments`: Dataset que cont√© els comentaris a cadascuna de les propostes, si √©s que en tenen.

In [6]:
df_propostes.info()
df_propostes.head(3)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 10 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   node.id                         50 non-null     object 
 1   node.state                      3 non-null      object 
 2   node.author.name                50 non-null     object 
 3   node.title.translation          50 non-null     object 
 4   node.body.translation           50 non-null     object 
 5   node.category.id                45 non-null     object 
 6   node.category.name.translation  45 non-null     object 
 7   node.voteCount                  50 non-null     int64  
 8   node.comments                   50 non-null     object 
 9   node.category                   0 non-null      float64
dtypes: float64(1), int64(1), object(8)
memory usage: 4.0+ KB


Unnamed: 0,node.id,node.state,node.author.name,node.title.translation,node.body.translation,node.category.id,node.category.name.translation,node.voteCount,node.comments,node.category
0,87446,evaluating,Concepci√≥n Moreno Maurel,Participar Assemblea Ciutadana pel Clima de Ca...,"<p>Buenos d√≠as, me gustar√≠a participar en la a...",2540,Desplegament de les energies renovables,0,[],
1,87447,evaluating,Isabel Soria Mu√±oz,Assemblea ciutadana pel clima de Catalunya,<p>M'agradaria participar en aquesta assemblea...,2540,Desplegament de les energies renovables,0,"[{'id': '53292', 'author': {'name': 'JORGE MAN...",
2,87450,,ramonferre,"Municipi a municipi, empresa a empresa, fam√≠li...",<p>Cada municipi (empresa i fam√≠lia) ha de reb...,2540,Desplegament de les energies renovables,0,"[{'id': '53324', 'author': {'name': 'Jordi San...",


En aquest dataset, les propostes eren tractades com un node cadascuna, amb un identificador √∫nic. D'aqu√≠ que els atributs de cada columna comenci amb el prefix "node". Tamb√© s'observa que existeixen atributs que tenen un sufix "translation". Aix√≤ √©s degut a que per accedir a l'atribut que precedeix a "translation", calia obligat√≤riament seleccionar-ne una de les possibles traduccions.
Observem que cada proposta t√© els seg√ºents atributs:
- `node.id`: Identificador √∫nic de cada proposta.
- `node.state`: Estat en qu√® es troba la proposta.
- `node.author.name`: Nom d'usuari de l'autor de la proposta.
- `node.title.translation`: T√≠tol de la proposta.
- `node.body.translation`: Text de la proposta. Est√† formatejat en par√†graf HTML.
- `node.category.id`: Identificador √∫nic de la categoria a la que pertany la proposta.
- `node.category.name.translation`: Nom de la categoria a la que pertany la proposta.
- `node.voteCount`: Nombre de vots que ha rebut la proposta.
- `node.comments`: JSON que cont√© els comentaris que ha rebut cada proposta, si √©s que n'ha rebut.
- `node.category`: Categoria de la proposta.

In [7]:
df_comments.info()

resposta_1_text = []
resposta_1_alignment = []
resposta_2_text = []
resposta_2_alignment = []
num_comments = []
for fila in df_comments:
    if len(fila) == 1: 
        resposta_1_text.append(fila[0]['body'])
        resposta_1_alignment.append(fila[0]['alignment'])
        resposta_2_text.append(np.nan)
        resposta_2_alignment.append(np.nan)
        num_comments.append(1)
    elif len(fila) == 2:
        resposta_1_text.append(fila[0]['body'])
        resposta_1_alignment.append(fila[0]['alignment'])
        resposta_2_text.append(fila[1]['body'])
        resposta_2_alignment.append(fila[1]['alignment'])
        num_comments.append(2)
    else:
        resposta_1_text.append(np.nan)
        resposta_1_alignment.append(np.nan)
        resposta_2_text.append(np.nan)
        resposta_2_alignment.append(np.nan)
        num_comments.append(0)

df_propostes = df_propostes.drop(columns=['node.comments'])
df_propostes['node.comment1.text'] = resposta_1_text
df_propostes['node.comment1.alignment'] = resposta_1_alignment
df_propostes['node.comment2.text'] = resposta_2_text
df_propostes['node.comment2.alignment'] = resposta_2_alignment
df_propostes['node.comments.sum'] = num_comments

df_propostes.head(10)

<class 'pandas.core.series.Series'>
RangeIndex: 50 entries, 0 to 49
Series name: node.comments
Non-Null Count  Dtype 
--------------  ----- 
50 non-null     object
dtypes: object(1)
memory usage: 528.0+ bytes


Unnamed: 0,node.id,node.state,node.author.name,node.title.translation,node.body.translation,node.category.id,node.category.name.translation,node.voteCount,node.category,node.comment1.text,node.comment1.alignment,node.comment2.text,node.comment2.alignment,node.comments.sum
0,87446,evaluating,Concepci√≥n Moreno Maurel,Participar Assemblea Ciutadana pel Clima de Ca...,"<p>Buenos d√≠as, me gustar√≠a participar en la a...",2540.0,Desplegament de les energies renovables,0,,,,,,0
1,87447,evaluating,Isabel Soria Mu√±oz,Assemblea ciutadana pel clima de Catalunya,<p>M'agradaria participar en aquesta assemblea...,2540.0,Desplegament de les energies renovables,0,,L'emerg√®ncia clim√†tica ens afecta a tots els h...,0.0,,,1
2,87450,,ramonferre,"Municipi a municipi, empresa a empresa, fam√≠li...",<p>Cada municipi (empresa i fam√≠lia) ha de reb...,2540.0,Desplegament de les energies renovables,0,,Ho veig molt b√©. Per√≤ √©s tendr√≠a que poder tr...,1.0,agreed. There should be technical transparency...,1.0,2
3,87451,,ramonferre,"Municipi a municipi, empresa a empresa, fam√≠li...",<p>Cada municipi (empresa i fam√≠lia) ha de reb...,2541.0,Model d'alimentaci√≥ pel futur,0,,,,,,0
4,87452,,ramonferre,"Transici√≥ a producci√≥, comer√ß i consum ecol√≤gi...","<p>La producci√≥, comer√ß i consum d'aliments no...",2541.0,Model d'alimentaci√≥ pel futur,0,,,,,,0
5,87453,,ramonferre,"L'aigua, el principal aliment.",<p>La major part dels pous catalans ni s√≥n leg...,2541.0,Model d'alimentaci√≥ pel futur,0,,,,,,0
6,87454,,ramonferre,Prohibir construccions no bioclim√†tiques,<p>La normativa no hauria de permetre cap cons...,2540.0,Desplegament de les energies renovables,0,,,,,,0
7,87458,,N√≠kola,Projectes del futur,"<p>Hola, s√≥c un jove graduat en enginyeria; M'...",2540.0,Desplegament de les energies renovables,0,,,,,,0
8,87460,,JAUME,Ordenaci√≥ medioambiental. Tractament dels resi...,<p>1.- Residus: Es podria instal.lar m√†quines ...,2540.0,Desplegament de les energies renovables,0,,,,,,0
9,87461,,JOSEP,Proc√©s de selecci√≥,"<p>Referent al proc√©s de selecci√≥, no entenc p...",,,0,,,,,,0


Agafem la columna del dataset `node.comments`, que cont√© els JSON de cada comentari que t√© una proposta "arrel" per crear-ne un altre dataset i tractar-lo. Un cop tractat i extret la informaci√≥ de cada comentari, veiem que el m√†xim de comentaris que t√© una proposta √©s 2. Aix√≠ doncs, afegim les seg√ºents columnes al dataset anterior per tenir un dataset complet i netejat:
- `node.comment1.text`: Text del comentari n√∫mero 1 de la proposta o NaN si no hi ha comentari.
- `node.comment1.alignment`: Si est√† d'acord, neutral o en desacord amb la proposta. (1, 0, -1, NaN si no hi ha comentari)
- `node.comment2.text`: Text del comentari n√∫mero 2 de la proposta o NaN si no hi ha comentari.
- `node.comment2.alignment`: Si est√† d'acord, neutral o en desacord amb la proposta. (1, 0, -1, Nan si no hi ha comentari)

In [8]:
columna_text = df_propostes['node.body.translation']
body_sense_html = []
for text in columna_text:
    clean = re.compile('<.*?>')
    nou_text = re.sub(clean, '', text)
    body_sense_html.append(nou_text)

df_propostes['node.body.translation'] = body_sense_html
df_propostes.head(5)

Unnamed: 0,node.id,node.state,node.author.name,node.title.translation,node.body.translation,node.category.id,node.category.name.translation,node.voteCount,node.category,node.comment1.text,node.comment1.alignment,node.comment2.text,node.comment2.alignment,node.comments.sum
0,87446,evaluating,Concepci√≥n Moreno Maurel,Participar Assemblea Ciutadana pel Clima de Ca...,"Buenos d√≠as, me gustar√≠a participar en la asam...",2540,Desplegament de les energies renovables,0,,,,,,0
1,87447,evaluating,Isabel Soria Mu√±oz,Assemblea ciutadana pel clima de Catalunya,M'agradaria participar en aquesta assemblea pe...,2540,Desplegament de les energies renovables,0,,L'emerg√®ncia clim√†tica ens afecta a tots els h...,0.0,,,1
2,87450,,ramonferre,"Municipi a municipi, empresa a empresa, fam√≠li...",Cada municipi (empresa i fam√≠lia) ha de rebre ...,2540,Desplegament de les energies renovables,0,,Ho veig molt b√©. Per√≤ √©s tendr√≠a que poder tr...,1.0,agreed. There should be technical transparency...,1.0,2
3,87451,,ramonferre,"Municipi a municipi, empresa a empresa, fam√≠li...",Cada municipi (empresa i fam√≠lia) ha de rebre ...,2541,Model d'alimentaci√≥ pel futur,0,,,,,,0
4,87452,,ramonferre,"Transici√≥ a producci√≥, comer√ß i consum ecol√≤gi...","La producci√≥, comer√ß i consum d'aliments no ec...",2541,Model d'alimentaci√≥ pel futur,0,,,,,,0


Com s'ha vist amb anterioritat, els textos de les propostes estaven en format HTML. Per tal de poder-los processar m√©s endavant, s'ha tractat aquesta columna per eliminar tots els tags HTML dels textos.

In [9]:
df_propostes = df_propostes.drop(columns=['node.id'])
df_propostes = df_propostes.drop(columns=['node.category.id'])
df_propostes.head(3)

Unnamed: 0,node.state,node.author.name,node.title.translation,node.body.translation,node.category.name.translation,node.voteCount,node.category,node.comment1.text,node.comment1.alignment,node.comment2.text,node.comment2.alignment,node.comments.sum
0,evaluating,Concepci√≥n Moreno Maurel,Participar Assemblea Ciutadana pel Clima de Ca...,"Buenos d√≠as, me gustar√≠a participar en la asam...",Desplegament de les energies renovables,0,,,,,,0
1,evaluating,Isabel Soria Mu√±oz,Assemblea ciutadana pel clima de Catalunya,M'agradaria participar en aquesta assemblea pe...,Desplegament de les energies renovables,0,,L'emerg√®ncia clim√†tica ens afecta a tots els h...,0.0,,,1
2,,ramonferre,"Municipi a municipi, empresa a empresa, fam√≠li...",Cada municipi (empresa i fam√≠lia) ha de rebre ...,Desplegament de les energies renovables,0,,Ho veig molt b√©. Per√≤ √©s tendr√≠a que poder tr...,1.0,agreed. There should be technical transparency...,1.0,2


Eliminem les columnes `node.id` i `node.category.id` perqu√® contenen identificadors √∫nics de cada proposta i categoria de la proposta que nom√©s serveixen dins la mateixa aplicaci√≥.

## An√†lisi de valors de les columnes
En aquest apartat tractem de veure quins valors pot ocupar cada columna per entendre'n millor els resultats.

In [10]:
print(df_propostes['node.state'].unique())

['evaluating' None 'withdrawn']


Pel qu√® fa a la columna `node.state` que representa l'estat en qu√® es troba la proposta, observem que nom√©s trobem dos estats diferents (evaluant i rebutjada) i que tamb√© existeixen propostes sense cap estat encara.

In [11]:
print(df_propostes['node.author.name'].unique())
print(df_propostes['node.author.name'].nunique())
print(df_propostes['node.author.name'].isnull().sum())
print(type(df_propostes['node.author.name'][0]))

['Concepci√≥n Moreno Maurel' 'Isabel Soria Mu√±oz' 'ramonferre' 'N√≠kola'
 'JAUME' 'JOSEP' 'MARGARITA' 'JOAN' 'S√≠lvia Bassas Auferil' 'MIQUEL'
 'SERGI' 'ROMAN' 'Jordi Sala Morell' 'VERONICA' 'Sam'
 'Inara Hasanova Gasanova' 'Jordi Sanjuan Fuentes ' 'Francesc' 'Eduardo '
 'Dami√† Pujol Salvador ' 'JAIRO' 'ENRIQUE' 'Rafael' 'Nil Garcia' 'NURIA'
 'Isidro Gomez Moraleda' 'MARIA VICTORIA' 'Toni A.' 'MANUEL'
 'JOAN BESA RECASENS' 'Mar√ßal' 'GEMMA' 'Isaac Agust√≠ Ventura' 'Pau Ivern'
 'Joana Pi-Su√±er' 'BENOIT ROGER' 'Encarnaci√≥' 'SERGIO' 'Domenec ']
39
0
<class 'str'>


A la columna `node.author.name`, que representa el nom de l'autor de la proposta en format string, observem que no existeix cap nul i per tant cada proposta t√© un autor conegut, i que existeixen 39 autors diferents. El dataset cont√© 50 propostes diferents, per tant es pot deduir que alguns autors han fet m√©s d'una proposta.

In [12]:
print(df_propostes['node.title.translation'].nunique())
print(type(df_propostes['node.title.translation'][0]))

49
<class 'str'>


A la columna `node.title.translation` observem que hi han 49 t√≠tols de propostes diferents, cosa que significa que existeixen dues propostes amb exactament el mateix t√≠tol. El t√≠tol es tracta d'un valor string.

In [13]:
print(df_propostes['node.body.translation'].nunique())
print(type(df_propostes['node.body.translation'][0]))

48
<class 'str'>


A la columna `node.body.translation` observem que existeixen 48 textos de propostes diferents, cosa que implica que algunes propostes contenen exactament el mateix text o s'han duplicat.

In [14]:
print(df_propostes['node.category.name.translation'].unique())
print(df_propostes['node.category.name.translation'].nunique())
print(df_propostes['node.category.name.translation'].isnull().sum())

['Desplegament de les energies renovables' "Model d'alimentaci√≥ pel futur"
 nan]
2
5


A la columna `node.category.name.translation`, que representa la categoria associada a la proposta, observem que nom√©s hi han dues categories diferents. Tamb√© observem que existeixen 5 propostes a les que no se les ha assignat cap categoria.

In [15]:
print(df_propostes['node.voteCount'].unique())
print(df_propostes['node.voteCount'].nunique())

[0]
1
