# Pre-procesamiento de datos

![image.png](attachment:a70264d0-d460-4c9e-bee9-fd86c37a94b5.png)

## Candidaturas elegidas

Principales transformaciones: 
- Selección de atributos
- Tratamiento de valores faltantes

In [1]:
import glob
import nltk
import re

import pandas as pd

from string import punctuation

In [2]:
df_deputadas_1934_2023 = pd.read_csv('dados/deputadas_1934_2023.csv')

In [3]:
df_deputadas_1934_2023.shape

(10745, 10)

In [4]:
df_deputadas_1934_2023.head(5)

Unnamed: 0,id,uri,nome,siglaPartido,uriPartido,siglaUf,idLegislatura,urlFoto,email,sexo
0,215044,https://dadosabertos.camara.leg.br/api/v2/depu...,Vivi Reis,PSOL,https://dadosabertos.camara.leg.br/api/v2/part...,PA,56,https://www.camara.leg.br/internet/deputado/ba...,dep.vivireis@camara.leg.br,F
1,178862,https://dadosabertos.camara.leg.br/api/v2/depu...,Tia Eron,REPUBLICANOS,https://dadosabertos.camara.leg.br/api/v2/part...,BA,56,https://www.camara.leg.br/internet/deputado/ba...,dep.tiaeron@camara.leg.br,F
2,204466,https://dadosabertos.camara.leg.br/api/v2/depu...,Tereza Nelma,PSDB,https://dadosabertos.camara.leg.br/api/v2/part...,AL,56,https://www.camara.leg.br/internet/deputado/ba...,dep.terezanelma@camara.leg.br,F
3,178901,https://dadosabertos.camara.leg.br/api/v2/depu...,Tereza Cristina,UNIÃO,https://dadosabertos.camara.leg.br/api/v2/part...,MS,56,https://www.camara.leg.br/internet/deputado/ba...,,F
4,204464,https://dadosabertos.camara.leg.br/api/v2/depu...,Talíria Petrone,PSOL,https://dadosabertos.camara.leg.br/api/v2/part...,RJ,56,https://www.camara.leg.br/internet/deputado/ba...,dep.taliriapetrone@camara.leg.br,F


<div class="alert-warning"> Candidaturas elegidas: Selección de atributos para análisis </div>

In [5]:
df_deputadas = df_deputadas_1934_2023[['id', 'siglaPartido', 'siglaUf',
       'idLegislatura', 'sexo']]

In [6]:
df_deputadas.head(5)

Unnamed: 0,id,siglaPartido,siglaUf,idLegislatura,sexo
0,215044,PSOL,PA,56,F
1,178862,REPUBLICANOS,BA,56,F
2,204466,PSDB,AL,56,F
3,178901,UNIÃO,MS,56,F
4,204464,PSOL,RJ,56,F


<div class="alert-warning"> Candidaturas elegidas: Ajuste de los valores faltantes </div>

In [7]:
df_deputadas.isnull().sum(axis = 0)

id                 0
siglaPartido     278
siglaUf            0
idLegislatura      0
sexo               0
dtype: int64

In [8]:
df_deputadas['siglaPartido'].fillna('sem partido', inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return self._update_inplace(result)


In [9]:
df_deputadas.isnull().sum(axis = 0)

id               0
siglaPartido     0
siglaUf          0
idLegislatura    0
sexo             0
dtype: int64

In [10]:
df_deputadas.to_csv('dados/candidaturas_eleitas(1).csv', index=False)

## Legislaturas

Principales tranformaciones:
- Convertir fecha completa en año

In [11]:
tipo_data = ['dataInicio', 'dataFim']
df_legislaturas = pd.read_csv('dados/legislaturas_1934_2023.csv', parse_dates=tipo_data)

In [12]:
df_legislaturas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   id          21 non-null     int64         
 1   uri         21 non-null     object        
 2   dataInicio  21 non-null     datetime64[ns]
 3   dataFim     21 non-null     datetime64[ns]
dtypes: datetime64[ns](2), int64(1), object(1)
memory usage: 800.0+ bytes


In [13]:
df_legislaturas.head()

Unnamed: 0,id,uri,dataInicio,dataFim
0,56,https://dadosabertos.camara.leg.br/api/v2/legi...,2019-02-01,2023-01-31
1,55,https://dadosabertos.camara.leg.br/api/v2/legi...,2015-02-01,2019-01-31
2,54,https://dadosabertos.camara.leg.br/api/v2/legi...,2011-02-01,2015-01-31
3,53,https://dadosabertos.camara.leg.br/api/v2/legi...,2007-02-01,2011-01-31
4,52,https://dadosabertos.camara.leg.br/api/v2/legi...,2003-02-01,2007-01-31


<div class="alert-warning"> Legislaturas: extracción de año </div>

In [14]:
df_legislaturas['dataInicio'] = df_legislaturas['dataInicio'].dt.year

In [15]:
df_legislaturas['dataFim'] = df_legislaturas['dataFim'].dt.year

In [16]:
df_legislaturas.head()

Unnamed: 0,id,uri,dataInicio,dataFim
0,56,https://dadosabertos.camara.leg.br/api/v2/legi...,2019,2023
1,55,https://dadosabertos.camara.leg.br/api/v2/legi...,2015,2019
2,54,https://dadosabertos.camara.leg.br/api/v2/legi...,2011,2015
3,53,https://dadosabertos.camara.leg.br/api/v2/legi...,2007,2011
4,52,https://dadosabertos.camara.leg.br/api/v2/legi...,2003,2007


In [None]:
df_legislaturas.to_csv('../dados/legislaturas_1934_2023_limpas.csv', index=False)

## Proposiciones legislativas

Principales transformaciones:
- Selección de los tipos de propuestas legislativas deseadas
- Selección de atributos
- Ajustes de valores faltantes
- Remoción de stopwords, meses, puntuación, números
- Remoción de palabras con menos de 3 caracteres y semanticamente irrelevantes
- Remoción de bigramas semanticamente irrelevantes

In [17]:
lista_proposicoes = glob.glob('dados/proposicoes/propo*')

In [18]:
tipos_dados = {
    'id': object,
    'uri': object,
    'siglaTipo': object,
    'numero': object,
    'ano': int,
    'codTipo': object,
    'descricaoTipo': object,
    'ementa': object,
    'ementaDetalhada': object,
    'keywords': object,   
    'uriOrgaoNumerador': object,
    'uriPropAnterior': object,
    'uriPropPrincipal': object,
    'uriPropPosterior': object,
    'urlInteiroTeor': object, 
    'urnFinal': object, 
    'ultimoStatus_sequencia': object,
    'ultimoStatus_uriRelator': object, 
    'ultimoStatus_idOrgao': object,
    'ultimoStatus_siglaOrgao': object, 
    'ultimoStatus_uriOrgao': object,
    'ultimoStatus_regime': object, 
    'ultimoStatus_descricaoTramitacao': object,
    'ultimoStatus_idTipoTramitacao': object, 
    'ultimoStatus_descricaoSituacao': object,
    'ultimoStatus_idSituacao': object, 
    'ultimoStatus_despacho': object, 
    'ultimoStatus_url': object
}

tipo_data = ['dataApresentacao', 'ultimoStatus_dataHora']

In [19]:
lista_df = []

for proposicao in lista_proposicoes:
    df_proposicao = pd.read_csv(proposicao, sep=';', dtype=tipos_dados, parse_dates=tipo_data)
    lista_df.append(df_proposicao)

In [20]:
df_proposicao_1934_2021 = pd.concat(lista_df, axis=0, ignore_index=True)
df_proposicao_1934_2021.shape

(680358, 30)

<div class="alert-warning"> Proposiciones legislativas: Selección de los tipos de propuestas legislativas </div>

- Projeto de Decreto Legislativo [SF] (PDL)
- Projeto de Decreto Legislativo [CD] (PDC)
- Projeto de Decreto Legislativo [CN] (PDN)
- Projeto de Decreto Legislativo [SF] (PDS)
- Proposta de Emenda à Constituição (PEC)
- Projeto de Lei (PL)
- Projeto de Lei da Câmara (PLC)
- Projeto de Lei Complementar (PLP)
- Projeto de Lei de Conversão (PLV)
- Projeto de Resolução da Câmara dos Deputados (PRC)

In [21]:
tipos_proposicoes = ['PDS', 'PDC', 'PDN', 'PEC', 'PL', 'PLC', 'PLP', 'PLV', 'PRC']

In [22]:
df_proposicoes_tipos_desejados = df_proposicao_1934_2021[df_proposicao_1934_2021['siglaTipo'].isin(tipos_proposicoes)].copy()

In [23]:
df_proposicoes_tipos_desejados.shape

(152424, 30)

<div class="alert-warning"> Proposiciones legislativas: Selección de atributos para análisis </div>

In [24]:
df_proposicoes = df_proposicoes_tipos_desejados[['id','siglaTipo','ano', 'codTipo', 'descricaoTipo',
       'ementa', 'ementaDetalhada', 'keywords']].copy()

In [25]:
df_proposicoes.shape

(152424, 8)

<div class="alert-warning"> Proposiciones legislativas: Ajuste de valores faltantes </div>

In [26]:
df_proposicoes.isnull().sum(axis = 0)

id                      0
siglaTipo               0
ano                     0
codTipo                 0
descricaoTipo           0
ementa                  5
ementaDetalhada    109844
keywords              924
dtype: int64

In [27]:
df_proposicoes[
    (df_proposicoes['ementa'].isnull()) & 
    (df_proposicoes['ementaDetalhada'].isnull()) & 
    (df_proposicoes['keywords'].isnull())].head()

Unnamed: 0,id,siglaTipo,ano,codTipo,descricaoTipo,ementa,ementaDetalhada,keywords
59695,537493,PL,1946,139,Projeto de Lei,,,
71533,347964,PL,1935,139,Projeto de Lei,,,
424157,2123532,PLC,2017,465,Projeto de Lei da Câmara dos Deputados (SF),,,
495917,2308959,PLV,2021,390,Projeto de Lei de Conversão,,,
571961,605771,PL,1954,139,Projeto de Lei,,,


In [28]:
df_proposicoes.dropna(axis=0, subset=['ementa'], inplace=True)

In [29]:
df_proposicoes.shape

(152419, 8)

<div class="alert-warning"> Proposiciones legislativas: Normalización de las keywords existentes </div>

In [30]:
df_proposicoes_com_keywords = df_proposicoes[df_proposicoes['keywords'].notna()].copy()

In [31]:
df_proposicoes[df_proposicoes['keywords'].notna()]

Unnamed: 0,id,siglaTipo,ano,codTipo,descricaoTipo,ementa,ementaDetalhada,keywords
105,168293,PDC,1965,135,Projeto de Decreto Legislativo,MANTEM DECISÃO DENEGATORIA DO TRIBUNAL DE CONT...,,"MANUTENÇÃO, DECISÃO, TRIBUNAL DE CONTAS DA UNI..."
106,168297,PDC,1965,135,Projeto de Decreto Legislativo,MANTEM ATO DO TRIBUNAL DE CONTAS DA UNIÃO DE R...,,"MANUTENÇÃO, ATO, TRIBUNAL DE CONTAS DA UNIÃO (..."
107,168300,PDC,1965,135,Projeto de Decreto Legislativo,MANTÉM DECISÃO DENEGATÓRIA DO TRIBUNAL DE CONT...,,"MANUTENÇÃO, DECISÃO, TRIBUNAL DE CONTAS DA UNI..."
108,168303,PDC,1965,135,Projeto de Decreto Legislativo,MANTÉM ATO DO TRIBUNAL DE CONTAS DA UNIÃO QUE ...,,"MANUTENÇÃO, ATO, TRIBUNAL DE CONTAS DA UNIÃO (..."
109,168307,PDC,1965,135,Projeto de Decreto Legislativo,MANTEM O ATO DO TRIBUNAL DE CONTAS DA UNIÃO QU...,,"MANUTENÇÃO, ATO, TRIBUNAL DE CONTAS DA UNIÃO (..."
...,...,...,...,...,...,...,...,...
680339,235344,PRC,1963,141,Projeto de Resolução,AUTORIZA A MESA DA CAMARA DOS DEPUTADOS A EDIT...,,"AUTORIZAÇÃO, MESA DIRETORA, CAMARA DOS DEPUTAD..."
680340,235359,PRC,1963,141,Projeto de Resolução,CRIA COMISSÃO MISTA PARA APRECIAR AS MENSAGENS...,,"CRIAÇÃO, COMISSÃO MISTA, APRECIAÇÃO, MENSAGEM ..."
680341,235375,PRC,1963,141,Projeto de Resolução,PROPÕE MEDIDAS PRELIMINARES PARA A CRIAÇÃO DO ...,,"NORMAS, PROPOSTA, PRELIMINAR, CRIAÇÃO, PARLAME..."
680342,454146,PDC,1963,135,Projeto de Decreto Legislativo,APROVA A CONVENÇÃO SOBRE ASSISTÊNCIA JUDICIÁRI...,,"APROVAÇÃO, ATO INTERNACIONAL, CONVENÇÃO INTERN..."


In [32]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /home/cecivieira/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/cecivieira/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

<div class="alert-warning"> Proposiciones legislativas: Funcciones para borrar la puntuación, preposiciones, números y artículos</div>

In [33]:
meses = ['janeiro', 'fevereiro', 'março', 'abril', 'maio', 'junho', 'julho','agosto', 'setembro', 'outubro', 'novembro', 'dezembro']

In [34]:
def define_stopwords_punctuation():
    stopwords = nltk.corpus.stopwords.words('portuguese') + meses
    pontuacao = list(punctuation)
    stopwords.extend(pontuacao)
    return stopwords

In [35]:
def remove_stopwords_punctuation_da_sentenca(texto):
    padrao_digitos = r'[0-9]'
    texto = re.sub(padrao_digitos, '', texto)
    palavras = nltk.tokenize.word_tokenize(texto.lower())
    stopwords = define_stopwords_punctuation()
    keywords = [palavra for palavra in palavras if palavra not in stopwords]
    return keywords

In [36]:
df_proposicoes_com_keywords['keywords'] = df_proposicoes_com_keywords['keywords'].apply(remove_stopwords_punctuation_da_sentenca)

In [37]:
def converte_lista_string(lista):
    return ','.join([palavra for palavra in lista])

In [38]:
df_proposicoes_com_keywords['keywords'] = df_proposicoes_com_keywords['keywords'].apply(converte_lista_string)

<div class="alert-warning"> Proposiciones legislativas: Borra las proposiciones que quedaron sin keywords despues de la limpieza</div>

In [39]:
df_proposicoes_com_keywords = df_proposicoes_com_keywords[df_proposicoes_com_keywords['keywords'] != '']

In [40]:
df_proposicoes_com_keywords.head()

Unnamed: 0,id,siglaTipo,ano,codTipo,descricaoTipo,ementa,ementaDetalhada,keywords
105,168293,PDC,1965,135,Projeto de Decreto Legislativo,MANTEM DECISÃO DENEGATORIA DO TRIBUNAL DE CONT...,,"manutenção,decisão,tribunal,contas,união,tcu,d..."
106,168297,PDC,1965,135,Projeto de Decreto Legislativo,MANTEM ATO DO TRIBUNAL DE CONTAS DA UNIÃO DE R...,,"manutenção,ato,tribunal,contas,união,tcu,recus..."
107,168300,PDC,1965,135,Projeto de Decreto Legislativo,MANTÉM DECISÃO DENEGATÓRIA DO TRIBUNAL DE CONT...,,"manutenção,decisão,tribunal,contas,união,tcu,d..."
108,168303,PDC,1965,135,Projeto de Decreto Legislativo,MANTÉM ATO DO TRIBUNAL DE CONTAS DA UNIÃO QUE ...,,"manutenção,ato,tribunal,contas,união,tcu,negaç..."
109,168307,PDC,1965,135,Projeto de Decreto Legislativo,MANTEM O ATO DO TRIBUNAL DE CONTAS DA UNIÃO QU...,,"manutenção,ato,tribunal,contas,união,tcu,deneg..."


<div class="alert-warning"> Proposiciones legislativas: Saca `keywords` de la columna `ementa` </div>

In [41]:
df_proposicoes_sem_keywords = df_proposicoes[df_proposicoes['keywords'].isna()].copy()

In [42]:
df_proposicoes_sem_keywords['keywords'] = df_proposicoes_sem_keywords['ementa'].apply(remove_stopwords_punctuation_da_sentenca)

In [43]:
lista_keywords = []
lista_keywords_temp = df_proposicoes_sem_keywords['keywords'].tolist()
_ = [lista_keywords.extend(item) for item in lista_keywords_temp]

In [44]:
palavras_para_descarte = [item for item in set(lista_keywords) if len(item) <= 3]

In [45]:
substantivos_nao_descartaveis = ['cão', 'mãe', 'oab', 'boa', 'pré', 'voz', 'rui', 'uva', 'gás', 'glp', 'apa']

In [46]:
palavras_para_descarte_refinada = [palavra for palavra in palavras_para_descarte if palavra not in substantivos_nao_descartaveis]

In [47]:
def remove_palavras_para_descarte_da_sentenca(texto):
    keywords = []
    for palavra in texto:
        if palavra not in palavras_para_descarte_refinada:
            keywords.append(palavra)
    return keywords

In [48]:
df_proposicoes_sem_keywords['keywords'] = df_proposicoes_sem_keywords['keywords'].apply(remove_palavras_para_descarte_da_sentenca)

<div class="alert-warning"> Proposiciones legislativas: Tratamiento de bigramas </div>

In [49]:
def gera_n_grams(texto, ngram=2):
    temporario = zip(*[texto[indice:] for indice in range(0,ngram)])
    resultado = [' '.join(ngram) for ngram in temporario]
    return resultado

In [50]:
df_proposicoes_sem_keywords['bigrams'] = df_proposicoes_sem_keywords['keywords'].apply(gera_n_grams)

In [51]:
lista_ngrams = []
lista_ngrams_temp = df_proposicoes_sem_keywords['bigrams'].tolist()
_ = [lista_ngrams.extend(item) for item in lista_ngrams_temp]

In [52]:
bigrams_comuns = nltk.FreqDist(lista_ngrams).most_common(50)

In [53]:
lista_bigramas_comuns = [bigrama for bigrama, frequencia in bigrams_comuns]

<div class="alert-warning"> Proposiciones legislativas: Selección de los bigramas semanticamente irrelevantes </div>

In [54]:
lista_bigramas_comuns_limpa = ['dispõe sobre', 'outras providências', 'nova redação', 'poder executivo', 'distrito federal',
 'autoriza poder', 'federal outras','redação constituição', 'dispõe sôbre', 'código penal', 'artigo constituição',
 'disposições constitucionais', 'altera dispõe', 'decreto-lei código', 'constitucionais transitórias', 'altera redação',
 'abre ministério', 'executivo abrir', 'redação artigo', 'sobre criação', 'acrescenta parágrafo', 'parágrafo único',
 'concede isenção', 'altera dispositivos', 'altera complementar', 'dispondo sobre', 'código processo', 'outras providências.',
 'providências. historico', 'ministério fazenda', 'altera leis', 'programa nacional', 'quadro permanente', 'outras providencias',
 'inciso constituição', 'abrir ministério', 'estabelece normas', 'ministério justiça', 'tempo serviço', 'instituto nacional',
 'institui sistema', 'operações crédito', 'altera institui', 'dispõe sôbre']

In [55]:
palavras_para_descarte_origem_bigramas = []
_ = [palavras_para_descarte_origem_bigramas.extend(bigrama.split(' ')) for bigrama in lista_bigramas_comuns_limpa]
palavras_para_descarte_origem_bigramas_unicas = set(palavras_para_descarte_origem_bigramas)

In [56]:
def remove_palavras_origem_bigramas_da_sentenca(texto):
    keywords = []
    for palavra in texto:
        if palavra not in palavras_para_descarte_origem_bigramas_unicas:
            keywords.append(palavra)
    return keywords

In [57]:
df_proposicoes_sem_keywords['keywords'] = df_proposicoes_sem_keywords['keywords'].apply(remove_palavras_origem_bigramas_da_sentenca)

In [58]:
df_proposicoes_sem_keywords['keywords'] = df_proposicoes_sem_keywords['keywords'].apply(converte_lista_string)

In [59]:
df_proposicoes_sem_keywords = df_proposicoes_sem_keywords.drop(columns=['bigrams'])

<div class="alert-warning"> Proposiciones legislativas: Borra las proposiciones que quedaron sin keywords despues de la limpieza</div>

In [60]:
df_proposicoes_sem_keywords = df_proposicoes_sem_keywords[df_proposicoes_sem_keywords['keywords'] != '']

In [61]:
df_proposicoes_sem_keywords[df_proposicoes_sem_keywords['keywords']== ''] 

Unnamed: 0,id,siglaTipo,ano,codTipo,descricaoTipo,ementa,ementaDetalhada,keywords


<div class="alert-warning"> Proposiciones legislativas: Reuni los dataframes</div>

In [62]:
df_proposicoes_v_final = pd.concat([df_proposicoes_com_keywords, df_proposicoes_sem_keywords])

In [63]:
df_proposicoes_v_final.shape

(152386, 8)

In [64]:
df_proposicoes_v_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 152386 entries, 105 to 680357
Data columns (total 8 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   id               152386 non-null  object
 1   siglaTipo        152386 non-null  object
 2   ano              152386 non-null  int64 
 3   codTipo          152386 non-null  object
 4   descricaoTipo    152386 non-null  object
 5   ementa           152386 non-null  object
 6   ementaDetalhada  42563 non-null   object
 7   keywords         152386 non-null  object
dtypes: int64(1), object(7)
memory usage: 10.5+ MB


In [65]:
df_proposicoes_v_final.to_csv('dados/proposicoes_legislativas_limpas(1).csv', index=False)

# Creación de vocabulario

![image.png](attachment:7e0ef02b-2f0c-47db-b751-18f5d6e2bebb.png)

Antes de hacer el análisis de los temas de las proposiciones hacia falta clasificarlas con un vocabulario controlado. Así que, usando el conjunto de datos "temas de proposições" clasifiqué algunas proposiciones relativas a protección de derechos de grupos historicamente marginalizados, a saber: campesinos, mujeres, población LGTQIA+, negros, ancianos, discapacitados, artistas, poblacióne economicamente vulnerable y pueblos originarios.

Principales etapas:
- Reunir todas las palabras claves
- Atribuir manualmente palabras a temas
- Atribuir tema a proposiciones que contiene la palabra clave

In [66]:
proposicoes = pd.read_csv('dados/proposicoes_legislativas_limpas(1).csv')

In [67]:
proposicoes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 152386 entries, 0 to 152385
Data columns (total 8 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   id               152386 non-null  int64 
 1   siglaTipo        152386 non-null  object
 2   ano              152386 non-null  int64 
 3   codTipo          152386 non-null  int64 
 4   descricaoTipo    152386 non-null  object
 5   ementa           152386 non-null  object
 6   ementaDetalhada  42563 non-null   object
 7   keywords         152386 non-null  object
dtypes: int64(3), object(5)
memory usage: 9.3+ MB


Reunião de palavras chaves para classificação

In [68]:
keywords = proposicoes['keywords']

In [69]:
vocabulario = []

In [70]:
for proposicao in keywords:
    lista = proposicao.split(',')
    vocabulario.extend(lista)

In [71]:
vocabulario_unico = set(vocabulario)

In [72]:
with open('dados/vocabulario.txt', 'w') as palavras:
        for termo in vocabulario_unico:
            palavras.write(termo + '\n')

<div class="alert-warning">Relacioné manualmente palabras claves a uno de los temas del conjunto de datos "Temas"</div>

In [73]:
vocabulario_temp = pd.read_csv('dados/temas_vocabulario.csv')

In [74]:
vocabulario_temp.head()

Unnamed: 0,cod,sigla,nome,descricao
0,34,,Administração Pública,
1,64,,"Agricultura, Pecuária, Pesca e Extrativismo",assentado assentados assentamento assentamento...
2,35,,"Arte, Cultura e Religião",territporios obra-de-arte histórico-cultural a...
3,41,,Cidades e Desenvolvimento Urbano,natalidade pacificação
4,62,,"Ciência, Tecnologia e Inovação",


<div class="alert-warning"> Crié el vocabuario</div>

In [75]:
vocabulario = pd.DataFrame(columns=['cod', 'tema', 'palavra_chave'])

In [76]:
indices = vocabulario_temp.index

In [77]:
for indice in indices:
    descricao = vocabulario_temp['descricao'].iloc[indice]
    if type(descricao) == str:
        for palavra in descricao.split(' '):
            df = pd.DataFrame(data={'cod':vocabulario_temp['cod'].iloc[indice], 'tema':vocabulario_temp['nome'].iloc[indice], 'palavra_chave':[palavra]})
            vocabulario = pd.concat([vocabulario, df], ignore_index=True)
        

In [79]:
vocabulario.sample(5)

Unnamed: 0,cod,tema,palavra_chave
106,44,Direitos Humanos e Minorias,ameríndias
190,40,Economia,_microempresa
143,44,Direitos Humanos e Minorias,intersexualidade
328,56,Saúde,cão-de-assistência
362,58,Trabalho e Emprego,aposentado


In [15]:
vocabulario.shape

(412, 3)

In [16]:
vocabulario = vocabulario[vocabulario['palavra_chave']!= ''].copy()
vocabulario.shape

(411, 3)

<div class="alert-warning">Atribuí el tema a las proposiciones que contenía la palabra en la columna `keyword`</div>

In [81]:
def atribui_tema(proposicao):
    for tema, palavra_chave in zip(vocabulario['tema'], vocabulario['palavra_chave']):
        if palavra_chave in proposicao:
            return tema

In [82]:
proposicoes['temas'] = proposicoes['keywords'].apply(atribui_tema)

In [83]:
proposicoes.to_csv('dados/proposicoes_legislativas_limpas_vocabulario(1).csv', index=False)

# Modelo de aprendizaje de máquina

![image.png](attachment:bcfa4c4b-5ba3-4bdb-b748-c33e1570e63d.png)

Hay que clasificar todas las proposiciones antes del análisis.

Principales etapas:
- Establece variable predictora: “ementa” y la de respuesta:"temas"
- Encode da variable de respuesta utilizando preprocessing.LabelEncoder
- Divide conjunto de datos para teste y entrenamiento
- Convierte las ementas en vectores con HashingVectorizer
- Cría el modelo de clasificación con RandomForestClassifier
- Entrena el modelo
- Avalia cualitativamente a partir de la comparación entre las clasificaciones de los conjuntos de teste y entrenamiento

In [84]:
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import HashingVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from keras.utils import np_utils

import nltk
from nltk.corpus import stopwords

import pandas as pd
import numpy as np

2022-04-23 22:53:02.670847: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory
2022-04-23 22:53:02.670885: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.


<div class="alert-warning">Classifica proposições legislativas</div>

In [2]:
df_proposicoes = pd.read_csv("dados/proposicoes_legislativas_limpas_vocabulario.csv")
df_proposicoes_classificado = df_proposicoes.dropna(subset=["temas"])
df_proposicoes_classificado = df_proposicoes_classificado[["ementa","temas"]]

In [3]:
df_proposicoes_classificado.shape

(20210, 2)

In [4]:
df_proposicoes_classificado.head()

Unnamed: 0,ementa,temas
62,PROIBE O EMPREGO DE EXPRESSÕES DESAIROSAS AO H...,Direitos Humanos e Minorias
67,"ESTABELECE O REGIME DE APOSENTADORIA ESPECIAL,...",Trabalho e Emprego
71,"REVOGA A LEI 3841, DE 15 DE DEZEMBRO DE 1960, ...",Trabalho e Emprego
81,DEFINE O PEQUENO PRODUTOR E DA OUTRAS PROVIDEN...,Trabalho e Emprego
96,TRANSFORMA EM APOSENTADORIAS AS DEMISSÕES DE S...,Trabalho e Emprego


<div class="alert-warning">Establece variable predictora: “ementa” y la de respuesta:"temas"</div>

In [5]:
sentences = df_proposicoes_classificado['ementa'].values

<div class="alert-warning">Encode da variable de respuesta</div>

In [6]:
le = preprocessing.LabelEncoder()
le.fit(df_proposicoes_classificado['temas'].unique())

y = le.transform(df_proposicoes_classificado['temas'])

<div class="alert-warning">Divide el conjunto de teste y entrenamiento</div>

In [7]:
sentences_train, sentences_test, y_train, y_test = train_test_split(
   sentences, y, test_size=0.25, random_state=1000)

<div class="alert-warning">Convierte las ementas en vectores con HashingVectorizer</div>

In [8]:
vectorizer = CountVectorizer()
vectorizer.fit(sentences_train)

X_train = vectorizer.transform(sentences_train)
X_test  = vectorizer.transform(sentences_test)
X_train

hasher = HashingVectorizer(
            n_features=10000,
            stop_words=stopwords.words('portuguese'),
            alternate_sign=False,
            norm=None,
        )
hasher.fit(sentences_train)
X_train_hasher = hasher.transform(sentences_train)
X_test_hasher = hasher.transform(sentences_test)

In [9]:
X_train_hasher.shape

(15157, 10000)

<div class="alert-warning">Cría y entreina clasificador</div>

In [10]:
clf = RandomForestClassifier(n_estimators=200,random_state=0)
clf.fit(X_train_hasher, y_train)

RandomForestClassifier(n_estimators=200, random_state=0)

<div class="alert-warning">Verifica el coeficiente de determinación (R²)</div>

In [11]:
score = clf.score(X_test_hasher, y_test)

print("Acurácia:", score)

Acurácia: 0.7920047496536711


<div class="alert-warning">Avalia modelo cualitativamente</div>

In [12]:
df_random_forest_results = pd.DataFrame([sentences_test,le.inverse_transform(clf.predict(X_test_hasher))]).transpose().rename(columns={0:"ementa",1:"tema"})
df_random_forest_results.head()

Unnamed: 0,ementa,tema
0,"Altera a Lei nº 10.098, de 19 de dezembro de 2...",Direito Civil e Processual Civil
1,"Altera o art. 6º da Lei nº 10.826, de 22 de de...",Direito Penal e Processual Penal
2,"AUTORIZA O PODER EXECUTIVO A ABRIR, PELO MINIS...",Direitos Humanos e Minorias
3,Cria mecanismos para coibir a violência e a di...,Direitos Humanos e Minorias
4,ASSEGURA AOS FUNCIONARIOS PUBLICOS CIVIS DA UN...,Trabalho e Emprego


Criar lista com probabilidades de classificação das propostas em cada tema

In [13]:
predicted_probabilities = clf.predict_proba(X_test_hasher)

Selecionar o tema com maior probabilidade para cada ementa

In [14]:
df_random_forest_results["probabilidade_predicao"] = np.amax(predicted_probabilities,axis=1) # colocar if max maior do que 0.8

In [15]:
df_random_forest_results.head()

Unnamed: 0,ementa,tema,probabilidade_predicao
0,"Altera a Lei nº 10.098, de 19 de dezembro de 2...",Direito Civil e Processual Civil,0.865
1,"Altera o art. 6º da Lei nº 10.826, de 22 de de...",Direito Penal e Processual Penal,1.0
2,"AUTORIZA O PODER EXECUTIVO A ABRIR, PELO MINIS...",Direitos Humanos e Minorias,0.945
3,Cria mecanismos para coibir a violência e a di...,Direitos Humanos e Minorias,0.96
4,ASSEGURA AOS FUNCIONARIOS PUBLICOS CIVIS DA UN...,Trabalho e Emprego,0.925


Criar dataframe comparativo entre temas pré-estabelecidos e os classificados pelo modelo

In [16]:
df_ementas_test = pd.DataFrame([sentences_test,le.inverse_transform(y_test)]).transpose().rename(columns={0:"ementa",1:"tema"})

In [17]:
df_ementas_test.head()

Unnamed: 0,ementa,tema
0,"Altera a Lei nº 10.098, de 19 de dezembro de 2...",Direito Civil e Processual Civil
1,"Altera o art. 6º da Lei nº 10.826, de 22 de de...",Direito Penal e Processual Penal
2,"AUTORIZA O PODER EXECUTIVO A ABRIR, PELO MINIS...",Direitos Humanos e Minorias
3,Cria mecanismos para coibir a violência e a di...,Direitos Humanos e Minorias
4,ASSEGURA AOS FUNCIONARIOS PUBLICOS CIVIS DA UN...,Trabalho e Emprego


In [18]:
df_avaliacao = df_random_forest_results.merge(df_ementas_test,left_on="ementa",right_on="ementa",suffixes=["_resposta_modelo","_correto"])
df_avaliacao["modelo_acertou"] = df_avaliacao["tema_resposta_modelo"] == df_avaliacao["tema_correto"]
df_avaliacao["modelo_acertou"] = df_avaliacao["modelo_acertou"].replace({True: "Sim", False: "Não"})

In [19]:
df_avaliacao["modelo_acertou"].value_counts()

Sim    4148
Não    1079
Name: modelo_acertou, dtype: int64

In [20]:
df_avaliacao[df_avaliacao["probabilidade_predicao"] >= 0.85]["modelo_acertou"].value_counts()

Sim    1696
Não      58
Name: modelo_acertou, dtype: int64

In [21]:
df_avaliacao.head()

Unnamed: 0,ementa,tema_resposta_modelo,probabilidade_predicao,tema_correto,modelo_acertou
0,"Altera a Lei nº 10.098, de 19 de dezembro de 2...",Direito Civil e Processual Civil,0.865,Direito Civil e Processual Civil,Sim
1,"Altera o art. 6º da Lei nº 10.826, de 22 de de...",Direito Penal e Processual Penal,1.0,Direito Penal e Processual Penal,Sim
2,"AUTORIZA O PODER EXECUTIVO A ABRIR, PELO MINIS...",Direitos Humanos e Minorias,0.945,Direitos Humanos e Minorias,Sim
3,Cria mecanismos para coibir a violência e a di...,Direitos Humanos e Minorias,0.96,Direitos Humanos e Minorias,Sim
4,ASSEGURA AOS FUNCIONARIOS PUBLICOS CIVIS DA UN...,Trabalho e Emprego,0.925,Trabalho e Emprego,Sim


In [22]:
df_ementas_test.tema.value_counts()

Direitos Humanos e Minorias                    2334
Trabalho e Emprego                             1344
Saúde                                           333
Arte, Cultura e Religião                        265
Direito Penal e Processual Penal                191
Previdência e Assistência Social                163
Educação                                        140
Direito Civil e Processual Civil                121
Agricultura, Pecuária, Pesca e Extrativismo      86
Cidades e Desenvolvimento Urbano                 39
Relações Internacionais e Comércio Exterior      16
Viação, Transporte e Mobilidade                  13
Meio Ambiente e Desenvolvimento Sustentável       6
Homenagens e Datas Comemorativas                  1
Economia                                          1
Name: tema, dtype: int64

In [23]:
df_avaliacao.to_csv('dados/avaliacao-qualitativa-modelo-classificacao.csv')

## Aplicando o modelo para classificar todas as proposicoes legislativas

In [24]:
df_proposicoes_total = df_proposicoes[["ementa","temas"]]

In [25]:
ementas = df_proposicoes_total['ementa'].values

In [26]:
ementas_hasher = hasher.transform(ementas)

Aplica o modelo de classificacao em todas as proposições legislativas

In [27]:
df_proposicoes_total_classificadas = pd.DataFrame([ementas,le.inverse_transform(clf.predict(ementas_hasher))]).transpose().rename(
    columns={0:"ementa",1:"temas"})

In [28]:
df_proposicoes_total_classificadas.head()

Unnamed: 0,ementa,temas
0,MANTEM DECISÃO DENEGATORIA DO TRIBUNAL DE CONT...,Direitos Humanos e Minorias
1,MANTEM ATO DO TRIBUNAL DE CONTAS DA UNIÃO DE R...,Direitos Humanos e Minorias
2,MANTÉM DECISÃO DENEGATÓRIA DO TRIBUNAL DE CONT...,Direitos Humanos e Minorias
3,MANTÉM ATO DO TRIBUNAL DE CONTAS DA UNIÃO QUE ...,Direitos Humanos e Minorias
4,MANTEM O ATO DO TRIBUNAL DE CONTAS DA UNIÃO QU...,Direitos Humanos e Minorias


In [29]:
df_proposicoes_total_classificadas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 152386 entries, 0 to 152385
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   ementa  152386 non-null  object
 1   temas   152386 non-null  object
dtypes: object(2)
memory usage: 2.3+ MB


Informar a probabilidade de acerto de cada tema

In [30]:
temas_probabilities = clf.predict_proba(ementas_hasher)

In [31]:
df_proposicoes_total_classificadas["probabilidade_predicao"] = np.amax(temas_probabilities, axis=1)

In [32]:
df_proposicoes_total_classificadas.head()

Unnamed: 0,ementa,temas,probabilidade_predicao
0,MANTEM DECISÃO DENEGATORIA DO TRIBUNAL DE CONT...,Direitos Humanos e Minorias,0.76
1,MANTEM ATO DO TRIBUNAL DE CONTAS DA UNIÃO DE R...,Direitos Humanos e Minorias,0.505
2,MANTÉM DECISÃO DENEGATÓRIA DO TRIBUNAL DE CONT...,Direitos Humanos e Minorias,0.775
3,MANTÉM ATO DO TRIBUNAL DE CONTAS DA UNIÃO QUE ...,Direitos Humanos e Minorias,0.715
4,MANTEM O ATO DO TRIBUNAL DE CONTAS DA UNIÃO QU...,Direitos Humanos e Minorias,0.4725


In [33]:
df_proposicoes_total_classificadas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 152386 entries, 0 to 152385
Data columns (total 3 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   ementa                  152386 non-null  object 
 1   temas                   152386 non-null  object 
 2   probabilidade_predicao  152386 non-null  float64
dtypes: float64(1), object(2)
memory usage: 3.5+ MB


Limpa temas cuja a probabilidade de acerto é menor do que 85%

In [34]:
def retira_tema_com_baixa_probabilidade_acerto(proposicoes):
        if proposicoes['probabilidade_predicao'] >= 0.85:
            return proposicoes['temas']
        else:
            return np.nan

In [35]:
df_proposicoes_total_classificadas['temas'] = df_proposicoes_total_classificadas.apply(retira_tema_com_baixa_probabilidade_acerto, 
                                                                                      axis=1)

Reunir conjunto de dados de proposições legislativas com classificação realizada

In [36]:
df_proposicoes_classificador = df_proposicoes.join(df_proposicoes_total_classificadas, rsuffix='_classificador')

In [37]:
df_proposicoes_classificador.shape

(152386, 12)

In [38]:
df_proposicoes_classificador.head()

Unnamed: 0,id,siglaTipo,ano,codTipo,descricaoTipo,ementa,ementaDetalhada,keywords,temas,ementa_classificador,temas_classificador,probabilidade_predicao
0,168293,PDC,1965,135,Projeto de Decreto Legislativo,MANTEM DECISÃO DENEGATORIA DO TRIBUNAL DE CONT...,,"manutenção,decisão,tribunal,contas,união,tcu,d...",,MANTEM DECISÃO DENEGATORIA DO TRIBUNAL DE CONT...,,0.76
1,168297,PDC,1965,135,Projeto de Decreto Legislativo,MANTEM ATO DO TRIBUNAL DE CONTAS DA UNIÃO DE R...,,"manutenção,ato,tribunal,contas,união,tcu,recus...",,MANTEM ATO DO TRIBUNAL DE CONTAS DA UNIÃO DE R...,,0.505
2,168300,PDC,1965,135,Projeto de Decreto Legislativo,MANTÉM DECISÃO DENEGATÓRIA DO TRIBUNAL DE CONT...,,"manutenção,decisão,tribunal,contas,união,tcu,d...",,MANTÉM DECISÃO DENEGATÓRIA DO TRIBUNAL DE CONT...,,0.775
3,168303,PDC,1965,135,Projeto de Decreto Legislativo,MANTÉM ATO DO TRIBUNAL DE CONTAS DA UNIÃO QUE ...,,"manutenção,ato,tribunal,contas,união,tcu,negaç...",,MANTÉM ATO DO TRIBUNAL DE CONTAS DA UNIÃO QUE ...,,0.715
4,168307,PDC,1965,135,Projeto de Decreto Legislativo,MANTEM O ATO DO TRIBUNAL DE CONTAS DA UNIÃO QU...,,"manutenção,ato,tribunal,contas,união,tcu,deneg...",,MANTEM O ATO DO TRIBUNAL DE CONTAS DA UNIÃO QU...,,0.4725


In [39]:
df_proposicoes_classificador.drop(columns=['temas', 'ementa_classificador', 'probabilidade_predicao'], inplace=True)

In [40]:
df_proposicoes_classificador.to_csv('dados/proposicoes_legislativas_limpas_classificadas.csv', index=False)