**IFSP - Campus Campinas** <br>
**Pós-graduação em Ciência de Dados** <br>
**Disciplina D3TOP – Tópicos em Ciência de Dados** <br>

Projeto em Grupo - Parte 1

Professor: Samuel Martins (samuel.martins@ifsp.edu.br)<br>
Aluno: Swift Motoo Yaguchi - CP301665X

------

# Descrição e motivação do problema

Apesar de serem representantes eleitos pela população, pouco se sabe sobre a produção legislativa dos vereadores de Campinas, produção esta que a midia noticia esporadicamente, com interesses jornalísticos muitas vezes buscando sensacionalismo, e não avaliando a qualidade das propostas de leis produzidas pelos vereadores em seu conjunto.

Campinas tem 33 vereadores, que produzem anualmente centenas de projetos de lei com diversas finalidades, e que são debatidas nas reuniões regulares da Câmara Municipal, sendo que algumas são aprovadas tornando-se leis que irão inflenciar a vida da população da cidade, positiva ou negativamente.

É interessante observar que, além dos 33 vereadores, o Prefeito de Campinas envia também dezenas de projetos de lei à Câmara Municipal sendo que o peso destes para influenciar a vida da população é muito maior, positiva ou negativamente.

A Câmara Muncipal é o espaço onde estes projetos de lei são debatidos e avaliados pelos vereadores, eleitos democraticamente para serem os representantes da população para esta avaliação de toda produção legislativa, seguindo um processo legislativo inicial de avaliação onde participam dezenas de técnicos especialistas da própria Câmara Municipal e Comissões especiais compostas pelos vereadores com apoio de suas equipes de assessores, bem como audiências públicas onde a população tem oportunidade de se manifestar a favor ou contra.

Este processo legislativo é onde o texto dos projetos de lei são avaliados, textos que trazem em seu conteúdo benefícios para a população da cidade, ou não.

Este projeto é um exercício de análise dos projetos de leis municipais da Câmara Municipal de Campinas usando técnicas de NLP e ML para tentar identificar se um texto de projeto de lei pode ser benéfico para a população da cidade.


# Descrição da base de dados

Para este projeto foi montada uma base de dados de projetos de lei da Câmara Municipal de Campinas do ano de 2019, antes da última eleição municipal, e portanto não devendo ter intenção de crítica ou influência à Câmara Municipal em seu mandato corrente.

Há vários tipos de projetos de lei, com finalidades diferentes, e para este projeto foi escolhido o conjunto de PLO's (Projetos de Lei Ordinárias), que são as mais comuns e em quantidade maior. Como referência, o Regimento Interno da Câmara Muncipal descreve os vários tipos de projetos de lei (https://www.campinas.sp.leg.br/atividade-legislativa/regimento-interno).

A base de dados foi montada num arquivo no fromato csv e contém os seguintes campos:

* Texto: texto completo do PLO
* Ementa: resumo do PLO
* Vereador: autor do PLO
* Data: data de apresentação do PLO
* Nota: uma avaliação pessoal do texto do PLO
* isUtil: se o PLO é útil para a cidade ou não (1 ou 0)

O conjunto de Projetos de Leis foi extraído do site da Câmara Muncipal de Campinas
(https://www.campinas.sp.leg.br/atividade-legislativa/producao-legislativa), selecionando o período de 01/01/2019 a 31/12/2019 e PLO como tipo de matéria.

Os PLOs estão disponíveis no formalto pdf e a extração do texto foi feita manualmente, ora utilizando a ferramenta pdftotext da biblioteca pyhton, ora utlizando conversor de pdf para word.

Os critérios pessoais utilizados para avaliar cada PLO foram os seguintes:

1. Lei reduz custos para a cidade, fiscaliza executivo, combate corrupção <br>
2. Lei melhora a educação, saúde, transporte, segurança, habitação na cidade <br>
3. Lei reduz burocracia na cidade, diminui controle do Estado <br>
4. Lei permite criar empregos ou incentiva empreendedores <br>
5. Lei com benefício real para a cidade de alguma outra forma <br>
6. Lei aumenta custos para a cidade, interfere alçada de outro órgão ou legislação anterior <br>
7. Lei aumenta privilégios apenas para uma parcela menor da cidade <br>
8. Lei prejudica a cidade com aumento de burocracia ou controle do Estado <br>
9. Lei de nome de ruas, praças, e homenagens <br>
10. Lei de datas comemorativas <br>
11. Lei de placas e informativos mas sem atuar na causa e sem benefício real para a cidade <br>
12. Lei  de programas e cursos na rede escolar, sem real benefício para a cidade <br>
13. Lei  de proibições e penalizações sem interação com órgãos fiscalizadores competentes ou sem real benefício para a cidade <br>
14. Lei  sem benefício adicional real para a cidade <br>

Para a rotulação da coluna __isUtil__ considerei como 1 os PLOs de avaliação 1 a 5, e como 0 os restantes de avaliação 6 a 14.

Convém observar que esta rotulação do isUtil pode ser redefinida de acordo com opiniões de cada pessoa com seus critérios de cidadania responsável, podendo dar resultados diferentes, o que é perfeitamente normal numa democracia.



# Objetivo de negócio ou científico associado ao problema

Tendo em vista o processo legislativo descrito acima que envolve muito tempo e uma quantidade grande de pessoas para avaliar um PLO, que essencialmente é um texto em sua grande maioria, o objetivo deste projeto é buscar otimizar este processo legislativo com técnicas de NLP e ML.

Basicamente a ideia é:

* analisar um conjunto de leis usando técnicas de NLP 

* treinamento testando e comparando algorítmos de ML

* Desenvolver um modelo de avaliaçao de projetos de leis do município de Campinas para identificar se uma lei é útil ou inútil à população


Para este projeto utilizei como referências códigos de sala de aula do curso de D3TOP e códigos do curso online de AWS Sagmaker ML


# Etapa de limpeza e pré-processamento

**Instalando bibliotecas**

In [1]:
#Upgrade dependencies
!pip install --upgrade pip
!pip install --upgrade scikit-learn
# !pip install --upgrade sagemaker










In [2]:
import pandas as pd

**Leitura da base de dados**

In [3]:
df = pd.read_csv('PLO 2019 v1.1.csv', sep=';')
df.head(5)

Unnamed: 0,Texto,Ementa,Vereador,Data,Nota,isUtil
0,Art. I Fica denominado Praça Sandra Hitomi Ta...,DENOMINA PRAÇA SANDRA HITOMI TAKAHASHI UM SIST...,Carmo Luiz,43500,9,0
1,Art. lº Ficam proibidos a comercialização e o...,PROÍBE O COMÉRCIO E O USO DOS PRODUTOS QUE ESP...,Luiz Rossini,43500,13,0
2,Art. 1 0 Poder Executivo municipal deverá disp...,DISPÕE SOBRE O ACESSO ÀS INFORMAÇÕES A RESPEIT...,Luiz Cirilo,43500,1,1
3,Art. 1 Fica denominada Praça Iracema Costa a P...,DENOMINA PRAÇA IRACEMA COSTA UMA PRAÇA PÚBLICA...,Carlão do PT,43500,9,0
4,Art. 1 Ficam alterados os SS I P e 3 2 do art....,ALTERA A REDAÇÃO DOS §§ 1º E 3º DO ART. 2º DA ...,Paulo Galterio,43500,7,0


In [4]:
# É possível alterar as opções na atividade para exibir mais dados de texto.
pd.options.display.max_rows
pd.set_option('display.max_colwidth', None)
df.head()


Unnamed: 0,Texto,Ementa,Vereador,Data,Nota,isUtil
0,"Art. I Fica denominado Praça Sandra Hitomi Takahashi o Sistema de Recreio 01 (Quarteirão 740, Código Cartográfica 3234.6105.0001, com área de 168,00m 2 ) do loteamento Cidade Universitária Campineira, distrito Barão Geraldo, situado na Avenida Dr. Romeu Tórtima (Avenida 01) do mesmo loteamento.\n\nArt. 2 Esta Lei entra em vigor na data de sua publicação.",DENOMINA PRAÇA SANDRA HITOMI TAKAHASHI UM SISTEMA DE RECREIO DO MUNICÍPIO DE CAMPINAS.,Carmo Luiz,43500,9,0
1,"Art. lº Ficam proibidos a comercialização e o uso de espumas, serpentinas e produtos similares acondicionados em spray no município de Campinas.\n\n§ lº A proibição de que trata o caput abrange os produtos com a denominação ""espuma de Carnaval"", ""neve de Carnaval"", ""neve artificial"", ""serpentina"", ""teia"" ou denominação similar acondicionados em sprê1y que possam entrai- em contato direto com a pele, mucosas ou olhos.\n\n§ 2º As espumas E xpansivas de aplicação na indústria, na construção civil e em outras atividades regulamentadas ficam excluídas da proibição de que trata o caput.\n\nArt. 2º O Poder Executivo, por meio de seus órgãos competentes, promoverá ações de fiscalização dos estabelecimentos que comercializarem o:s produtos a que se referem o caput e o § lº do art. 1º desta Lei.\n\nParágrafo unico. A atuação dos agentes de fiscalização poderá ocorrer independentemente de denúncia ou reclamação.\n\nArt. 3º O descumprimento do disposto nesta Lei acarretará ao estabelecimento infrator a aplicação de multa no valor de 500 (quinhentas) Unidades Fiscais de Campinas - UFICs, que será dobrado na primeira reincidência e quadruplicado a partir da segunda reincidência, sem prejuízo das demais penalidades aplicáveis.\n\nParágrafo único. Será considerado reincidência o cometimento por mais de uma vez da mesma infração tipificada nesta Lei no mesmo dia ou em até trinta dias contados da primeira expedição do auto de infração.\n\nArt. 4º\tA receita da aplicação das multas será revertida para o Fundo de Recuperação, Manutenção e Preservação do Meio Ambiente - Proamb.\n\nArt. 5º Na hipótes,e de o infrator ser vendedor ambulante, ocorrerá apenas a apreensão dos produtos a que se referem o caput e o § lº\tcio art. lº desta Lei, sem preJuízo de outras sanções que couberem na forma da lei.\nArt. 6º Quando em posse de usuário, os produtos referidos no caput e no\n§ lº\tdo art. lº\tserão sumariamente apreendidos, não tendo o infrator direito a qualquer indenização nem à restituição dos produtos.\n\nArt. 7º Esta Lei entra em vigor na data de sua publicação.",PROÍBE O COMÉRCIO E O USO DOS PRODUTOS QUE ESPECIFICA ACONDICIONADOS EM SPRAY NO MUNICÍPIO DE CAMPINAS E DÁ OUTRAS PROVIDÊNCIAS.,Luiz Rossini,43500,13,0
2,"Art. 1 0 Poder Executivo municipal deverá disponibilizar, por meio do site oficial da Prefeitura Municipal de Campinas, um espaço em área de fácil acesso denominado Portal de Obras Públicas, obrigatoriamente com as seguintes informações de todas as obras públicas do Município:\nI\t- nome da obra,\nII\t- classificação da obra,\nIII\t- número da licitação correspondente à contratação da empresa responsável pela obra,\nIV\t- número do contrato,\nV\t- empresa responsável por executar a obra,\nVI\t- valor estimado da obra,\nVII\t- valor adicional da obra, se houver termo aditivo,\nVIII\t- situação em que se encontra a obra,\nIX\t- data de início da obra,\nX\t- data de término da obra,\nXI\t- prazo de prorrogação da obra, se for o caso,\nXII\t- especificação e valor da fonte de recursos,\nXIII\t- cronograma das ações que serão realizadas durante a obra,\nXIV\t- anexos referentes à obra,\nXV\t- justificativa de interrupção, paralisação ou cancelamento da obra, se for o caso.\n\nParágrafo único. Nos anexos deverão constar a planilha orçamentária, o contrato com a empresa responsável pela obra e os termos aditivos, caso existam.\n\nArt. 2 As informações de que trata o art. I P deverão ser disponibilizadas sem prejuízo de outras informações que estiverem organizadas no site oficial da Prefeitura Municipal de Campinas.\n\nArt. 3 As despesas decorrentes da execução desta Lei correrão por conta de verbas orçamentárias próprias.\n\nArt. 4 Esta Lei entra em vigor após decorridos cento e oitenta dias de sua publicação oficial.\n \nArt. Ficam revogadas as disposições em contrário.",DISPÕE SOBRE O ACESSO ÀS INFORMAÇÕES A RESPEITO DE OBRAS PÚBLICAS DO MUNICÍPIO DE CAMPINAS POR MEIO DO SITE DA PREFEITURA MUNICIPAL.,Luiz Cirilo,43500,1,1
3,"Art. 1 Fica denominada Praça Iracema Costa a Praça 4 (Quarteirão 7.508, Código Cartográfico 3334.64.54.0001, com área de 2.370,00m 2) do loteamento Jardim Maracanã, situada na Rua Edson Luiz Rigonatto (Rua 13), ao lado da Quadra B, no mesmo loteamento.\n\nArt. 2 Esta Lei entra em vigor na data de sua publicação.",DENOMINA PRAÇA IRACEMA COSTA UMA PRAÇA PÚBLICA DO MUNICÍPIO DE CAMPINAS.,Carlão do PT,43500,9,0
4,"Art. 1 Ficam alterados os SS I P e 3 2 do art. 2 2 da Lei n? 14.789, de 4 de abril de 2014, que passa a vigorar com a seguinte redação:\n""Art. 2 2 \nS 1 2 0 atendimento prioritário de que trata esta Lei será oferecido em quaisquer caixas, guichês ou unidades disponíveis para o atendimento ao público em geral.\n \nS 3 2 Os estabelecimentos que tenham pavimentos superiores com caixas de atendimento deverão manter atendimento prioritário em todos os caixas de cada andar,\n (NR)","ALTERA A REDAÇÃO DOS §§ 1º E 3º DO ART. 2º DA LEI Nº 14.789, DE 4 DE ABRIL DE 2014, QUE DISPÕE SOBRE ATENDIMENTO PRIORITÁRIO NO MUNICÍPIO DE CAMPINAS.",Paulo Galterio,43500,7,0


## Realização da análise exploratória de dados

In [5]:
df.dtypes

Texto       object
Ementa      object
Vereador    object
Data         int64
Nota         int64
isUtil       int64
dtype: object

In [7]:
print('O tamanho do dataset é:', df.shape)

O tamanho do dataset é: (52, 6)


In [8]:
df['isUtil'].value_counts()

0    41
1    11
Name: isUtil, dtype: int64

Nota-se que o resultado é desbalanceado

In [9]:
# Verificando se base de dados tem valores ausentes
df.isna().sum()

Texto       0
Ementa      0
Vereador    0
Data        0
Nota        0
isUtil      0
dtype: int64

## 3. Processamento de texto: remoção de palavras irrelevantes e stemming

Remoção de algumas das palavras irrelevantes, stemming nos dados de texto.<br>
Normalização dos dados para reduzir a quantidade de informações diferentes com as quais é preciso lidar.

Bilioteca utilizada é o [nltk](https://www.nltk.org/)

- **punkt** é um tokenizador de frases.
- **stopwords** apresenta uma lista de palavras irrelevantes que você pode usar.

In [10]:
!pip install --upgrade nltk








In [11]:
# Install the library and functions
import nltk
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Swift\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Swift\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Na seção a seguir, você criará os processos para remover as palavras irrelevantes e limpar o texto. A biblioteca Natural Language Toolkit (NLTK) oferece uma lista de palavras irrelevantes comuns. Você usará a lista, mas primeiro removerá algumas palavras dela. As palavras irrelevantes mantidas no texto são úteis para identificar o sentimento.

In [12]:
import nltk, re
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from nltk.tokenize import word_tokenize

# Get a list of stopwords from the NLTK library
stop = stopwords.words('portuguese')

# New stopword list
# stopwords = [word for word in stop if word not in excluding]
stopwords = [word for word in stop]


O stemizador snowball stemiza as palavras. Por exemplo, o verbo “caminhando” será transformado em “caminh”.

In [13]:
snow = SnowballStemmer('portuguese')

É preciso realizar outras tarefas de normalização nos dados. A seguinte função:

- Substitui todos os valores ausentes por uma string vazia
- Converte o texto em letras minúsculas
- Remove espaços em branco à esquerda ou à direita
- Remove espaços e recuos extras
- Remove marcações HTML

No loop  `for`, todas as palavras que __NOT__ são numéricas, têm mais de dois caracteres e não estão na lista de palavras irrelevantes são mantidas e retornadas.

In [14]:
def process_text(texts): 
    final_text_list=[]
    for sent in texts:
        
        # Check if the sentence is a missing value
        if isinstance(sent, str) == False:
            sent = ''
            
        filtered_sentence=[]
        
        sent = sent.lower() # Lowercase 
        sent = sent.strip() # Remove leading/trailing whitespace
        sent = re.sub('\s+', ' ', sent) # Remove extra space and tabs
        sent = re.compile('<.*?>').sub('', sent) # Remove HTML tags/markups:
        
        for w in word_tokenize(sent):
            # Applying some custom filtering here, feel free to try different things
            # Check if it is not numeric and its length>2 and not in stopwords
            if(not w.isnumeric()) and (len(w)>2) and (w not in stopwords):  
                # Stem and add to filtered list
                filtered_sentence.append(snow.stem(w))
        final_string = " ".join(filtered_sentence) # Final string of cleaned words
 
        final_text_list.append(final_string)
        
    return final_text_list

In [15]:
print('Processando a coluna Texto')
df['Texto'] = process_text(df['Texto'].tolist())

Processando a coluna Texto


In [16]:
# df['Texto']

In [21]:
print('Processando a coluna Ementa')
df['Ementa'] = process_text(df['Ementa'].tolist())

Processando a coluna Ementa


In [18]:
# df['Ementa']

In [20]:
df.head(5)

Unnamed: 0,Texto,Ementa,Vereador,Data,Nota,isUtil
0,"art fic denomin prac sandr hitom takahash sistem recrei quart códig cartográf 3234.6105.0001 áre 168,00m loteament cidad universitár campineir distrit barã gerald situ aven dr. rom tórtim aven loteament art lei entra vigor dat public",denomin prac sandr hitom takahash sistem recrei municípi campin,Carmo Luiz,43500,9,0
1,art fic proib comercializ uso espum serpentin produt simil acondicion spray municípi campin proibiçã trat caput abrang produt denomin espum carnaval nev carnaval nev artificial serpentin tei denomin simil acondicion sprê1y poss entrai- contat diret pel mucos olhos espum xpansiv aplic indústr construçã civil outr ativ regulament fic excluíd proibiçã trat caput art pod execut mei órgã competent promov açõ fiscaliz estabelec comercializ produt ref caput art dest lei parágraf unic atuaçã agent fiscaliz pod ocorr independent denúnc reclam art descumpr dispost nest lei acarret estabelec infrator aplic mult valor quinhent unidad fisc campin ufics dobr primeir reincident quadruplic part segund reincident prejuíz dem penal aplic parágraf únic consider reincident comet vez mesm infraçã tipific nest lei dia trint dias cont primeir expediçã aut infraçã art receit aplic mult revert fund recuper manutençã preserv mei ambient proamb art hipót infrator vendedor ambul ocorr apen apreensã produt ref caput cio art dest lei prejuíz outr sançõ coub form lei art poss usuári produt refer caput art sumari apreend tend infrator direit qualqu indeniz restituiçã produt art lei entra vigor dat public,proíb comérci uso produt especif acondicion spray municípi campin outr provident,Luiz Rossini,43500,13,0
2,art pod execut municipal dev disponibiliz mei sit oficial prefeitur municipal campin espac áre fácil acess denomin portal obras públic obrigatori seguint inform tod obras públic municípi nom obra classific obra iii númer licit correspondent contrat empres respons obra númer contrat empres respons execut obra valor estim obra vii valor adicional obra term adit vii situaçã encontr obra dat iníci obra dat términ obra praz prorrog obra cas xii especific valor font recurs xii cronogram açõ realiz durant obra xiv anex referent obra justific interrupçã paralis cancel obra cas parágraf únic anex dev const planilh orçamentár contrat empres respons obra term adit cas exist art inform trat art dev disponibiliz prejuíz outr inform organiz sit oficial prefeitur municipal campin art despes decorrent execu dest lei corr cont verb orçamentár própr art lei entra vigor após decorr cent oitent dias public oficial art fic revog disposiçõ contrári,dispõ sobr acess inform respeit obras públic municípi campin mei sit prefeitur municipal,Luiz Cirilo,43500,1,1
3,"art fic denomin prac iracem cost prac quart 7.508 códig cartográf 3334.64.54.0001 áre 2.370,00m loteament jardim maracanã situ rua edson luiz rigonatt rua lad quadr loteament art lei entra vigor dat public",denomin prac iracem cost prac públic municípi campin,Carlão do PT,43500,9,0
4,art fic alter art lei 14.789 abril pass vigor seguint redaçã art atend prioritári trat lei oferec quaisqu caix guichês unidad disponív atend públic geral estabelec paviment superior caix atend dev mant atend prioritári tod caix cad andar,alter redaçã art lei 14.789 abril dispõ sobr atend prioritári municípi campin,Paulo Galterio,43500,7,0
