**IFSP - Campus Campinas** <br>
**Pós-graduação em Ciência de Dados** <br>
**Disciplina D3TOP – Tópicos em Ciência de Dados** <br>

Projeto em Grupo - Parte 1

v 1.1

Professor: Samuel Martins (samuel.martins@ifsp.edu.br)<br>
Aluno: Swift Motoo Yaguchi - CP301665X

------

# Descrição e motivação do problema

Apesar de serem representantes eleitos pela população, pouco se sabe sobre a produção legislativa dos vereadores de Campinas, produção esta que a midia noticia esporadicamente, com interesses jornalísticos muitas vezes buscando sensacionalismo, e não avaliando a qualidade das propostas de leis produzidas pelos vereadores em seu conjunto.

Campinas tem 33 vereadores, que produzem anualmente centenas de projetos de lei com diversas finalidades, e que são debatidas nas reuniões regulares da Câmara Municipal, sendo que algumas são aprovadas tornando-se leis que irão inflenciar a vida da população da cidade, positiva ou negativamente.

É interessante observar que, além dos 33 vereadores, o Prefeito de Campinas envia também dezenas de projetos de lei à Câmara Municipal sendo que o peso destes para influenciar a vida da população é muito maior, positiva ou negativamente.

A Câmara Muncipal é o espaço onde estes projetos de lei são debatidos e avaliados pelos vereadores, eleitos democraticamente para serem os representantes da população para esta avaliação de toda produção legislativa, seguindo um processo legislativo inicial de avaliação onde participam dezenas de técnicos especialistas da própria Câmara Municipal e Comissões especiais compostas pelos vereadores com apoio de suas equipes de assessores, bem como audiências públicas onde a população tem oportunidade de se manifestar a favor ou contra.

Este processo legislativo é onde o texto dos projetos de lei são avaliados, textos que trazem em seu conteúdo benefícios para a população da cidade, ou não.

Este projeto é um exercício de análise dos projetos de leis municipais da Câmara Municipal de Campinas usando técnicas de NLP e ML para tentar identificar se um texto de projeto de lei pode ser benéfico para a população da cidade.


# Descrição da base de dados

Para este projeto foi montada uma base de dados de projetos de lei da Câmara Municipal de Campinas do ano de 2019, antes da última eleição municipal, e portanto não devendo ter intenção de crítica ou influência à Câmara Municipal em seu mandato corrente.

Há vários tipos de projetos de lei, com finalidades diferentes, e para este projeto foi escolhido o conjunto de PLO's (Projetos de Lei Ordinárias), que são as mais comuns e em quantidade maior. Como referência, o Regimento Interno da Câmara Muncipal descreve os vários tipos de projetos de lei (https://www.campinas.sp.leg.br/atividade-legislativa/regimento-interno).

A base de dados foi montada num arquivo no fromato csv e contém os seguintes campos:

* Texto: texto completo do PLO
* Ementa: resumo do PLO
* Vereador: autor do PLO
* Data: data de apresentação do PLO
* Nota: uma avaliação pessoal do texto do PLO
* isUtil: se o PLO é útil para a cidade ou não (1 ou 0)

O conjunto de Projetos de Leis foi extraído do site da Câmara Muncipal de Campinas
(https://www.campinas.sp.leg.br/atividade-legislativa/producao-legislativa), selecionando o período de 01/01/2019 a 31/12/2019 e PLO como tipo de matéria.

Os PLOs estão disponíveis no formalto pdf e a extração do texto foi feita manualmente, ora utilizando a ferramenta pdftotext da biblioteca pyhton, ora utlizando conversor de pdf para word.

Os critérios pessoais utilizados para avaliar cada PLO foram os seguintes:

1. Lei reduz custos para a cidade, fiscaliza executivo, combate corrupção <br>
2. Lei melhora a educação, saúde, transporte, segurança, habitação na cidade <br>
3. Lei reduz burocracia na cidade, diminui controle do Estado <br>
4. Lei permite criar empregos ou incentiva empreendedores <br>
5. Lei com benefício real para a cidade de alguma outra forma <br>
6. Lei aumenta custos para a cidade, interfere alçada de outro órgão ou legislação anterior <br>
7. Lei aumenta privilégios apenas para uma parcela menor da cidade <br>
8. Lei prejudica a cidade com aumento de burocracia ou controle do Estado <br>
9. Lei de nome de ruas, praças, e homenagens <br>
10. Lei de datas comemorativas <br>
11. Lei de placas e informativos mas sem atuar na causa e sem benefício real para a cidade <br>
12. Lei  de programas e cursos na rede escolar, sem real benefício para a cidade <br>
13. Lei  de proibições e penalizações sem interação com órgãos fiscalizadores competentes ou sem real benefício para a cidade <br>
14. Lei  sem benefício adicional real para a cidade <br>

Para a rotulação da coluna __isUtil__ considerei como 1 os PLOs de avaliação 1 a 5, e como 0 os restantes de avaliação 6 a 14.

Convém observar que esta rotulação do isUtil pode ser redefinida de acordo com opiniões de cada pessoa com seus critérios de cidadania responsável, podendo dar resultados diferentes, o que é perfeitamente normal numa democracia.



# Objetivo de negócio ou científico associado ao problema

Tendo em vista o processo legislativo descrito acima que envolve muito tempo e uma quantidade grande de pessoas para avaliar um PLO, que essencialmente é um texto em sua grande maioria, o objetivo deste projeto é buscar otimizar este processo legislativo com técnicas de NLP e ML.

Basicamente a ideia é:

* analisar um conjunto de leis usando técnicas de NLP 

* treinamento testando e comparando algorítmos de ML

* Desenvolver um modelo de avaliaçao de projetos de leis do município de Campinas para identificar se uma lei é útil ou inútil à população


Para este projeto utilizei como referências códigos de sala de aula do curso de D3TOP e códigos do curso online de AWS Sagmaker ML


# Etapa de limpeza e pré-processamento

**Instalando bibliotecas**

In [1]:
#Upgrade dependencies
#!pip install --upgrade pip
#!pip install --upgrade scikit-learn
#!pip install --upgrade sagemaker

In [2]:
import pandas as pd

**Leitura da base de dados**

In [3]:
df = pd.read_csv('PLO 2019 v1.1.csv', sep=';')
df.head(3)

Unnamed: 0,Texto,Ementa,Vereador,Data,Nota,isUtil
0,Art. I Fica denominado Praça Sandra Hitomi Ta...,DENOMINA PRAÇA SANDRA HITOMI TAKAHASHI UM SIST...,Carmo Luiz,43500,9,0
1,Art. lº Ficam proibidos a comercialização e o...,PROÍBE O COMÉRCIO E O USO DOS PRODUTOS QUE ESP...,Luiz Rossini,43500,13,0
2,Art. 1 0 Poder Executivo municipal deverá disp...,DISPÕE SOBRE O ACESSO ÀS INFORMAÇÕES A RESPEIT...,Luiz Cirilo,43500,1,1


In [4]:
# É possível alterar as opções na atividade para exibir mais dados de texto.
pd.options.display.max_rows
pd.set_option('display.max_colwidth', None)
df.head()


Unnamed: 0,Texto,Ementa,Vereador,Data,Nota,isUtil
0,"Art. I Fica denominado Praça Sandra Hitomi Takahashi o Sistema de Recreio 01 (Quarteirão 740, Código Cartográfica 3234.6105.0001, com área de 168,00m 2 ) do loteamento Cidade Universitária Campineira, distrito Barão Geraldo, situado na Avenida Dr. Romeu Tórtima (Avenida 01) do mesmo loteamento.\n\nArt. 2 Esta Lei entra em vigor na data de sua publicação.",DENOMINA PRAÇA SANDRA HITOMI TAKAHASHI UM SISTEMA DE RECREIO DO MUNICÍPIO DE CAMPINAS.,Carmo Luiz,43500,9,0
1,"Art. lº Ficam proibidos a comercialização e o uso de espumas, serpentinas e produtos similares acondicionados em spray no município de Campinas.\n\n§ lº A proibição de que trata o caput abrange os produtos com a denominação ""espuma de Carnaval"", ""neve de Carnaval"", ""neve artificial"", ""serpentina"", ""teia"" ou denominação similar acondicionados em sprê1y que possam entrai- em contato direto com a pele, mucosas ou olhos.\n\n§ 2º As espumas E xpansivas de aplicação na indústria, na construção civil e em outras atividades regulamentadas ficam excluídas da proibição de que trata o caput.\n\nArt. 2º O Poder Executivo, por meio de seus órgãos competentes, promoverá ações de fiscalização dos estabelecimentos que comercializarem o:s produtos a que se referem o caput e o § lº do art. 1º desta Lei.\n\nParágrafo unico. A atuação dos agentes de fiscalização poderá ocorrer independentemente de denúncia ou reclamação.\n\nArt. 3º O descumprimento do disposto nesta Lei acarretará ao estabelecimento infrator a aplicação de multa no valor de 500 (quinhentas) Unidades Fiscais de Campinas - UFICs, que será dobrado na primeira reincidência e quadruplicado a partir da segunda reincidência, sem prejuízo das demais penalidades aplicáveis.\n\nParágrafo único. Será considerado reincidência o cometimento por mais de uma vez da mesma infração tipificada nesta Lei no mesmo dia ou em até trinta dias contados da primeira expedição do auto de infração.\n\nArt. 4º\tA receita da aplicação das multas será revertida para o Fundo de Recuperação, Manutenção e Preservação do Meio Ambiente - Proamb.\n\nArt. 5º Na hipótes,e de o infrator ser vendedor ambulante, ocorrerá apenas a apreensão dos produtos a que se referem o caput e o § lº\tcio art. lº desta Lei, sem preJuízo de outras sanções que couberem na forma da lei.\nArt. 6º Quando em posse de usuário, os produtos referidos no caput e no\n§ lº\tdo art. lº\tserão sumariamente apreendidos, não tendo o infrator direito a qualquer indenização nem à restituição dos produtos.\n\nArt. 7º Esta Lei entra em vigor na data de sua publicação.",PROÍBE O COMÉRCIO E O USO DOS PRODUTOS QUE ESPECIFICA ACONDICIONADOS EM SPRAY NO MUNICÍPIO DE CAMPINAS E DÁ OUTRAS PROVIDÊNCIAS.,Luiz Rossini,43500,13,0
2,"Art. 1 0 Poder Executivo municipal deverá disponibilizar, por meio do site oficial da Prefeitura Municipal de Campinas, um espaço em área de fácil acesso denominado Portal de Obras Públicas, obrigatoriamente com as seguintes informações de todas as obras públicas do Município:\nI\t- nome da obra,\nII\t- classificação da obra,\nIII\t- número da licitação correspondente à contratação da empresa responsável pela obra,\nIV\t- número do contrato,\nV\t- empresa responsável por executar a obra,\nVI\t- valor estimado da obra,\nVII\t- valor adicional da obra, se houver termo aditivo,\nVIII\t- situação em que se encontra a obra,\nIX\t- data de início da obra,\nX\t- data de término da obra,\nXI\t- prazo de prorrogação da obra, se for o caso,\nXII\t- especificação e valor da fonte de recursos,\nXIII\t- cronograma das ações que serão realizadas durante a obra,\nXIV\t- anexos referentes à obra,\nXV\t- justificativa de interrupção, paralisação ou cancelamento da obra, se for o caso.\n\nParágrafo único. Nos anexos deverão constar a planilha orçamentária, o contrato com a empresa responsável pela obra e os termos aditivos, caso existam.\n\nArt. 2 As informações de que trata o art. I P deverão ser disponibilizadas sem prejuízo de outras informações que estiverem organizadas no site oficial da Prefeitura Municipal de Campinas.\n\nArt. 3 As despesas decorrentes da execução desta Lei correrão por conta de verbas orçamentárias próprias.\n\nArt. 4 Esta Lei entra em vigor após decorridos cento e oitenta dias de sua publicação oficial.\n \nArt. Ficam revogadas as disposições em contrário.",DISPÕE SOBRE O ACESSO ÀS INFORMAÇÕES A RESPEITO DE OBRAS PÚBLICAS DO MUNICÍPIO DE CAMPINAS POR MEIO DO SITE DA PREFEITURA MUNICIPAL.,Luiz Cirilo,43500,1,1
3,"Art. 1 Fica denominada Praça Iracema Costa a Praça 4 (Quarteirão 7.508, Código Cartográfico 3334.64.54.0001, com área de 2.370,00m 2) do loteamento Jardim Maracanã, situada na Rua Edson Luiz Rigonatto (Rua 13), ao lado da Quadra B, no mesmo loteamento.\n\nArt. 2 Esta Lei entra em vigor na data de sua publicação.",DENOMINA PRAÇA IRACEMA COSTA UMA PRAÇA PÚBLICA DO MUNICÍPIO DE CAMPINAS.,Carlão do PT,43500,9,0
4,"Art. 1 Ficam alterados os SS I P e 3 2 do art. 2 2 da Lei n? 14.789, de 4 de abril de 2014, que passa a vigorar com a seguinte redação:\n""Art. 2 2 \nS 1 2 0 atendimento prioritário de que trata esta Lei será oferecido em quaisquer caixas, guichês ou unidades disponíveis para o atendimento ao público em geral.\n \nS 3 2 Os estabelecimentos que tenham pavimentos superiores com caixas de atendimento deverão manter atendimento prioritário em todos os caixas de cada andar,\n (NR)","ALTERA A REDAÇÃO DOS §§ 1º E 3º DO ART. 2º DA LEI Nº 14.789, DE 4 DE ABRIL DE 2014, QUE DISPÕE SOBRE ATENDIMENTO PRIORITÁRIO NO MUNICÍPIO DE CAMPINAS.",Paulo Galterio,43500,7,0


## Realização da análise exploratória de dados

In [5]:
df.dtypes

Texto       object
Ementa      object
Vereador    object
Data         int64
Nota         int64
isUtil       int64
dtype: object

In [6]:
print('O tamanho do dataset é:', df.shape)

O tamanho do dataset é: (52, 6)


In [7]:
df['isUtil'].value_counts()

0    41
1    11
Name: isUtil, dtype: int64

Nota-se que o resultado é desbalanceado

In [8]:
# Verificando se base de dados tem valores ausentes
df.isna().sum()

Texto       0
Ementa      0
Vereador    0
Data        0
Nota        0
isUtil      0
dtype: int64

## Processamento de texto: remoção de palavras irrelevantes e stemming

Remoção de algumas das palavras irrelevantes, stemming nos dados de texto.<br>
Normalização dos dados para reduzir a quantidade de informações diferentes com as quais é preciso lidar.

Bilioteca utilizada é o [nltk](https://www.nltk.org/)

- **punkt** é um tokenizador de frases.
- **stopwords** apresenta uma lista de palavras irrelevantes que você pode usar.

In [9]:
#!pip install --upgrade nltk

In [10]:
# Install the library and functions
import nltk
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /home/ec2-user/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/ec2-user/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

Na seção a seguir, você criará os processos para remover as palavras irrelevantes e limpar o texto. A biblioteca Natural Language Toolkit (NLTK) oferece uma lista de palavras irrelevantes comuns. Você usará a lista, mas primeiro removerá algumas palavras dela. As palavras irrelevantes mantidas no texto são úteis para identificar o sentimento.

In [11]:
import nltk, re
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from nltk.tokenize import word_tokenize

# Get a list of stopwords from the NLTK library
stop = stopwords.words('portuguese')

# New stopword list
# stopwords = [word for word in stop if word not in excluding]
stopwords = [word for word in stop]
# stopwords = stopwords.append("Art")


In [12]:
stopwords

['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'às',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'é',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'éramos',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'está',
 'estamos',
 'estão',
 'estar',
 'estas',
 'estava',
 'estavam',
 'estávamos',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estivéramos',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéssemos',
 'estou',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'fôramos',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fôssemos',
 'fui',
 'há',
 'haja',
 'hajam',
 'hajamos',
 'hão',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houverá',
 'houveram',
 'houvéramos',
 'houverão',
 'houverei',
 'houverem',
 'hou

O stemizador snowball stemiza as palavras. Por exemplo, o verbo “caminhando” será transformado em “caminh”.

In [13]:
snow = SnowballStemmer('portuguese')

É preciso realizar outras tarefas de normalização nos dados. A seguinte função:

- Substitui todos os valores ausentes por uma string vazia
- Converte o texto em letras minúsculas
- Remove espaços em branco à esquerda ou à direita
- Remove espaços e recuos extras
- Remove marcações HTML

No loop  `for`, todas as palavras que __NOT__ são numéricas, têm mais de dois caracteres e não estão na lista de palavras irrelevantes são mantidas e retornadas.

In [14]:
def process_text(texts):
    final_text_list=[]
    for sent in texts:

        # Check if the sentence is a missing value
        if isinstance(sent, str) == False:
            sent = ''
  
        filtered_sentence=[]
        
        sent = sent.lower() # Lowercase 
        sent = sent.strip() # Remove leading/trailing whitespace
        sent = re.sub('\s+', ' ', sent) # Remove extra space and tabs
        sent = re.compile('<.*?>').sub('', sent) # Remove HTML tags/markups:
        
        for w in word_tokenize(sent):
            # Applying some custom filtering here, feel free to try different things
            # Check if it is not numeric and its length>2 and not in stopwords
            if(not w.isnumeric()) and (len(w)>2) and (w not in stopwords) :  
                # Stem and add to filtered list
                filtered_sentence.append(snow.stem(w))
        final_string = " ".join(filtered_sentence) # Final string of cleaned words
 
        final_text_list.append(final_string)
        
    return final_text_list

In [15]:
# print('Processando a coluna Texto')
# df['Texto'] = process_text(df['Texto'].tolist())
# df['Texto']

In [16]:
# print('Processando a coluna Ementa')
# df['Ementa'] = process_text(df['Ementa'].tolist())
# df['Ementa']

In [17]:
# df.head(5)

## Divisão dos dados para treinamento, validação e teste


Utilizando a função sklearn [__train_test_split()__](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) a fim de dividir o conjunto de dados para treinamento (80%), validação (10%) e teste (10%).


In [18]:
from sklearn.model_selection import train_test_split

X_train, X_val, y_train, y_val = train_test_split(df[['Texto', 'Ementa', 'Data', 'Nota']],
                                                  df['isUtil'],
                                                  test_size=0.20,
                                                  shuffle=True,
                                                  random_state=324
                                                 )

X_val, X_test, y_val, y_test = train_test_split(X_val,
                                                y_val,
                                                test_size=0.5,
                                                shuffle=True,
                                                random_state=324)

Com o conjunto de dados dividido, a função  `process_text` definida acima em cada um dos recursos de texto nos conjuntos de treinamento, teste e validação será executada

In [19]:
print('Processand a coluna Texto')
X_train['Texto'] = process_text(X_train['Texto'].tolist())
X_val['Texto'] = process_text(X_val['Texto'].tolist())
X_test['Texto'] = process_text(X_test['Texto'].tolist())

print('Processando a coluna Ementa')
X_train['Ementa'] = process_text(X_train['Ementa'].tolist())
X_val['Ementa'] = process_text(X_val['Ementa'].tolist())
X_test['Ementa'] = process_text(X_test['Ementa'].tolist())

Processand a coluna Texto
Processando a coluna Ementa


In [20]:
X_train.head(2)

Unnamed: 0,Texto,Ementa,Data,Nota
23,art lei objet implant post colet totens lix toxic supermerc hipermerc campin art denomina-s lix toxic domicili óle orig animal vegetal parágraf unic permit entreg produt garraf pet art remoçã destin material colet fic sob respons prefeitur municipal campin pod autoriz remoçã através ongs cooper empres especializ estatut tal final especif devid cadastr junt secret mei ambient art cumpriment dest lei sujeit infrator seguint penal mult quinhent mil ufic unidad fisc municípi campin mult diár duzent ufic unidad fisc municípi campin adequ lei art pod execut municipal regulament lei praz sessent dias cont part dat public revog disposiçõ contrári,dispõ sobr obrigatoriedad implant post colet óle cozinh supermerc hipermerc municípi campin outr provident,43500,6
10,câm municipal aprov prefeit municipal campin sancion promulg seguint lei art fic estabelec descont cinquent cent valor impost sobr propriedad predial territorial urban ipt imóv edific ating enchent inund alag caus chuv municípi campin art considera-s imóv ating enchent inund elou alag edific sofr dan físic instal elétr hidrául decorrent invasã irresist águ cerc direit vir morador além dan caus móv eletrodomést resident ating art benefíci acord propost val imóv legaliz construíd dentr parâmetr leg respeit norm exig arta descont conced relaçã impost dev ano/exercíci seguint ocorrent prejuíz decorrent enchent inund elou alag descont apen sobr impost sobr acessóri descont ipt acumul dem descont isençõ conced lei 11.111 dezembr 2001. art descont iptu conced mediant requer interess devid instruíd prov confirm dan dirig secret municipal financ efet avali consider prov instruçã ped laud defes civil fot dat comprov ambient boletim ocorrent notíc veicul mei impress eletrôn declar express dan dem document faz necessári requer trat present lei dev respond decisã concess denegatór bas fundament probatóri apresent iii requer individual cad situaçã respeit praz sessent dias protocol após event danos hipótes event danos ocorr vez durant ano descont cumul art despes decorrent execu dest lei corr cont dotaçõ orçamentár própr suplement necessári art lei entra vigor exercíci seguint dat public,dispõ sobr concessã descont valor impost sobr propriedad predial territorial urban -iptu imóv edific ating enchent inund alag caus chuv municípi campin,43500,7


In [21]:
X_val.head(2)

Unnamed: 0,Texto,Ementa,Data,Nota
43,art fic instituíd municípi campin mês fevereir violet dedic realiz campanh erradic analfabet campin art mês fevereir violet realiz busc ativ pesso oportun frequent sal aul temp propíci art lei entra vigor dat public,institu mês fevereir violet dedic realiz campanh erradic analfabet campin,43516,10
36,art fic denomin centr educ infantil pastor billy grah centr educ infantil situ rua juvenal oliveir bairr jardim doming art lei entra vigor dat public,denomin centr educ infantil pastor billy grah centr educ infantil municípi campin,43509,9


In [22]:
X_test.head(2)

Unnamed: 0,Texto,Ementa,Data,Nota
0,"art fic denomin prac sandr hitom takahash sistem recrei quart códig cartográf 3234.6105.0001 áre 168,00m loteament cidad universitár campineir distrit barã gerald situ aven dr. rom tórtim aven loteament art lei entra vigor dat public",denomin prac sandr hitom takahash sistem recrei municípi campin,43500,9
30,art fic assegur crianc adolescent cuj pai mã respons pesso deficient idad igual superior sessent anos prioridad vag unidad red públic municipal ensin próxim resident fim dispost caput dest artig pesso deficient idad igual superior sessent anos dev solicit cadastr diret unidad red públic municipal ensin inter famíl mediant apresent document identific crianc adolescent document pai mã respons atest condiçã pesso deficient idad superior sessent anos iii comprov resident cas respons pais crianc adolescent necessári apresent certidã comprov guard art despes decorrent implant dest lei corr cont dotaçõ orçamentár própr suplement necessári art lei entra vigor dat public,assegur crianc adolescent cuj pai mã respons pesso deficient idad igual superior sessent anos prioridad vag unidad red públic municipal ensin próxim resident,43502,7


## Processamento de dados com pipelines e um ColumnTransformer

Geralmente, você precisa realizar muitas tarefas nos dados antes de usá-los para treinar um modelo. Essas etapas também devem ser feitas em todos os dados usados para inferência após a implementação do modelo. Uma boa forma de organizar as etapas é definir um _pipeline_. Um pipeline é uma coleção de tarefas de processamento que serão realizadas nos dados. É possível criar pipelines diferentes para processar campos diferentes. Como você está trabalhando com dados numéricos e de texto, defina os seguintes pipelines:

   * Para o pipeline de recursos numéricos, o __numerical_processor__ usa um MinMaxScaler. (Não é necessário dimensionar os recursos ao usar árvores de decisão, mas é importante fazer isso para saber como usar mais transformações de dados.) Caso você queira realizar diferentes tipos de processamento em diferentes recursos numéricos, crie pipelines diferentes, como os que são mostrados para os dois recursos de texto.
   * Para o pipeline de recursos de texto, o __text_processor__ usa  `CountVectorizer()` nos campos de texto.
   
As preparações seletivas dos recursos do conjunto de dados são reunidas em um ColumnTransformer coletivo, que será usado em um pipeline com um estimador. Esse processo garante que as transformações sejam realizadas automaticamente nos dados brutos quando você ajusta o modelo ou faz previsões. (Por exemplo, ao avaliar o modelo em um conjunto de dados de validação por meio da validação cruzada ou ao fazer previsões em um conjunto de dados de teste no futuro.)

In [23]:
# Grab model features/inputs and target/output
numerical_features = ['Data',
                      'Nota']

text_features = ['Ementa',
                 'Texto']

model_features = numerical_features + text_features
model_target = 'isUtil'

In [24]:
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

### COLUMN_TRANSFORMER ###
##########################

# Preprocess the numerical features
numerical_processor = Pipeline([
    ('num_imputer', SimpleImputer(strategy='mean')),
    ('num_scaler', MinMaxScaler()) 
                                ])
# Preprocess 1st text feature (larger vocabulary)
text_processor_0 = Pipeline([
    ('text_vect_0', CountVectorizer(binary=True, max_features=250))
                                ])

# Preprocess 2nd text feature 
text_precessor_1 = Pipeline([
    ('text_vect_1', CountVectorizer(binary=True, max_features=50))
                                ])

# Combine all data preprocessors from above (add more, if you choose to define more!)
# For each processor/step specify: a name, the actual process, and finally the features to be processed
data_preprocessor = ColumnTransformer([
    ('numerical_pre', numerical_processor, numerical_features),
    ('text_pre_0', text_processor_0, text_features[0]),
    ('text_pre_1', text_precessor_1, text_features[1])
                                    ]) 

### DATA PREPROCESSING ###
##########################

print('Datasets shapes before processing: ', X_train.shape, X_val.shape, X_test.shape)

X_train = data_preprocessor.fit_transform(X_train).toarray()
X_val = data_preprocessor.transform(X_val).toarray()
X_test = data_preprocessor.transform(X_test).toarray()

print('Datasets shapes after processing: ', X_train.shape, X_val.shape, X_test.shape)

Datasets shapes before processing:  (41, 4) (5, 4) (6, 4)
Datasets shapes after processing:  (41, 302) (5, 302) (6, 302)


Observe que o número de recursos nos conjuntos de dados passou de 4 para 302.

In [25]:
print(X_train[1])

[0.         0.46153846 0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         1.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         1.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 1.         0.         0.         0.         0.         0.
 0.         0.         1.         0.         0.         1.
 0.         0.         0.         0.         0.         0.
 0.         0.         1.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 1.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         1.         

In [26]:
print(X_val[1])

[0.3        0.61538462 0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 1.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         1.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         1.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         

In [27]:
print(X_test[1])

[0.06666667 0.46153846 0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         1.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         

## Treinamento de um classificador com um algoritmo integrado ao SageMaker

Nesta etapa, você chamará o algoritmo  `LinearLearner()` do SageMaker com as seguintes opções:
* __Permissions -__  `role` está configurado como a role do AWS Identity and Access Management (IAM) do ambiente atual.
* __Compute power -__ Você usará os parâmetros  `train_instance_count` e  `train_instance_type`. Este exemplo usa um recurso  `ml.m4.xlarge` para o treinamento. É possível alterar o tipo de instância dependendo de suas necessidades. (Por exemplo, você pode usar GPUs para redes neurais.) 
* __Model type -__  `predictor_type` está configurado como __`binary_classifier`__, porque você está lidando com um problema de classificação binária. É possível usar __`multiclass_classifier`__ se há três ou mais classes envolvidas ou usar __`regressor`__ para um problema de regressão.


In [28]:
import sagemaker

# Call the LinearLearner estimator object
linear_classifier = sagemaker.LinearLearner(role=sagemaker.get_execution_role(),
                                           instance_count=1,
                                           instance_type='ml.m4.xlarge',
                                           predictor_type='binary_classifier')

Para definir as partes de treinamento, validação e teste do estimador, use a função  `record_set()` do  `binary_estimator`. 

In [29]:
train_records = linear_classifier.record_set(X_train.astype('float32'),
                                            y_train.values.astype('float32'),
                                            channel='train')
val_records = linear_classifier.record_set(X_val.astype('float32'),
                                          y_val.values.astype('float32'),
                                          channel='validation')
test_records = linear_classifier.record_set(X_test.astype('float32'),
                                           y_test.values.astype('float32'),
                                           channel='test')

A função  `fit()` aplica uma versão distribuída do algoritmo Stochastic Gradient Descent (SGD), e você envia os dados para ele. Os registros foram desabilitados com  `logs=False`. É possível remover esse parâmetro para ver mais detalhes sobre o processo. __Esse processo leva cerca de 3 a 4 minutos em uma instância ml.m4.xlarge.__

In [30]:
linear_classifier.fit([train_records,
                       val_records,
                       test_records],
                       logs=False)

INFO:sagemaker.image_uris:Same images used for training and inference. Defaulting to image scope: inference.
INFO:sagemaker.image_uris:Ignoring unnecessary instance type: None.
INFO:sagemaker:Creating training-job with name: linear-learner-2023-04-30-16-55-06-020



2023-04-30 16:55:06 Starting - Starting the training job....
2023-04-30 16:55:31 Starting - Preparing the instances for training.............
2023-04-30 16:56:44 Downloading - Downloading input data....
2023-04-30 16:57:09 Training - Downloading the training image.............
2023-04-30 16:58:20 Training - Training image download completed. Training in progress......
2023-04-30 16:58:50 Uploading - Uploading generated training model.
2023-04-30 16:59:02 Completed - Training job completed


## Avaliação do modelo

Use a análise do SageMaker para ver métricas de performance (de sua escolha) do conjunto de testes. Esse processo não exige a implementação do modelo. 

O linear learner apresenta métricas que são calculadas durante o treinamento. É possível usar essas métricas ao ajustar o modelo. As métricas disponíveis para o conjunto de validação são:

- objective_loss - No caso de um problema de classificação binária, será o valor médio da perda logística para cada época
- binary_classification_accuracy - A precisão do modelo final no conjunto de dados, ou seja, quantas previsões o modelo acertou
- precision - Quantifica o número de previsões de classes positivas que são de fato positivas
- recall - Quantifica o número de previsões de classes positivas
- binary_f_beta - A média harmônica das métricas de precisão e recall

Neste exemplo, é importante observar quantas previsões estavam corretas. O uso da métrica **binary_classification_accuracy** é apropriado.

In [31]:
sagemaker.analytics.TrainingJobAnalytics(linear_classifier._current_job_name, 
                                         metric_names = ['test:binary_classification_accuracy']
                                        ).dataframe()

INFO:botocore.credentials:Found credentials from IAM Role: BaseNotebookInstanceEc2InstanceRole


Unnamed: 0,timestamp,metric_name,value
0,0.0,test:binary_classification_accuracy,0.833333


In [32]:
sagemaker.analytics.TrainingJobAnalytics(linear_classifier._current_job_name).dataframe()

INFO:botocore.credentials:Found credentials from IAM Role: BaseNotebookInstanceEc2InstanceRole


Unnamed: 0,timestamp,metric_name,value
0,0.0,train:progress,66.666667
1,0.0,test:binary_f_beta,0.666667
2,0.0,test:recall,1.0
3,0.0,train:objective_loss,0.249677
4,0.0,test:objective_loss,0.470651
5,0.0,validation:binary_f_beta,0.666667
6,0.0,validation:objective_loss,0.64849
7,0.0,validation:objective_loss:final,0.499667
8,0.0,test:precision,0.5
9,0.0,validation:binary_classification_accuracy,0.8


O valor aproximado de 0,85 deve aparecer. O número pode ser diferente, mas deve estar em torno desse valor. Isso quer dizer que o modelo prevê, com precisão, a resposta correta em 85% do tempo. Dependendo do caso de negócios, talvez seja necessário ajustar os hiperparâmetros para melhorar o modelo ainda mais ou fazer engenharia de recursos.

## Implementação do modelo em um endpoint

Nesta última parte do exercício, você implementará o modelo em outra instância de sua escolha. É possível usar esse modelo em um ambiente de produção. Os endpoints implementados podem ser usados com outros serviços da AWS, como o AWS Lambda e o Amazon API Gateway. Para saber mais, veja a seguinte demonstração: [Chamar um endpoint de modelo do Amazon SageMaker usando o Amazon API Gateway e o AWS Lambda] (https://aws.amazon.com/blogs/machine-learning/call-an-amazon-sagemaker-model-endpoint-using-amazon-api-gateway-and-aws-lambda/).

Para implementar o modelo, execute a seguinte célula: É possível usar diferentes tipos de instância, como: _ml.t2.medium_, _ml.c4.xlarge_), entre outras. __Esse processo levará de 7 a 8 minutos.__

In [33]:

linear_classifier_predictor = linear_classifier.deploy(initial_instance_count = 1,
                                                       instance_type = 'ml.c5.large'
                                                      )

INFO:sagemaker.image_uris:Same images used for training and inference. Defaulting to image scope: inference.
INFO:sagemaker.image_uris:Ignoring unnecessary instance type: None.
INFO:sagemaker:Creating model with name: linear-learner-2023-04-30-16-59-05-654
INFO:sagemaker:Creating endpoint-config with name linear-learner-2023-04-30-16-59-05-654
INFO:sagemaker:Creating endpoint with name linear-learner-2023-04-30-16-59-05-654


----------!

## Teste do endpoint

Agora que o endpoint está implementado, você enviará os dados de teste para ele e verá previsões dos dados.

In [34]:
import numpy as np

# Get test data in batch size of 1 and make predictions.
prediction_batches = [linear_classifier_predictor.predict(batch)
                      for batch in np.array_split(X_test.astype('float32'), 1)
                     ]

# Get a list of predictions
print([pred.label['score'].float32_tensor.values[0] for pred in prediction_batches[0]])
print([pred.label['predicted_label'].float32_tensor.values[0] for pred in prediction_batches[0]])

[0.20470072329044342, 0.7531663179397583, 0.6881096959114075, 0.2775072455406189, 0.2640203535556793, 0.17339107394218445]
[0.0, 1.0, 1.0, 0.0, 0.0, 0.0]


In [35]:
prediction = [linear_classifier_predictor.predict(X_test.astype('float32')[1])]

# Get a list of predictions
print([pred.label['score'].float32_tensor.values[0] for pred in prediction[0]])
print([pred.label['predicted_label'].float32_tensor.values[0] for pred in prediction[0]])

[0.7531663179397583]
[1.0]


In [36]:
X_test.astype('float32')[1]

array([0.06666667, 0.46153846, 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.     

In [37]:
prediction = [linear_classifier_predictor.predict(X_test.astype('float32')[1])]
print([pred.label['score'] for pred in prediction[0]])
print([pred.label['predicted_label'] for pred in prediction[0]])

[float32_tensor {
  values: 0.7531663179397583
}
]
[float32_tensor {
  values: 1.0
}
]


In [38]:
prediction

[[label {
    key: "predicted_label"
    value {
      float32_tensor {
        values: 1.0
      }
    }
  }
  label {
    key: "score"
    value {
      float32_tensor {
        values: 0.7531663179397583
      }
    }
  }]]

In [39]:
test_data = X_test.astype('float32')[1]

In [47]:
test_data

array([0.06666667, 0.46153846, 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.     

In [41]:
prediction = [linear_classifier_predictor.predict(test_data)]

# Get a list of predictions
print([pred.label['score'].float32_tensor.values[0] for pred in prediction[0]])
print([pred.label['predicted_label'].float32_tensor.values[0] for pred in prediction[0]])

[0.7531663179397583]
[1.0]


In [42]:
prediction

[[label {
    key: "predicted_label"
    value {
      float32_tensor {
        values: 1.0
      }
    }
  }
  label {
    key: "score"
    value {
      float32_tensor {
        values: 0.7531663179397583
      }
    }
  }]]

## Remoção de artefatos do modelo

Siga as etapas abaixo para excluir o endpoint depois que terminar de usá-lo. 

**Dica:** lembre-se de que, se você usar sua própria conta, serão registradas cobranças caso você não exclua o endpoint e outros recursos.

In [48]:
linear_classifier_predictor.delete_endpoint()

INFO:sagemaker:Deleting endpoint configuration with name: linear-learner-2023-04-30-16-59-05-654
INFO:sagemaker:Deleting endpoint with name: linear-learner-2023-04-30-16-59-05-654


# Final

Neste laboratório, você acompanhou um problema de PLN muito simples. Com um conjunto de dados classificado, você usou um tokenizador e um codificador simples para gerar os dados necessários para treinar um modelo de linear learner. Depois, você implementou o modelo e fez algumas previsões. Se você estivesse realizando esse processo de verdade, provavelmente precisaria obter os dados e identificá-los para o treinamento. Uma opção é usar um algoritmo pré-treinado ou um serviço gerenciado. Também provavelmente seria necessário ajustar os hiperparâmetros para melhorar o modelo ainda mais.

