In [None]:
!pip install spacy==3.3.0

# Processamento de Linguagem Natural aplicada à Gestão Pública

Aula 2 (01/06): Ferramentas de processamento de texto 

# Configuração do Colab

Importar pacotes, carregar dados, aplicar definições.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import spacy
#import spacy.cli

#spacy.cli.download("pt_core_news_md")
#nlp = spacy.load("pt_core_news_md")
#nlp.to_disk("/content/drive/MyDrive/oficina_nlp/models")
nlp = spacy.load("/content/drive/MyDrive/oficina_nlp/models")

## Operações básicas

In [None]:
texto

'Uma das obras de arte mais famosas do mundo, La Gioconda (Monalisa) sofreu um ataque de vandalismo neste domingo no Museu do Louvre, em Paris (França).'

In [None]:
type(texto)

str

In [None]:
texto.

In [None]:
texto.capitalize()

'Uma das obras de arte mais famosas do mundo, la gioconda (monalisa) sofreu um ataque de vandalismo neste domingo no museu do louvre, em paris (frança).'

In [None]:
texto.count("de")

2

In [None]:
texto.find("mundo")

38

In [None]:
texto[38:43]

'mundo'

In [None]:
texto.replace("famosas", "conhecidas")

'Uma das obras de arte mais conhecidas do mundo, La Gioconda (Monalisa) sofreu um ataque de vandalismo neste domingo no Museu do Louvre, em Paris (França).'

In [None]:
texto.upper()

'UMA DAS OBRAS DE ARTE MAIS FAMOSAS DO MUNDO, LA GIOCONDA (MONALISA) SOFREU UM ATAQUE DE VANDALISMO NESTE DOMINGO NO MUSEU DO LOUVRE, EM PARIS (FRANÇA).'

In [None]:
texto.split(" ")

['Uma',
 'das',
 'obras',
 'de',
 'arte',
 'mais',
 'famosas',
 'do',
 'mundo,',
 'La',
 'Gioconda',
 '(Monalisa)',
 'sofreu',
 'um',
 'ataque',
 'de',
 'vandalismo',
 'neste',
 'domingo',
 'no',
 'Museu',
 'do',
 'Louvre,',
 'em',
 'Paris',
 '(França).']

In [None]:
x = texto.split(" ")
y = " ".join(x)
y

'Uma das obras de arte mais famosas do mundo, La Gioconda (Monalisa) sofreu um ataque de vandalismo neste domingo no Museu do Louvre, em Paris (França).'

## Codificação de caracteres

[Wikipedia](https://pt.wikipedia.org/wiki/Codifica%C3%A7%C3%A3o_de_caracteres)

In [None]:
!pip install unidecode

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting unidecode
  Downloading Unidecode-1.3.4-py3-none-any.whl (235 kB)
[K     |████████████████████████████████| 235 kB 5.2 MB/s 
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.3.4


In [None]:
from unidecode import unidecode

In [None]:
unidecode(texto)

'Uma das obras de arte mais famosas do mundo, La Gioconda (Monalisa) sofreu um ataque de vandalismo neste domingo no Museu do Louvre, em Paris (Franca).'

# Conceitos básicos

## Token/Tokenização

"Tokenização" é uma forma de separar um texto em unidades menores chamadas *tokens*.

In [None]:
texto = "Uma das obras de arte mais famosas do mundo, La Gioconda (Monalisa) sofreu um ataque de vandalismo neste domingo no Museu do Louvre, em Paris (França)."
doc = nlp(texto)

In [None]:
doc[0]

Uma

In [None]:
doc[1]

das

In [None]:
type(doc[1])

spacy.tokens.token.Token

In [None]:
doc[6].

In [None]:
doc[6].text

'famosas'

In [None]:
doc[6].lemma_

'famoso'

In [None]:
tokens = [token.text for token in doc]
tokens

['Uma',
 'das',
 'obras',
 'de',
 'arte',
 'mais',
 'famosas',
 'do',
 'mundo',
 ',',
 'La',
 'Gioconda',
 '(',
 'Monalisa',
 ')',
 'sofreu',
 'um',
 'ataque',
 'de',
 'vandalismo',
 'neste',
 'domingo',
 'no',
 'Museu',
 'do',
 'Louvre',
 ',',
 'em',
 'Paris',
 '(',
 'França',
 ')',
 '.']

In [None]:
print(tokens)

['Uma', 'das', 'obras', 'de', 'arte', 'mais', 'famosas', 'do', 'mundo', ',', 'La', 'Gioconda', '(', 'Monalisa', ')', 'sofreu', 'um', 'ataque', 'de', 'vandalismo', 'neste', 'domingo', 'no', 'Museu', 'do', 'Louvre', ',', 'em', 'Paris', '(', 'França', ')', '.']


In [None]:
type(tokens)

list

In [None]:
tokens.

In [None]:
tokens.count("de")

2

In [None]:
tokens.index("famosas")

6

In [None]:
tokens[6]

'famosas'

In [None]:
tokens.insert(9, "inteiro")

In [None]:
print(tokens)

['Uma', 'das', 'obras', 'de', 'arte', 'mais', 'famosas', 'do', 'mundo', 'inteiro', ',', 'La', 'Gioconda', '(', 'Monalisa', ')', 'sofreu', 'um', 'ataque', 'de', 'vandalismo', 'neste', 'domingo', 'no', 'Museu', 'do', 'Louvre', ',', 'em', 'Paris', '(', 'França', ')', '.']


In [None]:
len(tokens)

34

In [None]:
tokens[12]

'Gioconda'

In [None]:
type(tokens[12])

str

In [None]:
type("Frase também é string?") is str

True

A tokenização é necessária pois **a maioria dos métodos de NLP se aplicam sobre tokens**. Geralmente os tokens correspondem a palavras, pontuação, símbolos e números ou sequências de números. Algumas aplicações, porém, utilizam letras, expressões (duas palavras, três palavras) ou frases como tokens.

## Lemma/Lematização

Lemmatização se refere ao processamento destinado a remover inflexões e variações das palavras, retornando somente a raiz ou forma de dicionário de uma palavra, conhecida como *lemma*.

In [None]:
lemmas = []

# for loop: iterar nos objetos de uma lista (ou iterador)
for token in doc:
  lemmas.append(token.lemma_)

print(lemmas)

['um', 'de o', 'obra', 'de', 'arte', 'mais', 'famoso', 'de o', 'mundo', ',', 'La', 'Gioconda', '(', 'Monalisa', ')', 'sofrer', 'um', 'ataque', 'de', 'vandalismo', 'em este', 'domingo', 'em o', 'Museu', 'de o', 'Louvre', ',', 'em', 'Paris', '(', 'França', ')', '.']


In [None]:
[token.lemma_ for token in doc] # List comprehension

['um',
 'de o',
 'obra',
 'de',
 'arte',
 'mais',
 'famoso',
 'de o',
 'mundo',
 ',',
 'La',
 'Gioconda',
 '(',
 'Monalisa',
 ')',
 'sofrer',
 'um',
 'ataque',
 'de',
 'vandalismo',
 'em este',
 'domingo',
 'em o',
 'Museu',
 'de o',
 'Louvre',
 ',',
 'em',
 'Paris',
 '(',
 'França',
 ')',
 '.']

In [None]:
[(token.text, token.lemma_) for token in doc]     # Melhor exibição

[('Uma', 'um'),
 ('das', 'de o'),
 ('obras', 'obra'),
 ('de', 'de'),
 ('arte', 'arte'),
 ('mais', 'mais'),
 ('famosas', 'famoso'),
 ('do', 'de o'),
 ('mundo', 'mundo'),
 (',', ','),
 ('La', 'La'),
 ('Gioconda', 'Gioconda'),
 ('(', '('),
 ('Monalisa', 'Monalisa'),
 (')', ')'),
 ('sofreu', 'sofrer'),
 ('um', 'um'),
 ('ataque', 'ataque'),
 ('de', 'de'),
 ('vandalismo', 'vandalismo'),
 ('neste', 'em este'),
 ('domingo', 'domingo'),
 ('no', 'em o'),
 ('Museu', 'Museu'),
 ('do', 'de o'),
 ('Louvre', 'Louvre'),
 (',', ','),
 ('em', 'em'),
 ('Paris', 'Paris'),
 ('(', '('),
 ('França', 'França'),
 (')', ')'),
 ('.', '.')]

### Lemmatização spaCy e stanza

In [None]:
txt = "10 histórias assustadoras sobre Johnny Depp e Amber Heard reveladas em disputa na Justiça."
print([x.lemma_ for x in nlp(txt)])

['10', 'história', 'assustadoro', 'sobre', 'Johnny', 'Depp', 'e', 'Amber', 'Heard', 'revelar', 'em', 'disputa', 'em o', 'justiça', '.']


In [None]:
!pip install stanza
import stanza

In [None]:
nlp_stz = stanza.Pipeline(lang='pt', processors='tokenize,mwt,pos,lemma')
doc_stz = nlp_stz(txt)

In [None]:
print([word.lemma for sent in doc_stz.sentences for word in sent.words])

['10', 'história', 'assustador', 'sobre', 'Johnny', 'Depp', 'e', 'Amber', 'Heard', 'revelar', 'em', 'disputa', 'em', 'o', 'justiça', '.']


## Stop words

Preposições, pronomes e palavras com pouco conteúdo semântico (pouco significado) geralmente podem ser descartadas. O pacote spaCy disponibiliza uma lista de palavras desse formato. Outro pacote com *stop words* é o nlkt.

In [None]:
from spacy.lang.pt import STOP_WORDS as spacy_stopwords

In [None]:
print(sorted(spacy_stopwords))

['a', 'acerca', 'ademais', 'adeus', 'agora', 'ainda', 'algo', 'algumas', 'alguns', 'ali', 'além', 'ambas', 'ambos', 'antes', 'ao', 'aos', 'apenas', 'apoia', 'apoio', 'apontar', 'após', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aqui', 'aquilo', 'as', 'assim', 'através', 'atrás', 'até', 'aí', 'baixo', 'bastante', 'bem', 'boa', 'bom', 'breve', 'cada', 'caminho', 'catorze', 'cedo', 'cento', 'certamente', 'certeza', 'cima', 'cinco', 'coisa', 'com', 'como', 'comprida', 'comprido', 'conhecida', 'conhecido', 'conselho', 'contra', 'contudo', 'corrente', 'cuja', 'cujo', 'custa', 'cá', 'da', 'daquela', 'daquele', 'dar', 'das', 'de', 'debaixo', 'demais', 'dentro', 'depois', 'des', 'desde', 'dessa', 'desse', 'desta', 'deste', 'deve', 'devem', 'deverá', 'dez', 'dezanove', 'dezasseis', 'dezassete', 'dezoito', 'diante', 'direita', 'disso', 'diz', 'dizem', 'dizer', 'do', 'dois', 'dos', 'doze', 'duas', 'dá', 'dão', 'e', 'ela', 'elas', 'ele', 'eles', 'em', 'embora', 'enquanto', 'entre', 'então', 'era', 

In [None]:
len(spacy_stopwords)

416

In [None]:
import nltk

nltk.download('stopwords')
nltk_stopwords = nltk.corpus.stopwords.words("portuguese")
print(sorted(nltk_stopwords))

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
['a', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'essa', 'essas', 'esse', 'esses', 'esta', 'estamos', 'estas', 'estava', 'estavam', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéramos', 'estivéssemos', 'estou', 'está', 'estávamos', 'estão', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'forem', 'formos', 'fosse', 'fossem', 'fui', 'fôramos', 'fôssemos', 'haja', 'hajam', 'hajamos', 'havemos', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houveram', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houvermos', 'houverá', 'houverão', '

In [None]:
len(nltk_stopwords)

204

In [None]:
len(set(nltk_stopwords).intersection(spacy_stopwords))

121

In [None]:
"sobre" in spacy_stopwords

True

In [None]:
"sobre" in nltk_stopwords

True

In [None]:
nltk_stopwords.append("sobre")

## Funções

Uma função é uma regra que associa um cojunto de entrada (*inputs*) a um conjunto de saída (*outputs*). Exemplo:

In [None]:
def soma(x, y):
  return x + y

In [None]:
soma(1, 3)

4

In [None]:
def palavras_maiusculo(texto):
  texto_maiusculo = texto.upper()
  lista_palavras = texto_maiusculo.split(" ")
  return lista_palavras

In [None]:
txt

'10 histórias assustadoras sobre Johnny Depp e Amber Heard reveladas em disputa na Justiça.'

In [None]:
print(palavras_maiusculo(txt))

['10', 'HISTÓRIAS', 'ASSUSTADORAS', 'SOBRE', 'JOHNNY', 'DEPP', 'E', 'AMBER', 'HEARD', 'REVELADAS', 'EM', 'DISPUTA', 'NA', 'JUSTIÇA.']


In [None]:
print(palavras_maiusculo(texto))

['UMA', 'DAS', 'OBRAS', 'DE', 'ARTE', 'MAIS', 'FAMOSAS', 'DO', 'MUNDO,', 'LA', 'GIOCONDA', '(MONALISA)', 'SOFREU', 'UM', 'ATAQUE', 'DE', 'VANDALISMO', 'NESTE', 'DOMINGO', 'NO', 'MUSEU', 'DO', 'LOUVRE,', 'EM', 'PARIS', '(FRANÇA).']


## Classes, objetos e métodos

In [10]:
class Carro:
  def __init__(self, nome, cor, potencia):
    self.nome = nome
    self.cor = cor
    self.potencia = potencia

In [11]:
ka = Carro(nome="Ford Ka", cor="Marrom", potencia=70)
ka

<__main__.Carro at 0x7f44604c36d0>

Atributos:

In [12]:
ka.nome

'Ford Ka'

In [13]:
ka.cor

'Marrom'

In [14]:
ka.potencia

70

Métodos:

In [16]:
class Carro:
  def __init__(self, nome, cor, potencia):
    self.nome = nome
    self.cor = cor
    self.potencia = potencia

  def aumentar_potencia(self, valor):
    self.potencia += valor

In [17]:
ka = Carro(nome="Ford Ka", cor="Marrom", potencia=70)
ka.aumentar_potencia(10)
ka.potencia

80

# Exercício 01 - Municípios mineiros

[02-Exercicio-01.ipynb]()

.

.

.

.

.

.

.

.

.

.

# Distância entre palavras/expressões

Como podemos definir a distância entre palavras?

Qual seria a distância entre as palavras a seguir, nesta definição?

*   BRASOPOLIS
*   BRAZOPOLIS

E entre estas?

*   OLHOS D' AGUA
*   OLHOS-D'AGUA





## Distância de Levenshtein

In [None]:
!pip install python-Levenshtein

Collecting python-Levenshtein
  Downloading python-Levenshtein-0.12.2.tar.gz (50 kB)
[?25l[K     |██████▌                         | 10 kB 21.4 MB/s eta 0:00:01[K     |█████████████                   | 20 kB 25.3 MB/s eta 0:00:01[K     |███████████████████▌            | 30 kB 30.3 MB/s eta 0:00:01[K     |██████████████████████████      | 40 kB 16.3 MB/s eta 0:00:01[K     |████████████████████████████████| 50 kB 4.6 MB/s 
Building wheels for collected packages: python-Levenshtein
  Building wheel for python-Levenshtein (setup.py) ... [?25l[?25hdone
  Created wheel for python-Levenshtein: filename=python_Levenshtein-0.12.2-cp37-cp37m-linux_x86_64.whl size=149858 sha256=20272a4061a14ab6220a3bcbf783c3e19bc820b46430a56e0befc4021f3f219f
  Stored in directory: /root/.cache/pip/wheels/05/5f/ca/7c4367734892581bb5ff896f15027a932c551080b2abd3e00d
Successfully built python-Levenshtein
Installing collected packages: python-Levenshtein
Successfully installed python-Levenshtein-0.12.2


In [None]:
import Levenshtein as Lev

In [None]:
a = "BRASOPOLIS"
b = "BRAZOPOLIS"
Lev.distance(a, b)

1

In [None]:
a = "OLHOS D' AGUA"
b = "OLHOS-D'AGUA"
Lev.distance(a, b)

2

Qual a distância entre as palavras INTENÇÃO e EXCEÇÃO?

<img src="https://drive.google.com/uc?export=view&id=1Js0Jd_1ZW7ed6NEQNS9HVVWh7tjhp8bc" width=300 heigh=300/>




In [None]:
a = "INTENÇÃO"
b = "EXCEÇÃO"
Lev.distance(a, b)

4

<img src="https://drive.google.com/uc?export=view&id=1KjS7XHgmMffgtD8tAfitRoTylBI3VXhz" width=300 heigh=300/>

A **distância de Levenshtein** é o número *mínimo* de edições em caracteres (inserções, remoções ou substituições) necessárias para converter uma palavra em outra.

## Distância semântica

[contexto.me](https://contexto.me/)

Qual a distância entre os seguintes pares de palavras?


---

*   BELO
*   SELO

---

*   BELO
*   BONITO




In [None]:
belo = nlp("belo")
selo = nlp("selo")
bonito = nlp("bonito")

print(f"Similaridade semântica entre 'belo' e 'selo': {belo.similarity(selo)*100:.2f}")
print(f"Similaridade semântica entre 'belo' e 'bonito': {belo.similarity(bonito)*100:.2f}")

Similaridade semântica entre 'belo' e 'selo': 7.46
Similaridade semântica entre 'belo' e 'bonito': 73.45


Uma das aplicações mais interessantes do NLP é o uso de modelos estatísticos para se calcular a similaridade **semântica** entre palavras. Abordaremos essa aplicação na Aula 04. Esses modelos também permitem comparar expressões, frases e textos. 

# Expressões regulares

Uma das tarefas recorrentes no tratamento de *strings* é a identificação de padrões.

Uma expressão regular é um texto especial descrevendo um padrão de busca.

https://regex101.com/

As expressões regulares são usualmente aplicadas nas tarefas de busca e extração de informações padronizadas em textos (emails, números de telefone, endereços). Um exemplo interessante é a aplicação na extração de informações em páginas da web (*web scraping*).


## Exemplo

https://www.almg.gov.br/atividade_parlamentar/tramitacao_projetos/interna.html?a=2019&n=863&t=PL&aba=js_tabTramitacao

In [None]:
import re
import textwrap as tr

In [None]:
sim = 'Antonio Carlos Arantes (PSDB) Bartô (SEM PARTIDO) Bernardo Mucida (PSB) Betinho Pinto Coelho (SOLIDARIEDADE) Bosco (AVANTE) Braulio Braz (PTB) Bruno Engler (PRTB) Celise Laviola (MDB) Cleitinho Azevedo (CIDADANIA) Coronel Henrique (PSL) Coronel Sandro (PSL) Cássio Soares (PSD) Dalmo Ribeiro Silva (PSDB) Doutor Paulo (PATRI) Doutor Wilson Batista (PSD) Duarte Bechir (PSD) Fernando Pacheco (PV) Fábio Avelar de Oliveira (AVANTE) Gil Pereira (PSD) Glaycon Franco (PV) Guilherme da Cunha (NOVO) Gustavo Santana (PL) Inácio Franco (PV) Ione Pinheiro (DEM) João Leite (PSDB) João Magalhães (MDB) João Vítor Xavier (CIDADANIA) Laura Serrano (NOVO) Leninha (PT) Leonídio Bouças (MDB) Marquinho Lemos (PT) Mauro Tramonte (REPUBLICANOS) Mário Henrique Caixa (PV) Osvaldo Lopes (PSD) Professor Irineu (PSL) Raul Belém (PSC) Roberto Andrade (AVANTE) Rosângela Reis (PODE) Sargento Rodrigues (PTB) Sávio Souza Cruz (MDB) Thiago Cota (MDB) Tito Torres (PSDB) Virgílio Guimarães (PT) Zé Guilherme (PP)'
print(tr.fill(sim, width=120))

Antonio Carlos Arantes (PSDB) Bartô (SEM PARTIDO) Bernardo Mucida (PSB) Betinho Pinto Coelho (SOLIDARIEDADE) Bosco
(AVANTE) Braulio Braz (PTB) Bruno Engler (PRTB) Celise Laviola (MDB) Cleitinho Azevedo (CIDADANIA) Coronel Henrique
(PSL) Coronel Sandro (PSL) Cássio Soares (PSD) Dalmo Ribeiro Silva (PSDB) Doutor Paulo (PATRI) Doutor Wilson Batista
(PSD) Duarte Bechir (PSD) Fernando Pacheco (PV) Fábio Avelar de Oliveira (AVANTE) Gil Pereira (PSD) Glaycon Franco (PV)
Guilherme da Cunha (NOVO) Gustavo Santana (PL) Inácio Franco (PV) Ione Pinheiro (DEM) João Leite (PSDB) João Magalhães
(MDB) João Vítor Xavier (CIDADANIA) Laura Serrano (NOVO) Leninha (PT) Leonídio Bouças (MDB) Marquinho Lemos (PT) Mauro
Tramonte (REPUBLICANOS) Mário Henrique Caixa (PV) Osvaldo Lopes (PSD) Professor Irineu (PSL) Raul Belém (PSC) Roberto
Andrade (AVANTE) Rosângela Reis (PODE) Sargento Rodrigues (PTB) Sávio Souza Cruz (MDB) Thiago Cota (MDB) Tito Torres
(PSDB) Virgílio Guimarães (PT) Zé Guilherme (PP)


Objetivo: criar uma tabela com nome e partido dos deputados que votaram sim.

Quais os padrões visíveis no texto? Vamos tentar detectá-los com as ferramentas de expressões regulares no https://regex101.com/.


.

.

.

.

.

.

.

.

.

.

.

In [None]:
partidos = re.findall("\([\w\s]+\)", sim)
partidos[slice(0, 5)]

['(PSDB)', '(SEM PARTIDO)', '(PSB)', '(SOLIDARIEDADE)', '(AVANTE)']

In [None]:
partidos = re.findall("\(([\w\s]+)\)", sim)
partidos[slice(0, 5)]

['PSDB', 'SEM PARTIDO', 'PSB', 'SOLIDARIEDADE', 'AVANTE']

In [None]:
# Método "elementar"
parlamentares = re.findall(r"(\b[A-Za-zôãíéçâá\s]+?)(?= \()", sim)
parlamentares[slice(0, 5)]

['Antonio Carlos Arantes',
 'Bartô',
 'Bernardo Mucida',
 'Betinho Pinto Coelho',
 'Bosco']

In [None]:
# Truque
parlamentares = re.sub(" \(([\w\s]+)\) ?", "|", sim)
parlamentares

'Antonio Carlos Arantes|Bartô|Bernardo Mucida|Betinho Pinto Coelho|Bosco|Braulio Braz|Bruno Engler|Celise Laviola|Cleitinho Azevedo|Coronel Henrique|Coronel Sandro|Cássio Soares|Dalmo Ribeiro Silva|Doutor Paulo|Doutor Wilson Batista|Duarte Bechir|Fernando Pacheco|Fábio Avelar de Oliveira|Gil Pereira|Glaycon Franco|Guilherme da Cunha|Gustavo Santana|Inácio Franco|Ione Pinheiro|João Leite|João Magalhães|João Vítor Xavier|Laura Serrano|Leninha|Leonídio Bouças|Marquinho Lemos|Mauro Tramonte|Mário Henrique Caixa|Osvaldo Lopes|Professor Irineu|Raul Belém|Roberto Andrade|Rosângela Reis|Sargento Rodrigues|Sávio Souza Cruz|Thiago Cota|Tito Torres|Virgílio Guimarães|Zé Guilherme|'

In [None]:
# Truque
parlamentares = parlamentares.split("|")
parlamentares[slice(0, 5)]

['Antonio Carlos Arantes',
 'Bartô',
 'Bernardo Mucida',
 'Betinho Pinto Coelho',
 'Bosco']

In [None]:
parlamentares[-1]

''

In [None]:
len(parlamentares)

45

In [None]:
parlamentares = parlamentares[0:44]
parlamentares[-1]

'Zé Guilherme'

In [None]:
df = pd.DataFrame(zip(parlamentares, partidos), columns=["Parlamentar", "Partido"])
df.head(n=10)

Unnamed: 0,Parlamentar,Partido
0,Antonio Carlos Arantes,PSDB
1,Bartô,SEM PARTIDO
2,Bernardo Mucida,PSB
3,Betinho Pinto Coelho,SOLIDARIEDADE
4,Bosco,AVANTE
5,Braulio Braz,PTB
6,Bruno Engler,PRTB
7,Celise Laviola,MDB
8,Cleitinho Azevedo,CIDADANIA
9,Coronel Henrique,PSL


Expressões regulares e as operações básicas que vimos são muito úteis no pré-processamento de dados textuais. Aplicaremos algumas delas na próxima aula.

# Exercício 02 - Lei Geral de Proteção dos Dados (LGPD)

Neste exercício vamos detectar CPF em textos jurídicos e suprimir os dígitos intermediários (substitui-los por asteriscos), deixando somente os três primeiros e os dois últimos dígitos de cada CPF encontrado.

## Exercício 03 - Extrair tipo e número de processos e datas de publicação de súmulas

[Pesquisa de Jurisprudência - Link/Exemplo](https://www5.tjmg.jus.br/jurisprudencia/pesquisaPalavrasEspelhoAcordao.do?numeroRegistro=1&totalLinhas=1&palavras=rodovia&pesquisarPor=ementa&orderByData=2&codigoOrgaoJulgador=&codigoCompostoRelator=&classe=&codigoAssunto=&dataPublicacaoInicial=&dataPublicacaoFinal=&dataJulgamentoInicial=&dataJulgamentoFinal=&siglaLegislativa=&referenciaLegislativa=Clique+na+lupa+para+pesquisar+as+refer%EAncias+cadastradas...&numeroRefLegislativa=&anoRefLegislativa=&legislacao=&norma=&descNorma=&complemento_1=&listaPesquisa=&descricaoTextosLegais=&observacoes=&linhasPorPagina=10&pesquisaPalavras=Pesquisar)

# spaCy matcher