## **Introdução ao NLTK**


Documentação: [Natural Language Processing with Python](http://www.nltk.org/book/)

É uma **biblioteca de ferramentas** úteis para os princípios de Processamento de Linguagem Natural e possui funcionalidades para **manipulação de strings**. 

Dentro do NLTK, contém vários [corpora](https://www.nltk.org/book/ch02.html). 

Como usar o NLTK no Google Colab: 
- importar módulo;
- baixar ferramentas;

In [93]:
import nltk

In [94]:
nltk.download()

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> d

Download which package (l=list; x=cancel)?
  Identifier> all
    Downloading collection 'all'
       | 
       | Downloading package abc to /root/nltk_data...
       |   Package abc is already up-to-date!
       | Downloading package alpino to /root/nltk_data...
       |   Package alpino is already up-to-date!
       | Downloading package biocreative_ppi to /root/nltk_data...
       |   Package biocreative_ppi is already up-to-date!
       | Downloading package brown to /root/nltk_data...
       |   Package brown is already up-to-date!
       | Downloading package brown_tei to /root/nltk_data...
       |   Package brown_tei is already up-to-date!
       | Downloading package cess_cat to /root/nltk_data...
       |   Package cess_cat is 

True

### Utilizando o **mac_morpho** como exemplo:

http://nilc.icmc.usp.br/macmorpho/

Lista de palavras:

In [95]:
nltk.corpus.mac_morpho.words()

['Jersei', 'atinge', 'média', 'de', 'Cr$', '1,4', ...]

Lista de sentenças:

In [96]:
nltk.corpus.mac_morpho.sents()

[['Jersei', 'atinge', 'média', 'de', 'Cr$', '1,4', 'milhão', 'em', 'a', 'venda', 'de', 'a', 'Pinhal', 'em', 'São', 'Paulo'], ['Programe', 'sua', 'viagem', 'a', 'a', 'Exposição', 'Nacional', 'do', 'Zebu', ',', 'que', 'começa', 'dia', '25'], ...]

Classe gramatical (por palavra):

In [97]:
nltk.corpus.mac_morpho.tagged_words()

[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ...]

Classe gramatical (por sentença):

In [98]:
nltk.corpus.mac_morpho.tagged_sents()

[[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ('de', 'PREP'), ('Cr$', 'CUR'), ('1,4', 'NUM'), ('milhão', 'N'), ('em', 'PREP|+'), ('a', 'ART'), ('venda', 'N'), ('de', 'PREP|+'), ('a', 'ART'), ('Pinhal', 'NPROP'), ('em', 'PREP'), ('São', 'NPROP'), ('Paulo', 'NPROP')], [('Programe', 'V'), ('sua', 'PROADJ'), ('viagem', 'N'), ('a', 'PREP|+'), ('a', 'ART'), ('Exposição', 'NPROP'), ('Nacional', 'NPROP'), ('do', 'NPROP'), ('Zebu', 'NPROP'), (',', ','), ('que', 'PRO-KS-REL'), ('começa', 'V'), ('dia', 'N'), ('25', 'N|AP')], ...]

### Algumas funções do NLTK:

In [99]:
import nltk

Utilizando o arquivo '*corpus_teste.txt*' como base:

- **tokenizar** = separar as palavras do texto - nível linguístico lexixal;
```
nltk.word_tokenize(...)
```

In [100]:
texto = "Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII."
tokens = nltk.word_tokenize(texto)
print(tokens)

# utilizando a função 'split()' não seria possível pegar símbolos, vírgulas, pontuação, etc.

['Com', 'um', 'passe', 'de', 'Eli', 'Manning', 'para', 'Plaxico', 'Burress', 'a', '39', 'segundos', 'do', 'fim', ',', 'o', 'New', 'York', 'Giants', 'anotou', 'o', 'touchdown', 'decisivo', 'e', 'derrubou', 'o', 'favorito', 'New', 'England', 'Patriots', 'por', '17', 'a', '14', 'neste', 'domingo', ',', 'em', 'Glendale', ',', 'no', 'Super', 'Bowl', 'XLII', '.']


Também podemos usar as **expressões regulares** para fazer a tokenização dos textos:

Excluindo pontuação:

In [101]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(texto)
print(tokens)

['Com', 'um', 'passe', 'de', 'Eli', 'Manning', 'para', 'Plaxico', 'Burress', 'a', '39', 'segundos', 'do', 'fim', 'o', 'New', 'York', 'Giants', 'anotou', 'o', 'touchdown', 'decisivo', 'e', 'derrubou', 'o', 'favorito', 'New', 'England', 'Patriots', 'por', '17', 'a', '14', 'neste', 'domingo', 'em', 'Glendale', 'no', 'Super', 'Bowl', 'XLII']


Excluindo números:

In [102]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'[A-z]\w+')
tokens = tokenizer.tokenize(texto)
print(tokens)

# [A-z] = A maiúsculo ao z minúsculo

['Com', 'um', 'passe', 'de', 'Eli', 'Manning', 'para', 'Plaxico', 'Burress', 'segundos', 'do', 'fim', 'New', 'York', 'Giants', 'anotou', 'touchdown', 'decisivo', 'derrubou', 'favorito', 'New', 'England', 'Patriots', 'por', 'neste', 'domingo', 'em', 'Glendale', 'no', 'Super', 'Bowl', 'XLII']


Links úteis: 

1.  https://www.w3schools.com/python/python_regex.asp
2. https://pythex.org/

- **FreqDist()** = contagem de ocorrência de tokens;
- **most_common** = ordena a frequência;

```
nltk.FreqDist(...)
```



In [103]:
tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(texto)
# usando esse tokenizador para não aparecer a pontuação na lista de mais frequentes
frequencia = nltk.FreqDist(tokens)
frequencia.most_common()

[('o', 3),
 ('a', 2),
 ('New', 2),
 ('Com', 1),
 ('um', 1),
 ('passe', 1),
 ('de', 1),
 ('Eli', 1),
 ('Manning', 1),
 ('para', 1),
 ('Plaxico', 1),
 ('Burress', 1),
 ('39', 1),
 ('segundos', 1),
 ('do', 1),
 ('fim', 1),
 ('York', 1),
 ('Giants', 1),
 ('anotou', 1),
 ('touchdown', 1),
 ('decisivo', 1),
 ('e', 1),
 ('derrubou', 1),
 ('favorito', 1),
 ('England', 1),
 ('Patriots', 1),
 ('por', 1),
 ('17', 1),
 ('14', 1),
 ('neste', 1),
 ('domingo', 1),
 ('em', 1),
 ('Glendale', 1),
 ('no', 1),
 ('Super', 1),
 ('Bowl', 1),
 ('XLII', 1)]

In [104]:
frequencia.most_common(5)

[('o', 3), ('a', 2), ('New', 2), ('Com', 1), ('um', 1)]

Novo princípio: **list comprehension**

- **lower()**

In [105]:
nova_lista = []
for palavra in tokens: 
  nova_lista.append(palavra.lower())
print(nova_lista)

['com', 'um', 'passe', 'de', 'eli', 'manning', 'para', 'plaxico', 'burress', 'a', '39', 'segundos', 'do', 'fim', 'o', 'new', 'york', 'giants', 'anotou', 'o', 'touchdown', 'decisivo', 'e', 'derrubou', 'o', 'favorito', 'new', 'england', 'patriots', 'por', '17', 'a', '14', 'neste', 'domingo', 'em', 'glendale', 'no', 'super', 'bowl', 'xlii']


In [106]:
frequencia = nltk.FreqDist([palavra.lower() for palavra in tokens ])
frequencia.most_common(10)

[('o', 3),
 ('a', 2),
 ('new', 2),
 ('com', 1),
 ('um', 1),
 ('passe', 1),
 ('de', 1),
 ('eli', 1),
 ('manning', 1),
 ('para', 1)]

- **stopwords** = palavras que podem ser consideradas irrelevantes para um certo resultado buscado;


```
nltk.corpus.stopwords.words('...')
```



In [107]:
nltk.corpus.stopwords.words('portuguese')

['de',
 'a',
 'o',
 'que',
 'e',
 'é',
 'do',
 'da',
 'em',
 'um',
 'para',
 'com',
 'não',
 'uma',
 'os',
 'no',
 'se',
 'na',
 'por',
 'mais',
 'as',
 'dos',
 'como',
 'mas',
 'ao',
 'ele',
 'das',
 'à',
 'seu',
 'sua',
 'ou',
 'quando',
 'muito',
 'nos',
 'já',
 'eu',
 'também',
 'só',
 'pelo',
 'pela',
 'até',
 'isso',
 'ela',
 'entre',
 'depois',
 'sem',
 'mesmo',
 'aos',
 'seus',
 'quem',
 'nas',
 'me',
 'esse',
 'eles',
 'você',
 'essa',
 'num',
 'nem',
 'suas',
 'meu',
 'às',
 'minha',
 'numa',
 'pelos',
 'elas',
 'qual',
 'nós',
 'lhe',
 'deles',
 'essas',
 'esses',
 'pelas',
 'este',
 'dele',
 'tu',
 'te',
 'vocês',
 'vos',
 'lhes',
 'meus',
 'minhas',
 'teu',
 'tua',
 'teus',
 'tuas',
 'nosso',
 'nossa',
 'nossos',
 'nossas',
 'dela',
 'delas',
 'esta',
 'estes',
 'estas',
 'aquele',
 'aquela',
 'aqueles',
 'aquelas',
 'isto',
 'aquilo',
 'estou',
 'está',
 'estamos',
 'estão',
 'estive',
 'esteve',
 'estivemos',
 'estiveram',
 'estava',
 'estávamos',
 'estavam',
 'estivera'

*obs: é uma lista sugerida.*

In [108]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'[A-z]\w+')
texto = "Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII."
tokens = tokenizer.tokenize(texto)

stopwords = nltk.corpus.stopwords.words('portuguese')

tokens_sem_stopwords = [w.lower() for w in tokens if w.lower() not in stopwords]

print(tokens_sem_stopwords)

['passe', 'eli', 'manning', 'plaxico', 'burress', 'segundos', 'fim', 'new', 'york', 'giants', 'anotou', 'touchdown', 'decisivo', 'derrubou', 'favorito', 'new', 'england', 'patriots', 'neste', 'domingo', 'glendale', 'super', 'bowl', 'xlii']


In [109]:
frequencia = nltk.FreqDist(tokens_sem_stopwords)
print(frequencia.most_common(10))

[('new', 2), ('passe', 1), ('eli', 1), ('manning', 1), ('plaxico', 1), ('burress', 1), ('segundos', 1), ('fim', 1), ('york', 1), ('giants', 1)]


**Rodando o código no texto base:**

In [110]:
arquivo_texto = open('/content/drive/MyDrive/Cursos/PLN_USP/corpus_teste.txt')

In [111]:
txt = arquivo_texto.read()
print(txt)

Giants batem os Patriots no Super Bowl XLII
Azarões acabam com a invencibilidade de New England e ficam com o título da temporada
04/02/2008 - 01h07m - Atualizado em 04/02/2008 - 09h49m

Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII. O resultado, uma das maiores zebras da história do Super Bowl, acabou com a temporada perfeita de Tom Brady e companhia, que esperavam fazer história ao levantar o troféu da NFL sem sofrer uma derrota no ano. 

A vitória dos Giants, porém, também ficará para a história. Pela primeira vez, irmãos quarterbacks triunfam no Super Bowl em temporadas consecutivas. No ano passado, Peyton Manning, irmão de Eli, chegou ao título máximo da NFL pelo Indianapolis Colts.

A partida

Os Giants começaram com a posse de bola, e mostraram logo que iriam alongar ao máximo suas posses de bola. Misturando 

In [112]:
arquivo_texto = open('/content/drive/MyDrive/Cursos/PLN_USP/corpus_teste.txt')
txt = arquivo_texto.read()

tokenizer = RegexpTokenizer(r'[A-z]\w+')
tokens = tokenizer.tokenize(txt)

stopwords = nltk.corpus.stopwords.words('portuguese')

tokens_sem_stopwords = [w.lower() for w in tokens if w.lower() not in stopwords]

print(tokens_sem_stopwords)

['giants', 'batem', 'patriots', 'super', 'bowl', 'xlii', 'azarões', 'acabam', 'invencibilidade', 'new', 'england', 'ficam', 'título', 'temporada', 'h07m', 'atualizado', 'h49m', 'passe', 'eli', 'manning', 'plaxico', 'burress', 'segundos', 'fim', 'new', 'york', 'giants', 'anotou', 'touchdown', 'decisivo', 'derrubou', 'favorito', 'new', 'england', 'patriots', 'neste', 'domingo', 'glendale', 'super', 'bowl', 'xlii', 'resultado', 'maiores', 'zebras', 'história', 'super', 'bowl', 'acabou', 'temporada', 'perfeita', 'tom', 'brady', 'companhia', 'esperavam', 'fazer', 'história', 'levantar', 'troféu', 'nfl', 'sofrer', 'derrota', 'ano', 'vitória', 'giants', 'porém', 'ficará', 'história', 'primeira', 'vez', 'irmãos', 'quarterbacks', 'triunfam', 'super', 'bowl', 'temporadas', 'consecutivas', 'ano', 'passado', 'peyton', 'manning', 'irmão', 'eli', 'chegou', 'título', 'máximo', 'nfl', 'indianapolis', 'colts', 'partida', 'giants', 'começaram', 'posse', 'bola', 'mostraram', 'logo', 'iriam', 'alongar', '

10 palavras mais comuns:

In [113]:
frequencia = nltk.FreqDist(tokens_sem_stopwords)
print(frequencia.most_common(10))

[('jardas', 15), ('giants', 11), ('patriots', 10), ('manning', 10), ('linha', 10), ('bola', 7), ('vez', 6), ('zone', 6), ('new', 5), ('passe', 5)]


**N-Gramas** = conjuntos de palavras que aparecem sequencialmente;
- bigramas:


```
from nltk import bigrams
```
- trigramas:


```
from nltk import trigrams
```
- 4-gramas ou mais:


```
from nltk import ngrams
```





In [114]:
from nltk import bigrams
from nltk import trigrams
from nltk import ngrams

In [115]:
tokens = nltk.word_tokenize(txt)

In [116]:
list(bigrams(tokens))

[('Giants', 'batem'),
 ('batem', 'os'),
 ('os', 'Patriots'),
 ('Patriots', 'no'),
 ('no', 'Super'),
 ('Super', 'Bowl'),
 ('Bowl', 'XLII'),
 ('XLII', 'Azarões'),
 ('Azarões', 'acabam'),
 ('acabam', 'com'),
 ('com', 'a'),
 ('a', 'invencibilidade'),
 ('invencibilidade', 'de'),
 ('de', 'New'),
 ('New', 'England'),
 ('England', 'e'),
 ('e', 'ficam'),
 ('ficam', 'com'),
 ('com', 'o'),
 ('o', 'título'),
 ('título', 'da'),
 ('da', 'temporada'),
 ('temporada', '04/02/2008'),
 ('04/02/2008', '-'),
 ('-', '01h07m'),
 ('01h07m', '-'),
 ('-', 'Atualizado'),
 ('Atualizado', 'em'),
 ('em', '04/02/2008'),
 ('04/02/2008', '-'),
 ('-', '09h49m'),
 ('09h49m', 'Com'),
 ('Com', 'um'),
 ('um', 'passe'),
 ('passe', 'de'),
 ('de', 'Eli'),
 ('Eli', 'Manning'),
 ('Manning', 'para'),
 ('para', 'Plaxico'),
 ('Plaxico', 'Burress'),
 ('Burress', 'a'),
 ('a', '39'),
 ('39', 'segundos'),
 ('segundos', 'do'),
 ('do', 'fim'),
 ('fim', ','),
 (',', 'o'),
 ('o', 'New'),
 ('New', 'York'),
 ('York', 'Giants'),
 ('Giants', 

In [117]:
list(trigrams(tokens))

[('Giants', 'batem', 'os'),
 ('batem', 'os', 'Patriots'),
 ('os', 'Patriots', 'no'),
 ('Patriots', 'no', 'Super'),
 ('no', 'Super', 'Bowl'),
 ('Super', 'Bowl', 'XLII'),
 ('Bowl', 'XLII', 'Azarões'),
 ('XLII', 'Azarões', 'acabam'),
 ('Azarões', 'acabam', 'com'),
 ('acabam', 'com', 'a'),
 ('com', 'a', 'invencibilidade'),
 ('a', 'invencibilidade', 'de'),
 ('invencibilidade', 'de', 'New'),
 ('de', 'New', 'England'),
 ('New', 'England', 'e'),
 ('England', 'e', 'ficam'),
 ('e', 'ficam', 'com'),
 ('ficam', 'com', 'o'),
 ('com', 'o', 'título'),
 ('o', 'título', 'da'),
 ('título', 'da', 'temporada'),
 ('da', 'temporada', '04/02/2008'),
 ('temporada', '04/02/2008', '-'),
 ('04/02/2008', '-', '01h07m'),
 ('-', '01h07m', '-'),
 ('01h07m', '-', 'Atualizado'),
 ('-', 'Atualizado', 'em'),
 ('Atualizado', 'em', '04/02/2008'),
 ('em', '04/02/2008', '-'),
 ('04/02/2008', '-', '09h49m'),
 ('-', '09h49m', 'Com'),
 ('09h49m', 'Com', 'um'),
 ('Com', 'um', 'passe'),
 ('um', 'passe', 'de'),
 ('passe', 'de', '

Exemplo: gerar um detector de entidades nomeadas.

In [118]:
from nltk import bigrams
from nltk import trigrams

bigramas = list(bigrams(tokens))
trigramas = list(trigrams(tokens))

print('Bigramas:')
for bigrama in bigramas:
  if bigrama[0][0].isupper() and bigrama[1][0].isupper():   # primeiro e segundo elemento, sempre primeira letra maiúscula
    print(bigrama)

Bigramas:
('Super', 'Bowl')
('Bowl', 'XLII')
('XLII', 'Azarões')
('New', 'England')
('Eli', 'Manning')
('Plaxico', 'Burress')
('New', 'York')
('York', 'Giants')
('New', 'England')
('England', 'Patriots')
('Super', 'Bowl')
('Bowl', 'XLII')
('Super', 'Bowl')
('Tom', 'Brady')
('Super', 'Bowl')
('Peyton', 'Manning')
('Indianapolis', 'Colts')
('Os', 'Giants')
('Brandon', 'Jacobs')
('Nova', 'York')
('Lawrence', 'Tynes')
('Eli', 'Manning')
('Laurence', 'Maroney')
('Tom', 'Brady')
('Antonio', 'Pierce')
('Os', 'Giants')
('Amani', 'Toomer')
('Nova', 'York')
('Steve', 'Smith')
('Ellis', 'Hobbs')
('Nova', 'York')
('Nova', 'York')
('Os', 'Patriots')
('Bill', 'Bellichick')
('Jabar', 'Gaffney')
('Kevin', 'Boss')
('Steve', 'Smith')
('David', 'Tyree')
('Wes', 'Welker')
('Randy', 'Moss')
('Kevin', 'Faulk')
('New', 'England')
('Eli', 'Manning')
('Amani', 'Toomer')
('New', 'England')
('Plaxico', 'Burress')


In [119]:
print('Trigramas:')
for trigrama in trigramas:
  if trigrama[0][0].isupper() and trigrama[1][0].isupper() and trigrama[2][0].isupper():   # primeiro, segundo e terceiro elemento, sempre primeira letra maiúscula
    print(trigrama)

Trigramas:
('Super', 'Bowl', 'XLII')
('Bowl', 'XLII', 'Azarões')
('New', 'York', 'Giants')
('New', 'England', 'Patriots')
('Super', 'Bowl', 'XLII')


- **stemming** = reduz a palavra ao seu radical;
> *gato, gata = gat*
- **lematização** = reduz a palavra a sua forma canônica, levando em conta sua classe gramatical;
> *propoem, propuseram = propor*



Importando o módulo que remove o sufixo da língua portuguesa: **RSLP**

In [120]:
import nltk 

In [121]:
stemmer = nltk.RSLPStemmer()

print(stemmer.stem('Amigão'))
print(stemmer.stem('Amigo'))
print(stemmer.stem('Amiga'))
print(stemmer.stem('amiguinhos'))
print(stemmer.stem('propuseram'))
print(stemmer.stem('Propõem'))
print(stemmer.stem('Propondo'))

amig
amig
amig
amig
propus
propõ
prop


Obs: O lematizador do NLTK só funciona bem para o idioma inglês → exemplo de como usar:

```
lemmatizer = nltk.stem.WordNetLemmatizer()
lemmatizer.lemmatize('propõem', pos = 'V')
```



Para o português, existem dois corpus que funcionam muito bem: 
- **Floresta**
- **Marco Morpho**


Para o *inglês* existe um etiquetador padrão treinado:


```
nltk.pos_tag()
```


Os etiquetadores sempre retornam uma tupla com ('palavra', 'classe gramatical') e essa classe gramatical vai depender do treinamento que é realizado.

### Etiquetador **mac_morpho**

In [126]:
from nltk.corpus import mac_morpho
from nltk.tag import UnigramTagger
from nltk.tag import DefaultTagger

In [127]:
tokens = nltk.word_tokenize(txt)

etiq_padrao = DefaultTagger('N') # substantivo
sentencas_treino = mac_morpho.tagged_sents()
etiquetador = UnigramTagger(sentencas_treino, backoff = etiq_padrao)
etiquetado = etiquetador.tag(tokens)
print(etiquetado)

[('Giants', 'NPROP'), ('batem', 'V'), ('os', 'ART'), ('Patriots', 'N'), ('no', 'KC'), ('Super', 'NPROP'), ('Bowl', 'NPROP'), ('XLII', 'N'), ('Azarões', 'N'), ('acabam', 'VAUX'), ('com', 'PREP'), ('a', 'ART'), ('invencibilidade', 'N'), ('de', 'PREP'), ('New', 'NPROP'), ('England', 'NPROP'), ('e', 'KC'), ('ficam', 'V'), ('com', 'PREP'), ('o', 'ART'), ('título', 'N'), ('da', 'NPROP'), ('temporada', 'N'), ('04/02/2008', 'N'), ('-', '-'), ('01h07m', 'N'), ('-', '-'), ('Atualizado', 'N'), ('em', 'PREP|+'), ('04/02/2008', 'N'), ('-', '-'), ('09h49m', 'N'), ('Com', 'PREP'), ('um', 'ART'), ('passe', 'N'), ('de', 'PREP'), ('Eli', 'NPROP'), ('Manning', 'NPROP'), ('para', 'PREP'), ('Plaxico', 'N'), ('Burress', 'N'), ('a', 'ART'), ('39', 'NUM'), ('segundos', 'N'), ('do', 'NPROP'), ('fim', 'N'), (',', ','), ('o', 'ART'), ('New', 'NPROP'), ('York', 'NPROP'), ('Giants', 'NPROP'), ('anotou', 'V'), ('o', 'ART'), ('touchdown', 'N|EST'), ('decisivo', 'ADJ'), ('e', 'KC'), ('derrubou', 'V'), ('o', 'ART'), (

Com os etiquetadores mac_morpho é possível fazer análises descritivas, análises sintáticas, reconhecimento de entidades nomeadas (chunking), etc.

Testando algo mais avançado...

### Análise sintática

In [129]:
from nltk.chunk import RegexpParser

In [131]:
pattern = 'NP: {<NPROP><NPROP>} | <N><N>'
analise_gramatical = RegexpParser(pattern)
arvore = analise_gramatical.parse(etiquetado)
print(arvore)

(S
  Giants/NPROP
  batem/V
  os/ART
  Patriots/N
  no/KC
  (NP Super/NPROP Bowl/NPROP)
  XLII/N
  Azarões/N
  acabam/VAUX
  com/PREP
  a/ART
  invencibilidade/N
  de/PREP
  (NP New/NPROP England/NPROP)
  e/KC
  ficam/V
  com/PREP
  o/ART
  título/N
  da/NPROP
  temporada/N
  04/02/2008/N
  -/-
  01h07m/N
  -/-
  Atualizado/N
  em/PREP|+
  04/02/2008/N
  -/-
  09h49m/N
  Com/PREP
  um/ART
  passe/N
  de/PREP
  (NP Eli/NPROP Manning/NPROP)
  para/PREP
  Plaxico/N
  Burress/N
  a/ART
  39/NUM
  segundos/N
  do/NPROP
  fim/N
  ,/,
  o/ART
  (NP New/NPROP York/NPROP)
  Giants/NPROP
  anotou/V
  o/ART
  touchdown/N|EST
  decisivo/ADJ
  e/KC
  derrubou/V
  o/ART
  favorito/N
  (NP New/NPROP England/NPROP)
  Patriots/N
  por/PREP|+
  17/NUM
  a/ART
  14/NUM
  neste/N
  domingo/N
  ,/,
  em/PREP|+
  Glendale/N
  ,/,
  no/KC
  (NP Super/NPROP Bowl/NPROP)
  XLII/N
  ./.
  O/ART
  resultado/N
  ,/,
  uma/ART
  das/NPROP
  maiores/ADJ
  zebras/N
  da/NPROP
  história/N
  (NP do/NPROP Super/NPROP)


*A aula ocorreu no dia 12 de maio de 2021, das 14h às 18h.*