# **Olimpíada Brasileira de Linguística  - 2022**

Fala, linguistiquer, beleza? Se você entrou aqui, é porque está interessado em entender um pouco mais os procedimentos que a Linguística Computacional usa para executar as tarefas do case do Rolêzinho da Olimpíada Brasileira de Linguística :)

É claro que, se você não tiver o conhecimento prévio de programação, talvez fique um pouco difícil entender o passo a passo, mas o principal é que você entenda os conceitos por trás! Se tiver alguma dúvida, não hesite em me escrever para perguntá-la.

Dito isso, este notebook está dividido nas seguinte etapas:


1.   Importação das bibliotecas;
2.   Importação do corpus;
3.   Pré-processamento de acordo com as instruções da OBL.





## 1. Importação das bibliotecas

A primeira coisa que vamos fazer é importar as bibliotecas que nos auxiliarão a realizar nossas tarefas! Aqui, utilizaremos o [NLTK](https://www.nltk.org/), o [Spacy](https://spacy.io/) (também usaremos um módulo do Spacy, o Displacy, para expor as POS tags) e as [Regex](https://docs.python.org/3/library/re.html) :

In [1]:
import nltk 
from nltk.tokenize import word_tokenize
nltk.download('stopwords')
nltk.download('punkt')
from nltk.stem import PorterStemmer, LancasterStemmer
import spacy
from spacy import displacy
import re

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Também temos que baixar o modelo de língua do português:

In [2]:
!python -m spacy download pt_core_news_sm

Collecting pt_core_news_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-2.2.5/pt_core_news_sm-2.2.5.tar.gz (21.2 MB)
[K     |████████████████████████████████| 21.2 MB 2.2 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')


## 2. Importação do corpus

Agora, iremos definir nossos textos em variáveis:

In [3]:
texto1= "Evidencia-se ao leitor que bilionários (ou trilionários), comumente, têm uma grande capacidade de utilizarem suas trajetórias profissionais para criar legados em diversos setores da economia, elevando, consequentemente, o padrão de vida da humanidade e propiciando oportunidades de enriquecimento lícito para inúmeros outros indivíduos que estão dispostos a também gerar valor para sociedade. Bilionários deveriam existir, e assim será!"
texto2= "Enquanto bilhões vão à miséria, um punhado de famílias aumentam formidavelmente sua riqueza. Essa é a realidade do mundo imperialista. Segundo o Índice Bloomberg de Bilionários, o patrimônio das 500 pessoas mais ricas subiu 20% nas primeiras semanas de abril, época em que a crise imperialista se aprofunda. Isso demonstra que a riqueza dos bilionários do mundo tem apresentado aumento, mesmo durante a crise de superprodução imperialista, com números alarmantes como 17 milhões de americanos desempregados no período de três semanas."
texto3= "O coronavírus enxugou as economias de milhões de famílias, mas não as dos mais ricos. O ano terminou com lucros para a imensa maioria deles, já que apenas 3 das 20 pessoas mais ricas de planeta viram sua fortuna diminuir neste ano. No seu conjunto, esse grupo de bilionários chegou ao final de 2020 com um patrimônio conjunto que soma 1,77 trilhão de dólares (8,83 trilhões de reais, aproximadamente o valor do PIB brasileiro). A cifra é 24% superior à de um ano atrás, segundo o índice Bloomberg."
texto4= "As fortunas bilionárias de criptomoedas que aumentaram nos últimos dois anos estão desaparecendo após uma liquidação que começou com ações de tecnologia se espalhando pelo dinheiro digital. Bitcoin, a criptomoeda mais popular, e ether, caíram mais de 50% desde seus recordes no final do ano passado. Embora quase todos os detentores de criptomoedas tenham sofrido declínios de riqueza, algumas das maiores e mais visíveis perdas estão concentradas entre os fundadores de exchanges (bolsas), onde os traders (negociadores) compram e vendem moedas digitais."

## 3. Pré-processamento de acordo com as instruções da OBL

### 3.1 Remoção de pontuações

A primeira etapa que fazemos para o nosso pré-processamento é a remoção de pontuações, já que elas não nos acrescentam tanta informação. Para isso, vamos definir uma função que faça essa tarefa, utilizando regex, para depois aplicá-la:

In [4]:
def remove_punctuation(text):  
  text = re.sub(r'[^\w\s]', '', text)
  return text

In [5]:
texto1 = remove_punctuation(texto1)
texto2 = remove_punctuation(texto2)
texto3 = remove_punctuation(texto3)
texto4 = remove_punctuation(texto4)

In [6]:
texto1

'Evidenciase ao leitor que bilionários ou trilionários comumente têm uma grande capacidade de utilizarem suas trajetórias profissionais para criar legados em diversos setores da economia elevando consequentemente o padrão de vida da humanidade e propiciando oportunidades de enriquecimento lícito para inúmeros outros indivíduos que estão dispostos a também gerar valor para sociedade Bilionários deveriam existir e assim será'

### 3.2 Alteração de letras maiúsculas

A próxima etapa deixa todos os caracteres em minúsculo, haja vista que o Python diferencia caracteres maiúsculos de minúsculos, mesmo eles no representando a mesma informação semanticamente:

In [7]:
texto1 = texto1.lower()
texto2 = texto2.lower()
texto3 = texto3.lower()
texto4 = texto4.lower()

In [8]:
texto1

'evidenciase ao leitor que bilionários ou trilionários comumente têm uma grande capacidade de utilizarem suas trajetórias profissionais para criar legados em diversos setores da economia elevando consequentemente o padrão de vida da humanidade e propiciando oportunidades de enriquecimento lícito para inúmeros outros indivíduos que estão dispostos a também gerar valor para sociedade bilionários deveriam existir e assim será'

### 3.2 Tokenização

Nosso próximo passo é algo que já fazemos intuitivamente para vermos as palavras, mas devemos reservar uma etapa exclusivamente para a máquina fazer isso: a tokenização! A tokenização nada mais é do que quebrar nossas sentenças em tokens, que pode ser palavras, frases, etc... No entanto, na maioria dos casos, quebramos as sentenças em palavras, que é o que faremos aqui usando a biblioteca NLTK:

In [9]:
texto1 = word_tokenize(texto1)
texto2 = word_tokenize(texto2)
texto3 = word_tokenize(texto3)
texto4 = word_tokenize(texto4)

In [10]:
texto1

['evidenciase',
 'ao',
 'leitor',
 'que',
 'bilionários',
 'ou',
 'trilionários',
 'comumente',
 'têm',
 'uma',
 'grande',
 'capacidade',
 'de',
 'utilizarem',
 'suas',
 'trajetórias',
 'profissionais',
 'para',
 'criar',
 'legados',
 'em',
 'diversos',
 'setores',
 'da',
 'economia',
 'elevando',
 'consequentemente',
 'o',
 'padrão',
 'de',
 'vida',
 'da',
 'humanidade',
 'e',
 'propiciando',
 'oportunidades',
 'de',
 'enriquecimento',
 'lícito',
 'para',
 'inúmeros',
 'outros',
 'indivíduos',
 'que',
 'estão',
 'dispostos',
 'a',
 'também',
 'gerar',
 'valor',
 'para',
 'sociedade',
 'bilionários',
 'deveriam',
 'existir',
 'e',
 'assim',
 'será']

### 3.3 Remoção de Stopwords

O próximo passo é remover as stopwords, as palavrinhas que não nos acrescentam tanta informação. Para isso, primeiro, iremos carregar a lista de stopwords do português da biblioteca NLTK, para, posteriormente, retirá-las:

In [11]:
stopwords = nltk.corpus.stopwords.words('portuguese')

In [12]:
stopwords

['de',
 'a',
 'o',
 'que',
 'e',
 'é',
 'do',
 'da',
 'em',
 'um',
 'para',
 'com',
 'não',
 'uma',
 'os',
 'no',
 'se',
 'na',
 'por',
 'mais',
 'as',
 'dos',
 'como',
 'mas',
 'ao',
 'ele',
 'das',
 'à',
 'seu',
 'sua',
 'ou',
 'quando',
 'muito',
 'nos',
 'já',
 'eu',
 'também',
 'só',
 'pelo',
 'pela',
 'até',
 'isso',
 'ela',
 'entre',
 'depois',
 'sem',
 'mesmo',
 'aos',
 'seus',
 'quem',
 'nas',
 'me',
 'esse',
 'eles',
 'você',
 'essa',
 'num',
 'nem',
 'suas',
 'meu',
 'às',
 'minha',
 'numa',
 'pelos',
 'elas',
 'qual',
 'nós',
 'lhe',
 'deles',
 'essas',
 'esses',
 'pelas',
 'este',
 'dele',
 'tu',
 'te',
 'vocês',
 'vos',
 'lhes',
 'meus',
 'minhas',
 'teu',
 'tua',
 'teus',
 'tuas',
 'nosso',
 'nossa',
 'nossos',
 'nossas',
 'dela',
 'delas',
 'esta',
 'estes',
 'estas',
 'aquele',
 'aquela',
 'aqueles',
 'aquelas',
 'isto',
 'aquilo',
 'estou',
 'está',
 'estamos',
 'estão',
 'estive',
 'esteve',
 'estivemos',
 'estiveram',
 'estava',
 'estávamos',
 'estavam',
 'estivera'

In [13]:
def remove_stopwords(text):
    return [item for item in text if item not in stopwords]

In [14]:
texto1 = remove_stopwords(texto1)
texto2 = remove_stopwords(texto2)
texto3 = remove_stopwords(texto3)
texto4 = remove_stopwords(texto4)

In [15]:
texto1

['evidenciase',
 'leitor',
 'bilionários',
 'trilionários',
 'comumente',
 'têm',
 'grande',
 'capacidade',
 'utilizarem',
 'trajetórias',
 'profissionais',
 'criar',
 'legados',
 'diversos',
 'setores',
 'economia',
 'elevando',
 'consequentemente',
 'padrão',
 'vida',
 'humanidade',
 'propiciando',
 'oportunidades',
 'enriquecimento',
 'lícito',
 'inúmeros',
 'outros',
 'indivíduos',
 'dispostos',
 'gerar',
 'valor',
 'sociedade',
 'bilionários',
 'deveriam',
 'existir',
 'assim']

### 3.4 Stemização

Agora, iremos mostrar como fazemos a stemização. Para isso, usaremos a biblioteca NLTK, que possui diferentes stemmers, o Porter e o Lancaster; são eles quem fazem a stemização e possuem diferenças entre si. Mostraremos o resultado dos dois para que vocês vejam que, dentro de uma mesma tarefa, utilizando a mesma biblioteca, ainda existem parâmetros que devemos escolher:

In [16]:
ps = PorterStemmer()
lancaster = LancasterStemmer()

In [17]:
def stemming_ps(text):
    return [ps.stem(y) for y in text]

In [18]:
def stemming_lancaster(text):
    return [lancaster.stem(y) for y in text] 

In [19]:
stemming_ps(texto1)

['evidencias',
 'leitor',
 'bilionário',
 'trilionário',
 'comument',
 'têm',
 'grand',
 'capacidad',
 'utilizarem',
 'trajetória',
 'profissionai',
 'criar',
 'legado',
 'diverso',
 'setor',
 'economia',
 'elevando',
 'consequentement',
 'padrão',
 'vida',
 'humanidad',
 'propiciando',
 'oportunidad',
 'enriquecimento',
 'lícito',
 'inúmero',
 'outro',
 'indivíduo',
 'disposto',
 'gerar',
 'valor',
 'sociedad',
 'bilionário',
 'deveriam',
 'existir',
 'assim']

In [20]:
stemming_lancaster(texto1)

['evidencias',
 'leit',
 'bilionário',
 'trilionário',
 'comu',
 'têm',
 'grand',
 'capacidad',
 'utilizarem',
 'trajetória',
 'profissiona',
 'cri',
 'legado',
 'diverso',
 'set',
 'econom',
 'elevando',
 'consequ',
 'padrão',
 'vid',
 'humanidad',
 'propiciando',
 'oportunidad',
 'enriquecimento',
 'lícito',
 'inúmero',
 'outro',
 'indivíduo',
 'disposto',
 'ger',
 'val',
 'sociedad',
 'bilionário',
 'deveriam',
 'existir',
 'assim']

In [21]:
stemming_ps(texto2)

['enquanto',
 'bilhõ',
 'vão',
 'miséria',
 'punhado',
 'família',
 'aumentam',
 'formidavelment',
 'riqueza',
 'realidad',
 'mundo',
 'imperialista',
 'segundo',
 'índice',
 'bloomberg',
 'bilionário',
 'patrimônio',
 '500',
 'pessoa',
 'rica',
 'subiu',
 '20',
 'primeira',
 'semana',
 'abril',
 'época',
 'crise',
 'imperialista',
 'aprofunda',
 'demonstra',
 'riqueza',
 'bilionário',
 'mundo',
 'apresentado',
 'aumento',
 'durant',
 'crise',
 'superprodução',
 'imperialista',
 'número',
 'alarmant',
 '17',
 'milhõ',
 'americano',
 'desempregado',
 'período',
 'trê',
 'semana']

In [22]:
stemming_lancaster(texto2)

['enquanto',
 'bilhõ',
 'vão',
 'misér',
 'punhado',
 'família',
 'aumentam',
 'formidavel',
 'riquez',
 'realidad',
 'mundo',
 'imperialist',
 'segundo',
 'índice',
 'bloomberg',
 'bilionário',
 'patrimônio',
 '500',
 'pessoa',
 'rica',
 'subiu',
 '20',
 'primeira',
 'semana',
 'abril',
 'époc',
 'cris',
 'imperialist',
 'aprofund',
 'demonstr',
 'riquez',
 'bilionário',
 'mundo',
 'apresentado',
 'aumento',
 'dur',
 'cris',
 'superprodução',
 'imperialist',
 'números',
 'alarm',
 '17',
 'milhõ',
 'americano',
 'desempregado',
 'período',
 'três',
 'semana']

In [23]:
stemming_ps(texto3)

['coronavíru',
 'enxug',
 'economia',
 'milhõ',
 'família',
 'rico',
 'ano',
 'termin',
 'lucro',
 'imensa',
 'maioria',
 'apena',
 '3',
 '20',
 'pessoa',
 'rica',
 'planeta',
 'viram',
 'fortuna',
 'diminuir',
 'nest',
 'ano',
 'conjunto',
 'grupo',
 'bilionário',
 'chegou',
 'final',
 '2020',
 'patrimônio',
 'conjunto',
 'soma',
 '177',
 'trilhão',
 'dólare',
 '883',
 'trilhõ',
 'reai',
 'aproximadament',
 'valor',
 'pib',
 'brasileiro',
 'cifra',
 '24',
 'superior',
 'ano',
 'atrá',
 'segundo',
 'índice',
 'bloomberg']

In [24]:
stemming_lancaster(texto3)

['coronavír',
 'enxugou',
 'economia',
 'milhõ',
 'família',
 'rico',
 'ano',
 'terminou',
 'lucro',
 'imens',
 'maior',
 'apena',
 '3',
 '20',
 'pessoa',
 'rica',
 'planet',
 'viram',
 'fortun',
 'diminuir',
 'nest',
 'ano',
 'conjunto',
 'grupo',
 'bilionário',
 'chegou',
 'fin',
 '2020',
 'patrimônio',
 'conjunto',
 'som',
 '177',
 'trilhão',
 'dólares',
 '883',
 'trilhõ',
 'rea',
 'aproximada',
 'val',
 'pib',
 'brasileiro',
 'cifr',
 '24',
 'supery',
 'ano',
 'atrá',
 'segundo',
 'índice',
 'bloomberg']

In [25]:
stemming_ps(texto4)

['fortuna',
 'bilionária',
 'criptomoeda',
 'aumentaram',
 'último',
 'doi',
 'ano',
 'desaparecendo',
 'apó',
 'liquidação',
 'começ',
 'açõ',
 'tecnologia',
 'espalhando',
 'dinheiro',
 'digit',
 'bitcoin',
 'criptomoeda',
 'popular',
 'ether',
 'caíram',
 '50',
 'desd',
 'record',
 'final',
 'ano',
 'passado',
 'embora',
 'quas',
 'todo',
 'detentor',
 'criptomoeda',
 'sofrido',
 'declínio',
 'riqueza',
 'alguma',
 'maior',
 'visívei',
 'perda',
 'concentrada',
 'fundador',
 'exchang',
 'bolsa',
 'ond',
 'trader',
 'negociador',
 'compram',
 'vendem',
 'moeda',
 'digitai']

In [26]:
stemming_lancaster(texto4)

['fortuna',
 'bilionária',
 'criptomoeda',
 'aumentaram',
 'últimos',
 'doi',
 'ano',
 'desaparecendo',
 'apó',
 'liquidação',
 'começou',
 'açõ',
 'tecnolog',
 'espalhando',
 'dinheiro',
 'digit',
 'bitcoin',
 'criptomoed',
 'popul',
 'eth',
 'caíram',
 '50',
 'desd',
 'record',
 'fin',
 'ano',
 'passado',
 'embor',
 'quas',
 'todo',
 'det',
 'criptomoeda',
 'sofrido',
 'declínio',
 'riquez',
 'alguma',
 'mai',
 'visív',
 'perda',
 'concentrada',
 'fundad',
 'exchang',
 'bolsa',
 'ond',
 'trad',
 'negociad',
 'compram',
 'vendem',
 'moeda',
 'digita']

### 3.5 Lemmatização

Por fim, faremos a lemmatização utilizando a biblioteca Spacy. Para isso, primeiramente, carregaremos o modelo de língua do português que baixamos:

In [27]:
nlp = spacy.load('pt_core_news_sm')

Como o Spacy funciona de uma forma um pouco diferente, temos que carregar os nosso textos dentro do modelo de língua que definimos:

In [28]:
doc1= nlp(' '.join(texto1))
doc2= nlp(' '.join(texto2))
doc3= nlp(' '.join(texto3))
doc4= nlp(' '.join(texto4))

Por fim, podemos ver os lemmas das palavras, junto às classes gramaticais :)

In [29]:
 [(token.lemma_,token.pos_) for token in doc1]

[('evidenciase', 'NOUN'),
 ('leitor', 'PROPN'),
 ('bilionário', 'NOUN'),
 ('trilionários', 'ADJ'),
 ('comumente', 'ADV'),
 ('ter', 'VERB'),
 ('grande', 'ADJ'),
 ('capacidade', 'NOUN'),
 ('utilizar', 'VERB'),
 ('trajetória', 'NOUN'),
 ('profissional', 'ADJ'),
 ('criar', 'VERB'),
 ('legar', 'NOUN'),
 ('diverso', 'ADJ'),
 ('setores', 'ADJ'),
 ('economia', 'PROPN'),
 ('elevar', 'VERB'),
 ('consequentemente', 'ADV'),
 ('padrão', 'NOUN'),
 ('vidar', 'PROPN'),
 ('humanidade', 'PROPN'),
 ('propiciar', 'VERB'),
 ('oportunidade', 'NOUN'),
 ('enriquecimento', 'NOUN'),
 ('lícito', 'VERB'),
 ('inúmero', 'ADJ'),
 ('outro', 'DET'),
 ('indivíduo', 'PROPN'),
 ('disposto', 'VERB'),
 ('gerar', 'VERB'),
 ('valor', 'NOUN'),
 ('sociedade', 'PROPN'),
 ('bilionário', 'ADJ'),
 ('dever', 'AUX'),
 ('existir', 'VERB'),
 ('assim', 'ADV')]

In [30]:
 [(token.lemma_,token.pos_) for token in doc2]

[('enquanto', 'ADV'),
 ('bilião', 'PROPN'),
 ('ir', 'VERB'),
 ('miséria', 'NOUN'),
 ('punhado', 'VERB'),
 ('família', 'NOUN'),
 ('aumentar', 'VERB'),
 ('formidavelmente', 'ADV'),
 ('riqueza', 'NOUN'),
 ('realidade', 'ADJ'),
 ('mundo', 'NOUN'),
 ('imperialista', 'ADJ'),
 ('segundar', 'ADP'),
 ('índice', 'NOUN'),
 ('bloomberg', 'PROPN'),
 ('bilionário', 'PROPN'),
 ('patrimônio', 'PROPN'),
 ('500', 'NUM'),
 ('pessoa', 'NOUN'),
 ('rico', 'ADJ'),
 ('subir', 'VERB'),
 ('20', 'NUM'),
 ('primeiro', 'ADJ'),
 ('semana', 'NOUN'),
 ('abril', 'PROPN'),
 ('época', 'PROPN'),
 ('crise', 'PROPN'),
 ('imperialista', 'ADJ'),
 ('aprofundar', 'ADJ'),
 ('demonstrar', 'VERB'),
 ('riqueza', 'NOUN'),
 ('bilionário', 'NOUN'),
 ('mundo', 'VERB'),
 ('apresentar', 'VERB'),
 ('aumentar', 'NOUN'),
 ('durante', 'ADP'),
 ('crise', 'NOUN'),
 ('superprodução', 'NOUN'),
 ('imperialista', 'ADJ'),
 ('número', 'NOUN'),
 ('alarmante', 'ADJ'),
 ('17', 'NUM'),
 ('milhão', 'SYM'),
 ('americano', 'ADJ'),
 ('desempregar', 'VERB')

In [31]:
 [(token.lemma_,token.pos_) for token in doc3]

[('coronavírus', 'PROPN'),
 ('enxugar', 'VERB'),
 ('economia', 'NOUN'),
 ('milhão', 'NOUN'),
 ('família', 'ADJ'),
 ('rico', 'ADJ'),
 ('ano', 'NOUN'),
 ('terminar', 'VERB'),
 ('lucro', 'NOUN'),
 ('imenso', 'VERB'),
 ('maioria', 'NOUN'),
 ('apenas', 'ADV'),
 ('3', 'NUM'),
 ('20', 'NUM'),
 ('pessoa', 'NOUN'),
 ('rico', 'ADJ'),
 ('planeta', 'ADJ'),
 ('virar', 'VERB'),
 ('fortuna', 'NOUN'),
 ('diminuir', 'VERB'),
 ('n', 'ADP'),
 ('este', 'DET'),
 ('ano', 'NOUN'),
 ('conjuntar', 'ADJ'),
 ('grupar', 'PROPN'),
 ('bilionário', 'PROPN'),
 ('chegar', 'VERB'),
 ('final', 'NOUN'),
 ('2020', 'DET'),
 ('patrimônio', 'PROPN'),
 ('conjuntar', 'ADJ'),
 ('somar', 'VERB'),
 ('177', 'NUM'),
 ('trilhão', 'NUM'),
 ('dólar', 'NOUN'),
 ('883', 'NUM'),
 ('trilhões', 'NOUN'),
 ('real', 'ADJ'),
 ('aproximadamente', 'ADV'),
 ('valor', 'NOUN'),
 ('pib', 'PROPN'),
 ('brasileiro', 'ADJ'),
 ('cifrar', 'ADJ'),
 ('24', 'NUM'),
 ('superior', 'ADJ'),
 ('ano', 'NOUN'),
 ('atrás', 'ADV'),
 ('segundar', 'ADJ'),
 ('índice', '

In [32]:
 [(token.lemma_,token.pos_) for token in doc4]

[('fortuna', 'NOUN'),
 ('bilionário', 'NOUN'),
 ('criptomoedas', 'VERB'),
 ('aumentar', 'VERB'),
 ('último', 'ADJ'),
 ('dois', 'NUM'),
 ('ano', 'SYM'),
 ('desaparecer', 'VERB'),
 ('após', 'ADP'),
 ('liquidação', 'NOUN'),
 ('começar', 'VERB'),
 ('ações', 'NOUN'),
 ('tecnologia', 'NOUN'),
 ('espalhar', 'VERB'),
 ('dinheiro', 'NOUN'),
 ('digital', 'ADJ'),
 ('bitcoin', 'PROPN'),
 ('criptomoeda', 'PROPN'),
 ('popular', 'ADJ'),
 ('ether', 'PROPN'),
 ('cair', 'VERB'),
 ('50', 'NUM'),
 ('desde', 'ADP'),
 ('recorde', 'NOUN'),
 ('final', 'ADJ'),
 ('ano', 'NOUN'),
 ('passar', 'VERB'),
 ('embora', 'SCONJ'),
 ('quase', 'ADV'),
 ('todo', 'DET'),
 ('detentor', 'PROPN'),
 ('criptomoedas', 'VERB'),
 ('sofrer', 'VERB'),
 ('declínio', 'ADJ'),
 ('riqueza', 'VERB'),
 ('algum', 'DET'),
 ('maior', 'ADJ'),
 ('visível', 'ADJ'),
 ('perda', 'VERB'),
 ('concentrar', 'VERB'),
 ('fundador', 'NOUN'),
 ('exchanges', 'PROPN'),
 ('bolsar', 'PROPN'),
 ('onde', 'ADV'),
 ('traders', 'PROPN'),
 ('negociador', 'ADJ'),
 ('co

Vale ressaltar que as classes gramaticais são retiradas das [Universal Dependencies](https://universaldependencies.org/u/pos/index.html), então recomendo que deem uma olhada no site para entenderem as abreviações. 

E era esse o nosso pré-processamento por hoje, valeussss! 
