Método de aprendizado computacional para determinação de programas de pós-graduação com produção similar
========================================================================================================

Alexandre Prestes Uchoa

27 de dezembro de 2020

Rio de Janeiro, RJ, Brasil

**Sumário**
===========

[Método de aprendizado computacional para determinação de programas de
pós-graduação com produção similar
2](#método-de-aprendizado-computacional-para-determinação-de-programas-de-pós-graduação-com-produção-similar)

[Etapas do processo de trabalho 4](#etapas-do-processo-de-trabalho)

[Processamento dos textos 4](#processamento-dos-textos)

[Representação distribuída dos textos
5](#representação-distribuída-dos-textos)

[Cálculo da similaridade entre PPGs
7](#cálculo-da-similaridade-entre-ppgs)

[Percentis de similaridades 9](#percentis-de-similaridades)

[Resultados 11](#resultados)

[Descrição de métodos e técnicas 15](#descrição-de-métodos-e-técnicas)

[Aprendizado de Máquina (ML) 15](#aprendizado-de-máquina-ml)

[Processamento de Linguagem Natural (PLN)
16](#processamento-de-linguagem-natural-pln)

[Mineração de Texto 16](#mineração-de-texto)

[Representação de distribuições de palavras (RDP)
17](#representação-de-distribuições-de-palavras-rdp)

[Representação de distribuições de textos completos
18](#representação-de-distribuições-de-textos-completos)

[Multidimensional Scaling (*MDS*) 19](#multidimensional-scaling-mds)

[Referências Bibliográficas 21](#referências-bibliográficas)

Etapas do processo de trabalho
==============================

Nessa seção, é apresentado o processo de trabalho que foi empregado para
prover à Diretoria de Avaliação da CAPES (DAV) indicadores não
subjetivos de casos de PPGs geograficamente próximos que produziram nos
últimos anos teses e dissertações em campos, temas, problemas e assuntos
com semelhança estatisticamente mensurável. Para a determinação desses
casos foi empregado um processo de trabalho que envolveu a combinação de
métodos e técnicas de aprendizado de máquina e sua aplicação à grandes
volumes de dados não estruturados em forma de texto livre. Tanto as
etapas desse processo de trabalho como as técnicas empregadas são
brevemente descritas ao longo do texto que se segue.

Processamento dos textos
------------------------

O primeiro passo consistiu em se escolher dados capazes de representar a
temática de cada PPG para que neles se pudesse buscar os casos com maior
coincidência. Os dados escolhidos foram as 463.164 mil teses e
dissertações defendidas ao longo de 2013 a 2018 por todos os 4.190 PPGs
que se encontravam ativos durante esse período (ver Tabela 1). As teses
e dissertações de cada PPG foram consideradas o conteúdo temático e
semântico capaz de melhor representar a vocação, objetivo e foco
investigativo e científico de cada PPG porque são intrinsecamente
concordantes com os interesses e formação de seus docentes orientadores,
e necessariamente alinhados com as respectivas linhas de pesquisa e
áreas de concentração. Nenhum conteúdo textual e semanticamente rico
disponível pode representar melhor as temáticas de interesse científico
de docentes e programas.

Apesar da boa qualidade dos metadados de teses e dissertações fornecidos
pela DAV, houve assim mesmo a necessidade de se realizar vários
procedimentos de limpeza, complementação, padronização e homogeneização
dos dados, além da verificação das relações de cada tese com os PPGs,
docentes e áreas corretas. As teses e dissertações sem metadados em
inglês tiveram que ser ignoradas. A escolha do inglês como língua dos
metadados (textos) utilizados se deveu ao fato de 1) os algoritmos e
pacotes de software para essa língua serem muito mais avançados e
precisos do que seus primos para o Português, e 2) pelo fato de modelos
semânticos criados a partir de textos em inglês permitirem a inclusão de
novos textos de outras fontes de qualidade (e com isso se obter um ganho
em precisão).

Utilizando pacotes de programas de **Processamento de linguagem
natural**, foram filtradas todas as palavras com significado relevante e
utilidade para a tarefa de determinação dos assuntos e temáticas dos
respectivos textos. As palavras mais relevantes e representativas (ex.:
frequentes, raras, sujeitos de orações etc.) foram então convertidas em
representações estatísticas e usadas para caracterizar cada tese e
dissertação, ao mesmo tempo em que se preservou a proximidade de
ocorrência de cada termo e suas ‘vizinhanças’. O princípio que rege essa
estratégia é que palavras que ocorrem dentro de orações próximas ou nas
mesmas orações invariavelmente pertencem ao mesmo assunto ou tema.
Especial cuidado foi dado para não se ignorar termos compostos com
significados relevantes para suas respectivas áreas de conhecimento
(ex.: Big Data para a computação).

Representação distribuída dos textos
------------------------------------

A segunda etapa consistiu na aplicação da técnica **Representações
distribuídas de textos completos** aos textos processados na etapa
anterior. Nela foram geradas representações espaciais distribuídas para
cada palavra, resumo de tese, dissertação e respectivos docentes
orientadores e PPGs. PPGs que não receberam uma representação espacial
própria foram somente aqueles que não estavam ativos no período
compreendido, não existiam antes de 2013, só passaram a existir após
2018, ou não possuíam teses e dissertações com metadados aproveitáveis,
i.e. legível, semanticamente correto e coerente, expressivo.

Em Aprendizado de Máquina, aprender ou gerar uma representação
distribuída é um conjunto de técnicas capaz de descobrir automaticamente
representações que podem ser usadas para a detecção ou a classificação
dos recursos a partir de dados brutos. Isso permite que uma máquina
aprenda os recursos (usando uma representação funcional própria) e os
use para executar uma tarefa específica. O aprendizado de representações
é motivado pelo fato de que as tarefas de aprendizado de máquina, como
classificação, geralmente requerem entradas que são matematicamente e
computacionalmente convenientes para serem processadas. No entanto,
dados do mundo real, como imagens, vídeo e textos, não são convenientes.
Para examiná-los e usá-los em algoritmos, é necessário que se descubram
representações coerentes para eles.

Uma representação distribuída é então, em síntese, um conjunto de
números que podem ser usados para representar o objeto (vídeo, texto,
imagem etc.) a partir do qual foi criada. No presente trabalho, as
representações aprendidas foram usadas como coordenadas em um espaço
multidimensional. Essa técnica de aprendizado capaz de produzir
representações distribuídas de palavras foi desenvolvida para se
determinar automaticamente sinônimos e antônimos, e recebeu o nome
**Representação distribuída de palavras.**

A técnica **Representações distribuídas de textos completos,**
efetivamente usada no presente trabalho, é uma derivação desta técnica e
guarda as mesmas propriedades que a original, como explicado por (LE;
MIKOLOV, 2014). Ela permite se determinar, em uma escala de 0 a 1, uma
medida da semelhança relativa entre dois agregados de palavras, ou
melhor, entre dois textos de qualquer tamanho. Outra característica
importante dessa técnica é que com ela se pode gerar representações
espaciais equivalentes às geradas para as palavras individuais dos
mesmos textos. Qualquer palavra ou agregado de palavras que compartilha
o mesmo espaço semântico do modelo que criou as representações pode ser
comparada e sua semelhança aferida. No presente trabalho, as
representações foram geradas para os agregados de palavras resultantes
da união dos textos dos títulos, resumos e palavras-chaves de cada tese
e dissertação, da união das teses e dissertações orientadas por cada
docente e de cada PPG.

Cabe ressaltar que cada representação de uma tese, dissertação, docente
ou PPG é totalmente independentemente e não influenciada por qualquer
taxonomia ou outro tipo de representação formal atribuída pelo homem e
externa ao modelo e aos textos processados, como área de avaliação, ou
UF, ou área de conhecimento. As representações mencionadas aqui, e
usadas no processo de trabalho, derivaram única e exclusivamente dos
textos (metadados dos títulos, resumos e palavras-chaves em inglês) das
teses, dissertações processadas.

O principal recurso criado e utilizado nessa etapa foi um modelo
probabilístico (mais especificamente, a rede neural) usado para geradas
as representações distribuídas correspondente a cada PPG. Essas
representações foram, por sua vez, interpretadas como coordenadas num
espaço abstrato criado pelo modelo. Coordenadas e representações
distribuídas têm aqui o mesmo significado. A esse espaço abstrato criado
pela reunião de todas as representações chamamos aqui de espaço
semântico, pois, em última instância, representa a semântica processada
de todos os textos aproveitados.

Cálculo da similaridade entre PPGs
----------------------------------

Como a representação de cada PPG ocupa uma posição dentro do espaço
semântico, usou-se uma das várias métricas de distância (Euclidiana)
para medir o afastamento entre essas posições. Essa distância foi
escolhida como o indicador de semelhança, ou melhor, de similaridade
semântica entre duas entidades. A unidade dessa distância não é
comparável a uma unidade convencional de espaço físico, como
centímetros, milímetros ou polegadas. Trata-se de uma medida válida
somente dentro desse espaço multidimensional hipotético criado pelo
modelo. Ela varia entre 0 e 1, ou entre 0% e 100% de similaridade.
Ilustrando, dois textos idênticos, que por isso têm coordenadas
idênticas de suas respectivas localizações dentro do espaço semântico,
terão a medida de similaridade igual a 1 (ou 100% coincidentes),
enquanto dois pontos totalmente opostos, ou seja, de dois textos de
significado absolutamente diferentes (se é que isso existe) terão uma
distância semântica de 0, ou seja, serão 0% semelhantes.

Foi então calculada a distância entre as representações (ou coordenadas)
de todos os PPG. Essa medida que, como já dito, corresponde à
similaridade entre as representações, foi usada no trabalho como o
principal indicador da probabilidade de semelhança temática entre cada
dupla de PPGs. Como resultado prático para o trabalho, os PPGs com
coordenadas (indicadas pelas representações) relativamente próximas
foram considerados semanticamente mais similares e os PPGs com
coordenadas relativamente distantes menos similares. Todas as distâncias
foram normalizadas para um valor entre 0 e 1. A medida de similaridade
(semântica) entre dois PPGs foi então obtida a partir do módulo de 1
menos a distância entre as coordenadas dos dois PPGs, como exibido em
(a):

**Similaridade = \| 1 – Distância entre representações \|** (a)

A validade do modelo criado e das representações geradas, primeiramente,
foi verificada empiricamente a partir da leitura de dezenas de resumos
de teses. A coerência entre textos com similaridade alta e sua relação
com as áreas de conhecimento dos respectivos PPGs também foi verificada.
Em seguida, a coerência entre as medidas de similaridade e as efetivas
semelhanças temáticas entre teses e PPGs foi submetida e atestada por
docentes especialistas de diferentes áreas de conhecimento.

Outra verificação realizada foi a contagem de termos técnicos (muitos
aproveitados das palavras-chaves das próprias teses) compartilhados
pelas teses com alta medida de similaridade entre si. Observou-se que as
teses de mesmos orientadores e mesmas linhas de pesquisa se localizavam
próximas (ou com alta similaridade) e compartilhavam um número
significativo de termos e sinônimos. Por fim, o modelo probabilístico
criado foi submetido a um teste padrão com vocabulário genérico
(Wordnet[1]) e obteve média de acerto superior ao baseline do estado da
arte nesse campo.

| **Área de Avaliação**                                            | **Número de PPGs** | **Número de teses/ dissertações** |
|------------------------------------------------------------------|--------------------|-----------------------------------|
| Administração Pública E De Empresas Ciências Contábeis E Turismo | 181                | 19.430                            |
| Antropologia / Arqueologia                                       | 30                 | 2.614                             |
| Arquitetura Urbanismo E Design                                   | 58                 | 5.587                             |
| Artes                                                            | 55                 | 6.015                             |
| Astronomia / Física                                              | 61                 | 6.467                             |
| Biodiversidade                                                   | 141                | 13.109                            |
| Biotecnologia                                                    | 61                 | 4.665                             |
| Ciência Da Computação                                            | 77                 | 10.268                            |
| Ciência De Alimentos                                             | 58                 | 5.413                             |
| Ciência Política E Relações Internacionais                       | 46                 | 3.688                             |
| Ciências Agrárias I                                              | 221                | 25.262                            |
| Ciências Ambientais                                              | 114                | 8.439                             |
| Ciências Biológicas I                                            | 63                 | 7.301                             |
| Ciências Biológicas Ii                                           | 72                 | 8.184                             |
| Ciências Biológicas Iii                                          | 34                 | 3.680                             |
| Ciências Da Religião E Teologia                                  | 21                 | 2.573                             |
| Comunicação E Informação                                         | 83                 | 7.787                             |
| Direito                                                          | 102                | 17.319                            |
| Economia                                                         | 67                 | 6.536                             |
| Educação                                                         | 169                | 28.918                            |
| Educação Física                                                  | 64                 | 6.967                             |
| Enfermagem                                                       | 73                 | 8.556                             |
| Engenharias I                                                    | 115                | 11.587                            |
| Engenharias Ii                                                   | 93                 | 11.459                            |
| Engenharias Iii                                                  | 126                | 15.551                            |
| Engenharias Iv                                                   | 84                 | 11.231                            |
| Ensino                                                           | 144                | 10.566                            |
| Farmácia                                                         | 64                 | 6.354                             |
| Filosofia                                                        | 44                 | 3.843                             |
| Geociências                                                      | 54                 | 5.205                             |
| Geografia                                                        | 64                 | 7.016                             |
| História                                                         | 71                 | 9.118                             |
| Interdisciplinar                                                 | 337                | 27.336                            |
| Linguística E Literatura                                         | 153                | 22.170                            |
| Matemática / Probabilidade E Estatística                         | 58                 | 8.602                             |
| Materiais                                                        | 35                 | 2.796                             |
| Medicina I                                                       | 99                 | 12.382                            |
| Medicina Ii                                                      | 100                | 10.686                            |
| Medicina Iii                                                     | 48                 | 4.130                             |
| Medicina Veterinária                                             | 77                 | 8.823                             |
| Nutrição                                                         | 27                 | 2.185                             |
| Odontologia                                                      | 98                 | 11.880                            |
| Planejamento Urbano E Regional / Demografia                      | 44                 | 3.392                             |
| Psicologia                                                       | 91                 | 11.081                            |
| Química                                                          | 70                 | 10.335                            |
| Saúde Coletiva                                                   | 88                 | 9.142                             |
| Serviço Social                                                   | 34                 | 3.128                             |
| Sociologia                                                       | 52                 | 6.372                             |
| Zootecnia / Recursos Pesqueiros                                  | 69                 | 8.016                             |
| **Total**                                                        | **4.190**          | **463.164**                       |

**Tabela 1**: Quantidade de PPGs e teses e dissertações por área de
avaliação.

Percentis de similaridades
--------------------------

A faixa de similaridades pode variar muito em razão da quantidade de
texto usada para representar cada entidade, no caso, PPGs, teses,
dissertações, áreas etc. Quanto menos a quantidade de texto envolvida,
maior a precisão das distâncias entre duas entidades, e mais próximas ou
distantes elas poderão estar. Exemplificando, para um PPG ser muito
semelhante a outro, seria necessário que os seus conteúdos textuais
fossem praticamente idênticos, o que não existe. As similaridades entre
palavras já pode ser muito alta, quanto maior for a semelhança de
significado e de emprego de ambas.

Visando facilitar a identificação dos casos de similaridade elevada ou
baixa, especificamente entre PPGs e respectivas produções, optou-se por
adotar percentis da faixa de similaridades encontradas entre essas
entidades. Similaridades mais baixas, entre as encontradas, correspondem
aos percentis mais baixos, enquanto as mais altas, aos percentis
superiores.

Resultados
==========

Foram dois os principais resultados apresentados ao final do trabalho. O
primeiro, consistiu na relação dos 4.190 PPGs acompanhados, cada um, do
PPG com produção mais similar a dele. Cada uma dessas duplas foi também
acompanhada dos decis a que sua similaridade mútua correspondia, suas
respectivas UFs, regiões, conceitos na última avaliação, município e
diversas outras informações úteis, como palavras-chave, palavras mais
relevantes, palavras mais frequentes, palavras mais exclusivas em sua
produção etc. A seguir, tem-se uma amostra das apresentações tabulares
em Tabela 2.

<img src="attachment:media/image1.png" style="width:6.1375in;height:2.33472in" />

**Tabela 2**: Casos de duplas de PPGs dentro do estado de São Paulo com
similaridade mútua (coluna SIMILARIDADE) dentro dos dois decis mais
altos (9 e 10), agrupados pela área de avaliação (coluna
nm\_area\_avaliacao) do PPG à esquerda.

Em Tabela 3, estão listados os casos de PPGs dentro de mesmas regiões
com similaridades mútuas dentro dos decis de 7 a 10, com a indicação de
quais regiões do Brasil ambos pertencem.

<img src="attachment:media/image2.png" style="width:6.1375in;height:3.33056in" />

**Tabela 3**: Casos de duplas de PPGs dentro de uma mesma região do
Brasil com similaridade mútua (coluna SIMILARIDADE) nos decide 7 a 10,
agrupados pela área de avaliação (coluna nm\_area\_avaliacao) do PPG à
esquerda.

O segundo resultado foi gerado na forma de um Jupyter Notebook[2]
elaborado de forma a conseguir gerar interativamente imagens gráficas
com a disposição espacial das representações semânticas dos PPGs (num
espaço reduzido de 3 dimensões). O objetivo foi proporcionar a
identificação mais rápida dos casos de PPGs mais similares entre si que
por meio de tabelas e planilhas.

<img src="attachment:media/image3.png" style="width:6.1375in;height:3.22403in" />**Figura
1.** Distribuição espacial em dimensionalidade reduzida de 300 para 3
dimensões dos PPGs da área de avaliação **Educação** situados no estado
de **São Paulo**. Cada ponto representa um PPG deste estado. A distância
física entre os pontos simula a similaridade semântica entre suas
respectivas produções. Quanto menor a distância física entre dois pontos
(ou PPGs), maior é a similaridade relativa. O diâmetro de cada ponto é
proporcional à quantidade de produção do respectivo PPG. As arestas
existentes indicam os casos de PPGs cujos outro PPG mais similar
pertence ao mesmo estado. Os pontos sem uma aresta têm como PPG mais
similar algum de outro estado.

<img src="attachment:media/image4.png" style="width:6.19648in;height:4.0283in" />

**Figura 2.** Distribuição espacial em dimensionalidade reduzida de 300
para 3 dimensões dos PPGs da área de avaliação **Medicina III** situados
no estado de **São Paulo**. Cada ponto representa um PPG deste estado. A
distância física entre os pontos simula a similaridade semântica entre
suas respectivas produções. Quanto menor a distância física entre dois
pontos (ou PPGs), maior é a similaridade relativa. O diâmetro de cada
ponto é proporcional à quantidade de produção do respectivo PPG. As
arestas existentes indicam os casos de PPGs cujos outro PPG mais similar
pertence ao mesmo estado. Os pontos sem uma aresta têm como PPG mais
similar algum de outro estado.

<img src="attachment:media/image5.png" style="width:6.11869in;height:2.67887in" />

**Figura 3.** Distribuição espacial em dimensionalidade reduzida de 300
para 2 dimensões dos PPGs da área de avaliação **Educação** situados na
região **Nordeste**. Cada ponto representa um PPG da área selecionada
nesta região. A distância física entre os pontos simula a similaridade
semântica entre suas respectivas produções. As medidas de similaridade
mútua estão indicadas em cada caso. Quanto menor a distância física
entre dois pontos (ou PPGs), maior é a similaridade relativa. O diâmetro
de cada ponto é proporcional à quantidade de produção do respectivo PPG.
As arestas existentes indicam os casos de PPGs que têm como outro PPG
mais similar um na mesma região. Os pontos sem uma aresta têm como PPG
mais similar algum de outra região do Brasil.

Descrição de métodos e técnicas
===============================

Aprendizado de Máquina (ML)
---------------------------

Também chamado aprendizado automático, essa família de métodos forma um
subcampo da Engenharia e da Ciência da Computação que evoluiu a partir
dos estudos de reconhecimento de padrões e da teoria do aprendizado
computacional em inteligência artificial[3]. Os algoritmos que pertencem
a esse subcampo se caracterizam por construir modelos a partir de
entradas amostrais de dados que têm como propósito fazer previsões ou
apoiar decisões que sejam amparadas ou guiadas exclusivamente pelos
dados fornecidos. Ou seja, sem nenhuma subjetividade introduzida por
indivíduos. Essas técnicas se opõem aos métodos que, por exemplo, seguem
instruções e regras programadas por humanos.

O aprendizado de máquina tem como uma de suas características marcantes
a extração de regras e padrões a partir de grandes conjuntos de dados.
Quanto maior o conjunto e sua qualidade, maior tende a ser a precisão
dos modelos produzidos. O aprendizado de máquina é usado em uma
variedade de tarefas computacionais onde criar e programar algoritmos
explícitos é impraticável. Exemplos de aplicações incluem filtragem de
spam, reconhecimento ótico de caracteres (OCR), processamento de
linguagem natural, motores de busca, diagnósticos médicos,
bioinformática, reconhecimento de fala, reconhecimento de escrita, visão
computacional e locomoção de robôs.

No campo da análise de dados, o aprendizado de máquina é um método usado
para planejar modelos complexos e algoritmos destinados à análise
preditiva, ou seja, para permitir que pesquisadores, cientistas de
dados, engenheiros, e analistas possam, a partir da descoberta de
relações, padrões e tendências não evidentes (usualmente pelo volume de
dados envolvidos), "produzir decisões e resultados confiáveis, e que
possam ser repetidos" (FRIEDMAN, 1998).

Processamento de Linguagem Natural (PLN)
----------------------------------------

Processamento de língua natural (PLN) é uma subárea da ciência da
computação, inteligência artificial e da linguística que estuda os
problemas da geração e compreensão automática de línguas humanas
naturais (WIKIPEDIA.ORG, 2020).

Mineração de Texto
------------------

A mineração de texto foi outra técnica empregada nesse trabalho. Seu
emprego teve o intuito de, ao converter texto livre em representações
aproveitáveis pelas técnicas de aprendizado de máquina, descrito na
seção anterior. O objetivo maior da mineração de texto foi transformar o
texto extraído das teses e dissertações em dados próprios às análises
preditivas dos métodos de aprendizado de máquina. Essa transformação
recorreu à aplicação de recursos, i.e., programas e algoritmos de
processamento de linguagem natural (PLN).

A mineração de texto, conhecida também como mineração de dados textuais,
busca extrair informações úteis de um texto. Úteis, no presente caso,
com o sentido de aproveitáveis por outros métodos, como padrões ou
tendências. Geralmente, a mineração de texto, com o apoio do PLN,
procede com a identificação das estruturas gramatical e semântica dos
textos, o que inclui o reconhecimento de características linguísticas
inerentes à língua dos textos usados. A análise dos textos,
invariavelmente, recorre à análise lexical, o que permite o
reconhecimento de palavras e, por conseguinte, o estudo, por exemplo, da
frequência de distribuição de palavras num texto, o reconhecimento de
padrões de escrita (arranjo de palavras), identificação/anotação.

Entre as tarefas em que a mineração de texto é mais usada estão
categorização e agrupamento de textos, reconhecimento de
conceitos/entidades (ex.: nome de personalidades, cidades, produtos),
produção de taxonomias, produção de resumos e modelagem de relações
entre entidades. Uma aplicação comum é examinar um conjunto de
documentos escritos em uma determinada língua e, ou modelar o conjunto
de documentos para fins de classificação preditiva ou preencher um banco
de dados ou índice de pesquisa com as informações extraídas
(WIKIPEDIA.ORG, 2019).

Representação de distribuições de palavras (RDP)
------------------------------------------------

Recentemente, houve muitos avanços no desenvolvimento de técnicas para a
geração modelos preditivos para uso com linguagem. Uma dessas técnicas,
empregada nesse trabalho, consiste em se gerar representações
distribuídas para as palavras de um texto na forma de vetores de valores
contínuos que, de forma muito simplificada, podem ser interpretadas como
localizações em um espaço semântico. Trata-se de modelos de linguagem
baseados em rede neural (MLRN). Um dos que se tornou popular foi o
proposto por (BENGIO et al., 2003). Nele, uma rede neural formada por
uma camada de projeção linear e uma camada oculta não-linear são
utilizadas para gerar a representação distribuída das palavras.

Uma outra arquitetura importante de MLRN, e que foi especificamente a
utilizada neste trabalho, foi a apresentada por (MIKOLOV et al., 2013),
pela qual primeiro se ‘aprende’ os vetores representando palavras
utilizando por meio de rede neural com uma única camada oculta. Essas
representações vetoriais, que correspondem aos pesos da camada oculta
dessa rede neural, são obtidas a partir da otimização de uma função de
custo. O diferencial dessa técnica é que os vetores aprendidos já são
úteis, mesmo sem se construir o modelo de rede neural por completo.

O importante a se saber sobre essa técnica é que as representações
distribuídas[4] obtidas funcionam com qualquer representação de
linguagem cuja formação possa ser formulada como uma tarefa de
otimização de modelo de probabilidade. As representações distribuídas
fornecem uma localização para cada palavra de um texto dentro de um
espaço de representação latente de *k* dimensões, sendo k o número de
elementos da camada oculta da rede neural do MLRN. Esses locais no
espaço de dimensão *k* são aprendidos ao se otimizar, de maneira
aproximada, uma função de custo que considera a probabilidade de
ocorrência de cada palavra no texto a partir da probabilidade de suas
palavras vizinhas.

As representações de palavras calculadas usando a técnica acima
codificam explicitamente muitas regularidades e padrões linguísticos que
estão presentes nos textos e, em última instancia, na própria língua. O
que é surpreendentemente é que muitos desses padrões podem ser operados
se fazendo uso de álgebra linear. Por exemplo, o resultado da subtração
da representação vetorial da palavra "Espanha" pela da palavra "Madrid”
depois adicionada da representação da palavra "França" dá uma nova
representação que é surpreendentemente próxima, ou similar, à de
"Paris". A simples adição de representações ou, nesse caso, dos
respectivos vetores é capaz de produzir resultados significativos e
muito úteis. Por exemplo, vec("Rússia") + vec("rio") gera um vetor que
se localiza muito perto do vec("Rio Volga"), e vec("Alemanha") +
vec("capital") gera outro que se localiza muito próximo do vec(“Berlin”)
.

No entanto, essa técnica não permite que se gere representações de
frases idiomáticas novas pela simples adição das representações das
palavras individuais. Por exemplo, "Boston Globe" é um jornal. Tanto no
mundo real como no espaço vetorial criado, essa expressão é uma entidade
em si, e não a combinação dos significados isolados de "Boston" e de
"Globe". Ou seja, a representação da expressão não se obtém por meio da
combinação das representações isoladas das 2 palavras. É preciso que o
modelo seja treinado para reconhecer a expressão como uma entidade
própria, com uma representação vetorial própria.

Representação de distribuições de textos completos
--------------------------------------------------

Pesquisadores começaram então a procurar maneiras de adaptar as
representações distribuídas de palavras para criar representações de
textos completos, ou grandes volumes de textos, dada sua utilidade para,
por exemplo, classificação de documentos. A forma proposta por (LE;
MIKOLOV, 2014), e usada neste trabalho, consiste em se adicionar rótulos
aos documentos e deixá-los influenciar a distribuição de probabilidade
das demais palavras, como se cada rótulo estivesse próximo de todas as
palavras dos documentos em que figuram. O produto é uma representação
vetorial que localiza cada documento dentro do mesmo espaço vetorial
compartilhado com as representações de suas palavras. Essas
representações podem então ser usadas nas mesmas operações algébricas
ilustradas em **Representação de distribuições de palavras**, mas também
como entrada para vários outros algoritmos e técnicas, como se verá
adiante.

Partiu-se da premissa que PPGs que investigam e produzem pesquisa
(representadas por suas teses e dissertações) nos mesmos campos ou em
campos muito similares, compartilham um mesmo vocabulário próprio, ou
seja, termos e palavras cujos conceitos caracterizam o domínio de
conhecimento a que pertencem, de uma forma particular. Há termos que
podem ser considerados muito característicos da Astronomia porque
dificilmente o encontraremos em textos científicos de qualquer outra
área de conhecimento, e vice-versa. Esses termos estarão muito próximos
no espaço semântico de outros junto aos quais frequentemente aparecem
nos textos. Por outro lado, há termos frequentes que aparecem em todas
as áreas de conhecimento. Esses termos acabam por receber representações
que os colocam ao mesmo tempo equidistantes, e por isso distantes dos
temas mais especializados. Significa que termos altamente
especializados, específicos de uma área de conhecimento, são capazes de
proporcionar o rápido reconhecimento da área a que pertence um texto
pois ocupam uma mesma região no espaço semântico criado por tais
modelos.

A técnica de (LE; MIKOLOV, 2014) usada neste trabalho, é, em resumo, uma
técnica de representação distribuída não supervisionada (não assistida
por humanos e classificações previas por eles providas) que aprende
representações vetoriais de textos dentro do mesmo espaço ocupado pelas
representações das suas palavras. Lembrando que essa representação de
textos não é resultado de uma simples operação (ex.: média ou soma) das
representações de suas palavras componentes, mas uma distribuição de
probabilidade em si.

Multidimensional Scaling (*MDS*)
--------------------------------

O escalonamento multidimensional (MDS) refere-se a um conjunto de
técnicas de ordenação usadas para a visualização de informações, em
particular, para exibir informações contidas em uma matriz de
distâncias. É, em síntese, uma forma de redução de dimensionalidade não
linear. É também um meio de visualizar o nível de similaridade de casos
individuais dentro de um conjunto de dados.

Em termos mais técnicos, dada uma matriz com as distâncias entre cada
par de objetos em um conjunto, e um número escolhido de dimensões N, um
algoritmo MDS coloca cada objeto no espaço N-dimensional de forma que as
distâncias entre os objetos sejam preservadas da melhor forma possível.
Por essa razão, o MDS é usado para traduzir "informações sobre as
'distâncias' de pares entre um conjunto de n objetos ou indivíduos" em
uma configuração de n pontos mapeados em um espaço cartesiano abstrato.
Esses espaços de destino podem ter qualquer dimensionalidade. No
entanto, usualmente se opta por 2 ou 3 dimensões para ser mais
facilmente assimilável e compatível com programas de geração de imagens.

Referências Bibliográficas
==========================

AGGARWAL, C. C.; ZHAI, C. (EDS.). **Mining Text Data**. Boston, MA:
Springer US, 2012. BENGIO, Y. et al. **A neural probabilistic language
model.** **The Journal of Machine Learning Research**, v. 3, p.
1137–1155, 2003. BERKHIN, P. **A survey of clustering data mining
techniques**, 2006. FRIEDMAN, J. H. **Data Mining and Statistics: What’s
the connection?** **Computing science and statistics**, v. 29, n. 1, p.
3–9, 1998. MIKOLOV, T. et al. **Distributed representations of words and
phrases and their compositionality**. Advances in neural information
processing systems. **Anais**...2013 Disponível em:
\<http://papers.nips.cc/paper/5021-distributed-representations\>. Acesso
em: 9 nov. 2016WIKIPEDIA.ORG. **Mineração de texto**. Disponível em:
\<https://pt.wikipedia.org/w/index.php?title=Minera%C3%A7%C3%A3o\_de\_texto&oldid=56757932\>.
Acesso em: 5 ago. 2020. WIKIPEDIA.ORG. **Processamento de linguagem
natural**. Disponível em:
\<https://pt.wikipedia.org/w/index.php?title=Processamento\_de\_linguagem\_natural&oldid=57251708\>.
Acesso em: 6 ago. 2020. WIKIPEDIA.ORG. **Clustering**. Disponível em:
\<https://pt.wikipedia.org/w/index.php?title=Clustering&oldid=58054039\>.
Acesso em: 6 ago. 2020. WITTEN, I. H. **Text mining. Practical handbook
of Internet computing**, p. 14–1, 2005. **int arXiv:1301.3781**. 2013b.

MIKOLOV. T.; YIH. W.; ZWEIG. G. **Linguistic Regularities in Continuous
Space Word Representations.** HLT-NAACL. 2013

PENNINGTON. J.; SOCHER. R.; MANNING. C. D. **Glove: Global Vectors for
Word Representation.** EMNLP. 2014

SOCHER. R. et al. **Reasoning with neural tensor networks for knowledge
base completion**. Advances in Neural Information Processing Systems.
2013.

VELARDI. P.; MISSIKOFF. M.; BASILI. R. **Identification of Relevant
Terms to Support the Construction of Domain Ontologies**. Proceedings of
the Workshop on Human Language Technology and Knowledge Management -
Volume 2001.

[1] <https://wordnet.princeton.edu/>

[2] https://jupyter.org/

[3] Definição extraída de
<https://www.britannica.com/technology/machine-learning>

[4] O termo “distribuído” serve aqui para caracterizar a natureza dos
vetores de valores contínuos que representam a distribuição de
probabilidade de cada palavra em relação às palavras vizinhas dentro de
uma janela de tamanho pré-definido.