<a href="https://colab.research.google.com/github/thalesvoltz/text_mining_R/blob/main/C%C3%B3pia_de_BA_Aplicado_ao_TM_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Disciplina de Business Analytics Aplicado ao Text Mining


# Aula # 01 - Visão geral da Mineração de Textos

#### Prof. Leandro Krug Wives

Professor Titular do Instituto de Informática da UFRGS
- http://www.inf.ufrgs.br/~wives
- <font color=LightSteelBlue>leandro.wives@ufrgs.br </font>

---

# Contexto e Necessidade

**Necessitamos de dados, informações para tomarmos decisões** de maneira mais  assertiva e consistente, **minimizando riscos**.

Porém, **temos acesso a uma vasta quantidade de dados**, seja na Web ou nos computadores empresariais e pessoais.

O quadro seguinte apresenta alguns números de serviços que encontramos na Web, para que tenhamos uma ideia desse volume de dados:

<center>

| Serviço | Dados |
|---|---|
| Buscas Google | ~ 3.5 bilhões de consultas / dia	|
| E-mails | ~ 156 milhões / dia |
| Tweets | ~ 500 milhões / dia |
| Posts em Blogs | ~ 5.5 milhões / dia |

<font size=1>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Fonte: https://www.internetlivestat.com/. Acesso em: 17/03/2023.</font>

</center>

Podemos perceber que **nossa capacidade de armazenamento de informações é muito maior do poderíamos consumir durante toda a nossa vida**!

Mas qualquer informação serve?

De qualquer forma:
- as tecnologias e serviços que desenvolvemos ou consumimos produzem e propagam ainda mais a informação;
- continuamos perdidos (*lost in the cyberspace*) e sobrecarregados por uma imensa quantidade de informação;
- não somos capazes de administrar a quantidade de informações que é gerada.

Uma alternativa consiste em **usarmos computadores, algoritmos e mecanismos de análise e mineração de dados para nos ajudar** a analisar essa massa de dados e resolver nossos problemas!

# Mas o que é mineração afinal?

<blockquote><font size=2>É o processo de <strong>extração de informação implícita</strong>, previamente desconhecida e potencialmente útil, sendo uma etapa do processo maior, de Descoberta de Conhecimento (Fayyard et al., 1996).</blockquote></font>

Temos diferentes tipos de mineração: Mineração de Dados (**Data Mining**); Mineração de Textos (**Text Mining**); e Mineração na Web (**Web Mining**).

Nesta disciplina, vamos estudar a Mineração de Textos (Text Mining).

Mas antes, vamos revisitar alguns conceitos...

# Conceitos Relevantes

Antes de seguirmos adiante, vamos rever alguns conceitos importantes na área: Descoberta de Conhecimento e Análise de Dados.

## Descoberta de Conhecimento

Descobrir conhecimento significa <strong>identificar/receber informação relevante</strong> e poder <strong>computá-la</strong> e <strong>agregá-la</strong> ao seu <strong>conhecimento prévio</strong>, mudando o estado de conhecimento atual, a fim de <strong>resolver algum problema</strong> ou situação.

Observações:
- é um processo complexo e subjetivo;
- depende de um problema a ser resolvido (foco, objetivo);
- dependente de um indivíduo (ou grupo) e de sua percepção sobre o problema,  capacidade de receber e computar informações relevantes, e capacidade de tomar decisões adequadas com base no seu estado de conhecimento.

## Análise de Dados

Ciência de examinar dados brutos com o objetivo de encontrar padrões e tirar conclusões sobre essa informação, aplicando um processo algorítmico ou mecânico para obter informações.

Pode ser de vários tipos:

- descritiva (exploratória): consiste no uso de métricas e técnicas estatísticos para entender e explicar como os dados são;
- preditiva: uso de modelos estatísticos para avaliar como serão os dados no futuro (ou como se comportam em condições diversas);
- prescritiva: uso de ferramentas estatísticas (descritivas e preditivas), alinhadas à gestão de negócios, para gerar recomendações de ações a serem tomadas de forma (semi)automática para otimizar estratégias adotadas pelas empresas e alcançar melhores resultados no menor espaço de tempo;
- diagnóstica: busca compreender as causas de um evento, ou seja, responder "quem?", "quando?", "onde?", "como?", "por que?".

# Mineração de Textos

O texto é a forma mais predominante de dados disponível. Já na década de 90, Tan (1999) indicava que 80% das informações estavam nesse formato. Portanto, é relevante sabermos analisar, minerar esse tipo de dado.

Mineração de Textos pode ser compreendida como o processo de derivar, obter (automaticamente) informações de alta qualidade a partir de dados textuais.

A linguagem em si é vista como um dado (*Language as Data*):

<blockquote><font size=2>A linguagem consiste em dados não estruturados produzidos por pessoas para serem compreendidos por outras pessoas. Por outro lado, os dados estruturados ou semiestruturados incluem campos ou marcações que permitem que sejam facilmente analisados por um computador. No entanto, embora não apresentem uma estrutura facilmente legível por máquina, os dados não estruturados não são aleatórios. Pelo contrário, são regidos por propriedades linguísticas que os tornam muito compreensíveis para outras pessoas (Begford, Bilbro e Ojeda, 2018).</font></blockquote>

A mineração de textos possui diversas aplicações, entre elas:
- filtragem de SPAM
- análise de opiniões, sentimentos, polaridade
- análise de mídias sociais
- análise forense



## Etapas abstratas

- Coleta de Dados;
- Pré-processamento e limpeza de dados;
- Representação do conteúdo;
- Mineração propriamente dita;
- Visualização / compreensão do resultado.


# Pré-processamento e limpeza de dados textuais <img src="https://media.giphy.com/media/kXBVtKjLxINji/giphy.gif" width="120" height="120" align="right"/>
- **Tokenização (identificação de termos /palavras)**
- Minimização de erros ortográficos
- **Eliminação de stopwords (palavras-vazias)**
- ***Stemmização* / lematização (minimização de variações morfológicas)**
- Identificação de entidades mencionadas/nomeadas
- Resolução de anáforas

## Vamos praticar?

Para identificarmos os elementos textuais (palavras ou termos), podemos fazer uso da biblioteca [`tokenizers`](https://github.com/ropensci/tokenizers). Ele oferece um conjunto de funções que convertem textos em `tokens`, de diferentes maneiras.

Segue um exemplo:

In [1]:
if(!require('tokenizers')) install.packages('tokenizers')

library(tokenizers)

text <- paste0(
  "Violência simbólica é um conceito social elaborado pelo\n",
  "sociólogo francês Pierre Bourdieu, o qual aborda uma forma\n",
  "de violência exercida pelo corpo sem coação física, causando\n",
  "danos morais e psicológicos.")

tokenize_words(text) # converte o texto em uma lista de tokens

Loading required package: tokenizers

“there is no package called ‘tokenizers’”
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘Rcpp’, ‘SnowballC’




Vamos melhorar colocando o resultado em um `data frame` (veja linha 11 do código seguinte).

Um `data frame` é uma estrutura de dados que nos facilitará a manipulação no futuro.

In [2]:
if(!require('tokenizers')) install.packages('tokenizers')

library(tokenizers)

text <- paste0(
  "Violência simbólica é um conceito social elaborado pelo\n",
  "sociólogo francês Pierre Bourdieu, o qual aborda uma forma\n",
  "de violência exercida pelo corpo sem coação física, causando\n",
  "danos morais e psicológicos.")

lst_words <- tokenize_words(text)

df_words <- data.frame(Reduce(rbind, lst_words)) # Cria um data frame contendo uma coluna com os tokens

head(df_words,n=10) # lista 10 primeiras

Unnamed: 0_level_0,Reduce.rbind..lst_words.
Unnamed: 0_level_1,<chr>
1,violência
2,simbólica
3,é
4,um
5,conceito
6,social
7,elaborado
8,pelo
9,sociólogo
10,francês


Vamos trocar o nome da coluna para algo mais significativo (linha 13):

In [3]:
if(!require('tokenizers')) install.packages('tokenizers')

library(tokenizers)

text <- paste0(
  "Violência simbólica é um conceito social elaborado pelo\n",
  "sociólogo francês Pierre Bourdieu, o qual aborda uma forma\n",
  "de violência exercida pelo corpo sem coação física, causando\n",
  "danos morais e psicológicos.")

lst_words <- tokenize_words(text)

df_words <- data.frame(Reduce(rbind, lst_words))

names(df_words)[names(df_words) == "Reduce.rbind..lst_words."] <- "termo" # troca o nome da coluna

head(df_words,n=10)

Unnamed: 0_level_0,termo
Unnamed: 0_level_1,<chr>
1,violência
2,simbólica
3,é
4,um
5,conceito
6,social
7,elaborado
8,pelo
9,sociólogo
10,francês


Ao invés de usarmos os comandos mais básicos da `linguagem R`, podemos usar a biblioteca [`dplyr`](https://dplyr.tidyverse.org/). Ela fornece um conjunto de verbos (comandos) que facilitam a manipulação de dados, pois são mais abstratos (próximos do homem) e expressivos, tornando o código mais curto. São eles: `mutate`, `select`, `filter`, `summarise` e `arrange`.

Além disso, ao invés de usarmos `data frames` tradicionais, vamos usar [`tibbles`](https://r4ds.had.co.nz/tibbles.html), que são mais amigáveis e simplificados, mas que servem bem ao nosso propósito.

Veja como fica o código com esses elementos:

In [5]:
if(!require('dplyr')) install.packages('dplyr')
if(!require('tokenizers')) install.packages('tokenizers')

library(dplyr, warn.conflicts = FALSE)
library(tokenizers)

text <- paste0(
  "Violência simbólica é um conceito social elaborado pelo\n",
  "sociólogo francês Pierre Bourdieu, o qual aborda uma forma\n",
  "de violência exercida pelo corpo sem coação física, causando\n",
  "danos morais e psicológicos.")

lst_words <- tokenize_words(text)

# usa dplyr ao invés de R puro:
df_words <- data.frame(Reduce(rbind, lst_words)) %>%
  rename("termo" = "Reduce.rbind..lst_words.")

tb_words <- as_tibble(df_words)  # Converte o data frame em um tibble
tb_words <- mutate(tb_words, termo = as.character(termo)) # muda o tipo da coluna "termo" para "caracter"

head(tb_words,n=10)

termo
<chr>
violência
simbólica
é
um
conceito
social
elaborado
pelo
sociólogo
francês


Antes de seguirmos adiante, vamos experimentar outras funções de tokenização!

---

**Exercício 1**: experimentando diferentes funções de tokenização.

Para este exercício, você necessitará de um texto de entrada. Você pode usar o mesmo texto fornecido pelo professor nos exemplos anteriores ou pode definir um texto próprio, usando a mesma sintaxe ou de outra forma que você conheça. Pode ainda carregar um texto de um arquivo ou da web (p.ex., usando a biblioteca `gutemberg`).

De posse do texto, crie três *scripts*, cada um usando uma função de tokenização diferente (p.ex., `tokenize_ngrams`, `tokenize_character_shingles`, `tokenize_characters`). Você deve ilustrar os termos que foram identificados por cada função, colocando-os em um `tibble`.

Para obter a lista completa de funções de tokenização disponíveis, consulte a página da biblioteca [`tokenizers`](https://github.com/ropensci/tokenizers).

Script 01 - 'Tokezine_Ngrams'

In [None]:
if(!require('tokenizers')) install.packages('tokenizers')

library(tokenizers)

# Texto de entrada
text <- paste0(
  "Violência simbólica é um conceito social elaborado pelo\n",
  "sociólogo francês Pierre Bourdieu, o qual aborda uma forma\n",
  "de violência exercida pelo corpo sem coação física, causando\n",
  "danos morais e psicológicos.")

# Tokenização utilizando tokenize_ngrams
lst_ngrams <- tokenize_ngrams(text, n = 1)

# Criando um tibble com os termos identificados
tb_ngrams <- tibble(termo = lst_ngrams)

# Visualizando os primeiros termos identificados
head(tb_ngrams, n = 10)


Script 02 - 'tokenize_character_shingles'

In [None]:
if(!require('tokenizers')) install.packages('tokenizers')

library(tokenizers)

# Texto de entrada
text <- paste0(
  "Violência simbólica é um conceito social elaborado pelo\n",
  "sociólogo francês Pierre Bourdieu, o qual aborda uma forma\n",
  "de violência exercida pelo corpo sem coação física, causando\n",
  "danos morais e psicológicos.")

# Tokenização utilizando tokenize_character_shingles
lst_shingles <- tokenize_character_shingles(text, n = 2)

# Criando um tibble com os termos identificados
tb_shingles <- tibble(termo = lst_shingles)

# Visualizando os primeiros termos identificados
head(tb_shingles, n = 10)

Script 03 - Utilizando 'tokenize_characters'

In [None]:
if(!require('tokenizers')) install.packages('tokenizers')

library(tokenizers)

# Texto de entrada
text <- paste0(
  "Violência simbólica é um conceito social elaborado pelo\n",
  "sociólogo francês Pierre Bourdieu, o qual aborda uma forma\n",
  "de violência exercida pelo corpo sem coação física, causando\n",
  "danos morais e psicológicos.")

# Tokenização utilizando tokenize_characters
lst_characters <- tokenize_characters(text)

# Criando um tibble com os termos identificados
tb_characters <- tibble(termo = lst_characters)

# Visualizando os primeiros termos identificados
head(tb_characters, n = 10)

---
Outra etapa comum consiste na remoção das *stopwords* (palavras-vazias), que são palavras normalmente utilizadas para conectar elementos. São, basicamente, preposições, artigos, pronomes, entre outros elementos, alguns específicos de domínio.

A seguir, vamos carregar a lista de `stopwords` definidas pela comunidade, disponível na biblioteca `tm`, acrescentar algumas palavras e depois listá-las na tela:

In [None]:
# A biblioteca tidyverse inclui a dplyr e outras relevantes para o processamento de textos
if(!require('tidytext')) install.packages('tidytext')
if(!require('tokenizers')) install.packages('tokenizers')
if(!require('tm')) install.packages('tm')

library(tidytext)
library(tokenizers)
library(tm)

# define lista de stopwords
# carrega lista padrão da comunidade e acrescenta as palavras 'é' e 'um'
# acrescente outras se considerar relevante
custom_stop_words <- tibble(word = append(tm::stopwords('portuguese'), list('é', 'um')))
custom_stop_words <- mutate(custom_stop_words, word = as.character(word))

custom_stop_words$word

Loading required package: tidytext

“there is no package called ‘tidytext’”
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependency ‘janeaustenr’


Loading required package: tm

“there is no package called ‘tm’”
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘NLP’, ‘slam’, ‘BH’


Loading required package: NLP



Agora que já temos a lista, podemos verificar se alguma delas se encontra no nosso texto:

In [None]:
if(!require('tidyverse')) install.packages('tidyverse')
if(!require('tidytext')) install.packages('tidytext')
if(!require('tokenizers')) install.packages('tokenizers')
if(!require('tm')) install.packages('tm')

library(tidyverse)
library(tidytext)
library(tokenizers)
library(tm)

# define lista de stopwords
custom_stop_words <- tibble(word = append(tm::stopwords('portuguese'), list('é', 'um')))
custom_stop_words <- mutate(custom_stop_words, word = as.character(word))

# define o texto a ser processado e cria um tibble correspondente
text <- paste0(
  "Violência simbólica é um conceito social elaborado pelo\n",
  "sociólogo francês Pierre Bourdieu, o qual aborda uma forma\n",
  "de violência exercida pelo corpo sem coação física, causando\n",
  "danos morais e psicológicos.")

lst_words <- tokenize_words(text)

df_words <- data.frame(Reduce(rbind, lst_words)) %>%
  rename("termo" = "Reduce.rbind..lst_words.")

tb_words <- as_tibble(df_words)
tb_words <- mutate(tb_words, termo = as.character(termo))

# verifica se algum termo encontra-se na lista de stopwords e acrescenta uma coluna informando se são ou não stopwords
df_words <- df_words %>% mutate(stopword = ifelse((termo %in% custom_stop_words$word), TRUE,FALSE))
df_words

Loading required package: tidyverse

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mggplot2  [39m 3.4.4     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mlubridate[39m 1.9.3     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mpurrr    [39m 1.0.2     [32m✔[39m [34mtidyr    [39m 1.3.1
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mggplot2[39m::[32mannotate()[39m masks [34mNLP[39m::annotate()
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m     masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m        masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


termo,stopword
<chr>,<lgl>
violência,False
simbólica,False
é,True
um,True
conceito,False
social,False
elaborado,False
pelo,True
sociólogo,False
francês,False


In [None]:
# quantitativo por tipo
df_words %>% count(stopword)

stopword,n
<lgl>,<int>
False,20
True,10


In [None]:
# Filtra só as que são stopwords
df_words %>% filter(stopword == TRUE)

termo,stopword
<chr>,<lgl>
é,True
um,True
pelo,True
o,True
qual,True
uma,True
de,True
pelo,True
sem,True
e,True


In [None]:
# Filtra as que não são stopwords
df_words %>% filter(stopword == FALSE)

termo,stopword
<chr>,<lgl>
violência,False
simbólica,False
conceito,False
social,False
elaborado,False
sociólogo,False
francês,False
pierre,False
bourdieu,False
aborda,False


Vamos efetivamente remover as `stopwords` do `tibble`, para que possamos seguir adiante no processamento:

In [None]:
if(!require('tidyverse')) install.packages('tidyverse')
if(!require('tidytext')) install.packages('tidytext')
if(!require('tokenizers')) install.packages('tokenizers')
if(!require('tm')) install.packages('tm')

library(tidyverse)
library(tidytext)
library(tokenizers)
library(tm)

# define lista de stopwords
custom_stop_words <- tibble(word = append(tm::stopwords('portuguese'), list('é', 'um')))
custom_stop_words <- mutate(custom_stop_words, word = as.character(word))

# define o texto a ser processado e cria um tibble correspondente
text <- paste0(
  "Violência simbólica é um conceito social elaborado pelo\n",
  "sociólogo francês Pierre Bourdieu, o qual aborda uma forma\n",
  "de violência exercida pelo corpo sem coação física, causando\n",
  "danos morais e psicológicos.")

lst_words <- tokenize_words(text)

df_words <- data.frame(Reduce(rbind, lst_words)) %>%
  rename("termo" = "Reduce.rbind..lst_words.")

tb_words <- as_tibble(df_words)
tb_words <- mutate(tb_words, termo = as.character(termo))

# cria uma lista das palavras em 'tb_words' que não pertencem à lista de stopwords
# para detalhes do 'anti_join' e outras possibilidades, ver
# https://dplyr.tidyverse.org/reference/filter-joins.html
tb_final_words <- tb_words %>%
  anti_join(custom_stop_words, by=join_by(termo==word))

head(tb_final_words, n=10) # mude para mostrar mais do que 10

termo
<chr>
violência
simbólica
conceito
social
elaborado
sociólogo
francês
pierre
bourdieu
aborda


# Stemmização

As palavras utilizadas nos textos escritos em linguagem natural possuem variações de diferentes tipos, incluindo gênero (masculino ou feminino), número (singular ou plural) e grau (aumentativo, diminutivo, superlativo).

Como o computador analisa sequências de caracteres, se houver qualquer diferença nessa sequência, ele não detectará que as palavras representam a mesma entidade.

Veja:


In [None]:
"menino"=="meninos"

In [None]:
"menino"=="menina"

In [None]:
"menino"=="meninão"

Temos que considerar ainda que podemos ter advérbios, adjetivos ou substantivos, entre outros, representando a mesma entidade ou ideia.

Diante disso, esses elementos serão considerados diferentes em uma análise textual. Algumas vezes podemos querer que isso aconteça de fato, mas outras não.

Quando desejarmos minimizar as diferenças entre palavras, podemos utilizar uma técnica chamada de `Stemming` (i.e., identificação do `stem`).

---
**Atenção**: em linguística, `stem` (radical ou tema) e `root` (raíz) são elementos diferentes. O `stem` é o elemento mórfico que fornece a significação de uma palavra. O `root` é o elemento mórfico mais simples ao qual uma palavra pode ser reduzida (De Lucca, 2002).

Segundo De Lucca (2002), há ainda o `lema`, que representa a forma canônica de uma palavra em um contexto lexicográfico. Em dicionários, por exemplo, as palavras são representadas por seus lemas, e a lematização se dá da seguinte forma: verbos são representados através de seus infinitivos e substantivos e adjetivos são representados pela forma masculina singular.

Para mais detalhes, sugere-se a leitura do documento ["Lematização versus Stemming"](http://www.nilc.icmc.usp.br/nilc/download/lematizacao_versus_steming.pdf), de J. L. De Lucca (2002).

---

## Vamos praticar?

Para identificarmos os `stems` das palavras, podemos utilizar a própria biblioteca `tokenizers`, pois ela possui uma função de tokenização que já faz isso para nós, veja:

In [None]:
if(!require('tokenizers')) install.packages('tokenizers')

library(tokenizers)

# define o texto a ser processado e cria um tibble correspondente
text <- paste0(
  "Violência simbólica é um conceito social elaborado pelo\n",
  "sociólogo francês Pierre Bourdieu, o qual aborda uma forma\n",
  "de violência exercida pelo corpo sem coação física, causando\n",
  "danos morais e psicológicos.")

lst_words <- tokenize_word_stems(text)

lst_words

No entanto, a biblioteca `tokenizers` não é muito flexível e eventualmente precisamos utilizar outros algoritmos de detecção de `stems`.

Nesses casos, podemos usar a função padrão para identificar os `tokens` e, depois, usarmos outra biblioteca para a identificação de `stems`.

No exemplo seguinte, usaremos a biblioteca [`Snowball`](https://snowballstem.org/), que pode apresentar resultados melhores para a língua portuguesa.

O resultado do *script* é uma tabela do tipo `tibble` que contém as palavras do texto e mais duas colunas: uma indicando se elas são ou não `stopwords` e outra indicando qual é o `stem` correspondente.

In [None]:
# A biblioteca SnowBallC já é carregada junto com a 'tokenizers'
if(!require('tidyverse')) install.packages('tidyverse')
if(!require('tidytext')) install.packages('tidytext')
if(!require('tokenizers')) install.packages('tokenizers')
if(!require('tm')) install.packages('tm')

library(tidyverse)
library(tidytext)
library(tokenizers)
library(tm)

# define lista de stopwords
custom_stop_words <- tibble(word = append(tm::stopwords('portuguese'), list('é', 'um')))
custom_stop_words <- mutate(custom_stop_words, word = as.character(word))

# define o texto a ser processado e cria um tibble correspondente
text <- paste0(
  "Violência simbólica é um conceito social elaborado pelo\n",
  "sociólogo francês Pierre Bourdieu, o qual aborda uma forma\n",
  "de violência exercida pelo corpo sem coação física, causando\n",
  "danos morais e psicológicos.")

lst_words <- tokenize_words(text)

# renomeia para 'token', pois é mais apropriado
df_words <- data.frame(Reduce(rbind, lst_words)) %>%
  rename("token" = "Reduce.rbind..lst_words.") %>%
  as_tibble()

# verifica se algum termo encontra-se na lista de stopwords e acrescenta uma coluna informando se são ou não stopwords
df_words <- df_words %>% mutate(stopword = ifelse((token %in% custom_stop_words$word), TRUE,FALSE))

# identifica o 'stem' em português, via biblioteca SnowBallC
df_words <- df_words %>% mutate(stem = SnowballC::wordStem(token, language = "portuguese"))

df_words

token,stopword,stem
<chr>,<lgl>,<chr>
violência,False,violênc
simbólica,False,simból
é,True,é
um,True,um
conceito,False,conceit
social,False,social
elaborado,False,elabor
pelo,True,pel
sociólogo,False,sociólog
francês,False,francês


Compare a coluna `stem` da tabela acima com a lista de `stem` gerada anteriormente pela função `tokenize_word_stems()`.

Os resultados foram melhores ou piores?

O código seguinte resume o que já fizemos até o momento. Ele processa um texto, elimina as stopwords e cria uma tabela que indica a frequência de cada palavra no texto e o seu respectivo stem.

In [None]:
if(!require('tidyverse')) install.packages('tidyverse')
if(!require('tidytext')) install.packages('tidytext')
if(!require('tokenizers')) install.packages('tokenizers')
if(!require('tm')) install.packages('tm')

library(tidyverse)
library(tidytext)
library(tokenizers)
library(tm)

# define lista de stopwords
custom_stop_words <- tibble(word = append(tm::stopwords('portuguese'), list('é', 'um')))
custom_stop_words <- mutate(custom_stop_words, word = as.character(word))

# define o texto a ser processado e cria um tibble correspondente
text <- paste0(
  "Este é um texto de teste a ser utilizado pelas funções de tokenização.\n",
  "Ele inclui números por extenso, dígitos e símbolos, tais como 1, 1.3, 1/4 e outros símbolos como !, % e ?\n",
  "Também inclui algumas hashtags e mentions:\n",
  "#hashtag @usuário #R #Rstudio #GoogleColab @alunos.\n",
  "Tente com o seu texto. Verifique o que acontece com diferentes opções de tokenizadores.")

lst_words <- tokenize_words(text)                                               # tokeniza

tb_words <- data.frame(Reduce(rbind, lst_words)) %>%                            # cria dataframe
  rename(token = Reduce.rbind..lst_words.) %>%                                  # troca nome da coluna para 'token'
  as_tibble() %>%                                                               # transforma dataframe em tibble
  anti_join(custom_stop_words, by=join_by(token==word))                         # remove stopwords

# Cria tabela com as palavras e suas relativas frequências e stems
tb_final_words <- tb_words %>%
  group_by(token) %>%                                                           # agrupa por 'token'
  mutate(stem = SnowballC::wordStem(token, language = "portuguese")) %>%        # adiciona coluna 'stem'
  add_tally() %>%                                                               # adiciona a quantidade de elementos por grupos de palavras
  arrange(desc(n)) %>%                                                          # ordena de forma decrescente pela frequência das palavras
  unique()                                                                      # remove duplicatas

tb_final_words

token,stem,n
<chr>,<chr>,<int>
texto,text,2
inclui,inclu,2
símbolos,símbol,2
1,1,2
teste,test,1
ser,ser,1
utilizado,utiliz,1
funções,funçõ,1
tokenização,tokeniz,1
números,númer,1


# Representação do Conteúdo

O conteúdo dos documentos pode ser representado através de um **Saco de Palavras (*Bag-of-Words*)**, que nada mais é do que um vetor que contém as palavras encontradas no texto e seu respectivo peso (i.e., importância).

O **peso** de uma palavra pode ser calculado de diferentes maneiras, a mais simples consiste em identificar a **frequência absoluta** das palavras no texto (i.e., número de ocorrências). Outra opção consiste na **frequência relativa**, que é o número de ocorrências dividido pelo total de ocorrências de palavras de um texto. Uma terceira opção, mais completa, é a **tf-idf** e ela inclui a quantidade de documentos em que uma palavra aparece, tornando as palavras mais frequentes menos importantes. Existem outras abordagens, mas essas são as mais comuns.

A seguir, vamos aprendar a calcular essas três medidas de peso, usando um texto real como exemplo.

Para tanto, iremos carregar alguns textos de domínio público, disponíveis na biblioteca `janeaustenr`. Essa biblioteca contém alguns documentos em inglês, escritos por `Jane Austen`.

In [None]:
if(!require('tidyverse')) install.packages('tidyverse')
if(!require('tidytext')) install.packages('tidytext')
if(!require('janeaustenr')) install.packages('janeaustenr')

library(tidyverse)
library(tidytext)
library(janeaustenr)

books <- austen_books()
books

Unnamed: 0_level_0,text,book
Unnamed: 0_level_1,<chr>,<fct>
1,SENSE AND SENSIBILITY,Sense & Sensibility
2,,Sense & Sensibility
3,by Jane Austen,Sense & Sensibility
4,,Sense & Sensibility
5,(1811),Sense & Sensibility
6,,Sense & Sensibility
7,,Sense & Sensibility
8,,Sense & Sensibility
9,,Sense & Sensibility
10,CHAPTER 1,Sense & Sensibility


## Frequência absoluta

Vamos agora identificar a frequência absoluta de cada `token`.

Analise o script seguinte:

In [None]:
if(!require('tidyverse')) install.packages('tidyverse')
if(!require('tidytext')) install.packages('tidytext')
if(!require('janeaustenr')) install.packages('janeaustenr')

library(tidyverse)
library(tidytext)
library(janeaustenr)

book_words <- austen_books() %>%             # Carrega os textos dos livros da Jane Austen
  unnest_tokens(word, text) %>%              # identifica os tokens a partir de uma coluna
  count(book, word, sort = TRUE)             # contabiliza palavras por livros e coloca em ordem de frequência absoluta

book_words

book,word,n
<fct>,<chr>,<int>
Mansfield Park,the,6206
Mansfield Park,to,5475
Mansfield Park,and,5438
Emma,to,5239
Emma,the,5201
Emma,and,4896
Mansfield Park,of,4778
Pride & Prejudice,the,4331
Emma,of,4291
Pride & Prejudice,to,4162


In [None]:
# Identifica total de palavras por livro
total_words <- book_words %>%
  group_by(book) %>%
  summarize(total = sum(n))

total_words

book,total
<fct>,<int>
Sense & Sensibility,119957
Pride & Prejudice,122204
Mansfield Park,160460
Emma,160996
Northanger Abbey,77780
Persuasion,83658


Se desejarmos, podemos adicionar essa informação em nossa tabela:


In [None]:
# adiciona total de palavras à tabela de dados
book_words <- left_join(book_words, total_words)
head(book_words, n=10)

[1m[22mJoining with `by = join_by(book)`


book,word,n,total
<fct>,<chr>,<int>,<int>
Mansfield Park,the,6206,160460
Mansfield Park,to,5475,160460
Mansfield Park,and,5438,160460
Emma,to,5239,160996
Emma,the,5201,160996
Emma,and,4896,160996
Mansfield Park,of,4778,160460
Pride & Prejudice,the,4331,122204
Emma,of,4291,160996
Pride & Prejudice,to,4162,122204


## Frequência Relativa e TF-IDF

O cálculo de `tf` e `idf` não é muito complicado, mas não necessitamos realizar esse cálculo nós mesmos, pois a biblioteca `tidytext` já tem uma função que realiza esse cálculo para nós.

A função `bind_tf_idf()` calcular os valores de `tf`, `idf` e `tf-idf`.

É muito simples:

In [None]:
book_tf_idf <- book_words %>% bind_tf_idf(word, book, n)   # Acrescenta tf (frequência relativa)
book_tf_idf

book,word,n,total,tf,idf,tf_idf
<fct>,<chr>,<int>,<int>,<dbl>,<dbl>,<dbl>
Mansfield Park,the,6206,160460,0.03867631,0,0
Mansfield Park,to,5475,160460,0.03412065,0,0
Mansfield Park,and,5438,160460,0.03389007,0,0
Emma,to,5239,160996,0.03254118,0,0
Emma,the,5201,160996,0.03230515,0,0
Emma,and,4896,160996,0.03041069,0,0
Mansfield Park,of,4778,160460,0.02977689,0,0
Pride & Prejudice,the,4331,122204,0.03544074,0,0
Emma,of,4291,160996,0.02665284,0,0
Pride & Prejudice,to,4162,122204,0.03405780,0,0


Se desejarmos, podemos ordenar a tabela por alguma dessas colunas (por exemplo, por tf_idf):

In [None]:
df <- book_tf_idf %>%
  select(-total) %>%
  arrange(desc(tf_idf))

head(df,n=10)

book,word,n,tf,idf,tf_idf
<fct>,<chr>,<int>,<dbl>,<dbl>,<dbl>
Sense & Sensibility,elinor,623,0.005193528,1.791759,0.009305552
Sense & Sensibility,marianne,492,0.00410147,1.791759,0.007348847
Mansfield Park,crawford,493,0.003072417,1.791759,0.005505032
Pride & Prejudice,darcy,373,0.003052273,1.791759,0.005468939
Persuasion,elliot,254,0.003036171,1.791759,0.005440088
Emma,emma,786,0.004882109,1.098612,0.005363545
Northanger Abbey,tilney,196,0.002519928,1.791759,0.004515105
Emma,weston,389,0.002416209,1.791759,0.004329266
Pride & Prejudice,bennet,294,0.002405813,1.791759,0.004310639
Persuasion,wentworth,191,0.002283105,1.791759,0.004090775


# Atividade que vale nota

Defina um texto qualquer que contenha pelo menos 30 palavras (algumas delas repetidas). Para tanto, você criar um texto como foi feito pelo professor no primeiro exemplo ou pode carregar de um arquivo-texto disponível no seu computador (caso necessário, veja o material complementar sobre como carregar arquivos-texto, no Moodle). Você só não pode usar a biblioteca `janeaustenr`, mas pode usar a biblioteca `gutenbergr`, que tem outros textos (se necessário, procure no Google instruções de como usá-la).

Depois, elabore um *script* que identifique os *tokens* desse texto e crie uma tabela (do tipo *tibble*) que armazene cada *token*. Para cada um deles, em uma coluna extra, indique se são ou não *stopwords*. Depois, inclua uma coluna que contenha o `stem` correspondente ao *token* em questão (use o algoritmo adequado para a língua do texto).

Finalmente, crie uma nova tabela (do tipo *tible*) que contenha somente os `stems` que não são *stopwords*. Para cada um deles, indique (em colunas diferentes), seu total de ocorrências (frequência absoluta) e a frequência relativa (tf).

Mostre o conteúdo dessa tabela por ordem de `tf`.

In [9]:
# Carregar Bibliotecas
if (!require('tidytext')) install.packages('tidytext')
if (!require('tokenizers')) install.packages('tokenizers')
if (!require('tm')) install.packages('tm')

library(tidytext)
library(tokenizers)
library(tm)

# texto
texto <- "O gato preto é um animal muito curioso. Ele gosta de explorar todos os cantos da casa, mas às vezes assusta os outros animais. O cachorro fica com medo quando o gato se esconde debaixo da cama. No entanto, eles são bons amigos."

Loading required package: tidytext

“there is no package called ‘tidytext’”
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependency ‘janeaustenr’


Loading required package: tm

“there is no package called ‘tm’”
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘NLP’, ‘slam’, ‘BH’


Loading required package: NLP



In [10]:
# Define lista de stopwords
stopwords <- tibble(palavra = append(tm::stopwords('portuguese'), list('é', 'um', 'os', 'da', 'de', 'se', 'no', 'com', 'as', 'os', 'mas', 'e')))

In [11]:
# Tokenização do texto
tokens <- texto %>%
  tokenize_words() %>%
  unlist()

In [12]:
# Converte para tibble
tokens_df <- tibble(token = tokens)

In [13]:
# Verifica se os tokens são stopwords
tokens_df <- tokens_df %>%
  mutate(stopwords = token %in% stopwords$palavra)

In [14]:
# Encontra os stems dos tokens
tokens_df <- tokens_df %>%
  mutate(terminacao = SnowballC::wordStem(token, language = "portuguese"))

In [17]:
# Filtra os tokens que não são stopwords
stopwords_no <- tokens_df %>%
  filter(!stopwords) %>%
  count(terminacao, sort = TRUE)

In [18]:
# Calcula a frequência relativa (tf)
total_stopwords_no <- sum(stopwords_no$n)
stopwords_no <- stopwords_no %>%
  mutate(tf = n / total_stopwords_no)

In [20]:
# Renomeia as colunas
colnames(stopwords_no) <- c("terminacao", "frequencia_absoluta", "frequencia_relativa")

In [22]:
# Mostra a tabela por ordem de tf
stopwords_no %>%
  arrange(desc(frequencia_relativa))

terminacao,frequencia_absoluta,frequencia_relativa
<chr>,<int>,<dbl>
gat,2,0.08695652
amig,1,0.04347826
anim,1,0.04347826
animal,1,0.04347826
assust,1,0.04347826
bons,1,0.04347826
cachorr,1,0.04347826
cam,1,0.04347826
cant,1,0.04347826
cas,1,0.04347826


# Referências
- Aggarwal, Charu C..  1994. **Data Mining**: the Textbook. Springer: Cham. 2015. https://link.springer.com/book/10.1007%2F978-3-319-14142-8
- Bengfort, B.; Bilbro, R.; Ojeda, T. **Applied Text Analysis with Python**: Enabling Language-Aware Data Products with Machine Learning. O´Reilly, 2018. 334 p.
- Fayyad, U M.; Piatetsky-Shapiro, G.; Smyth, P.; Uthurusamy, R. **Advances in Knowledge Discovery and Data Mining**. AAAI Press. 1996. 626 p.
- Feldman, R.; Hirsh, H. Exploiting Background Information in Knowledge Discovery from Text. **Journal of Intelligent Informatino Systems**, 9, 83-92. 1997. https://doi.org/10.1023/A:1008693204338
- Goldschmidt, R.; Passos, E.; Bezerra, E. **Data Mining**: Conceitos, Técnicas, Algoritmos, Orientações e Aplicações. 2a Ed. Campus/Elsevier, São Paulo. 2015. https://bridge.minhabiblioteca.com.br/books/9788595156395
- Tan, A. H. Text mining: the state of the art and the challenges. In: Workshop on Knowledge Discovery from Advanced Databases, 1999. **Proceedings...** Heidelberg, 1999. p.65-70.