<a href="https://colab.research.google.com/github/vazraul/NLP/blob/main/M06NB01_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <center>VAI Academy - Módulo 6</center>
# <center>NLP</center>
___

## Conteúdo
1. [Introdução](#intro) <br>
2. [Conceitos Gerais](#conc_gerais) <br>
3. [Análise de Sentimentos](#analise_sent) <br>
4. [Estado da Arte em NLP](#sota_nlp) <br>
5. [Dicas e Referências](#digdeeper)

<a id="dsprecap"></a>
## Data Science Pipeline (DSP) recap
1. Definição do Problema / Definição do Escopo
2. Definição das Métricas de Sucesso
3. Definição dos Dados Necessários
4. Aquisição de Dados
5. Pré-processamento de Dados
6. Análise Exploratória de Dados (E.D.A.)
7. <i>Feature Engineering</i>
8. Construção e Avaliação do Modelo
9. Comunicação dos Resultados
10. Implantação
11. Monitoramento e Manutenção

<a id="intro"></a>
# 1 Introdução


## 1.1 O que é NLP e onde posso usá-lo?

NLP (Natural Language Processing, ou, Processamento de Linguagem Natural) é um campo de estudo que reúne conceitos de linguística, ciência da computação e inteligência artificial para criar e aplicar ferramentas a problemas do mundo real relativos a dados de linguagem natural humana. Usamos soluções que implementam tais técnicas todos os dias com ferramentas como o motor de busca e tradutor do Google, sugestões de texto do Grammarly, autocorreções de texto do Microsoft Word, páginas de FAQs, entre outras. Por trás de todas essas ferramentas está o objetivo principal do NLP: fazer com que os computadores entendam a linguagem natural humana e trabalhem com ela para construir soluções.

É bom observar que o conceito de linguagem natural é aplicado a todas as maneiras pelas quais os humanos podem se comunicar. Os conceitos do NLP foram desenvolvidos ao longo dos anos para trabalhar com dados como texto ou fala. Hoje em dia é aplicado a muitos negócios e estão gerando muito valor. As empresas fazem cada vez mais produtos baseados em NLP e é uma habilidade muito exigida para Cientistas de Dados e Engenheiros de Machine Learning.


## 1.2 Como posso começar a construir aplicativos de NLP?

Como começar a construir um aplicativo de NLP depende do que você deseja alcançar. Para alguém que é membro de uma equipe sem nenhum conhecimento de programação, mas deseja começar a usar soluções de NLP, recomendamos fortemente que dê uma olhada nas excelentes ferramentas que a Amazon AWS, Microsoft Azure e Google Cloud tem a oferecer. Elas geralmente são baratas e fáceis de usar. Mesmo que não sirva para gerar seu produto, certamente pode servir como uma prova de conceito antes de você contratar uma equipe de desenvolvedores para construir sua solução.

Se é para alguém que sabe programar, mas deseja apenas a solução e não o processo de aprendizagem, pode-se usar os repositórios do GitHub para obter soluções de alta qualidade que possam ser integradas por você ao seu produto. Posteriormente nesta aula, mostraremos alguns exemplos de grupos que desenvolvem aplicativos de NLP de última geração e de código aberto.

Mas se falamos de alguém que deseja desenvolver suas soluções e desenvolver sua equipe para se tornar bom nisso, pode-se usar o Python. Essa linguagem de programação é uma velha amiga dos Cientistas de Dados e Engenheiros de Machine Learning. Muitas ferramentas para lidar com tarefas de NLP foram adicionadas ao Python em uma forma muito semelhante às ferramentas e bibliotecas padrão de Data Science e Machine Learning. Então, dado que você está familiarizado com o SKLearn e o Pandas, você está na metade do caminho para começar a construir soluções com NLP.

Bem, vamos começar a aprender!


<a id="conc_gerais"></a>
# 2 Conceitos Gerais


## 2.1 Correspondência de texto (Text Matching)

Para começar, vamos falar sobre correspondência de texto. Se você nunca trabalhou com NLP, pode estar adivinhando "Bem, é apenas correspondência de strings, certo?". A resposta é que, na verdade, essa é só uma das maneiras de executar correspondência de texto, mas existem muitas outras técnicas que podemos explorar para isso. Aqui, abordaremos duas maneiras poderosas de realizar correspondência de texto: **Regex** e **Fuzzy Text Matching**.


### 2.1.1 Regex

Regex significa Expressão Regular (Regular Expression). Ele consiste em um padrão que você pode definir, explicando ao seu computador que tipo de texto você deseja pesquisar. Imagine o regex como uma correspondência de strings aprimorada. Aqui você estará comparando strings, mas de uma forma inteligente. Vamos dar um exemplo.

Suponha que você deseje detectar todos os números em um texto. Com a correspondência de texto por regex, você pode pesquisar cada dígito individual e fazer toda uma lógica para obter seus resultados.

In [None]:
# texto de input utilizado
input_text = "Temos 2 pizzas em uma de nossas 5 geladeiras."

# definindo uma lista de dígitos
digit_list = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

# vamos fazer uma lista com os dígitos encontrados no nosso input_text
digits_found = []

# para cada char no nosso input_text, vamos verificar se ele está presente na nossa lista de dígitos
for character in input_text:
  # pegamos somente os chars que estão na lista de dígitos
  if character in digit_list:
    digits_found.append(character)

digits_found


Parece que funcionou bem para esse caso, mas vamos testar mais um pouco.

In [None]:
# texto de input utilizado
input_text = "Temos 2 pizzas em uma de nossas 556 geladeiras."

# definindo uma lista de dígitos
digit_list = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

# vamos fazer uma lista com os dígitos encontrados no nosso input_text
digits_found = []

# para cada char no nosso input_text, vamos verificar se ele está presente na nossa lista de dígitos
for character in input_text:
  # pegamos somente os chars que estão na lista de dígitos
  if character in digit_list:
    digits_found.append(character)

digits_found


Nossa lógica falhou. O número "556" foi retornado como três valores separados e não é o que queríamos. Como você pode imaginar, será necessária outra lógica inteira para executar nossa tarefa.

Antes de começar a programar, vamos dar uma chance ao regex.

Como explicamos antes, o regex permite que você obtenha correspondências em um texto de uma maneira muito fácil. Vamos tentar um exemplo muito simples.

In [None]:
# o pacote re do Python é usado para regex
import re

input_text = "Deixei meu celular no meu carro"

# vamos procurar por "celular" no text
# regex retorna a seguinte correspondência
re.findall("celular", input_text)

A beleza do regex é que ele nos permite usar **Sequências Especiais** para corresponder o texto de uma maneira mais inteligente. Uma sequência especial muito útil é **\d**. Você pode usá-la para combinar dígitos de uma forma muito simples.

In [None]:
import re

# vamor pegar o nosso texto de input
input_text = "There are 2 pizza in one of our 556 fridges."

# vamos procurar por dígitos no texto
re.findall("\d", input_text)


Bem, temos a mesma resposta do programa de antes, com muito menos código, mas ainda estamos obtendo um resultado errado. Isso porque, por padrão, o regex está pesquisando dígitos individualmente. Não adicionamos a inteligência para combinar números com qualquer comprimento. Isso pode ser feito facilmente usando **Metacaracteres**.

Metacaracteres especificam certas regras sobre nossa expressão. Para esse caso, podemos dizer à nossa expressão para combinar uma ou mais ocorrências de dígitos com o metacaractere **+**. Vamos tentar. Agora nossa expressão entenderá números de comprimento variável.

In [None]:
import re

# vamos pegar o nosso input
input_text = "There are 2 pizza in one of our 556 fridges."

# vamos procurar por dígitos no texto
re.findall("\d+", input_text)


De uma forma fácil, conseguimos pegar cada número da nossa string.

Vamos tentar outro desafio: Encontrar datas no nosso texto.

In [None]:
import re

# vamos pegar o nosso texto de input
input_text = "Minha data de nascimento é 26/07/1978"

# vamos procurar por datas no texto
re.findall("\d{2}/\d{2}/\d{4}", input_text)


Nossa expressão está dizendo "encontre 2 dígitos seguidos de uma barra, seguida de dois dígitos, seguida de outra barra, seguida de quatro dígitos". Podemos usar o metacaractere {} para especificar o número exato de ocorrências para os dígitos.

Vamos imaginar que queremos uma maneira fácil de obter o dia, o mês e o ano individualmente. Com regex, uma maneira fácil de fazer isso é usando **Grupos**. Podemos definir o entorno de uma seção de nossa expressão com ().

In [None]:
import re

# vamos pegar o nosso texto de input
input_text = "Minha data de aniversário é 26/07/1978 e do meu irmão é 21/05/1998"

# vamos procurar por datas no texto
re.findall("(\d{2})/(\d{2})/(\d{4})", input_text)


Observe como, para cada correspondência, obtivemos uma tupla com nossas informações de data divididas individualmente.

Ótimo, fizemos uma boa revisão geral do regex. Lembre-se de que existem muitos metacaracteres e sequências especiais para você explorar. Por enquanto, vamos prosseguir para a correspondência de texto difusa.

### 2.1.2 Fuzzy Text Matching

Em aplicações de Data Science do mundo real, é muito comum trabalhar com probabilidades. Por enquanto, trabalhamos apenas com correspondência de texto binária. Ou duas strings são idênticas ou não. Agora, aprenderemos técnicas mais sofisticadas para comparar textos. Não obteremos respostas como "sim" ou "não" quando tivermos duas strings, mas obteremos respostas como "Esta string é 87% semelhante à outra". Pode parecer que estamos complicando as coisas, mas imagine que estamos construindo um FAQ inteligente. Um usuário perguntou "Meu computador quebrou" e outro perguntou "Acho que meu computador quebrou". Nosso FAQ deve dar a esses usuários a mesma resposta e, para isso, precisamos que nosso aplicativo entenda que essas duas frases são muito semelhantes.

Em Python, existem duas bibliotecas que podem ajudá-lo muito a fazer correspondência de texto difuso: **jellyfish** e **fuzzywuzzy**. Dentro delas, existem vários métodos estatísticos para comparar duas frases. Não entraremos na matemática dos algoritmos aqui, mas vale testar as seguintes métricas para tentar ver qual funciona melhor com seu aplicativo.

**Jellyfish**


*   Levenshtein Distance
*   Jaro Distance
*   Jaro-Winkles Distance

**FuzzyWuzzy**

*   Partial Ratio
*   Token Sort Ratio
*   Token Set Ratio

Para dar um conselho geral sobre essas métricas, recomendamos o uso da Jellyfish para comparar palavras individualmente (não frases completas), em aplicações como correção gramatical, por exemplo.

Vamos tentar essas abordagens em alguns exemplos.




In [None]:
# instalando a biblioteca jellyfish
!pip -q install jellyfish

import jellyfish

# agora podemos usar suas funções para comparar algumas strings
print("Levenshtein Distance", jellyfish.levenshtein_distance("jellyfish", "smellyfish"))
print("Jaro Distance", jellyfish.jaro_distance("jellyfish", "smellyfish"))
print("Jaro-Winkler Distance", jellyfish.jaro_winkler("jellyfish", "smellyfish"))

É importante notar que a faixa de valores das saídas são diferentes e as próprias saídas significam coisas diferentes. Por exemplo, na Levenshtein Distance é medido quantas edições você precisa fazer em uma palavra para transformá-la na outra (no nosso caso, apague "J" e digite "S"). Jaro e Jaro-Winkler calculam o grau de similaridade com base em algumas estatísticas sobre as palavras. É importante entender esses detalhes para lidar melhor com o output.

Para comparar duas sentenças, FuzzyWuzzy é mais adequado.

In [None]:
# instalando a biblioteca fuzzywuzzy
!pip -q install fuzzywuzzy

from fuzzywuzzy import fuzz

sentence_a = "Três amigos foram ao supermercado para comprar pizzas"
sentence_b = "Duas pizzas foram compradas por três amigos no supermercado local"

# We can now compare full sentences with different approaches of the package
print("Partial Ratio: ", fuzz.partial_ratio(sentence_a, sentence_b))
print("Token Sort Ratio: ", fuzz.token_sort_ratio(sentence_a, sentence_b))
print("Token Set Ratio: ", fuzz.token_set_ratio(sentence_a, sentence_b))

Observe como os resultados são diferentes. É devido à matemática por trás dos métodos fuzzy. Para obter similaridade semântica de duas sentenças, é recomendado usar a função Token Set Ratio. Como você pode ver, ela pode capturar muito bem duas strings semânticas equivalentes, escritas de maneira muito diferente.

## 2.3 Etapas básicas de projetos de NLP

Fazer qualquer coisa complicada em Machine Learning geralmente significa construir um pipeline. A ideia é dividir seu problema em partes muito pequenas e usar o Machine Learning para resolver cada uma delas separadamente. Então, encadeando vários modelos de aprendizado de máquina que se alimentam uns aos outros, você pode fazer coisas muito complicadas.

Normalmente, em um projeto de NLP, há uma série de etapas iniciais comuns à maioria das aplicações. Em primeiro lugar, você precisará de um banco de dados para trabalhar. Em seguida, a próxima etapa é pré-processar seus dados. A etapa de pré-processamento também está aqui, mas exige subetapas exclusivas, como Stemming/Lemmatization (converter palavras em sua forma raiz), remoção de stopwords (eliminar palavras irrelevantes) e outras técnicas de feature engineering específicas de NLP. Com seu texto pré-processado, você terá que transformá-lo em features reais com técnicas como TF-IDF ou Word Embeddings.

Depois de preparar os dados, finalmente, é possível usá-los para construir o modelo para a aplicação desejada (Análise de Sentimento, no nosso caso).

## 2.4 Coletando e explorando os dados

### 2.4.1 API do Twitter

Para realizar nossa análise de sentimento, usaremos dados adquiridos do Twitter sobre as vacinas da Rússia e Oxford.

Os dados foram obtidos pela API do twitter, com auxílio da biblioteca *tweepy*.

É importante notar que existem várias outras maneiras de obter dados de texto. Por exemplo, OCR (Reconhecimento óptico de caracteres) é uma ferramenta muito útil que você pode aplicar a arquivos de documentos para extrair dados de texto. Ele também pode ser obtido por entrada do usuário, como comentários em seu site.

Observação: Twitter já foi uma importante fonte de estudos para machine learning, pois se utilizava os tweets como referência de análise de comportamento e percepção das pessoas sobre diferentes eventos (desastres naturais, eleições, etc...). Em 2023 a plataforma limitou o acesso de desenvolvedores livres aos seus dados.

[Conta de Desenvolvedor](https://developer.twitter.com/en)

###  2.4.2 Importando e analisando os dados

Vamos usar um banco de dados do twitter pré-baixado com cerca de doze mil tweets, contido no arquivo *vacina_tweets_sentiment.xlsx*. Além dos recursos trazidos pelos tweets, também temos o rótulo de sentimento para cada tweet, obtido por meio do Amazon Comprehend da AWS. Esses rótulos serão nossa verdade fundamental para construir nosso próprio modelo de análise de sentimento.

É importante ressaltar que estamos utilizando dados reais de tweets obtidos pela API e que o conteúdo de nenhum deles representa as opiniões e posições da VAI Academy ou dos seus membros.

In [None]:
import pandas as pd

df = pd.read_excel('dados/vacina_tweets_sentiment.xlsx', usecols=['text', 'len_text', 'sentiment', 'vacina', 'conf_positive', 'conf_negative', 'conf_neutral', 'conf_mixed'])

df.head()

Vamos ver uma breve análise exploratória de nossas variáveis.

Primeiro, vamos descobrir como é a distribuição de rótulos em nosso conjunto de dados.

In [None]:
df['sentiment'].value_counts()

Podemos ver que temos muito mais tweets **neutros** sobre as vacinas do que **positivos** e **negativos**. Vamos ver esses sentimentos distribuídos pelo tipo de vacina.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

df_count = df.groupby(['vacina', 'sentiment'], as_index=False)['text'].count()
df_count.columns = ['vacina', 'sentiment', 'count']

sns.set(style='whitegrid')
ax = sns.barplot(data=df_count, x='sentiment', y='count', hue='vacina')
ax.set(xlabel='Sentimento', ylabel='Contagem dos sentimentos')
ax.legend(title='Vacina', loc='upper left')
plt.show()

Outra visualização possível é quanto ao número de caracteres. Existe alguma relação entre o tamanho do texto e o sentimento?

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")
ax = sns.boxplot(data=df, x="len_text", y="sentiment")
ax.set(xlabel='Tamanho do texto', ylabel='Sentimento')

plt.show()

Podemos ver uma leve diferença no tamanho dos textos de acordo com o sentimento, mas nada que chame muita atenção.

Vamos verificar os 5 principais comentários de cada rótulo, para cada vacina. Aqui podemos ter uma visão mais clara sobre o que os usuários do Twitter estão pensando sobre as vacinas.

Vamos começar com a vacina russa. Podemos filtrar os principais comentários positivos, avaliados pela quantidade de confiança que recebemos da AWS de que este é um comentário positivo.

In [None]:
df_russia = df[df['vacina']=='russia']

df_russia = df_russia.sort_values(by=['conf_positive'], ascending=False)

df_russia['text'].to_list()[:5]

Vamos dar uma olhada nas outras classes de tweets sobre a vacina da Russia.

In [None]:
df_russia = df_russia.sort_values(by=['conf_negative'], ascending=False)

df_russia['text'].to_list()[:5]

In [None]:
df_russia = df_russia.sort_values(by=['conf_neutral'], ascending=False)

df_russia['text'].to_list()[:5]

In [None]:
df_russia = df_russia.sort_values(by=['conf_mixed'], ascending=False)

df_russia['text'].to_list()[:5]

É bom notar alguns detalhes sobre os comentários. De fato, o sentimento dos comentários negativos é negativo, mas não sobre a própria Rússia, e sim sobre outras coisas do cenário político e da saúde do Brasil.

Além disso, os comentários mistos e neutros são de fato o que esperávamos. Os comentários neutros são tweets informativos. Os comentários mistos têm sentimentos bons e ruins no texto. Os principais comentários positivos têm outros tópicos além da própria vacina.

Agora, vamos dar uma olhada na opinião sobre as vacinas de Oxford.

In [None]:
df_oxford = df[df['vacina']=='oxford']

df_oxford = df_oxford.sort_values(by=['conf_positive'], ascending=False)

df_oxford['text'].to_list()[:5]

In [None]:
df_oxford = df_oxford.sort_values(by=['conf_negative'], ascending=False)

df_oxford['text'].to_list()[:5]

In [None]:
df_oxford = df_oxford.sort_values(by=['conf_neutral'], ascending=False)

df_oxford['text'].to_list()[:5]

In [None]:
df_oxford = df_oxford.sort_values(by=['conf_mixed'], ascending=False)

df_oxford['text'].to_list()[:5]

Novamente, recebemos tópicos mistos nos 5 principais tweets positivos, mas a opinião geral entre os 5 principais é de fato positiva para a vacina de Oxford.

É bom notar como os comentários negativos são contra a vacina da Rússia, o que pode implicar que esses comentários negativos podem, afinal, ser um comentário positivo sobre a vacina de Oxford em alguns casos.

Sobre os tweets neutros e mistos, temos o cenário semelhante: tweets informativos como neutros e textos com sentimentos mistos como mistos.

Uma boa coisa a se fazer ao analisar dados textuais é gerar uma nuvem de palavras. Word Cloud é uma representação gráfica de suas palavras mais frequentes.

Antes de gerá-la, vamos usar um pacote Python para transformar nosso texto em tokens. Tokens são pedaços menores de texto que ainda contêm informações. É muito comum usarmos cada palavra como tokens.

In [None]:
df['tokens'] = df['text'].apply(lambda x: x.split())
df.head()

Com os tokens nós podemos gerar a Word Cloud para cada sentimento.

In [None]:
# vamos processar nossos dados para gerar a Word Cloud
neutral_comments = ''
negative_comments = ''
positive_comments = ''

for idx, row in df.iterrows():
    if row['sentiment'] == 'NEUTRAL':
        neutral_comments += " ".join(row['tokens']) + " "
    elif row['sentiment'] == 'NEGATIVE':
        negative_comments += " ".join(row['tokens']) + " "
    elif row['sentiment'] == 'POSITIVE':
        positive_comments += " ".join(row['tokens']) + " "

In [None]:
from wordcloud import WordCloud

# definindo os visuais das nossas Word Clouds
neutral_wordcloud = WordCloud(width=600, height=600, background_color='white',
                              min_font_size=10,collocations=False).generate(neutral_comments)
negative_wordcloud = WordCloud(width=600, height=600, background_color='white',
                               min_font_size=10,collocations=False).generate(negative_comments)
positive_wordcloud = WordCloud(width=600, height=600, background_color='white',
                               min_font_size=10,collocations=False).generate(positive_comments)

In [None]:
import matplotlib.pyplot as plt

fig, ax = plt.subplots(nrows=1, ncols=3, figsize=(30, 3*20))
titles = ['NEUTRAL', 'NEGATIVE', 'POSITIVE']

# agora podemos plotar as nossas Word Clouds
for idx, wordcloud in enumerate([neutral_wordcloud, negative_wordcloud, positive_wordcloud]):
    plt.subplot(1, 3, idx + 1)
    plt.imshow(wordcloud)
    plt.axis("off")
    plt.tight_layout(pad = 3)

    # ax[idx].set_title(titles[idx])

plt.show()

## 2.5 Processamento de Dados

Na última seção, foi possível dar uma olhada em nosso conjunto de dados. Como qualquer outra tarefa de Data Science, devemos pré-processar nossos dados para fazer o melhor uso deles. Mas primeiro, vamos pensar em uma questão: quais são as nossas features? Em tarefas de processamento de texto, nossas features são nossas palavras. Nosso conjunto de dados contém muitos textos e o que descreve suas informações são suas palavras. Queremos dizer ao nosso computador o que um texto significa quando tem um conjunto específico de palavras em uma ordem específica repetido um número específico de vezes. Isso pode dizer se um texto representa um comentário positivo em uma mídia social ou se ele está reclamando do preço do nosso produto, por exemplo.

Um detalhe específico desse conjunto de dados é que ele pode conter URLs e tags do Twitter. Para análise de sentimento, URLs e tags não contêm muitas informações, portanto, é uma prática recomendada retirá-las do texto. Podemos fazer isso facilmente em Python com expressões regulares.

In [None]:
# vamos usar o regex do Python para remover as URL's
import re

df = df.copy()
df['text_preproc'] = df['text'].apply(lambda x: re.sub(r"http\S+", "", str(x)))
df['text_preproc'] = df['text_preproc'].apply(lambda x: re.sub('@[^\s]+','',str(x)))
df.head()

Agora precisamos ter certeza de que estamos ensinando aos nossos computadores o que queremos que eles entendam sobre o nosso texto. Possivelmente queremos nosso modelo interpretando a palavra "CASA" (todos os caracteres em maiúsculo) da mesma forma que interpretamos a palavra "casa" (todos os caracteres em minúsculo). Portanto, uma primeira etapa trivial no pré-processamento pode ser definir todos os caracteres em nosso texto para letras minúsculas.

Isso também se aplica à acentuação. Não queremos que nosso modelo subestime "currículo" e "curriculo" como features diferentes.

Felizmente, o Python pode lidar com essas etapas de pré-processamento com muita facilidade.


In [None]:
# unidecode é uma biblioteca do Python que usaremos para remover acentuações
!pip install unidecode

In [None]:
from unidecode import unidecode

# transformar caracteres em minúscolo
df['text_preproc'] = df['text_preproc'].apply(lambda x: x.lower())
# remover acentuação
df['text_preproc'] = df['text_preproc'].apply(lambda x: unidecode(x))

df.head()

Outra coisa que podemos querer eliminar são palavras e caracteres que não contêm tantas informações. Há uma grande chance de que palavras irrelevantes ("o", "a", "um", "e", "este", "estes", etc) não sejam úteis para descrever informações em nosso conjunto de dados. O mesmo se aplica à pontuação (".", "!", "?", "," etc). Portanto, é melhor eliminar essas palavras e caracteres do nosso conjunto de dados, mantendo apenas palavras que de fato contenham informações.

Para remover as palavras irrelevantes, teremos que transformar cada texto em uma lista de palavras e, em seguida, obter uma lista de palavras irrelevantes de nosso idioma específico do NLTK e filtrar nosso texto original removendo essas palavras irrelevantes. Para trabalhar com NLTK, primeiro teremos que instalá-lo com pip e também usar sua API para baixar a lista de palavras irrelevantes. No universo de NLP, o conjunto de dados de texto usado para manipular nossos dados é normalmente chamado de "corpora" ou "corpus".

In [None]:
!pip -q install nltk

In [None]:
# usando NLTK download() para baixar o nosso corpora
import nltk
nltk.download('stopwords')

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# essa função realiza todos os passos de remoção de stopwords
def remove_stopwords(text):

    # separa o texto em uma lista de palavras
    words = text.split(' ')

    # coletando a lista de stopwords para o português
    stop_words = set(stopwords.words('portuguese'))

    # filtrando nosso texto, removendo as stopwords
    words_filtered = [w for w in words if w not in stop_words]

    # juntando a lista de palavras em texto novamente
    text_filtered = ' '.join(words_filtered)

    return text_filtered

# agora, podemos usar o apply() para remover stopwords do nosso texto
df['text_preproc'] = df['text_preproc'].apply(lambda x: remove_stopwords(x))

df.head()

Muito bom! Vamos agora remover as pontuações com a biblioteca String

In [None]:
# Importando a biblioteca string para remover pontuação
import string

# remover pontuação do nosso texto
df['text_preproc'] = df['text_preproc'].apply(lambda x: x.translate(
    str.maketrans('', '', string.punctuation)))

df.head()

Normalmente, os idiomas trabalham com adição/inflexão nas palavras raiz. Tomando como exemplo a palavra "correr", podemos encontrar inflexões como "corrida", "correndo" ou "corri" em uma frase. Podemos querer que nosso modelo entenda essas palavras como o mesmo recurso. Para isso, podemos aplicar o Stemming em nosso texto. Isso reduzirá cada palavra à sua raiz, sem afixos como -a, -as, -o, -os, -i, -er. Observe que nem toda raiz é uma palavra compreensível para humanos, mas pode perfeitamente conter informações de sua frase.

Você pode inferir que a derivação é um pré-processamento muito específico da linguagem. Felizmente, o pacote NLTK cobre muitos idiomas como inglês, português ou francês. Existem também algumas opções de Stemmers que você pode escolher. Para o idioma inglês, você pode usar Porter ou Lancaster. A principal diferença entre os dois é que Lancaster Stemmer é muito mais agressivo ao transformar palavras em sua raiz. Em algumas aplicações, ele pode gerar recursos mais úteis, mas em outros, irá descaracterizar seu texto. Para o idioma português, você pode usar o RSLP Portuguese Stemmer. Em aplicativos do mundo real, você pode avaliar quais Stemmers funcionam melhor com seus dados e modelos.

Em Python, o pacote NLTK disponibiliza o uso dessas ferramentas de Stemming de uma maneira muito fácil.

Vamos definir novamente uma função para aplicar o stemmer ao nosso texto.

In [None]:
import nltk
nltk.download('rslp')

#  definindo uma função para aplicar o stemming ao nosso texto
def do_stem(text):

    # separando o texto em uma lista de palavras
    words = text.split(' ')

    stemmer = nltk.stem.RSLPStemmer()

    # aplicando o stemming no texto
    words_stem = [stemmer.stem(w) for w in words if len(w)>0]

    # juntando a lista de palavras em texto novamente
    text_stem = ' '.join(words_stem)

    return text_stem

df['text_preproc'] = df['text_preproc'].apply(lambda text: do_stem(text))

df.head()

## 2.6 Representações matemática e informações do texto

### 2.6.1 Tokenization

Depois que os dados forem normalizados, precisamos saber como representá-los como features. O processo de tokenização consiste em dividir strings mais longas em pequenos pedaços significativos chamados tokens. A forma mais comum de tokenizar um texto é dividi-lo em palavras, ou seja, dado um pedaço de texto, o processo de tokenização retornará uma lista de palavras. Vamos ver como tokenizar nossos dados normalizados.

In [None]:
from nltk.tokenize import word_tokenize

nltk.download('punkt')

# aplicando o tokenizer
df['tokens'] = df['text_preproc'].apply(word_tokenize)
df.head()

### 2.6.2 Separando nossos dados

Antes de continuarmos, vamos separar nossos dados entre dados de treino e teste.

In [None]:
from sklearn.model_selection import train_test_split

X = df[['text_preproc', 'tokens']]

y = df[['sentiment']]

TEST_SIZE = 0.3
RANDOM_STATE = 42

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, random_state=RANDOM_STATE)

### 2.6.3 Bag of Words

Algoritmos de Machine Learning tomam features numéricas como entrada, portanto, será necessário representar o texto em uma forma numérica. Com o modelo Bag of Words (BoW), podemos pegar a saída de tokenização e transformar as listas em um espaço vetorial de todos os tokens exclusivos. Esse espaço vetorial é chamado de vocabulário. Portanto, para uma determinada frase, calculamos quantas vezes cada palavra aparece nos índices da lista, onde cada entrada corresponde a uma palavra no vocabulário. Vamos ver na prática como funciona.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

BoW = CountVectorizer()

# treinando o modelo de vetorização e transformando os dados de treino
BoW_X_train = BoW.fit_transform(X_train['text_preproc']).toarray()

# aplicando o modelo treinado aos dados de teste
BoW_X_test  = BoW.transform(X_test['text_preproc']).toarray()

In [None]:
BoW_X_train = pd.DataFrame(data=BoW_X_train, columns=BoW.get_feature_names_out())

BoW_X_train.head()

### 2.6.4 Term Frequency - Inverse Document Frequency (TF-IDF)

Term Frequency Inverse Document Frequency (TF-IDF) é aplicada a um BoW para determinar a frequência relativa para palavras em um documento específico quando comparada à proporção inversa dessa palavra sobre todos os documentos na coleção. Assim, pode-se determinar a importância das palavras em um determinado documento, conforme mostrado a seguir.

$ w_{i, j} = \text{tf}_{i, j} \times \log\left(\dfrac{N}{\text{df}_{i}}\right) \text{.} $

Onde, a frequência do termo, $\text{tf}_{i, j}$, é quantas vezes a palavra de índice $i$ no documento de índice $j$. A frequência do documento, $\text{df}_{i}$, é o número de vezes que a palavra de índice ${i}$ está presente nos vocabulário de cada documento. E, finalmente, $N$ é a quantidade de documentos na sua coleção, com mais documentos, esse valor pode crescer absurdamente, então aplica-se a função log para reduzir esse efeito.

Agora, vamos ver como aplicar o TF-IDF no Python!



In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

Tfidf = TfidfVectorizer()

# treinando o modelo de vetorização e transformando os dados de treino
Tfidf_X_train = Tfidf.fit_transform(X_train['text_preproc']).toarray()

# aplicando o modelo treinado aos dados teste
Tfidf_X_test  = Tfidf.transform(X_test['text_preproc']).toarray()

In [None]:
Tfidf_X_train = pd.DataFrame(data=Tfidf_X_train, columns=Tfidf.get_feature_names_out())

Tfidf_X_train.head()

### 2.6.5 Word Embedding

Os métodos de vetorização como BoW e TF-IDF podem ser muito úteis, mas não conseguem representar o contexto das palavras. Isso significa que as mesmas palavras usadas em contextos diferentes têm a mesma representação, da mesma forma que palavras diferentes usadas com o mesmo significado são representadas de forma diferente. Além disso, um método de codificação one-hot, como BoW, apresenta uma representação muito esparsa com alta dimensionalidade.

Word Embedding é uma técnica para representar palavras em vetores capazes de capturar o contexto das palavras em um documento. Também é capaz de suavizar o efeito de alta dimensionalidade usando um vetor muito mais compacto para representar as palavras.

Existem três maneiras mais conhecidas de realizar um bom Word Embedding, mas abordaremos apenas uma delas. Word2vec é um modelo que foi pré-treinado em um corpus muito grande e fornece embeddings que mapeiam palavras semelhantes próximas umas das outras.

Para isso, vamos utilizar o arquivo *skip_s50.txt* disponibilizado junto ao notebook.

In [None]:
!pip -q install gensim

In [None]:
from gensim.models import KeyedVectors

# carregando o modelo de referência
word2vec = KeyedVectors.load_word2vec_format("dados/skip_s50.txt")

In [None]:
import numpy as np

# essas funções nos ajudam a coletar os word embeddings
def get_average_word2vec(tokens_list, vector, generate_missing=False, k=50):
    if len(tokens_list)<1:
        return np.zeros(k)
    if generate_missing:
        vectorized = [vector[word] if word in vector else np.random.rand(k) for word in tokens_list]
    else:
        vectorized = [vector[word] if word in vector else np.zeros(k) for word in tokens_list]
    length = len(vectorized)
    summed = np.sum(vectorized, axis=0)
    averaged = np.divide(summed, length)
    return averaged

def get_word2vec_embeddings(vectors, clean_questions, generate_missing=False):
    embeddings = clean_questions['tokens'].apply(lambda x: get_average_word2vec(x, vectors,
                                                                                generate_missing=generate_missing))
    return list(embeddings)


In [None]:
# com as funções definidas acima, vamos obter nossos word embeddings
word2vec_X_train = get_word2vec_embeddings(word2vec, X_train)
word2vec_X_test = get_word2vec_embeddings(word2vec, X_test)

<a id="analise_sent"></a>
# 3 Análise de Sentimentos

Legal! Agora que construímos nossos dados, é hora de experimentar alguns modelos e verificar qual deles nos dá os melhores resultados. Nesta seção, exploraremos dois modelos que funcionam muito bem para esse tipo de tarefa: Naive Bayes e SVC.

Observe como é fácil construir e avaliar esses modelos com o SKLearn.

## 3.1 NaiveBayes e BoW

In [None]:
# importando as bibliotecas
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

# criando e treinando o modelo
naive_bayes_classifier = MultinomialNB()
naive_bayes_classifier.fit(BoW_X_train, y_train)

# realizando a predição nos dados de teste
y_pred = naive_bayes_classifier.predict(BoW_X_test)

# finalmente, vamos ver os resultados do modelo
score1 = metrics.accuracy_score(y_test, y_pred)
print(score1)
print(metrics.confusion_matrix(y_test, y_pred))
print(metrics.classification_report(y_test, y_pred, zero_division=True))

Para resultados acima, podemos ver que, embora o score de precisão tenha sido alto, o modelo não teve um bom desempenho na classificação dos comentários NEGATIVOS.

## 3.2 NaiveBayes e TF-IDF

In [None]:
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

naive_bayes_classifier = MultinomialNB()
naive_bayes_classifier.fit(Tfidf_X_train, y_train)
y_pred = naive_bayes_classifier.predict(Tfidf_X_test)

score1 = metrics.accuracy_score(y_test, y_pred)
print(score1)
print(metrics.confusion_matrix(y_test, y_pred))
print(metrics.classification_report(y_test, y_pred, zero_division=True))

O uso do TF-IDF ajudou o modelo na classificação dos comentários, mas ainda podemos tentar melhores resultados na classificação dos comentários NEGATIVOS.

## 3.3 SVC e BoW


In [None]:
from sklearn.svm import SVC
from sklearn import metrics

svc_classifier = SVC()
svc_classifier.fit(BoW_X_train, y_train)
y_pred = svc_classifier.predict(BoW_X_test)

score1 = metrics.accuracy_score(y_test, y_pred)
print(score1)
print(metrics.confusion_matrix(y_test, y_pred))
print(metrics.classification_report(y_test, y_pred, zero_division=True))

O SVC funcionou bem como nosso modelo. Agora temos maiores chances de obter a classificação de sentimento certa para cada uma das classes.

## 3.4 SVC e TF-IDF

In [None]:
from sklearn.svm import SVC
from sklearn import metrics

svc_classifier = SVC()
svc_classifier.fit(Tfidf_X_train, y_train)
y_pred = svc_classifier.predict(Tfidf_X_test)

score1 = metrics.accuracy_score(y_test, y_pred)
print(score1)
print(metrics.confusion_matrix(y_test, y_pred))
print(metrics.classification_report(y_test, y_pred, zero_division=True))

Usando o TF-IDF nos dá um resultado levemente melhor.

## 3.5 SVC e Word2Vec


In [None]:
from sklearn.svm import SVC
from sklearn import metrics

svc_classifier = SVC()
svc_classifier.fit(word2vec_X_train, y_train)
y_pred = svc_classifier.predict(word2vec_X_test)

score1 = metrics.accuracy_score(y_test, y_pred)
print(score1)
print(metrics.confusion_matrix(y_test, y_pred))
print(metrics.classification_report(y_test, y_pred, zero_division=True))

Bem, o Word2Vec não ajudou muito a obter melhores resultados. Ficamos com SVC e TF-IDF.

Parabéns, você construiu seu modelo de Análise de Sentimento!

## 3.6 Explorando o modelo

Legal! Obtivemos um bom resultado com SVC e TF-IDF. Agora, vamos usar nosso modelo para prever nosso conjunto de dados. Isso nos permitirá ter todo o nosso conjunto de dados rotulado exatamente como o resultado que obtivemos da AWS. Então, seremos capazes de analisar como nosso modelo funcionou fazendo nossa Análise de Sentimento.

In [None]:
from sklearn.svm import SVC
from sklearn import metrics

# vamos treinar o nosso classificador
svc_classifier = SVC(probability=True)
svc_classifier.fit(Tfidf_X_train, y_train)

In [None]:
# aplicando a transformação ao nosso dataset inteiro
Tfidf_X = Tfidf.transform(df['text_preproc']).toarray()

# classificando o sentimento
y_pred = svc_classifier.predict(Tfidf_X)
class_probabilities = svc_classifier.predict_proba(Tfidf_X)

In [None]:
# com classes_, podemos verificar a ordem que as probabilidades de cada classe estão definidas em class_probabilities
svc_classifier.classes_

In [None]:
# vamos criar o nosso dataframe com os resultados. Nele, termos o texto, a classificação do sentimento e as probabilidades para cada sentimento
df_result = pd.DataFrame(class_probabilities, columns = ['conf_mixed', 'conf_negative', 'conf_neutral', 'conf_positive'])
df_result['sentiment'] = y_pred
df_result['text'] = df['text']
df_result['vacina'] = df['vacina']
df.head()


Finalmente, vamos repetir a análise que fizemos antes, obtendo os 5 principais tweets para cada sentimento, desta vez com base em nosso próprio classificador.

In [None]:
df_russia = df_result[df_result['vacina']=='russia']

df_russia = df_russia.drop_duplicates(subset=['text'])

df_russia = df_russia.sort_values(by=['conf_positive'], ascending=False)

df_russia['text'].to_list()[:5]

In [None]:
df_russia = df_russia.sort_values(by=['conf_negative'], ascending=False)

df_russia['text'].to_list()[:5]

In [None]:
df_russia = df_russia.sort_values(by=['conf_neutral'], ascending=False)

df_russia['text'].to_list()[:5]

In [None]:
df_russia = df_russia.sort_values(by=['conf_mixed'], ascending=False)

df_russia['text'].to_list()[:5]

In [None]:
df_oxford = df_result[df_result['vacina']=='oxford']

df_oxford = df_oxford.drop_duplicates(subset=['text'])

df_oxford = df_oxford.sort_values(by=['conf_positive'], ascending=False)

df_oxford['text'].to_list()[:5]

In [None]:
df_oxford = df_oxford.sort_values(by=['conf_negative'], ascending=False)

df_oxford['text'].to_list()[:5]

In [None]:
df_oxford = df_oxford.sort_values(by=['conf_neutral'], ascending=False)

df_oxford['text'].to_list()[:5]

In [None]:
df_oxford = df_oxford.sort_values(by=['conf_mixed'], ascending=False)

df_oxford['text'].to_list()[:5]

<a id="sota_nlp"></a>
# 4 NLP Estado da Arte (SOTA - State-of-the-Art)

Neste notebook, fornecemos uma visão geral das técnicas básicas que você deve saber para construir suas soluções de NLP e o ajudamos a construir sua aplicação de Análise de Sentimentos. Aqui, veremos como o NLP evoluiu com técnicas avançadas de IA, permitindo-nos usar algoritmos poderosos para construir soluções de problemas.

O projeto [Sentiment analysis neural network trained by fine-tuning BERT, ALBERT, or DistilBERT on the Stanford Sentiment Treebank](https://github.com/barissayil/SentimentAnalysis) é um excelente exemplo do que é possível contruir com essas tecnologias.

## 4.1 Stanford NLP Group

[Stanford NLP Group](https://nlp.stanford.edu/) é um grupo de pessoas que trabalham para criar soluções de NLP robustas. Eles contribuem com um grande conjunto de bases de dados e soluções construídas sobre técnicas avançadas de aprendizado de máquina. Na [página de Análise de Sentimentos](https://nlp.stanford.edu/sentiment/) deles, é possível testar o modelo de [RNN em Análise de Sentimentos](https://nlp.stanford.edu/sentiment/treebank.html).


## 4.2  BERT

Google é uma das empresas líderes nas pesquisas de NLP. Seu modelo de representação de linguagem [BERT](https://arxiv.org/pdf/1810.04805.pdf) acabou sendo muito útil na representação da linguagem humana e encorajou o desenvolvimento de seus modelos derivados [ALBERT](https://arxiv.org/pdf/1909.11942.pdf) e [DistilBERT](https://arxiv.org/pdf/1910.01108.pdf).
.

## 4.3 Hugging Face
[Hugging Face](https://huggingface.co/) é um grupo obrigatório para todos os desenvolvedores de NLP. Eles estão construindo soluções incríveis usando técnicas avançadas de aprendizado de máquina, como o Zero-Shot Pipeline, que você pode até experimentar em seus [Collab Notebook](https://colab.research.google.com/drive/1jocViLorbwWIkTXKwxCOV9HLTaDDgCaw?usp=sharing).


## 4.4 GPT-3

[GPT-3](https://github.com/openai/gpt-3) é um modelo de Machine Learning criado pela [OpenAI](https://openai.com/) que pode escrever desde poemas até código. Agora está em beta privado e para você experimentar a API você precisa se cadastrar no site e aguardar a aceitação, mas você pode dar uma olhada no poder do GPT-3 nas redes sociais.

GPT-3 trouxe com seus resultados impressionantes um conjunto de questões morais. MIT Technology Review escreveu um [overview](https://www.technologyreview.com/2020/07/20/1005454/openai-machine-learning-language-generator-gpt-3-nlp/) bem interessante sobre a tecnologia, abordando seu poder e também seus perigos.

<a id="digdeeper"></a>
# 5 Dicas e Referências

## 5.1 Dicas

Nosso notebook cobriu muitos aspectos de NLP, mas ainda existe um universo inteiro que não abordamos aqui. Além disso, há algumas coisas que sugerimos que você tenha em mente ao desenvolver seus aplicativos. A lista a seguir é uma compilação de dicas e truques que você pode usar ao trabalhar com NLP:


* Fique de olho nas novas técnicas e tecnologias da comunidade. Quem sabe um deles pode realmente resolver seus problemas.
* Fique de olho nos impactos dessas novas tecnologias na sociedade. Há muitas questões morais envolvidas e é muito importante que tomemos cuidado com isso.
* Conheça as soluções básicas antes de pular para as mais avançadas. Como vimos, soluções simples (modelos e pré-processamento, por exemplo) podem realmente ter um bom desempenho para texto.
* Não use as etapas mostradas aqui como uma checklist. Use-as como referência. Você precisa ter um conhecimento profundo sobre onde deseja chegar com seus modelos e como trabalhar com seu texto para alcançá-lo.
* Seja criativo. Para isso, estude outras soluções. Existem várias maneiras de coletar dados textuais e trabalhar com eles na comunidade open-source. Use-a para obter melhores resultados.
* Seja muito cético. Existem muitos tutoriais e exemplos na internet que mostram resultados maravilhosos mas, se você olhar mais de perto, há erros cometidos ao longo da construção da aplicação que deram essa ilusão de um bom resultado. Novamente, tenha um conhecimento de base sólido e julgue cada etapa e cada exemplo que você vê. Esta é uma ótima maneira de contribuir com a comunidade e aprender.


## 5.2 Referências

**Links gerais:**

Stanford NLP Group: https://nlp.stanford.edu/

Hugging Face: https://huggingface.co/

Google BERT Paper: https://arxiv.org/pdf/1810.04805.pdf

OpenAI Machine Learning Language Generator GPT 3: https://www.technologyreview.com/2020/07/20/1005454/openai-machine-learning-language-generator-gpt-3-nlp/

NLP On The Office Series: https://towardsdatascience.com/nlp-on-the-office-series-cf0ed44430d1

**Repositórios GitHub:**

barissayil/SentimentAnalysis: https://github.com/barissayil/SentimentAnalysis

balavenkatesh3322/NLP-pretrained-model: https://github.com/balavenkatesh3322/NLP-pretrained-model

**Livros e Cursos:**

Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit (English Edition)

Udacity Introduction to Machine Learning: https://www.udacity.com/course/intro-to-machine-learning--ud120
