## <center>Processamento de Linguagem Natural em Textos de M√≠dias Sociais: Fundamentos, Ferramentas e Aplica√ß√µes</center>

### <center>XXVIII Simp√≥sio Brasileiro de Sistemas Multim√≠dia e Web (WebMedia 2022)</center>

<br></br>

<center>Frances A. Santos (UNICAMP), Jordan Kobellarz (UTFPR), F√°bio R. de Souza (USP), Leandro A. Villas (UNICAMP), Thiago H. Silva (UTFPR)</center>

<br></br>

<center>Curitiba, PR</center>
<center>07 de Novembro de 2022</center>

| <a href="https://colab.research.google.com/github/webmedia2022-nlp/course-code/blob/main/NLP_WebMedia2022.ipynb" target="_parent"><img style="float: center;" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Abrir no Colab"/></a> | <img style="float: center;" src="https://img.shields.io/badge/python-v3.8.13-blue" alt="Python Version"/> |
| --- | --- |

In [None]:
!pip install --no-cache-dir -r requirements.txt
!python -m spacy download en_core_web_sm #Instalando depend√™ncias espec√≠ficas do spacy

In [None]:
%load_ext autoreload
%autoreload 2

import math
import warnings
import pathlib
import os 
import getpass
import pandas as pd
import numpy as np
import nltk
import spacy
import matplotlib.pyplot as plt
import seaborn as sns
import getpass
import warnings
import pathlib
import os 
import json
from tqdm import tqdm
from sklearn.metrics.pairwise import cosine_similarity
from pathlib import Path

# Cria√ß√£o do diret√≥rio "data/"
Path("data").mkdir(parents=True, exist_ok=True)

from DataExtraction import DataExtraction
from Preprocessing import Preprocessing
from TextRepresentation import StatisticalModels, SentenceEmbeddings, WordEmbeddings
from KnowledgeExtraction import Clustering, SemanticComprehension, SentimentAnalysis

warnings.filterwarnings('ignore')
tqdm.pandas()

In [None]:
# Download de arquivos usados por bibliotecas
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt')

nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

## Agenda

<img src="figs/agenda.png" style="float: center; zoom:100%;" />

# <center>Introdu√ß√£o</center>

### Por que m√≠dias sociais?

M√≠dias sociais s√£o acessadas por aproximadamente 4,7 bilh√µes de usu√°rios em todo o planeta (i.e., 59% da popula√ß√£o) [Kemp 2022]

<img src="figs/social-media.jpeg" style="float: center; zoom:100%;" />

### Exemplo (Twitter):

* 200 Bilh√µes de postagens por ano
* equivalente a 6 mil postagens por segundo

Fonte: [Twitter Usage Statistics](https://www.internetlivestats.com/twitter-statistics)

### Possibilidades para acessar dados p√∫blicos em larga escala

* **Twitter** - API (stream e hist√≥rico)
* **Reddit** - API (stream e hist√≥rico)
* **Meta (Instagram e Facebook)** - Plataforma CrowdTangle
* **Swarm (Forsquare)** - API
* **Flickr** - API
* **Google Places** - API

### Valiosa fonte de dados para diversas aplica√ß√µes

* **Na Academia**
    * An√°lise de fen√¥menos sociais
    * Sensoriamento social
    * Detec√ß√£o de not√≠cias falsas
    * Discurso de √≥dio
    * Polariza√ß√£o pol√≠tica

* **Na Ind√∫stria**
    * Benchmarking (compara√ß√£o com concorrentes)
    * Forecasting (an√°lise de tend√™ncias)
    * Sistemas de recomenda√ß√£o
    * Personaliza√ß√£o / customiza√ß√£o em larga escala
    * An√°lise de risco

### Por que textos?

Textos escritos em linguagem natural, <br>est√£o presentes na maioria dos dados dispon√≠veis de m√≠dias sociais

<img src="figs/social-media-content.png" style="float: right; zoom:80%;" />


# <center>1. Textos de m√≠dias sociais <br>Suas principais caracter√≠sticas e como colet√°-los</center>

### Onde encontrar dados textuais?

* Postagens
* Artigos
* Mensagens / coment√°rios
* Metainforma√ß√µes de p√°ginas, imagens, videos, perfis, postagens, mensagens, etc. 
* Extra√ß√£o de texto em imagem, √°udio e video

### M√≠dias sociais consideradas


| <img src="figs/twitter.png" style="float: center; zoom:20%;" /> | <img src="figs/reddit.png" style="float: top center; zoom:50%;" /> | <img src="figs/facebook.png" style="float: center; zoom:40%;" /> |
| --- | --- | --- |


## 1.1 Twitter

* M√≠dia social de *Microblogging*
* Mensagens limitadas a 280 caracteres
* Uma das primeiras redes a disponibilizar uma API para extra√ß√£o de dados p√∫blicos em larga escala
* Possibilidade de coleta de dados hist√≥ricos ou em tempo real (*streaming*)
* Qualquer dado p√∫blico pode ser acessado, exceto os de perfis privados (menos de 10%)

### Caracter√≠stica proeminente

Simplicidade nas intera√ß√µes e dicion√°rio de dados:

* tweets
* hashtags #
* men√ß√µes @
* retweets RT
* respostas

### Dados que podem ser obtidos via API

* **texto do tweet**
* **timestamp**
* **autor**
    * nome
    * localiza√ß√£o
    * se √© verificado
    * quantidade de seguidores, amigos, postagens
    * data de cria√ß√£o da conta
    * l√≠ngua do perfil
    * etc.
* **geolocaliza√ß√£o do tweet (GeoJson)**
    * adicionada expl√≠citamente
    * ou capturada do dispositivo que gerou o tweet
* **entidades**
    * hashtags
    * links
    * men√ß√µes
    * m√≠dias
* **sinais sociais**
    * quantidade de retweets
    * quantidade de curtidas
    * quantidade de respostas
* etc. 

Conhe√ßa o [dicion√°rio completo de dados de um tweet aqui](https://developer.twitter.com/en/docs/twitter-api/v1/data-dictionary/object-model/tweet). 

### Exemplo de um tweet

Alguns campos foram omitidos para facilitar a visualiza√ß√£o. 

```json
{
  "created_at": "Thu Apr 06 15:24:15 +0000 2017",
  "id_str": "850006245121695744",
  "text": "1\/ Today we\u2019re sharing our vision for the future of the Twitter API platform!\nhttps:\/\/t.co\/XweGngmxlP",
  "user": {
    "id": 2244994945,
    "name": "Twitter Dev",
    "screen_name": "TwitterDev",
    "location": "Internet",
    "url": "https:\/\/dev.twitter.com\/",
    "description": "Your official source for Twitter Platform news, updates & events. Need technical help? Visit https:\/\/twittercommunity.com\/ \u2328\ufe0f #TapIntoTwitter"
  },
  "place": {   
  },
  "entities": {
    "hashtags": [      
    ],
    "urls": [
    ],
    "user_mentions": [     
    ]
  }
}
```

### Limita√ß√µes e desafios

* Limite de 280 caracteres
    * restringe capacidade argumentativa
    * usu√°rios contornam com uso de contra√ß√µes de palavras, g√≠rias da internet e emojis
* Representatividade da popula√ß√£o
    * pode n√£o representar bem o usu√°rio m√©dio de Internet
    * [tendem a ser usadas por pessoas mais jovens, com maior renda e grau de escolaridade](https://blogs.oii.ox.ac.uk/policy/did-you-consider-twitters-lack-of-representativeness-before-doing-that-predictive-study/)
* Representatividade do retorno da API
    * a API de streaming se baseia na [**relev√¢ncia** e n√£o **completude** dos dados](https://developer.twitter.com/en/docs/twitter-api/v1/tweets/search/overview)
* Alta incid√™ncia de contas rob√¥

### Coletando Tweets

- Utilizaremos a Twitter API v2 para coletar os tweets 
- Acesse a [p√°gina de desenvolverdores](https://developer.twitter.com/) e obtenha suas credenciais de acesso
- Limitamos cada coleta a **10 tweets**, mas todo o conte√∫do dos tweets √© adicionado (*appending*) ao arquivo local data/tweets.json
- Al√©m dos campos *id* e *text* que est√£o presentes nos tweets por padr√£o, tamb√©m solicitamos os campos *created_at, entities, geo, lang, public_metrics, source*. Para ver a lista completa de campos poss√≠veis, acesse esta [p√°gina](https://developer.twitter.com/en/docs/twitter-api/data-dictionary/object-model/tweet)
- Filtramos para selecionar apenas os tweets escritos em Ingl√™s ( *lang = "en"* ) e que contenham o termo "nyc", que referencia a cidade de Nova Iorque
- Ap√≥s coletar os tweets, extra√≠mos os valores dos campos *text, timestamp_ms, ...* e retornamos no formato Pandas DataFrame. 

In [None]:
# Credenciais da API do Twitter

print("Informe seu 'API KEY'")
twitter_consumer_key = getpass.getpass()

print("Informe seu 'API KEY SECRET'")
twitter_consumer_secret = getpass.getpass()

print("Informe seu 'ACCESS TOKEN KEY'")
twitter_access_token_key = getpass.getpass()

print("Informe seu 'ACCESS TOKEN SECRET'")
twitter_access_token_secret = getpass.getpass()

print("Informe seu 'Bearer TOKEN'")
twitter_bearer_token = getpass.getpass()

In [None]:
## Coleta de tweets
try:
    df_tweets = DataExtraction().twitter(
        twitter_consumer_key, 
        twitter_consumer_secret, 
        twitter_access_token_key, 
        twitter_access_token_secret, 
        twitter_bearer_token
    )
except:
    ## Caso aconte√ßa algum erro durante a coleta, √© carregado o arquivo existente
    with open("data/tweets.json", "r") as tweet_file:
        tweets = json.load(tweet_file)
        data = [{
                "created_at": item["created_at"],
                "url": "https://twitter.com/anyuser/status/" + item["id"],
                "score": item["public_metrics"]["like_count"],
                "text": item["text"],
                "length":len(item["text"]),
                "geo": item["geo"]
                } for item in tweets]
        df_tweets = pd.DataFrame(data)
    
df_tweets.head()

## 1.2 Reddit

* M√≠dia social baseada em f√≥runs de discuss√£o
* Comunidades/f√≥runs ‚Üí \subreddits
* Mais de 100K comunidades e 50 mi de usu√°rios ativos diariamente em [2020](https://www.redditinc.com/advertising/audience)

### Caracter√≠sticas proeminentes

* Sistema de modera√ß√£o autoorganiz√°vel
    * \subreddits possuem regras pr√≥prias criadas pelos moderadores e membros
    * algumas comunidades possuem alto n√≠vel de comprometimento com as regras propostas
    * mecanismos de recompensa para colaboradores ativos
* Possibilidade de coletar dados em stream e hist√≥rico
    * vantagem de permitir a recupera√ß√£o do hist√≥rico completo
* Permite acesso √† qualquer informa√ß√£o dispon√≠vel publicamente
    * inclui postagens, coment√°rios, perfis, comunidades e suas respectivas metainforma√ß√µes

### Dados que podem ser obtidos via API

**[submission (postagem)](https://praw.readthedocs.io/en/stable/code_overview/models/comment.html)**
* id
* url
* permalink
* created_utc
* title
* selftext (conte√∫do da postagem)
* score (n√∫mero de upvotes)
* [author](https://praw.readthedocs.io/en/stable/code_overview/models/comment.html) (Redditor)
    * name
    * created_utc
    * comment_karma (pontua√ß√£o do usu√°rio)
    * has_verified_email
    * etc.
* [comments](https://praw.readthedocs.io/en/stable/code_overview/models/comment.html) (√°rvore de coment√°rios -- necess√°rio percorrer com m√©todo espec√≠fico para isso)
    * author (Redditor)
    * body
    * distinguished
    * etc.
* distinguished (se a postagem foi destacada pelo moderador)
* edited (se a postagem foi editada)
* is_original_content (se foi marcada automaticamente como conte√∫do original)
* over_18 (se √© conte√∫do para maiores de 18 anos)
* etc.

### Limita√ß√µes e desafios

* a plataforma permite um alto grau de anonimidade
    * √© encorajado o uso de pseud√¥nimo
    * √© poss√≠vel fazer cadastro sem verifica√ß√£o
    * abertura para comportamentos anti-√©ticos em comunidades n√£o moderadas / permissivas
* cada comunidade possui regras pr√≥prias
    * pr√°ticas de modera√ß√£o distintas
    * dificultando a compara√ß√£o 
* liberdade no formato
    * campo aberto com possibiidade de uso de html e markdown
* alta incid√™ncia de bots
    * criam, fazem a curadoria e moderam conte√∫dos 

### Coletando Posts de \subreddits

- Utilizaremos a [API do Reddit](https://www.reddit.com/dev/api) para coletar posts
- Voc√™ dever√° criar uma conta para acessar a API em [reddit.com](https://reddit.com)
- Depois de criar a conta, obtenha os Client ID e o Client Secret
- No exemplo a seguir, coletamos os top 100 posts de 5 subreddits, contendo o texto, url, n√∫mero de coment√°rios, data de cria√ß√£o e score (n√∫mero de upvotes do post)
- Os dados s√£o salvos no arquivo local data/reddit_posts.csv

In [None]:
# Credenciais da API do Reddit

print("Informe seu 'CLIENT ID'")
REDDIT_CLIENT_ID = getpass.getpass()

print("Informe seu 'CLIENT SECRET'")
REDDIT_CLIENT_SECRET = getpass.getpass()

In [None]:
# Subreddits com discuss√µes s√©rias sobre assuntos como pol√≠tica, hist√≥ria e ci√™ncia.
subreddits = [
    'politics',
    'AskHistorians',
    'changemyview',
    'COVID19',
    'EverythingScience',
    'science'
]

# Coleta os top 100 posts de cada Subreddit
df_reddit_posts = DataExtraction().reddit(
    REDDIT_CLIENT_ID,
    REDDIT_CLIENT_SECRET,
    subreddits=subreddits,
    top_n=100
)

In [None]:
# Apresenta alguns posts com texto
df_reddit_posts[df_reddit_posts['length'] > 0].tail(5)

## 1.3 Facebook (Meta)

### Caracter√≠sticas proeminentes

* Alto grau de controle de privacidade
* O anonimato √© desencorajado 

### Formas de obter dados

* Via API nativa (limitada)
* Via web scraping (desencorajado)
* Via polls com usu√°rios (n√£o escal√°vel)
* Via programa [Social Science One](https://socialscience.one/grant-process) (acesso direto √† base do Facebook | dif√≠cil acesso | apenas para uso acad√™mico)
* Via plataforma do [CrowdTangle](https://crowdtangle.com) (dados limitados a p√°ginas e grupos famosos)

### [CrowdTangle](https://crowdtangle.com)

* Iniciativa da Meta criada para jornalistas, ag√™ncias de checagem de fatos, profissionais de marketing e pesquisadores
* Possibilidade de consultar e visualizar dados em tempo real pela interface (dashboards)
* Mesmos dados apresentados na interface podem ser obtidos via API

* Informa√ß√µes que **podem** ser coletadas:
     * quando algo foi postado
     * tipo do post (video, imagem, texto)
     * p√°gina, conta ou grupo onde o conte√∫do foi postado
     * quantidade de intera√ß√µes (likes, rea√ß√µes, coment√°rios, compartilhamentos, visualiza√ß√µes de videos)
     * p√°ginas p√∫blicas ou contas que compartilharam o conte√∫do

* Informa√ß√µes que **n√£o podem** ser coletadas:
    * alcance ou impress√µes de um post
    * conte√∫dos ef√™meros, como stories, por exemplo
    * informa√ß√µes demogr√°ficas de usu√°rios

* A base de dados dispon√≠vel se limita a:
    * contas famosas (aprox. ~7 mi de p√°ginas, grupos ou perfis verificados em 08/06/2021), incluindo:
        * p√°ginas p√∫blicas com mais de 50K curtidas
        * grupos p√∫blicos com mais de 95K membros
        * grupos p√∫blicos dos Estados Unidos com mais de 2K membros
        * todos os perfis verificados

### Exemplo de retorno da API do CrowdTangle

```json
{
    "status": 200,
    "result": {
        "posts": [
            {
                "platformId": "47657117525_10154014482272526",
                "platform": "Facebook",
                "date": "2016-02-12 23:38:14",
                "updated": "2020-08-23 05:48:22",
                "type": "live_video_complete",
                "message": "Draymond at Foot Locker for #NBAAllStarTO with a special shoutout to #DubNation.",
                "expandedLinks": [
                    {
                        "original": "https://www.facebook.com/warriors/videos/10154014482272526/",
                        "expanded": "https://www.facebook.com/warriors/videos/10154014482272526/"
                    }
                ],
                "link": "https://www.facebook.com/warriors/videos/10154014482272526/",
                "postUrl": "https://www.facebook.com/warriors/posts/10154014482272526",
                "subscriberCount": 6041837,
                "score": 4.750579867017164,
                "media": [
                    {
                        "type": "video",
                        "url": "https://video-sea1-1.xx.fbcdn.net/v/t42.1790-29/12718926_1213464465334694_1083747983_n.mp4?_nc_cat=109&_nc_sid=985c63&efg=eyJybHIiOjQ0MiwicmxhIjoxNDIwLCJ2ZW5jb2RlX3RhZyI6InYyXzQwMF9jcmZfMjdfbWFpbl8zLjBfc2QifQ%3D%3D&_nc_ohc=e7Ygz2qv-24AX-wSWX2&rl=442&vabr=246&_nc_ht=video-sea1-1.xx&oh=889e0d776d92a84bb57099cad3d28d55&oe=5F43C879",
                        "height": 0,
                        "width": 0
                    },
                    {
                        "type": "photo",
                        "url": "https://scontent-sea1-1.xx.fbcdn.net/v/t15.5256-10/12526285_831341603658336_1493677499_n.jpg?_nc_cat=101&_nc_sid=1055be&_nc_ohc=DH0vfblGwtIAX_x8SBs&_nc_ht=scontent-sea1-1.xx&oh=b09d6378fa261fd45345e79c50c254cb&oe=5F696BE1",
                        "height": 400,
                        "width": 400,
                        "full": "https://scontent-sea1-1.xx.fbcdn.net/v/t15.5256-10/12526285_831341603658336_1493677499_n.jpg?_nc_cat=101&_nc_sid=1055be&_nc_ohc=DH0vfblGwtIAX_x8SBs&_nc_ht=scontent-sea1-1.xx&oh=b09d6378fa261fd45345e79c50c254cb&oe=5F696BE1"
                    }
                ],
                "statistics": {
                    "actual": {
                        "likeCount": 24235,
                        "shareCount": 753,
                        "commentCount": 5675,
                        "loveCount": 33,
                        "wowCount": 18,
                        "hahaCount": 3,
                        "sadCount": 0,
                        "angryCount": 5,
                        "thankfulCount": 0,
                        "careCount": 0
                    },
                    "expected": {
                        "likeCount": 3927,
                        "shareCount": 279,
                        "commentCount": 1041,
                        "loveCount": 1046,
                        "wowCount": 94,
                        "hahaCount": 45,
                        "sadCount": 14,
                        "angryCount": 19,
                        "thankfulCount": 0,
                        "careCount": 2
                    }
                },
                "account": {
                    "id": 19889,
                    "name": "Golden State Warriors",
                    "handle": "warriors",
                    "profileImage": "https://scontent-sea1-1.xx.fbcdn.net/v/t1.0-1/p200x200/74788912_10158146665972526_3545220405897723904_n.jpg?_nc_cat=1&ccb=2&_nc_sid=dbb9e7&_nc_ohc=9snUpG_pdlQAX90IhWM&_nc_ht=scontent-sea1-1.xx&tp=6&oh=f8a3d3b62b507966ecc68de3b557fe84&oe=5FBF1185",
                    "subscriberCount": 11580228,
                    "url": "https://www.facebook.com/47657117525",
                    "platform": "Facebook",
                    "platformId": "47657117525",
                    "accountType": "facebook_page",
                    "pageAdminTopCountry": "US",
                    "verified": true
                },
                "videoLengthMS": 307968,
                "liveVideoStatus": "completed",
                "Id": "19889|10154014482272526",
                "legacyid": 1686762829
            }
        ]
    }
}
```

### Limita√ß√µes e desafios

* Dados limitados a contas famosas
    * contas menos famosas s√£o subrepresentadas
* N√£o √© poss√≠vel saber quem reagiu ou comentou em posts
* Ferramenta muito nova / pouco explorada

### Coletando Posts no CrowdTangle

* Utilizaremos a API do CrowdTangle para extrair posts do Facebook -- [documenta√ß√£o](https://github.com/CrowdTangle/API/wiki)
* O primeiro passo √© criar uma conta no CrowdTangle, depois criar um dashboard e obter o token da API para acessar os dados do dashboard
* Para coletar posts via API, √© necess√°rio criar pelo menos uma lista em seu dashboard rec√©m criado
* Em nosso caso, criaremos uma lista para monitorar posts de p√°ginas de m√≠dias de not√≠cias, incluindo CNN, NYT, BBC, NBC, NPR, Reuters, etc. 
* [Esse video explica como usar a interface do CrowdTangle para criar listas](https://vimeo.com/588999918). 
* [Esse video explica como acessar os dados via API](https://vimeo.com/453763307) explicando como executar todos os procedimentos acima

> Observa√ß√£o: n√£o √© poss√≠vel criar uma lista via API, somente pela interface do dashboard.

In [None]:
# Credenciais da API do CrowdTangle

print("Informe seu 'API_TOKEN'")
CROWDTANGLE_API_TOKEN = getpass.getpass()

In [None]:
# Aqui coletamos os top 100 posts em cada m√™s, iniciando em start_date e terminando em end_date
df_facebook_posts = DataExtraction().facebook(
    CROWDTANGLE_API_TOKEN, 
    search_term='covid-19',
    start_date = '2020-04-01',
    end_date = '2021-04-01'
)

In [None]:
# Amostra de posts do Facebook
df_facebook_posts.tail(3)

# <center>2. Pr√©-processamento Textual</center>

Nesta etapa, passamos pela s√©rie de tarefas necess√°rias para posterior aplica√ß√£o de modelos de Aprendizado de M√°quina.

Mais especificamente, passaremos pelas seguintes etapas:

- Normaliza√ß√£o
- Tokeniza√ß√£o
- Lemmatiza√ß√£o
- Stemmiza√ß√£o
- POS Tagging 
- Padr√µes Regex para Limpeza de Texto 

Para isso, apresentaremos duas vers√µes: a biblioteca [NLTK](https://www.nltk.org/howto/portuguese_en.html), e o Spacy(https://spacy.io/)

**Normaliza√ß√£o**

Em primeiro lugar, realizamos a normaliza√ß√£o de texto, para que consigamos computar a quantidade de palavras independente de terem sido escritas em letras mai√∫sculas ou min√∫sculas

In [None]:
pipeline = Preprocessing()

data = df_tweets[['text']].copy()
data["normalized_text"] = data['text'].apply(pipeline.normalization)

data.head()

##### Regex (Expressoes regulares)

As Express√µes Regulares (do ingl√™s, Regular Expressions, cujos acr√¥nimos s√£o RE ou RegEx), s√£o comandos que especificam padr√µes de busca em texto.

S√£o muito vers√°teis para limpeza de texto, uma vez que √© permitido especificar atrav√©s delas exatamente os padr√µes que s√£o importantes para o nosso contexto.

Alguns sites s√£o muito √∫teis como refer√™ncia para montar e testar padr√µes Regex, como o [Regex101](https://regex101.com/)

In [None]:
re_links = r'https?:\/\/.*[\r\n]*'
apply_regex = lambda x: pipeline.clean_regex(x, re_links, value='LINK')
data['clean_text'] = data['normalized_text'].apply(apply_regex)

re_mentions = r'@([A-Za-z0-9_]+)'
apply_regex = lambda x: pipeline.clean_regex(x, re_mentions, value='USERNAME')
data['clean_text'] = data['clean_text'].apply(apply_regex)

re_newline = '\\n'
apply_regex = lambda x: pipeline.clean_regex(x, re_newline)
data['clean_text'] = data['clean_text'].apply(apply_regex)

re_special_char = '\W+'
apply_regex = lambda x: pipeline.clean_regex(x, re_special_char)
data['clean_text'] = data['clean_text'].apply(apply_regex)


data.head()

#### Tokeniza√ß√£o

A etapa de tokeniza√ß√£o consiste em transformar um texto em uma lista de palavras e s√≠mbolos.

In [None]:
data['tokens'] = data['clean_text'].apply(pipeline.tokenization)

data.head()

**POS Tagging**

A extra√ß√£o de POS Tags (Part of Speech, ou Partes-da-Fala), consiste em identificar o papel de cada termo dentro da estrutura sint√°tica de uma frase.

Alguns exemplos de POS Tag s√£o: 

- ADJ: Adjetivo
- ADP: Preposi√ß√£o (do ingl√™s Adposition)
- ADV: Adv√©rbio
- NOUN: Substantivo
- VERB: Verbo
- PROPN: Nomes pr√≥prios

In [None]:
data['pos_tags'] = data['tokens'].apply(pipeline.pos_tagging)

data.head()

**Stemmiza√ß√£o**

A stemmiza√ß√£o consiste em extrair o afixo de uma palavra. Isso permite que se reduza a variabilidade do corpus, ao agruparmos todas as refer√™ncias a uma palavra √∫nica independente das varia√ß√µes de g√™nero, n√∫mero e grau.

In [None]:
data['stems'] = data['tokens'].apply(pipeline.stemming)

data.head()

**Lemmatiza√ß√£o**

A lemmatiza√ß√£o consiste em uma tarefa cujo objetivo √© o mesmo da Stemmiza√ß√£o, com a diferen√ßa de que, ao inv√©s de reduzir as palavras ao seu radical (se tornando, √†s vezes, ileg√≠vel), as palavras neste caso s√£o reduzidas a sua inflex√£o m√≠nima (*estamos, estaremos e estava*, para *est√°*, por exemplo).

In [None]:
data['lemmas'] = data['tokens'].apply(pipeline.lemmatization)

data.head()

### Outra Alternativa: Pipeline de NLP do Spacy

O Spacy permite que todas as etapas realizadas de pr√©-processamento sejam realizadas em uma √∫nica chamada, num processo conhecido como *pipeline* de NLP. 

A diferen√ßa principal em rela√ß√£o ao NLTK est√° no fato de que, internamente, s√£o utilizados modelos de Machine Learning, e modelos adicionais, como Entidades Nomeadas, s√£o tamb√©m oferecidos.

In [None]:
#Fazendo tudo de uma s√≥ vez com Spacy

data['tokens'], data['pos_tags'], data['lemmas'] = zip(*data['clean_text'].apply(pipeline.nlp_pipeline))

data.head()

# <center>3. Representa√ß√£o de Textos <br> Utilizando Vetores Num√©ricos</center>


### Bag of Words (BoW)

- √â a forma mais simples de representa√ß√£o de palavras para um algoritmo de aprendizado de m√°quina
- Cada documento √© representado por um vetor de tamanho N, onde N √© a quantidade de tokens distintos no vocabul√°rio
- Cada token √∫nico √© representado por uma posi√ß√£o no vetor, a ser preenchida com a quantidade de vezes que o token ocorre no documento
- Caso n√£o haja nenhuma ocorr√™ncia de um token no documento, sua respectiva posi√ß√£o recebe o valor 0

<center> Tabela: Exemplo de representa√ß√£o utilizando BoW. Adaptade de Machine Learning Mastery<sup>1</sup> </center>

| Documento | it | was | the | best | of| times | worst | age | wisdom | foolishness |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| it was the best of times | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 |
| it was the worst of times | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 0 | 0 | 0 |
| it was the age of wisdom | 1 | 1 | 1 | 0 | 1 | 0 | 0 | 1 | 1 | 0 |
| it was the age of foolishness | 1 | 1 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 1 |

<a name="footnoteIntentCorpus">1</a>: Dispon√≠vel em https://machinelearningmastery.com/gentle-introduction-bag-words-model/. √öltimo acesso em 31 de Outubro de 2022.

- **Vantagens**
    - facilidade de implementa√ß√£o
    - ajuda a identificar as palavras significativas de um texto, baseado em sua frequ√™ncia

- **Desvantagens**
    - grande consumo de mem√≥ria para vocabul√°rios muito extensos
    - representa√ß√µes esparsas e apresentando enviesamento em rela√ß√£o a termos muito frequentes
    - n√£o considera a posi√ß√£o das palavras no texto:
    
    
| Documento | I | went | to | the | cinema | and | liked | movie | but | not | popcorn
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| I went to the cinema and liked the movie but not the popcorn | 1 | 1 | 1 | 3 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
| I went to the cinema and liked the popcorn but not the movie| 1 | 1 | 1 | 3 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
    
    

In [None]:
stats_models = StatisticalModels()
stats_models.bow(data["clean_text"])

### TF-IDF: Term Frequency-Inverse Document Frequency

- Dado um conjunto de documentos textuais, **palavras que ocorrem em muitos destes documentos provavelmente n√£o ser√£o relevantes para distinguir o conte√∫do de cada um deles** \[Robertson 2004\]
- Para superar essa limita√ß√£o (que ocorre com o BoW), o TF-IDF primeiro calcula a frequ√™ncia com que um determinado termo ocorra em um documento (i.e., TF)

- E, ent√£o, √© realizada a pondera√ß√£o com a frequ√™ncia com que o mesmo termo ocorra em um conjunto de documentos (i.e., IDF):

<img src="figs/idf.png" style="float: center; zoom:100%;" />

onde $N$ corresponde ao n√∫mero de documentos analisados e $df_i$ corresponde ao n√∫mero de documentos em que ocorre o termo em quest√£o.

Assim, podemos representar cada elemento de uma matriz termo √ó documento por:

<img src="figs/tfidf.png" style="float: center; zoom:100%;" />




- **Vantagens**
    - o TF-IDF representou um passo importante para o desenvolvimento de t√©cnicas relacionadas √† extra√ß√£o de informa√ß√£o
    - Tendo depois se expandido para outras t√©cnicas de NLP, como extra√ß√£o de t√≥picos e classifica√ß√£o de texto

- **Desvantagens**
    - representa√ß√£o vetorial resultante ter o mesmo tamanho do vocabul√°rio do texto (grande consumo de mem√≥ria)
    - n√£o considera as proximidades sem√¢nticas em que os termos ocorrem

In [None]:
stats_models.tfidf(data["clean_text"])

**Principal Component Analysis**

Como vimos, o TF-IDF, apesar de muito vers√°til, tem como principal limita√ß√£o o tamanho dos vetores gerados, que correspondem na quantidade de documentos (ou senten√ßas) analisadas.

Para resolver este problema, uma t√©cnica que pode ser utilizada √© o PCA (Principal Component Analysis), cuja fun√ß√£o √© reduzir a dimensionalidade dos vetores mantendo a informa√ß√£o codificada por ele.

![image](http://www.nlpca.org/fig_pca_principal_component_analysis.png)

In [None]:
tf_idf = stats_models.bow(data["clean_text"])

pca_model, pca_transformation = stats_models.pca(tf_idf[1].toarray(), n_components=5)

pca_transformation

### Word Embeddings

- Com o Word2Vec, proposto por \[Mikolov et al. 2013\] inaugurou-se um novo paradigma de representa√ß√£o sem√¢ntica vetorial: Word Embeddings
- Principal caracter√≠stica √© a atribui√ß√£o de um vetor denso, de tamanho arbitr√°rio, a cada palavra de um corpus, gerado a partir do treinamento de redes neurais
- Esses vetores s√£o gerados a partir da an√°lise das **janelas sem√¢nticas** em que tais palavras venham a ocorrer
- Resultou em uma s√©rie de inova√ß√µes e vantagens:
    - os vetores n√£o precisam ser treinados apenas no corpus em que ser√° feita a an√°lise. Normalmente, s√£o utilizados vetores pr√©-treinados sobre um corpus com vocabul√°rio mais extenso, como a Wikipedia, e apenas s√£o otimizados sobre o corpus avaliado
    - √â eliminado o problema da esparsidade de dados
    - Resultados experimentais indicam que rela√ß√µes sem√¢nticas complexas podem ser capturadas, por exemplo: 
        - a rela√ß√£o entre os nomes de pa√≠ses e suas respectivas capitais
        - sin√¥nimos obt√©m representa√ß√µes mais pr√≥ximas, enquanto ant√¥nimos se distanciam de forma equivalente no espa√ßo vetorial

### Word2Vec

O Word2Vec √© composto por dois modelos:
- **Continuous Bag of Words (CBOW):** toma-se como entrada uma janela de palavras, e tenta-se prever qual palavra ocorreria naquele contexto
- **Skip-Gram:** toma-se como entrada uma palavra, e a partir dela, tenta-se prever as palavras que venham a ocorrer em sua vizinhan√ßa

Veja a arquitetura de ambos os modelos na ilustra√ß√£o a seguir:

<img src="figs/word2vec.png" style="float: center; zoom:80%;" />

### Treinamento do modelo Word2Vec Skip-gram

 - toma como entrada um corpus de texto, com um tamanho $N$ de vocabul√°rio
 - Inicialmente, s√£o atribu√≠dos valores aleat√≥rios para cada um dos vetores das palavras do vocabul√°rio
 - Os pesos s√£o ajustados ao longo do treinamento, para que:
     - palavras ocorrendo em contextos semelhantes obtenham representa√ß√µes vetoriais (embeddings) pr√≥ximos
     - e, palavras de significado distante, que n√£o costumam ocorrer nos mesmos contextos, obtenham representa√ß√µes o mais distante poss√≠veis entre si
 - Em cada palavra analisada por itera√ß√£o, as inst√¢ncias positivas s√£o palavras que realmente ocorrem em sua proximidade, e as negativas, uma sele√ß√£o, de tamanho proporcional, de palavras que n√£o ocorrem
 - O treinamento do algoritmo ir√°, ent√£o, minimizar a fun√ß√£o de perda (Loss Function), cujo objetivo √© maximizar o produto escalar entre uma palavra e um exemplo positivo de contexto, e minimizar em rela√ß√£o aos exemplos negativos
 
- O tamanho do contexto observado √© arbitr√°rio, sendo definido como um par√¢metro de treinamento

- Ao final, duas representa√ß√µes s√£o aprendidas:
    - uma matriz $W$ contendo em cada vetor $w_i$ um word embedding para cada palavra do vocabul√°rio
    - e, uma matriz $C$ em que cada vetor $c_i$ √© um embedding relativo ao contexto



### Exemplo Word2Vec Skip-gram

Adaptado de [Word2Vec Tutorial - The Skip-Gram Model](http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/)

- Arquitetura do modelo:

<img src="figs/skipgramarch.png" style="float: center; zoom:80%;" />

- Word embeddins de uma determinada palavra:

<img src="figs/matrix_mult_w_one_hot.png" style="float: center; zoom:80%;" />

- C√°lculo do resultado na camada de sa√≠da:

<img src="figs/output_weights_function.png" style="float: center; zoom:80%;" />

### Criando uma modelo de Word Embeddings com Word2Vec

* Utilizaremos a biblioteca Gensim 4.2.0 -- [documenta√ß√£o](https://radimrehurek.com/gensim/models/word2vec.html)
* Vamos utilizar os tokens obtidos ap√≥s a etapa de pr√©-processamento, uma vez que a entrada deve ser uma lista de tokens, como por exemplo:

<center>$[["first", "sentence"], ["second", "sentence"]]$</center>

In [None]:
## Cria o modelo e mostra o tamanho do vocabul√°rio
w2v_model = WordEmbeddings().word2vec(data["tokens"])
len(w2v_model.wv)

In [None]:
## Mostra o vocabul√°rio

vocab = list(w2v_model.wv.index_to_key)
print(vocab)

In [None]:
## Mostra as palavras mais similares com a palavra informada.
## Caso a palavra n√£o esteja no vocabul√°rio, i.e., OOV, retorna uma mensagem de erro

try:
    sims = w2v_model.wv.most_similar("nyc")
    print(sims)
except KeyError as e:
    print(e)

In [None]:
vector = w2v_model.wv.get_vector("nyc", norm=True)   # Retorna o numpy array da palavra
print(vector.shape)
print(vector)

### FastText

No FastText, cada palavra √© representada por uma sequ√™ncia de N-gramas de caracteres. Por exemplo, dada uma palavra como ‚Äú<farol>‚Äù, onde os caracteres especiais ‚Äú<‚Äù e ‚Äú>‚Äù indicam o in√≠cio e o final da palavra, respectivamente, e uma janela (de tamanho arbitr√°rio, escolhido pelo usu√°rio) n = 3 , o FastText toma como entrada os 3-gramas:

- *‚Äú<fa‚Äù, ‚Äúfar‚Äù, ‚Äúaro‚Äù, ‚Äúrol‚Äù, ‚Äúol>‚Äù* al√©m da palavra completa *‚Äúfarol‚Äù*.

A cada um destes N-gramas, √© associada uma representa√ß√£o vetorial √∫nica. Ent√£o, a representa√ß√£o vetorial
final da palavra, consistir√° na soma dos vetores de representa√ß√£o de todos os seus N-gramas
[Joulin et al. 2016, Bojanowski et al. 2017].

Isso ocorre para resolver uma limita√ß√£o do Word2Vec original: o fato de que, nele, n√£o h√° suporte para palavras OOV (out-of-vocabulary, ou fora do vocabul√°rio.)

Com o FastText, a cada uma destas palavras originalmente fora do vocabul√°rio, se atribui uma representa√ß√£o pr√≥xima √†quelas de grafia pr√≥xima.

In [None]:
## Cria o modelo e mostra o tamanho do vocabul√°rio

fast_text_model = WordEmbeddings().fasttext(data["tokens"])
len(w2v_model.wv)

In [None]:
## Mostra o vocabul√°rio

vocab = list(fast_text_model.wv.index_to_key)
print(vocab)

In [None]:
## Mostra as palavras mais similares com a palavra informada.
## Caso a palavra n√£o esteja no vocabul√°rio, i.e., OOV, retorna uma mensagem de erro

try:
    sims = fast_text_model.wv.most_similar("nyc")
    print(sims)
except KeyError as e:
    print(e)

In [None]:
vector = w2v_model.wv.get_vector("nyc", norm=True)   # Retorna o numpy array da palavra
print(vector.shape)
print(vector)

## Sentence Embeddings

1. SkipThought
2. InferSent
3. **Universal Sentence Encoder (USE)**
4. **SentenceBERT (SBERT)**
5. Language-Agnostic SEntence Representations (LASER)
6. Multilingual Universal Sentence Encoder (mUSE)
7. **Language-agnostic BERT Sentence Embedding (LaBSE)**


In [None]:
sentences = [
    # Smartphones
    "I like my phone",
    "My phone is not good.",
    "Your cellphone looks great.",

    # Weather
    "Will it snow tomorrow?",
    "Recently a lot of hurricanes have hit the US",
    "Global warming is real",

    # Food and health
    "An apple a day, keeps the doctors away",
    "Eating strawberries is healthy",
    "Is paleo better than keto?",

    # Asking about age
    "How old are you?",
    "what is your age?",
]

### SkipThought

<figure>
    <img src="figs/skipThought.png" style="float: center; zoom:100%;" />
    <center><figcaption>Ilustra√ß√£o da arquitetura do modelo SkipThought. Imagem de [Kiros et al. 2015].</figcaption></center>
</figure>

- Premissa: dada uma senten√ßa de entrada, o modelo deve ser capaz de identificar regularidades na senten√ßa que permitam inferir as sente√ßas que v√™m antes e depois dela. 
- Assim, a arquitetura do modelo √© composta por tr√™s redes neurais, sendo:
    - Uma para codificar uma senten√ßa de entrada
    - Outras duas para decodificar a senten√ßa anterior e posterior √† entrada
- Treinamento via aprendizado n√£o supervisionado
- Durante o treinamento, o erro propagado pelas camadas de decodifica√ß√£o √© utilizado para refinar o treinamento da camada de codifica√ß√£o
- Ao final do treinamento, as camadas de decodifica√ß√£o s√£o descartadas, restando apenas a de codifica√ß√£o que, por sua vez, √© utilizada para gerar os embeddings de tamanho fixo 

- **Vantagens**
    - Modelo n√£o supervisionado, necessitando apenas do corpus de treinamento para criar o modelo de embeddings
    - Essa arquitetura abriu v√°rias possibilidades para novos modelos: baseados em redes convolucionais e at√© a expans√£o para trabalhar com par√°grafos inteiros, em vez de senten√ßas

- **Desvantagens**
    - Necessita de contexto, i.e., a senten√ßa anterior e posteiror √† senten√ßa de entrada. Por isso, torna-se dif√≠cil a utiliza√ß√£o de textos de m√≠dias sociais para o treinamento desse modelo
    - N√£o encontramos a implementa√ß√£o est√°vel do SkipThought dispon√≠vel na linguagem Python 3

### InferSent

<figure>
    <img src="figs/infersent.png" style="float: center; zoom:50%;" />
    <center><figcaption>Ilustra√ß√£o da arquitetura do modelo InferSent. Imagem de [Conneau et al. 2017].</figcaption></center>
</figure>

- Treinamento via aprendizado supervisionado
- O InferSent √© treinado com o corpus Stanford Natural Language Inference (SNLI), que √© composto por triplas contendo:
    - Uma premissa (uma senten√ßa qualquer)
    - Uma hip√≥tese inferida a partir da premissa
    - O julgamento de volunt√°rios sobre a rela√ß√£o entre a premissa e a hip√≥tese: ***v√≠nculo, contradi√ß√£o, neutro***
- Exemplo:
    - Premissa: *todos os dias nessa localidade s√£o ensolarados*
    - Hip√≥tese: *essa localidade est√° nublada*
- A arquitetura do InferSent possui:
    - Dois codificadores id√™nticos para as senten√ßas de entrada (premissa e hip√≥tese), que geram os vetores $u$ e $v$
    - Em seguida, uma camada para concatenar e extrair a rela√ß√£o entre os vetores $u$ e $v$, das seguintes formas:
        - concatenando as duas representa√ß√µes $((u, v))$
        - multiplicando os vetores $(u*v)$
        - calculando o valor absoluto da diferen√ßa entre os vetores $(|u-v|)$
    - Ent√£o, uma camada com um classificador com m√∫ltiplas camadas totalmente conectadas √© alimentado pela representa√ß√£o resultante da camada anterior
    - Por fim, a fun√ß√£o de ativa√ß√£o Softmax, que possu√≠ 3 sa√≠das para representar cada uma das classes: v√≠nculo, contradi√ß√£o e neutro
- Diferentes arquiteturas de redes neurais foram avaliadas para os codificadores da arquitetura do InferSent, sendo redes neurais com c√©lulas LSTM bidirecionais e camada de max pooling (referida no artigo como BiLSTM-max) o modelo com maior acur√°cia. Veja essa arquitetura na imagem abaixo:

<figure>
    <img src="figs/infersent-encoders.png" style="float: center; zoom:50%;" />
    <center><figcaption>Ilustra√ß√£o da arquitetura BiLSTM-max. Imagem de [Conneau et al. 2017].</figcaption></center>
</figure>


- **Vantagens**
    - O InferSent √© capaz de generalizar melhor em v√°rias tarefas de Semantic Textual Similarity (STS), que √© um campo dentro de NLP relacionado a tarefas como tradu√ß√£o, sumariza√ß√£o e gera√ß√£o de textos, perguntas e respostas (QA), busca sem√¢ntica e sistemas conversacionais
    - O InferSent tamb√©m √© capaz de lidar com senten√ßas e textos com maior dimens√£o
    - N√£o necessita que o corpus utilizado no treinamento esteja em uma sequ√™ncia l√≥gica, como √© o caso do SkipThought

- **Desvantagens**
    - Treinamento supervisionado
    - Dispon√≠vel apenas para l√≠ngua inglesa, limitando sua aplica√ß√£o a esse idioma

### Sentence Embeddings utilizando o InferSent

- Na primeira execu√ß√£o, √© feito o download de arquivos de modelos e embeddings
- Certifique-se de ter pelo menos 9GB dispon√≠veis em disco para isso
- Devido ao download, a primeira execu√ß√£o √© lenta
- Para mais detalhes, acesse a p√°gina do [InferSent](https://github.com/facebookresearch/InferSent)

In [None]:
# InferSent
infersent_embeddings = SentenceEmbeddings().infersent(sentences)
infersent_embeddings.shape

### USE


- Oferece duas maneiras para gerar sentence embeddings de textos escritos em ingl√™s:
    - Utilizando o mecanismo de autoaten√ß√£o (self-attention) da arquitetura Transformers \[Vaswani et al. 2017\]
    <figure>
        <img src="figs/self-attention.png" style="float: center; zoom:80%;" />
        <center><figcaption>Ilustra√ß√£o do mecanismo self-attention da arquitetura Transformers, onde o Multi-Head Attention, consiste de v√°rias camadas de aten√ß√£o executando em paralelo. Imagem de [Vaswani et al. 2017].</figcaption></center>
    </figure>
    - Onde
        - Q: a palavra de consulta (Query word)
        - V: os vetores das palavras da senten√ßa, i.e, word embeddings
        - K: as chaves (Keys) s√£o resultante entre o produto escalar entre Q e os vetores V
    - Veja uma ilustra√ß√£o do processo de treinamento a seguir:
    <figure>
        <img src="figs/self-attention-example.png" style="float: center; zoom:80%;" />
        <center><figcaption>Etapas para obter o valor de aten√ß√£o. Imagem de [Arjun, Sarkar]<sup>2</sup>.</figcaption></center>
    </figure>
        
    - Utilizando uma Deep Averaging Network (DAN) [Iyyer et al. 2015]
    <figure>
        <img src="figs/dan.png" style="float: center; zoom:50%;" />
        <center><figcaption> Ilustra√ß√£o da arquitetura do modelo DAN. Imagem de [Iyyer et al. 2015].</figcaption></center>
    </figure>
    - A primeira camada computa a m√©dia dos word embeddings
    - O vetor resultante √© utilizado para alimentar uma ou mais camadas de uma rede neural profunda
    - Por fim, √© realizada a classifica√ß√£o (linear) na √∫ltima camada (softmax)


- Em comum, ambos os m√©todos recebem como entrada um a sequ√™ncia de palavras, em min√∫sculo e tokenizada com Penn Treebank (PTB) tokenizer, e produzem um sentence embedding com 512 dimens√µes
- Assim, √© feito o treinamento multitarefa do USE, como mostra a figura a seguir, onde uma variedade de tarefas e estruturas s√£o unidas por camadas/par√¢metros de encoders compartilhados (caixas cinzas):

<figure>
    <img src="figs/use-arch.png" style="float: center; zoom:80%;" />
    <center><figcaption>Ilustra√ß√£o do treinamento multitarefa realizado pelo modelo USE. Imagem de Google AI Blog<sup>3</sup>.</figcaption></center>
    </figure>

<a name="footnoteIntentCorpus">2</a>: Arjun, Sarkar. ["All you need to know about 'Attention' and 'Transformers' - In-depth Understanding - Part 1."](https://towardsdatascience.com/all-you-need-to-know-about-attention-and-transformers-in-depth-understanding-part-1-552f0b41d021) Towards Data Science. √öltimo acesso em 31 de Outubro de 2022.

<a name="footnoteIntentCorpus">3</a>: Yang,Yinfei and Tar, Chris. ["Advances in Semantic Textual Similarity."](https://ai.googleblog.com/2018/05/advances-in-semantic-textual-similarity.html) Google AI Blog. √öltimo acesso em 31 de Outubro de 2022.

- **Vantagens**
    - USE Transformers (USE_T):
        - Considerando tanto a ordem como a identidade das palavras
        - Alto desempenho em diferentes tarefas de NLP, mesmo quando os conjuntos de dados possuem poucas amostras para treinamento
        
    - USE DAN (USE_D):
        - Complexidade de tempo linear, $O(n)$, sendo $n$ o tamanho da senten√ßa de entrada
        - Complexidade de espa√ßo √© constante no tamanho da entrada, $O(1)$

- **Desvantagens**
    - USE_T:
        - Complexidade de tempo e de espa√ßo √© quadr√°tica, $O(n^2)$
    - USE_D:
        - A informa√ß√£o sint√°tica, i.e., a posi√ß√£o em que as palavras aparecem na frase, se perde e, por isso, a DAN √© considerada uma fun√ß√£o de composi√ß√£o n√£o ordenada
        - Precisa de conjunto de treinamento maiores para alcan√ßar bons desempenhos

### Sentence Embeddings utilizando o USE

- Utilizaremos o modelo **DAN** (USE_D)
- Na primeira execu√ß√£o, √© feito o download de arquivos de modelos e embeddings
- Certifique-se de ter pelo menos 1GB dispon√≠vel em disco para isso
- Devido ao download, a primeira execu√ß√£o √© lenta
- Para mais detalhes, acesse a p√°gina do [USE](https://tfhub.dev/google/universal-sentence-encoder/4)

In [None]:
# USE_D
use_embeddings = SentenceEmbeddings().use(sentences)
use_embeddings.shape

### SBERT

- O SBERT √© um modelo estado-da-arte baseado no Bidirectional Encoder Representations from Transformers (BERT)
    - BERT foi criado para ser facilmente adaptado a diferentes tarefas de similaridade sem√¢ntica sem necessitar grandes altera√ß√µes em sua estrutura (agn√≥stico de tarefa)
    - O BERT utiliza uma l√≥gica similar √† aplicada pelo SkipThought, onde o contexto anterior e posterior de uma palavra (ou senten√ßa), √© usado para identificar as caracter√≠sticas que melhor representam sua rela√ß√£o com seu entorno
    - Arquitetura do BERT:
    <figure>
        <img src="figs/bert.png" style="float: center; zoom:50%;" />
        <center><figcaption>Ilustra√ß√£o da arquitetura do modelo BERT. Imagem de Hugging Face<sup>4</sup>.</figcaption></center>
    </figure>
    - BERT utiliza duas estrat√©gias de treinamento: Masked LM (MLM) e Next Sentence Prediction (NSP)
    - Durante o treinamento, o BERT percorre o corpus tanto na ordem natural em que as senten√ßas ocorrem, quanto na ordem inversa, por isso o uso do termo "bidirecional"

- O SBERT, semelhante ao InferSent, contem dois codificadores BERT e uma estrutura de redes siamesas, que compartilham os pesos entre si e necessita apenas de uma entrada, o que torna o SBERT muito mais r√°pido em compara√ß√£o ao BERT
- Veja a arquitetura do SBERT na figua abaixo:

<figure>
    <img src="figs/sbert.png" style="float: center; zoom:100%;" />
    <center><figcaption>Ilustra√ß√£o da arquitetura do modelo SBERT. √Ä esquerda, a arquitetura utilizada para tarefas de classifica√ß√£o, e √† direita, para tarefas de regress√£o. Imagem de [Reimers and Gurevych 2019].</figcaption></center>
</figure>

- O SBERT utiliza a tarefa de Natural Language Inference (NLI) para treinamento (fine-tune)

<a name="footnoteIntentCorpus">4</a>: Muller, Britney. ["BERT 101 ü§ó State Of The Art NLP Model Explained."](https://huggingface.co/blog/bert-101) Hugging Face. √öltimo acesso em 31 de Outubro de 2022.

- **Vantagens**
    - O SBERT obteve melhor desempenho em rela√ß√£o ao InferSent e USE
    - Resolve os problemas de complexidade computacional apresentados pelo BERT
    - Modelos SBERT monol√≠ngues podem ser aumentados para tarefas de NLP multil√≠ngues com boa capacidade de generaliza√ß√£o
    - SBERT est√° dispon√≠vel por meio de uma biblioteca de c√≥digo aberto feita em Python, chamada [Sentence-Transformes](https://www.sbert.net), que disponibiliza v√°rios modelos pr√©-treinados para diferentes tarefas, incluindo modelos multil√≠ngues
    - Documenta√ß√£o bem estruturada e exp√µe alguns m√©todos f√°ceis de usar para a gera√ß√£o de embeddings
    - A transfer√™ncia de aprendizado tamb√©m pode ser facilmente feita com essa biblioteca, permitindo adaptar qualquer modelo disponibilizado a diferentes tarefas de NLP

### Sentence Embeddings utilizando o SBERT

- Utilizaremos o modelo **all-MiniLM-L6-v2**, que √© 5x mais r√°pido que sua vers√£o base (**all-mpnet-base-v2**) e significativamente menor (de 420MB para 80MB), mas ainda mant√©m um bom desempenho
- O termo **all-** indica que o modelo foi treinado com todos os dados dispon√≠veis (mais de 1 bilh√£o de pares de treinamento) e s√£o projetados como modelos de prop√≥sito geral
- Para mais detalhes, acesse a p√°gina do [SBERT](https://www.sbert.net/docs/pretrained_models.html#)

In [None]:
# SBERT
sbert_embeddings = SentenceEmbeddings().sbert(sentences)
sbert_embeddings.shape

### Modelos Multil√≠ngues

<figure>
    <img src="figs/lang-agnostic.png" style="float: center; zoom:80%;" />
    <center><figcaption>Ilustra√ß√£o dos primeiros dois componentes principais para frases id√™nticas em Ingl√™s e Russo. Imagem de [Yang,Yinfei and Ahmad, Amin. 2020]<sup>5</sup>.</figcaption></center>
</figure>

<a name="footnoteIntentCorpus">5</a>: Yang,Yinfei and Ahmad, Amin. "Making monolingual sentence embeddings multilingual using knowledge distillation." arXiv preprint arXiv:2004.09813 (2020).

### LASER

<figure>
    <img src="figs/laser.png" style="float: center; zoom:80%;" />
    <center><figcaption>Ilustra√ß√£o da arquitetura do modelo LASER. Imagem de [Iyyer et al. 2015].</figcaption></center>
</figure>

- Primeiro modelo a explorar a representa√ß√£o de senten√ßas multil√≠ngues para prop√≥sito geral, ou seja, sem ter uma tarefa de NLP espec√≠fica
- LASER utiliza uma arquitetura sequence-to-sequence encoder-decoder
    - Encoder: √© composto por uma rede LSTM bidirecional (ou simplesmente, BiLSTM)
    - Decoder: √© composto por apenas uma rede LSTM
- Cada palavra √© primeiro codificada por um vocabul√°rio de [Byte-Pair encoding (BPE)](https://towardsdatascience.com/byte-pair-encoding-subword-based-tokenization-algorithm-77828a70bee0), onde √© feita a concatena√ß√£o de todos os corpora de treinamento dos 93 idiomas suportados pelo modelo, antes de alimentar a rede BiLSTM
- Assim, n√£o √© necess√°rio informar explicitamente o idioma de entrada para o encoder, o que aux√≠lia o modelo a aprender as representa√ß√µes independente do idioma
- O sentence embedding √© obtido no encoder ao aplicar a opera√ß√£o max pooling sobre a BiLSTM
- O decoder recebe como entrada o sentence embedding gerado pelo encoder, concatenado em cada etapa do tempo com a codifica√ß√£o BPE da senten√ßa alvo (i.e., as palavras $<s>, y_1, ..., y_n$) e a codifica√ß√£o que espec√≠fica qual idioma deve ser gerado (representado pela vari√°vel $L_id$ )
- o LASER foi treinado de maneira end-to-end para tarefa de tradu√ß√£o, considerando dados anotados em apenas dois idiomas alvos, onde foram utilizados Ingl√™s e Espanhol
- Ap√≥s o treinamento, o encoder torna-se capaz de gerar sentence embeddings em qualquer um dos 93 idiomas do conjunto de treinamento

### Sentence Embeddings utilizando o LASER

- Antes de utilizar o LASER, voc√™ deve fazer o download do modelo.
- Para isso, voc√™ deve executar o comando '!python -m laserembeddings download-models "data"', que est√° comentado no pr√≥ximo slide
- Voc√™ pode informar o c√≥digo de idioma (ISO 639-1), para cada senten√ßa da lista
- Por padr√£o, consideramos que todas as senten√ßas est√£o escritas em ingl√™s ("en")
- Para mais detalhes, acesse a p√°gina do [LASER](https://github.com/facebookresearch/LASER)

In [None]:
# LASER
# Para fazer o download, descomente a linha abaixo:
!python -m laserembeddings download-models "data"
laser_embeddings = SentenceEmbeddings().laser(sentences)
laser_embeddings.shape

### mUSE

<figure>
    <img src="figs/muse.png" style="float: center; zoom:100%;" />
    <center><figcaption>Ilustra√ß√£o da arquitetura do modelo mUSE. Imagem de Google AI Blog<sup>6</sup>.</figcaption></center>
</figure>

- O mUSE, como o pr√≥prio nome sugere, √© uma extens√£o do modelo USE
- Como podemos ver em sua arquitetura, o mUSE tamb√©m utiliza o multi-task dual-encoder framework
- Al√©m disso, ele utiliza uma tarefa bridging de translation ranking, para ser capaz de aprender representa√ß√µes semelhantes para frases com significados id√™nticos, p√≥rem, escritas em idiomas distintos
- A tarefa de classifica√ß√£o de tradu√ß√£o (translation ranking), tem o objetivo de encontrar a tradu√ß√£o verdadeira sobre uma cole√ß√£o de frases no idioma alvo (target)
- Alem disso, tamb√©m foram adicionados dois modelos multil√≠ngues multitarefas, sendo um baseado em Rede Neural Convolucional (Convolutional Neural Network, CNN) e outro na arquitetura Transformers
- Tamb√©m foi adicionado um modelo Transformers multil√≠ngue para uso em recupera√ß√£o de perguntas e respostas (Retrieval Question Answering, ReQA).
- Ao todo, 16 idiomas distintos s√£o suportados pelo mUSE

<a name="footnoteIntentCorpus">6</a>: Yang,Yinfei and Ahmad, Amin. ["Multilingual Universal Sentence Encoder for Semantic Retrieval."](https://ai.googleblog.com/2019/07/multilingual-universal-sentence-encoder.html) Google AI Blog. √öltimo acesso em 31 de Outubro de 2022.

### Sentence Embeddings utilizando o mUSE

- Utilizaremos o modelo **Convolutional Neural Network** (CNN)
- Na primeira execu√ß√£o, √© feito o download de arquivos de modelos e embeddings
- Certifique-se de ter pelo menos 1GB dispon√≠vel em disco para isso
- Devido ao download, a primeira execu√ß√£o √© lenta
- Para mais detalhes, acesse a p√°gina do [mUSE](https://tfhub.dev/google/universal-sentence-encoder-multilingual/3)

In [None]:
# mUSE
muse_embeddings = SentenceEmbeddings().muse(sentences)
muse_embeddings.shape

### LaBSE

<figure>
    <img src="figs/labse.png" style="float: center; zoom:60%;" />
    <center><figcaption>Ilustra√ß√£o da arquitetura do modelo LaBSE. Imagem de [Feng et al. 2020].</figcaption></center>
</figure>

- LaBSE tamb√©m utiliza a abordagem dual-encoders, semelhante ao mUSE, para aprender representa√ß√µes multil√≠ngues
    - Dual-encoders: pares de senten√ßas de origem e alvo s√£o codificadas separadamente, onde os embeddings de cada uma s√£o obtidos por encoders distintos, mas que compartilham seus par√¢metros
- O principal diferencial do LaBSE √© a combina√ß√£o de um encoder pr√©-treinado baseado no modelo de linguagem BERT com os dual-encoders
- LaBSE √© treinado (fine-tune) considerando a tarefa de tradu√ß√£o
- Com isso, o LaBSE consegue reduzir drasticamente a quantidade de treinamento necess√°rio e, ainda assim, alcan√ßar um desempenho superior
- Ao todo, 109 idiomas distintos s√£o suportados pelo LaBSE
- o LaBSE tamb√©m foi capaz de produzir bons resultados para mais de 30 idiomas al√©m dos que j√° s√£o suportados, mesmo n√£o havendo quaisquer dados de treinamento de tais idiomas

### Sentence Embeddings utilizando o LaBSE

- A implementa√ß√£o do modelo LaBSE encontra-se dispon√≠vel na biblioteca SentenceTransformers
- Na primeira execu√ß√£o, √© feito o download de arquivos do modelo:
    
    <center>model = SentenceTransformer('sentence-transformers/LaBSE')</center>

- Certifique-se de ter pelo menos 2GB dispon√≠vel em disco para isso
- Para mais detalhes, acesse a p√°gina do [LaBSE](https://huggingface.co/sentence-transformers/LaBSE)

In [None]:
# LaBSE
labse_embeddings = SentenceEmbeddings().labse(sentences)
labse_embeddings.shape

### Similaridade entre senten√ßas


<figure>
    <img src="figs/sts-example.png" style="float: center; zoom:130%;" />
    <center><figcaption>Ilustra√ß√£o da tarefa STS. Imagem de Google AI Blog<sup>7</sup>.</figcaption></center>
</figure>

- A tarefa de similaridade textual sem√¢ntica (ou, Semantic Textual Similarity, STS) √© respons√°vel por avaliar qu√£o similar s√£o dois textos, em rela√ß√£o ao seu significado
- STS √© um problema dif√≠cil devido √†s nuances da linguagem natural, sendo que dois textos semelhantes podem n√£o ter uma √∫nica palavra em comum
- Com o advento dos modelos de sentences embeddings, resultados animadores t√™m sido publicados, como pode ser visto em [Semantic Textual Similarity on STS Benchmark](https://paperswithcode.com/sota/semantic-textual-similarity-on-sts-benchmark)
- A seguir, apresentaremos um exemplo simples para calcular a similaridade entre senten√ßas utilizando sentence embeddings


<a name="footnoteIntentCorpus">7</a>: Yang,Yinfei and Tar, Chris. ["Advances in Semantic Textual Similarity."](https://ai.googleblog.com/2018/05/advances-in-semantic-textual-similarity.html) Google AI Blog. √öltimo acesso em 31 de Outubro de 2022.

In [None]:
# Exemplo baseado em:
# https://www.tensorflow.org/hub/tutorials/semantic_similarity_with_tf_hub_universal_encoder

def plot_similarity(labels, features, rotation):
    corr = np.inner(features, features)
    sns.set(font_scale=1.2)
    g = sns.heatmap(
      corr,
      xticklabels=labels,
      yticklabels=labels,
      vmin=0,
      vmax=1,
      cmap="YlOrRd")
    g.set_xticklabels(labels, rotation=rotation)
    g.set_title("Semantic Textual Similarity")


sent_emb = SentenceEmbeddings().sbert(sentences) #escolha o modelo de sentence embeddings de sua prefer√™ncia
plot_similarity(sentences, sent_emb, 90)

## Modelagem e Extra√ß√£o de Conhecimento

### Agrupamento de Textos (clusteriza√ß√£o)

* **Objetivo:** agrupar objetos similares (documentos, senten√ßas ou termos)
* M√©todos mais conhecidos:
    - k-means
    - Agrupamento Hier√°rquico
    - Detec√ß√£o de Comunidades em Grafos

Dataset de exemplo

* Iremos apresentar os resultados de cada m√©todo usando um mesmo conjuntos de dados
* Dataset: "20 newsgroups" do Scikit Learn

In [None]:
from sklearn.datasets import fetch_20newsgroups

# Carregamos apenas algumas categorias presentes no dataset 20 newsgroups
categories = [
    "alt.atheism",  # Ate√≠smo
    "talk.religion.misc",  # Religi√£o
    "comp.graphics",  # Computa√ß√£o gr√°fica
    "sci.space",  # Ci√™ncia - espa√ßo
]

dataset = fetch_20newsgroups(
    remove=("headers", "footers", "quotes"),
    subset="all",
    shuffle=True,
    random_state=100,
    categories=categories
)

labels = dataset.target
unique_labels, category_sizes = np.unique(labels, return_counts=True)
true_k = unique_labels.shape[0]

print(f"{len(dataset.data)} Documentos - {true_k} Categorias")

In [None]:
# Transforma√ß√£o do dataset em um vetor TF-IDF

tfidf_model, tfidf_data = stats_models.tfidf(dataset.data)

print(f"Documentos: {tfidf_data.shape[0]}, Features: {tfidf_data.shape[1]}")

#### k-means

* Simples e intuitivo, por isso √© o mais famoso

<img src="figs/kmeans.png" style="float: center; zoom:100%;" />

Imagem: Exemplo de clusters no espa√ßo bidimensional usando PCA. 

Fonte: https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_digits.html

Intui√ß√£o do k-means:

1. Escolher o n√∫mero de agrupamentos $k$ (ou clusters)
2. Definir os centr√≥ides de cada cluster no espa√ßo N-dimensional (definidos aleat√≥riamente ou por heur√≠stica); 
3. Alocar cada texto ao cluster mais pr√≥ximo (e.g. usando similaridade do cosseno, dist√¢ncia euclidiana, etc.); 
4. Recalcular os centr√≥ides dos clusters de acordo com a m√©dia dos textos contidos neles;
    * por isso o nome k-means
6. Repetir o processo at√© atingir crit√©rio de parada:
    * n√∫mero de itera√ß√µes max. ou 
    * quando n√£o houver altera√ß√µes significativas nos centr√≥ides

In [None]:
# Treina modelos com k=2 at√© k=30 para testar usando o m√©todo do cotovelo
results = []
for k in range(2, 30):
    kmeans = Clustering().kmeans(tfidf_data, k=k)
    kmeans_model = kmeans.fit(tfidf_data)

    sse = kmeans_model.inertia_
    results.append([sse, k])

In [None]:
from kneebow.rotor import Rotor

rotor = Rotor()
rotor.fit_rotate(results)

# Plota a curva de k versus SSE (soma dos erros quadr√°ticos)
rotor.plot_elbow()

# Obt√©m o valor √≥timo de clusters
optimal_k = rotor.get_knee_index()
print('N√∫mero √≥otimo de clusters:', optimal_k)

#pd.DataFrame(results, columns=['SSE', 'k']).plot.scatter('k', 'SSE')

In [None]:
# Treina o modelo k-means com o n√∫mero √≥timo de clusters
kmeans = Clustering().kmeans(tfidf_data, k=optimal_k)

In [None]:
# Prev√™ o cluster de cada texto no conjunto de dados
clusters = kmeans.fit_predict(tfidf_data)

# Aqui fazemos a redu√ß√£o dimensional com PCA e plotamos os textos coloridos de acordo com seu cluster
Clustering().kmeans_pca_plot(tfidf_data, clusters)

#### Agrupamento Hier√°rquico
TBD

In [None]:
# TBD:c√≥digo do agrupamento hier√°rquico

#### Detec√ß√£o de Comunidades em Grafos
TBD

### Modelagem de T√≥picos

* **Objetivo:** identificar estruturas sem√¢nticas em um corpus
* Processo n√£o supervisionado
* A ordem das palavras n√£o importa, portanto podem ser usadas representa√ß√µes como o Bag of Words (BoW) ou Tf-Idf

#### Exemplos em um corpus de not√≠cias

* delimitar diferentes eventos (e.g., confronto entre R√∫ssia e Ucr√¢nia, Copa do Mundo, etc.)
* identificar grandes temas (e.g., economia, pol√≠tica, educa√ß√£o, etc.)
* pautas de discuss√£o (e.g., aborto, quest√µes clim√°ticas, combate ao crime, etc.)
* !!! Ou todos os casos acima misturados -- o que √© comum de acontecer

#### Funcionamento de um modelo de t√≥picos

* cada documento pode ser representado por um histograma com a contagem de cada termo contido nele
* a forma desse histograma √© proveniente de uma distribui√ß√£o entre $k$ t√≥picos 
* os $k$ t√≥picos s√£o distribu√≠dos entre os termos no vocabul√°rio do corpus

O objetivo da modelagem de t√≥picos, ent√£o, √© aprender essas distribui√ß√µes.

<img src="figs/topic-model.png" style="float: center; zoom:100%;" />

Fonte: https://pyro.ai/examples/prodlda.html

#### T√©cnicas para modelagem de t√≥picos

* Latent Dirichlet Allocation (LDA)
* Latent Semantic Analysis (LSA) ou LSI (redu√ß√£o dimencional)
* Probabilistic Semantic Analysis (pLSA) (vers√£o probabil√≠stica do LSA)

#### Pr√©-processamento para modelagem de t√≥picos

* tentar preservar palavras que podem ser representativas para o dom√≠nio
* n√£o √© necess√°rio preservar a sequ√™ncia dos termos

#### Desafios

Obs: os exemplos a seguir s√£o de t√≥picos identificados em um corpus de p√°ginas web sobre as Elei√ß√µes de 2018 no Brasil e Elei√ß√µes de 2019 no Canad√°.

* Muitas vezes os t√≥picos s√£o dif√≠ceis de serem caracterizados, necessitando conhecimento espec√≠fico de dom√≠nio
    * e.g. "battisti, pf, italiano, italia, grafico, recurso, utc, extradicao, moro, deus"
    * e.g. "pipeline, climate, oil, energy, fossil_fuel, carbon, france, kinsella, people_party, industry"
* As top N palavras de um t√≥pico nem sempre delimitam claramente o assunto
    * e.g. "ex_presidente, ciro_gomes, ciro, artista, cunha, universidade, dilma, eduardo, classificar, reeleicao"
* O valor $k$ √© escolhido manualmente
    * mesmo usando m√©tricas como score de coer√™ncia e distribui√ß√£o dos t√≥picos ao longo do corpus, ainda √© necess√°rio o julgamento humano da adequabilidade do valor $k$
* T√≥pico evoluem ao longo do tempo (para isso existem modelos temporais de t√≥picos)

#### Exemplo pr√°tico

Ao final deste notebook, colocamos um exemplo pr√°tico usando o LDA em um dataset de not√≠cias sobre as elei√ß√µes canadenses de 2019.

## Compreens√£o Sem√¢ntica e Emocional


### Detec√ß√£o de Inten√ß√£o

<img src="figs/ir-example.png" style="float: center; zoom:100%;" />

## Detec√ß√£o de inten√ß√£o
- Uma inten√ß√£o fornece uma interpreta√ß√£o geral do significado de uma express√£o
- Normalmente, √© uma tarefa abstra√≠da em um processo de classifica√ß√£o
- Para isso, o primeiro passo √© a obten√ß√£o de um conjunto de express√µes rotuladas (*corpus*) para treinamento do modelo de classifica√ß√£o
- Como veremos a seguir, existem muitos *corpus* dispon√≠veis publicamente para essa tarefa.
- Mas, caso deseje preparar o seu pr√≥prio *corpus* com dados de m√≠dias sociais, voc√™ pode utilizar a modelagem de t√≥picos para determinar quais assuntos est√£o presentes no *corpus* e realizar a separa√ß√£o dos dados e, ent√£o, revisar e rotular manualmente cada um deles.

### Corpus
- Iremos considerar o conjunto de dados dispon√≠vel em [Wang, Jinpeng, et al.]<sup>[1](#footnoteIntentCorpus)</sup>
- Categorias de inten√ß√£o nos *tweets*: **Food & Drink, Travel, Career & Education, Goods & Services, Event & Activities, Trifle, Non-intent**
- Veja na Tabela a seguir mais detalhes sobre os dados:

<center> Tabela: Inten√ß√µes e exemplos do conjunto de dados [Wang, Jinpeng, et al.]<sup>1</sup> </center>

| Categoria | # (%) | Exemplo |
| --- | --- | --- |
| Food & Drink | 245 (11,5%) | hungry...i need a salad......four more days to the BEYONCE CONCERT... |
| Travel | 187 (8,78%) | I need a vacation really bad. I need a trip to Disneyland! |
| Career & Education | 159 (7,46%) | this makes me want to be a lawyer RT @someuser new favorite line from an ... |
| Goods & Services | 251 (11,78%) | mhmmm, i wannna a new phoneeee. ... i have to go to the hospital. ... |
| Event & Activities | 312 (15.07%) | on my way to go swimming with the twoon @someuser; i love her so muchhhhh! |
| Trifle | 436 (20,47%) | I'm so happy that I get to take a shower with myself. :D |
| Non-intent | 531 (24,92%) | So sad that Ronaldo will be leaving these shores...http://URL |


<a name="footnoteIntentCorpus">1</a>: Wang, Jinpeng, et al. "Mining user intents in twitter: A semi-supervised approach to inferring intent categories for tweets." Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.

### Modelo de Classifica√ß√£o de Inten√ß√µes
<br>

<center>Redes Neurais Recorrentes (RNN) X Sentence Embeddings (imagem de [Feng et al. 2020])</center>

<img src="figs/bilstm-ir.png" style="float: left; zoom:60%;" />
<img src="figs/labse.png" style="float: right; zoom:60%;" />

In [None]:
#temporario
intents = [
    "Smartphones",
    "Smartphones",
    "Smartphones",

    "Weather",
    "Weather",
    "Weather",

    
    "Food and health",
    "Food and health",
    "Food and health",
    
    "Asking about age",
    "Asking about age"
]

intent_labse_model, X_test_labse, y_test_labse, classes = SemanticComprehension().training_intents("labse", sentences, intents)


In [None]:
# Epochs = 20
# Batch size = 32
# Hidden layers = 300
# Max sequence length = 280 --> tweet size
intent_bilstm_model, X_test_rnn, y_test_rnn, classes = SemanticComprehension().training_intents("bilstm", sentences, intents)


In [None]:
# LaBSE's performance
y_hat = intent_labse_model.predict(X_test_labse)
SemanticComprehension().plot_confusion_matrix(y_test_labse, y_hat, classes, "figs/ir-labse-cm.png")

# RNN's performance
y_hat = intent_bilstm_model.predict(X_test_rnn)        
SemanticComprehension().plot_confusion_matrix(np.argmax(y_test_rnn,axis=1), np.argmax(y_hat, axis=1), classes, "figs/ir-rnn-cm.png")

### Matrix de Confus√£o
<br>

<center>Redes Neurais Recorrentes (RNN) X Sentence Embeddings</center>

<img src="figs/ir-rnn-cm.png" style="float: left; zoom:22%;" />
<img src="figs/ir-labse-cm.png" style="float: right; zoom:22%;" />

In [None]:
# Predi√ß√£o de intents para os tweets coletados
intents = CompreensaoSemantica().predicao_intencoes(intent_labse_model, sentences) ## configurado apenas para o modelo LaBSE
intents.head()

### Reconhecimento de Entidades Nomeadas
TBD

### Corpus
- Iremos considerar o conjunto de dados dispon√≠vel em  https://www.kaggle.com/code/amoghjrules/twitter-entity-recognition-using-bilstms
- abc

In [None]:
entities = []
for sentence in tqdm(sentences):
    nlp = spacy.load('en_core_web_sm')
    doc = nlp(sentence)
    entity = {}
    for i, ent in enumerate(doc.ents):
        entity[i] = {
                        "value":ent.text,
                        "entity":ent.label_,
                        "start":ent.start_char,
                        "end":ent.end_char
                    }
    entities.append(entity)

print(entities[:3])

## An√°lise de Sentimentos (AS)

* Tamb√©m conhecida como **Minera√ß√£o de Opini√µes**
* AS √© o "estudo computacional das opini√µes, atitudes e emo√ß√µes de pessoas em rela√ß√£o a uma entidade" [Medhat et al. 2014]

### Tarefas de AS

* **Detec√ß√£o de sentimento**
    - e.g. positivo, negativo ou neutro
* **Identifica√ß√£o de emo√ß√µes**
    - e.g. sentimentos como raiva, antecipa√ß√£o, nojo, medo, alegria, tristeza, surpresa, confian√ßa, etc. 
* **Detec√ß√£o de toxicidade** 
    - e.g. categorias como insulto, profanidade, conte√∫do sexualmente expl√≠cito, etc. [Jigsaw 2022]
* **An√°lise multil√≠ngue de sentimentos**
* **Detec√ß√£o de sarcasmo**
* etc.

### Exemplos de aplica√ß√µes de AS

* Identifica√ß√£o de coment√°rios agressivos em not√≠cias [Jigsaw 2022]
* Extra√ß√£o da opini√£o p√∫blica sobre um candidato ou partido pol√≠tico [Pang et al. 2008]
* Prioriza√ß√£o de respostas a avalia√ß√µes negativas de produtos [Bougie et al. 2003] 
* etc.

### Vantages da AS

* Permite an√°lises em larga escala
* Reduz a subjetividade provocada por avaliadores humanos

### N√≠veis da AS

1. **N√≠vel de documento** - premissa: documento expressa opini√£o sobre apenas uma entidade; 
2. **N√≠vel de frase** - premissa: frase expressa opini√£o sobre apenas uma entidade;  
3. **N√≠vel de aspecto** - m√∫ltiplas opini√µes sobre m√∫ltiplos aspectos (ou alvos)
    - e.g. ‚ÄúA <span style="color:#f00">qualidade de voz</span> deste telefone <span style="color:#f00">n√£o √© boa</span>, mas a <span style="color:#00f">vida √∫til da bateria</span> √© <span style="color:#00f">longa</span>‚Äù

### Abordagens para cria√ß√£o de modelos de AS

1. **Usando L√©xicos** 
    * <span style="color: #088B00">VANTAGEM</span>: independ√™ncia de dom√≠nio
    * <span style="color: #f00">DESVANTAGEM</span>: menor precis√£o e baixa escalabilidade
2. **Aprendizado de m√°quina (ML)**
    * <span style="color: #088B00">VANTAGEM</span>: maior precis√£o
    * <span style="color: #f00">DESVANTAGEM</span>: maior depend√™ncia de dom√≠nio
3. **H√≠brido (l√©xico + ML)** 

### A seguir iremos apresentar

* EmoLex
* LIWC
* Perspective API

In [None]:
# Frases que vamos usar como exemplo para os modelos de AS

emotional_sentences = [

    # exemplo de frase positiva
    "How good it is to live in Curitiba!",

    # exemplo de frase neutra
    "This car is grey.",

    # exemplo de frase negativa
    "Shut up, you're an idiot!",

    # exemplo de frase negativa, mas com palavras que podem confundir o modelo de AS como "friend"
    "It must be so sad to have you as a friend"
]

### EmoLex

* Criado em 2013, √© um dos maiores l√©xicos dispon√≠veis em l√≠ngua Inglesa
* Baseado em unigramas e bigramas dos l√©xicos
    * General Inquirer Lexicon
    * WordNet Affect Lexicon
* Anota√ß√µes feitas via crowdsourcing pelo Mechanical Turk
* Associa palavras com as oito emo√ß√µes da teoria de Plutchik [Plutchik 1980]
    * raiva, medo, antecipa√ß√£o, confian√ßa, surpresa, tristeza, alegria e desgosto
* Tamb√©m inclui as catergorias de sentimento negativo e positivo

In [None]:
# Exemplo de senten√ßas processadas com o Emolex (frequ√™ncia de emo√ß√µes nas senten√ßas)
SentimentAnalysis.emolex(emotional_sentences)

### LIWC

* Ferramenta para identificar caracter√≠sticas lingu√≠sticas, psicol√≥gicas e sociais em textos [Pennebaker et al. 2001]
* AS baseada em l√©xico (um dos maiores e mais completos na quantidade de termos e categorias cobertas)
* L√©xicos separados para l√≠nguas diferentes, sendo o ingl√™s a l√≠ngua padr√£o
* Dispon√≠vel apenas para Windows via interface gr√°fica

#### Categorias de conte√∫do dispon√≠veis no LIWC

* **emo√ß√µes positivas** (e.g. amor, legal, doce, etc.)
* **emo√ß√µes negativas** (e.g. ferido, feio, desagrad√°vel, etc.)
* **processos sociais** (e.g. filha, marido, vizinho, adulto, beb√™, etc.)
* **processos cognitivos** (e.g. pensar, conhecer, causa, etc.)
* **processos perceptivos** (e.g. observar, escutar, sentir, etc.)
* **processos biol√≥gicos** (e.g. comer, sangue, dor, etc.)
* **relatividade** (e.g. chega, vai, embaixo, ontem, at√©, fim, etc.)
* **preocupa√ß√µes sociais** (e.g. auditar, igreja, cozinhar, trabalhar, mestrado, etc.)
* **consentimento** (e.g. concordar, ok, etc.)
* **n√£o-flu√™ncias e palavras de preenchimento** (e.g. hm, er, umm, certo, etc.)
* entre outras [Tausczik and Pennebaker 2010]

#### Categorias de fun√ß√£o dispon√≠veis no LIWC

* **pronomes** 
* **preposi√ß√µes** 
* **artigos** 
* **conjun√ß√µes** 
* **verbos auxiliares** 
* entre outras [Tausczik and Pennebaker 2010]

#### Interface do LIWC

<img src="figs/liwc.png" style="float: center; zoom:100%;" />

#### Exemplo de processamento com o LIWC

Para executar o processamento das senten√ßas de exemplo, ser√° necess√°rio [adquirir uma licen√ßa](https://www.liwc.app/buy), instalar o LIWC em um computador com Windows e processar o arquivo .csv gerado na c√©lula a seguir. 

Voc√™ tamb√©m poder√° usar a vers√£o de [teste online](https://www.liwc.app/demo), inserindo manualmente cada uma das senten√ßas geradas no .csv a seguir (essa vers√£o √© limitada a algumas poucas categorias, mas est√£o dispon√≠veis as categorias de "Negative tone" e "Positive tone", bastante √∫teis em tarefas de AS). 

In [None]:
file = 'data/emotional_sentences_LIWC.csv'

if not os.path.exists(file):
    # cria um .csv com exemplos para ser processado pelo LIWC
    df_LIWC = pd.DataFrame({'text': emotional_sentences})
    df_LIWC.to_csv(file, index=False)
else:
    # carrega o arquivo com exemplos processado pelo LIWC
    df_LIWC = pd.read_csv(file)

In [None]:
# apresenta apenas algumas colunas mais interessantes para AS
df_LIWC[['text', 'affect', 'posemo', 'negemo', 'anx', 'anger', 'sad']]

### Perspective API

* Usado para identifica√ß√£o de toxicidade em coment√°rios online
* Modelo multil√≠ngue
* Disponibilizado gratuitamente por meio de uma iniciativa da Jigsaw, uma empresa da Google [Jigsaw 2022]
* Acessado via API p√∫blica
* Adotada pelos principais ve√≠culos jornal√≠sticos internacionais para moderar coment√°rios em seus portais

#### Desafios para identificar toxicidade em coment√°rios

* Geralmente s√£o textos curtos - ex.: ‚Äúsei‚Ä¶ üòè‚Äù, ‚Äú¬¨¬¨‚Äù, ‚Äúno way!‚Äù
* Uso de emojis amb√≠guos - ex.: üòè,üåö,üòã 
* Erros de ortografia propositais (ou n√£o) - ex.: ‚Äú√ßocorro‚Äù;
* G√≠rias da internet - ex.: ‚Äúvc‚Äù, ‚Äúpq‚Äù, ‚Äúlol‚Äù, ‚Äúiti malia‚Äù
* Sutilezas inerentes √† l√≠ngua ou localidade - ex.: ‚Äúoxi‚Äù, ‚Äúp**ra!‚Äù;
* Especificidades de contexto - ex.: ‚Äúex-presidi√°rio‚Äù, ‚Äúbozo‚Äù;
* Uso de figuras de linguagem - ex.: met√°fora, ironia, etc.;
* Suscept√≠veis a ataques advers√°rios - ex.: ‚Äúst.Up1d‚Äù
* Podem ocorrer de forma esparsa no conjunto de dados;

#### Defini√ß√£o de coment√°rio t√≥xico

<center>"Um coment√°rio rude, desrespeitoso ou irracional que provavelmente far√° voc√™ sair de uma discuss√£o."</center>

#### Funcionamento do Perspective API

* Atribui uma pontua√ß√£o cont√≠nua entre 0 e 1 para diferentes categorias de toxicidade de acordo com o % no texto
* Uma pontua√ß√£o mais alta para uma determinada categoria (ou atributo), indica uma maior probabilidade de um leitor perceber que o coment√°rio possui este atributo
* e.g. ‚ÄúVoc√™ √© um idiota‚Äù pode receber uma pontua√ß√£o de $0.8$ para o atributo TOXICIDADE, indicando que 8 entre 10 pessoas perceberiam esse coment√°rio como t√≥xico
* Portanto um coment√°rio com pontua√ß√£o de TOXICIDADE de $0.9$ n√£o necessariamente √© mais t√≥xico  que uma com $0.7$

 [Jigsaw 2022]

<img src="figs/perspective.png" style="float: center; zoom:100%;" />

Fonte: https://perspectiveapi.com/

#### Atributos de produ√ß√£o (multil√≠ngue)

- **TOXICITY** - ‚ÄúUm coment√°rio rude, desrespeitoso ou irracional que provavelmente far√° com que as pessoas deixem uma discuss√£o‚Äù; 
- **SEVERE_TOXICITY** - ‚ÄúUm coment√°rio que √© muito odioso, agressivo, desrespeitoso, ou muito prov√°vel de fazer um usu√°rio sair de uma discuss√£o, ou desistir de compartilhar sua perspectiva. Este atributo √© muito menos sens√≠vel a formas mais leves de toxicidade, como coment√°rios que incluem usos positivos de palavr√µes‚Äù; 
- **IDENTITY_ATTACK** - ‚ÄúComent√°rios negativos ou de √≥dio direcionados a algu√©m por causa de sua identidade‚Äù; 
- **INSULT** - ‚ÄúComent√°rio ofensivo, inflamat√≥rio ou negativo para uma pessoa ou grupo de pessoas‚Äù; 
- **PROFANITY** - ‚ÄúXingamentos, palavr√µes ou outras linguagens obscenas, ou profanas‚Äù; 
- **THREAT** - ‚ÄúDescreve a inten√ß√£o de infligir dor, les√£o ou viol√™ncia contra um indiv√≠duo, ou grupo‚Äù.

#### Acessando o Perspective API

* Para executar os exemplos a seguir, voc√™ dever√° solicitar acesso ao Perspective API no Google Cloud seguindo [esse passo a passo](https://developers.perspectiveapi.com/s/docs-get-started)
* Obtenha a chave da API para usar nos pr√≥ximos passos

In [None]:
# Credenciais do Perspective API

print("Informe seu 'API KEY'")
PERSPECTIVE_API_KEY = getpass.getpass()

In [None]:
# Exemplo de senten√ßas processadas com o Perspective API
SentimentAnalysis.perspective(emotional_sentences, PERSPECTIVE_API_KEY)

# <center>6. Aplica√ß√µes</center>

## 6.1 Polariza√ß√£o Pol√≠tica

### Contextualiza√ß√£o

* Artigo [Reaching the bubble may not be enough: news media role in online political polarization](https://epjdatascience.springeropen.com/articles/10.1140/epjds/s13688-022-00357-3)
* Autores
    * Jordan K. Kobellarz - UTFPR
    * Milo≈° Broƒáiƒá - University of Toronto
    * Alexandre R. Graeml - UTFPR
    * Daniel Silver - University of Toronto
    * Thiago H. Silva- UTFPR 

#### Objetivo

Estudar o papel de intermediadores em cen√°rios polarizados (Bubble Reachers)
    
<img src="figs/bubble-reachers.png" style="float: center; zoom:100%;" />

#### Situa√ß√µes estudadas

* Elei√ß√£o presidencial brasileira de 2018
* Elei√ß√£o federal canadense de 2019

#### Dados / Metodologia

1. Dados coletados usando a API de Streaming do Twitter
2. Identifica√ß√£o de polaridade dos usu√°rios por meio de hashtags
3. Identifica√ß√£o dos top 100 Bubble Reachers por meio de uma m√©trica de centralidade chamada Intergroup Reaching
4. Extra√ß√£o de artigos em sites de not√≠cias apontadas em tweets
5. Extra√ß√£o de entidades: (1) dom√≠nios | (2) conte√∫dos | (3) t√≥picos
6. Identifica√ß√£o da polaridade de cada entidade

#### Resultados

* Os Bubble Reachers mais representativos foram, em geral, contas de m√≠dias de not√≠cias neutras
* M√≠dias de not√≠cias neutras s√£o eficientes em contornar os filtros-bolha e distribuir conte√∫dos a grupos distintos na rede
* Mesmo sendo expostos a realidades distintas, usu√°rios compartilham apenas conte√∫dos que refor√ßam seu vi√©s
* O comportamento de compartilhamento depende mais do vi√©s do conte√∫do do que do t√≥pico do conte√∫do

#### A seguir

* Ser√° apresentado um exemplo de extra√ß√£o de t√≥picos no dataset de not√≠cias apontadas em tweets
* Iremos apresentar somente o caso Canadense por brevidade
* No final, ser√° analisada a rela√ß√£o entre a polaridade dos t√≥picos e dos usu√°rios que o retuitaram

### An√°lise e pr√©-processamento

#### Carregando os conjuntos de dados de not√≠cias

* Not√≠cias sobre as elei√ß√µes canadenses de 2019
* Dataset em ingl√™s

In [None]:
def load_dataframe_from_drive_csv(url):
    path = 'https://drive.google.com/uc?export=download&id='+url.split('/')[-2]
    return pd.read_csv(path)

# news dataset
url = 'https://drive.google.com/file/d/1AQjdqe9QRFK7ydNteZPM_IJk1eH-H3n_/view?usp=share_link'
df_news = load_dataframe_from_drive_csv(url)

# retweeted links dataset
url = 'https://drive.google.com/file/d/1Nn0I_tZnBWgUTNDeeE4bGzVTBhrTOJo1/view?usp=share_link'
df_retweeted_urls = load_dataframe_from_drive_csv(url)

#### Quantidade de not√≠cias no conjunto de dados

In [None]:
df_news.shape[0]

#### Exemplos de dados 

In [None]:
pd.set_option('display.max_colwidth', 100)
df_news[['retweets_count', 'title', 'description', 'article']].sort_values('retweets_count', ascending=False)[:5]

#### Remo√ß√£o de not√≠cias duplicadas

In [None]:
df_news = df_news.drop_duplicates(subset=['title', 'url'])

#### Combina√ß√£o do t√≠tulo + descri√ß√£o + corpo do artigo em uma √∫nica string

In [None]:
df_news['text'] = df_news['title'].astype(str) + ' ' + df_news['description'].astype(str) + ' ' + df_news['article'].astype(str)

#### Estat√≠sticas sobre o tamanho dos textos

* Textos longos (> 4500 caracteres em m√©dia)
* O menor texto tem 310 caracteres

In [None]:
df_news['text_length'] = df_news['text'].apply(len)

In [None]:
df_news['text_length'].describe()

#### Exemplos de not√≠cias

* Escrita formal
* Sem erros de ortografia

In [None]:
for content in df_news.sample(3)['text'].to_list():
    print(content[:500], '\n')

#### Pr√©-processamento dos textos

* Remo√ß√£o de 
    * links 
    * caracteres isolados 
    * stop-words
* Lematiza√ß√£o usando Spacy
* Transoforma√ß√£o em lowercase

In [None]:
import unidecode
import re

# Instala√ß√£o das depend√™ncias em ingl√™s para a biblioteca Spacy
# python -m spacy download en_core_web_sm
spacy_nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner'])

# Stopwords em ingl√™s contidas na biblioteca Spacy
stop_words = list(spacy_nlp.Defaults.stop_words)

# Stopwords em ingl√™s contidas na biblioteca do NLTK
stop_words += nltk.corpus.stopwords.words('english')

# Algumas outras palavras para serem removidas al√©m das stop-words
stop_words += [
    '-pron-', 'video', 'try', 'refresh', 'continue', 'article', 'load', 'browser', 'say', 'will', 
    'would', 'content', 'news', 'sign', 'register', 'home', 'page', 'advertisement'
]


def preprocess(text):

    # Remo√ß√£o de links 
    text = re.sub(r'http\S+', '', text)

    # Transforma o texto em um documento Spacy
    spacy_doc = spacy_nlp(text)

    # Usa o Spacy para lematizar o texto e remover stop words
    tokens = [token.lemma_.lower() for token in spacy_doc if token.lemma_.lower() not in stop_words]

    # Remove caracteres isolados
    tokens = [token for token in tokens if len(token) > 1]

    return tokens

In [None]:
df_news['text'] = df_news['text'].apply(preprocess)

#### Exemplos de not√≠cias pr√©-processadas

In [None]:
df_news['text'][:10]

#### Frequ√™ncia de termos mais representativos ap√≥s o pr√©-processamento

In [None]:
# Seta os padr√µes default para o matplot
plt.rcParams.update(plt.rcParamsDefault)

def get_all_terms(corpus):
    terms = []
    for text in corpus:
        terms = terms + text
    return terms


def term_frequency(corpus, num_plot=50, num_show=1000):
    plt.figure(figsize=(15, 5)) 

    terms = get_all_terms(corpus)
    fdist = nltk.FreqDist(terms)

    if num_plot > 0:
        fdist.plot(num_plot)

    # return a dataframe with terms and frequencies
    data = [[term, frequency] for term, frequency in fdist.most_common(num_show)]
    return pd.DataFrame(data, columns=['TERM', 'FREQUENCY'])

In [None]:
df_terms = term_frequency(df_news['text'])

#### Gera√ß√£o de bi e trigramas

Usando o Gemsim para formar bi e trigramas caso os termos coocorram pelo menos 10 vezes:

In [None]:
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
from gensim.models import Phrases
from gensim.models.phrases import Phraser
from gensim.models import CoherenceModel


def make_trigrams(corpus, min_count=5, threshold=10):

    # Criar os modelos de bi e trigramas

    # Obs.: quanto maior o threshold, menos N-gramas s√£o formados
    bigram = Phrases(corpus, min_count=min_count, threshold=threshold)
    bigram_model = Phraser(bigram)

    trigram = Phrases(bigram[corpus], min_count=min_count, threshold=threshold)
    trigram_model = Phraser(trigram)

    return [trigram_model[bigram_model[text]] for text in corpus]

In [None]:
df_news['text'] = make_trigrams(df_news['text'], 10)

#### Exemplos de not√≠cias com bi e trigramas

In [None]:
df_news['text']

#### Termos mais representativos ap√≥s a identifica√ß√£o de bi e trigramas

In [None]:
df_terms = term_frequency(df_news['text'])

#### Remo√ß√£o de termos sem valor para o dom√≠nio

In [None]:
for term in df_terms['TERM'].to_list():
    if len(term) > 15:
        print("'" + term + "',")

#### A partir da lista acima, s√£o selecionados manualmente quais termos devem ser removidos

In [None]:
unuseful_terms = [
    'apologize_fail_tap_team',
    'postmedia_network',
    'network_latest_national_stories',
    'soon_inbox_encounter_issue',
    'click_unsubscribe_link_email',
    'inc._365_bloor_street',
    'ontario_m4w_3l4_416',
    'thank_welcome_email_way',
    'check_junk_folder_issue',
    'story_midday_sun_newsroom',
    'inbox_noon_late_headline',
    'story_opinion_photo_toronto',
    'sun_email_address_error',
    'provide_valid_email_address',
    'click_button_consent_receive',
    'newsletter_postmedia_network_inc.',
    'unsubscribe_time',
    'original_archive'
]

def remove_unuseful_terms(text):
    return [token for token in text if token.lower() not in unuseful_terms]

df_news['text'] = df_news['text'].apply(remove_unuseful_terms)

## Identifica√ß√£o de t√≥picos com LDA

Refer√™ncia: https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/

#### Cria√ß√£o do dicion√°rio e corpus para o LDA usando o modelo BoW

In [None]:
from gensim.corpora.dictionary import Dictionary

# Cria o dicion√°rio a partir do corpus
gs_dictionary = Dictionary(df_news['text'])

# Remove os tokens muito raros (menos frequentes que `no_below`) ou muito comuns (mais frequentes que `no_above`%)
gs_dictionary.filter_extremes(no_below=3, no_above=.20)

# Cria o corpus usando o modelo de Bag of Words
gs_corpus = [gs_dictionary.doc2bow(text) for text in df_news['text'].to_list()]

In [None]:
print('Dictionary size:', len(gs_dictionary), ', corpus size:', len(gs_corpus))

In [None]:
"""
def display_topics(model, feature_names, no_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print "Topic %d:" % (topic_idx)
        print " ".join([feature_names[i]
                        for i in topic.argsort()[:-no_top_words - 1:-1]])

no_top_words = 10
display_topics(nmf, tfidf_feature_names, no_top_words)
display_topics(lda, tf_feature_names, no_top_words)
"""

#### Treinamento de modelos LDA 

* Para treinar os modelos LDA usamos diferentes valores para $k$ 
* Nesse tutorial, escolhemos $k=10$ at√© $k=30$, uma vez que temos aprox. 500 documentos no corpus
* Para cada modelo geramos o score de coer√™ncia e perplexidade, que s√£o analisados a seguir

In [None]:
from gensim.models.ldamulticore import LdaMulticore
from gensim.models.ldamodel import LdaModel

os.environ["TOKENIZERS_PARALLELISM"] = "false"

def compute_lda_performance(dictionary, corpus, texts, start=1, limit=50, step=1):
    """
    Compute c_v coherence for various number of topics

    Parameters:
    ----------
    dictionary : Gensim dictionary
    corpus : Gensim corpus
    texts : List of input texts
    limit : Max num of topics

    Returns:
    -------
    model_list : List of LDA topic models
    perplexity_values : Perplexity values corresponding to the LDA model with respective number of topics
    coherence_values : Coherence values corresponding to the LDA model with respective number of topics
    """
    num_topics_values = []
    perplexity_values = []
    coherence_values = []
    for num_topics in range(start, limit+step, step):
        num_topics_values.append(num_topics)

        model = LdaMulticore(corpus=corpus, num_topics=num_topics, iterations=1000, id2word=dictionary, passes=10, random_state=100) 

        coherencemodel = CoherenceModel(model=model, texts=texts, dictionary=dictionary, coherence='c_v')
        coherence = coherencemodel.get_coherence()
        coherence_values.append(coherence)

        perplexity = model.log_perplexity(corpus)
        perplexity_values.append(perplexity)

        print('Topics:', num_topics, '\tPerplexity:', round(perplexity, 5), '\tCoherence:', round(coherence, 5))

    df_results = pd.DataFrame({'topics': num_topics_values, 'perplexity': perplexity_values, 'coherence': coherence_values})
    return df_results

In [None]:
df_lda_models = compute_lda_performance(dictionary=gs_dictionary, corpus=gs_corpus, texts=df_news['text'], start=10, limit=30, step=2)

#### An√°lise do score de coer√™ncia

* Indica o qu√£o "interpret√°vel" s√£o os t√≥picos para humanos
* Indica o quanto as palavras mais representativas de cada t√≥pico s√£o similares entre si
* Diferentes medidas de similaridade podem ser usadas, a padr√£o √© o score c_v, que usa similaridade do cosseno
* Heur√≠stica: quanto maior o score de coer√™ncia, melhor (mas nem sempre)
    * Usar m√©todo do "cotovelo"
    * Analisar o gr√°fico de t√≥picos (a seguir)
    * Usar bom senso

In [None]:
# Scores de coer√™ncia de acordo com o n√∫mero de t√≥picos
ax = df_lda_models.plot.line(x='topics', y='coherence')
ax.set_xlabel("Num Topics")
ax.set_ylabel("Coherence")

In [None]:
# Top 5 modelos
df_lda_models.sort_values('coherence', ascending=False)[:5]

#### Identifica o melhor n√∫mero de t√≥picos de acordo com o score de coer√™ncia

In [None]:
best_num_topics = df_lda_models.sort_values('coherence', ascending=False)['topics'].tolist()[0]

best_num_topics

#### Treinamento do modelo com o melhor n√∫mero de t√≥picos 

Aqui repetimos o treinamento do modelo com o melhor n√∫mero de t√≥picos usando uma quantidade maior de itera√ß√µes e passes no dataset.

In [None]:
lda = LdaMulticore(corpus=gs_corpus, num_topics=best_num_topics, 
                   iterations=10000, id2word=gs_dictionary, passes=100, 
                   random_state=100)

#### Coer√™ncia e perplexidade do modelo final

In [None]:
# Compute Perplexity (lower is better)
print('\nPerplexity: ', lda.log_perplexity(gs_corpus)) 

# Compute Coherence Score
coherence_model_lda = CoherenceModel(model=lda, texts=df_news['text'], 
                                     dictionary=gs_dictionary, coherence='c_v')
print('\nCoherence Score: ', coherence_model_lda.get_coherence())

#### Palavras mais representativas de cada t√≥pico

Alguns exemplos de t√≥picos:

* **IMPOSTO DE CARBONO:** carbon_tax, emission, climate_change, tax, cbc, economy, cent, target, cost, program 
* **ABORTO:** abortion, debate, harper, comment, conservative_party, sex_marriage, law, view, conservative_leader, montreal 
* **PESQUISA ELEITORAL:** poll, mr._scheer, cent, mr._trudeau, survey, research, 30, age, positive, centre 
* **CORTE OR√áAMENT√ÅRIO:** billion, cut, platform, million, city, toronto, tax, bernier, budget, spending 
* **CASO DE RACISMO:** blackface, racist, apologize, black, apology, rcmp, woman, racism, global, makeup 
* **PETR√ìLEO:** pipeline, oil, climate_change, climate, company, energy, encana, coal, spend, money 
* **IMIGRA√á√ÉO:** insurance, claim, refugee, comment, act, facebook, immigrant, immigration, insurance_broker, anti 

In [None]:
for i, topic in enumerate(lda.top_topics(topn=5, texts=df_news['text'])):
    terms = topic[0]
    print('Topic', i, ', '.join([term[1] for term in terms]))

#### Visualiza√ß√£o dos t√≥picos

* Cada bolha representa um t√≥pico. Quanto maior a bolha, mais prevalente √© esse t√≥pico.
* Um bom modelo de t√≥pico ter√° bolhas grandes e n√£o sobrepostas espalhadas por todo o gr√°fico.
* Um modelo com muitos t√≥picos normalmente ter√° muitas sobreposi√ß√µes, bolhas de tamanho pequeno agrupadas em uma regi√£o do gr√°fico.

Fonte: https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python

In [None]:
import warnings
import pyLDAvis
import pyLDAvis.gensim_models as gensimvis
pyLDAvis.enable_notebook()

def show_lda_vis(lda, gs_corpus, gs_dictionary):
    # Workaround para evitar que o pyLDAvis esconda os bot√µes do Jupyterlab
    from IPython.display import HTML
    css_str = '<style> \
    .jp-icon-warn0 path {fill: var(--jp-warn-color0);} \
    .bp3-button-text path { fill: var(--jp-inverse-layout-color3);} \
    .jp-icon-brand0 path { fill: var(--jp-brand-color0);} \
    text.terms { fill: #616161;} \
    </style>'
    display(HTML(css_str))

    # feed the LDA model into the pyLDAvis instance
    warnings.filterwarnings('ignore')
    return gensimvis.prepare(lda, gs_corpus, gs_dictionary)

In [None]:
show_lda_vis(lda, gs_corpus, gs_dictionary)

#### Salva os 3 t√≥picos mais representativos de cada not√≠cia no dataframe

In [None]:
topic_2_words = {}
for topic in lda.show_topics(num_topics=100, num_words=10, formatted=False):
    topic_id = topic[0]
    topic_tokens = ', '.join([token[0] for token in topic[1]])
    topic_2_words[topic_id] = topic_tokens

In [None]:
doc_topics_1 = []
doc_topics_1_words = []
doc_topics_1_percentages = []

doc_topics_2 = []
doc_topics_2_words = []
doc_topics_2_percentages = []

doc_topics_3 = []
doc_topics_3_words = []
doc_topics_3_percentages = []

for i, doc in enumerate(df_news['text'].to_list()):
    doc_bow = gs_dictionary.doc2bow(doc)
    
    # get document topics (each row contains a tuple with topic id and topic probability)
    doc_topics = lda.get_document_topics(doc_bow)
    
    # sort topics by probability
    doc_topics.sort(key=lambda x:x[1], reverse=True)
    
    # get them main topic and top 3 topics
    topics = doc_topics[:3]
    
    if len(topics) > 0:
        doc_topics_1_percentages.append(topics[0][1])
        topic_id = topics[0][0]
        doc_topics_1.append(topic_id)
        doc_topics_1_words.append(topic_2_words[topic_id])
    else:
        doc_topics_1.append(None)
        doc_topics_1_percentages.append(None)
        doc_topics_1_words.append(None)
        
        
    if len(topics) > 1:
        doc_topics_2_percentages.append(topics[1][1])
        topic_id = topics[1][0]
        doc_topics_2.append(topic_id)
        doc_topics_2_words.append(topic_2_words[topic_id])
    else:
        doc_topics_2.append(None)
        doc_topics_2_percentages.append(None)
        doc_topics_2_words.append(None)
        
        
    if len(topics) > 2:
        doc_topics_3_percentages.append(topics[2][1])
        topic_id = topics[2][0]
        doc_topics_3.append(topic_id)
        doc_topics_3_words.append(topic_2_words[topic_id])
    else:
        doc_topics_3.append(None)
        doc_topics_3_percentages.append(None)
        doc_topics_3_words.append(None)

In [None]:
df_news['topic'] = pd.Series(doc_topics_1)
df_news['topic_words'] = pd.Series(doc_topics_1_words)
df_news['topic_percentage'] = pd.Series(doc_topics_1_percentages)

df_news['topic_1'] = pd.Series(doc_topics_1)
df_news['topic_1_words'] = pd.Series(doc_topics_1_words)
df_news['topic_1_percentage'] = pd.Series(doc_topics_1_percentages)

df_news['topic_2'] = pd.Series(doc_topics_2)
df_news['topic_2_words'] = pd.Series(doc_topics_2_words)
df_news['topic_2_percentage'] = pd.Series(doc_topics_2_percentages)

df_news['topic_3'] = pd.Series(doc_topics_3)
df_news['topic_3_words'] = pd.Series(doc_topics_3_words)
df_news['topic_3_percentage'] = pd.Series(doc_topics_3_percentages)

#### Distribui√ß√£o dos t√≥picos mais representativos em cada not√≠cia

* O t√≥pico mais representativo (em azul) tem alta domin√¢ncia para a maioria das not√≠cias
* O segundo e terceiro t√≥picos mais representativos, em laranja e verde, tem uma representatividade baixa na maioria das not√≠cias em compara√ß√£o com o azul. 

In [None]:
ax1 = pd.Series(doc_topics_1_percentages).plot.hist(bins=25)
ax2 = pd.Series(doc_topics_2_percentages).plot.hist(bins=25)
ax3 = pd.Series(doc_topics_3_percentages).plot.hist(bins=25)

#### Distribui√ß√£o dos t√≥picos mais dominantes entre as not√≠cias

In [None]:
df = df_news.groupby('topic_1').agg({
    'article': 'count'
}).reset_index().rename(columns={
    'topic_1': 'dominant topic id',
    'article': 'number of news',
}).sort_values('number of news', ascending=False)

df['dominant topic id'] = df['dominant topic id'].astype('int')

ax = df.plot.bar(x='dominant topic id', y='number of news', figsize=(15,3))

In [None]:
df['number of news'].describe()

#### Exemplos de manchetes em 5 t√≥picos

In [None]:
for i in range(0, 5):
    print('\nTopic', i)
    print(df_news[df_news['topic'] == i]['title'][:5])

In [None]:
def get_topic_1(url):
    df = df_news[df_news['url'] == url]
    return df.iloc[0]['topic'] if df.shape[0] == 1 else None

def get_topic_1_words(url):
    df = df_news[df_news['url'] == url]
    return df.iloc[0]['topic_words'] if df.shape[0] == 1 else None

df_retweeted_urls['topic'] = df_retweeted_urls['retweeted_url'].apply(get_topic_1)
df_retweeted_urls['topic_words'] = df_retweeted_urls['retweeted_url'].apply(get_topic_1_words)

### Resultados

Heatmap de t√≥picos vs retweets de usu√°rios por faixa de polaridade

In [None]:
%matplotlib inline

def relative_polarity_heatmap(df, column, oversample=True, title=None, x_label=None, y_label_left=None, y_label_right=None, 
                              cbar_label=None, top_n=20, vmax=1, numeric_index=False, only_dataframe=False):
    
    env_polarities = [value/10 for value in range(-10,11,1)]
    
    df_copy = df.copy()    
    
    """
    -------------------
    RP(H) calculation
    -------------------
    """

    # generate a matrix with rows being 'column' parameter values and columns being polarities from -1 to +1
    df = pd.crosstab(index=df[column], columns=df['user_P(H)_bin'], values=df[column], aggfunc='count')
    df = df.fillna(0.0)
    
    # add faulting columns (for faulting polarities)
    for polarity in env_polarities:
        if not polarity in df.columns:
            num_rows = df.shape[0]
            df[polarity] = pd.Series([0.0] * num_rows)
            
    # reorder columns from -1.0 to +1.0
    df = df[env_polarities]
    
    # scale by dividing the retweets count of each polarity for each domain by the max retweets count of each polarity from all domains
    if oversample:
        df_polarity_max_retweets = df.max(axis=0) # get polarity column max value
        for polarity in env_polarities:
            df[polarity] = df[polarity] / df_polarity_max_retweets[polarity]    
    
    # normalize values to 0-1 interval with min-max (by domain min-max from all polarities)
    max_df = df.max(axis=1)
    min_df = df.min(axis=1)
    for polarity in env_polarities:
        df[polarity] = (df[polarity] - min_df) / (max_df - min_df) 
       
    # calculate polarity average without zeros and neutral users count
    relative_polarities = []
    for i, row in df.iterrows():
        row_sum = 0
        count = 0
        for polarity in env_polarities:
            if polarity != 0.0 and row[polarity] > 0.0: # only count cells with non zero value and remove the neutral polarity
                row_sum += row[polarity] * polarity
                count += row[polarity]
        if count > 0:
            relative_polarities.append(row_sum / count)
        else:
            relative_polarities.append(None)
        
    df['relative_polarity'] = relative_polarities
    
    
    """
    -------------------
    Data preparation
    -------------------
    """
    
    # count occurrences of 'column' values
    df_rphs = df_copy.groupby(column).agg(
        retweets_count=pd.NamedAgg(column=column, aggfunc='count')
    ).sort_values(by=column, ascending=False)
    df_rphs[column] = df.sort_index(ascending=False).index
    df_rphs['RP(H)'] = df.sort_index(ascending=False)['relative_polarity']
    
    """
    -------------------
    Data visualization
    -------------------
    """
    
    if not only_dataframe:
    
        # get only top N most retweeted 'column' values to include in the heatmap
        if top_n:        
            top_column_values = df_rphs.sort_values(by='retweets_count', ascending=False)[:top_n][column].unique()
            df = df[df.index.isin(top_column_values)]

        # sort heatmap rows by relative_polarity values
        df = df.sort_values('relative_polarity')
        relative_polarities = df['relative_polarity'].map('{:,.2f}'.format).astype('str').to_list()
        
        # drop relative_polarity to not include in the heatmap
        df = df.drop(columns=['relative_polarity'])
        df = df.fillna(0.0)        
            
        # get a print friendly datatable
        row_indexes = list(range(1,len(df.index)+1))
        row_values = df.index        
        df_heatmap_table = pd.DataFrame({'ID': row_indexes, y_label_left: row_values, 'RP(H)': relative_polarities})
        
        # create a sequential numeric 'id' for heatmap rows
        if numeric_index:            
            df['id'] = row_indexes
            df = df.set_index('id')

        plt.subplots(figsize=(2,round(top_n/3.5)))
        ax = sns.heatmap(df, annot=False, linewidths=.1, robust=True, cmap='YlOrBr', vmin=0, vmax=vmax, cbar=False, square=True)
        ax.set_title(title or '')
        ax.set_xlabel(x_label or 'User P(H)')
        ax.set_ylabel(y_label_left or '')
        #ax.collections[0].colorbar.set_label(cbar_label or 'Retweet density')
        ax.set_xticklabels(ax.get_xticklabels(), rotation = 90)
        ax.set_yticklabels(ax.get_yticklabels(), rotation = 0)

        # maintain only 5 tick labels to simplify
        for n, label in enumerate(ax.xaxis.get_ticklabels()):
            if n not in [0, 5, 10, 15, 20]:
                label.set_visible(False)

        # add right y axis
        ax2 = ax.twinx() # share x-axis
        ax2.set_ylabel(y_label_right or '')
        ax2.tick_params(right=True, pad=6)
        ax2.set_aspect('auto', share=True, )
        ax2.set_ylim((top_n, 0))
        ax2.set_yticks(ax.get_yticks())
        ax2.set_yticklabels(relative_polarities)
        ax2.spines['top'].set_visible(False)
        ax2.spines['right'].set_visible(False)
        ax2.spines['bottom'].set_visible(False)
        ax2.spines['left'].set_visible(False)

        fig = ax.get_figure()
        fig.set_size_inches(2, round(top_n/3.5))

    return df_rphs, df_heatmap_table, fig

In [None]:
warnings.filterwarnings('ignore')
df, df_heatmap, fig = relative_polarity_heatmap(
    df=df_retweeted_urls, column='topic_words', y_label_left='T√≥pico', 
    y_label_right='Polaridade do t√≥pico', x_label='Polaridade dos usu√°rios',
    top_n=10
)