## <center>Processamento de Linguagem Natural em Textos de Mídias Sociais: Fundamentos, Ferramentas e Aplicações</center>

### <center>XXVIII Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia 2022)</center>

<br></br>

<center>Frances A. Santos (UNICAMP), Jordan Kobellarz (UTFPR), Fábio R. de Souza (USP), Leandro A. Villas (UNICAMP), Thiago H. Silva (UTFPR)</center>

<br></br>

<center>Curitiba, PR</center>
<center>07 de Novembro de 2022</center>

<a href="https://colab.research.google.com/github/webmedia2022-nlp/course-code/blob/main/NLP_WebMedia2022.ipynb" target="_parent"><img style="float: right;" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Abrir no Colab"/></a>

## Agenda

- Introdução 
- Texto de mídias sociais: suas principais características e como coletá-los
- Pré-processamento textual
- Representação de textos utilizando vetores numéricos
- Modelagem e extração de conhecimento
- Compreensão semântica e emocional
- Possíveis aplicações
- Perguntas & Respostas

## Introdução

<img src="figs/social-media.jpeg" style="float: center; zoom:50%;" />

- Mídias sociais ..
- To Do


In [33]:
pip install --no-cache-dir -r requirements.txt

Note: you may need to restart the kernel to use updated packages.


In [34]:
%load_ext autoreload
%autoreload 2

import pandas as pd
import getpass
import warnings
import pathlib
import os 
from tqdm import tqdm

from ExtracaoDados import ExtracaoDados
from PreProcessamento import PreProcessamento
from ModelosRepresentacao import ModelosEstatisticos, SentenceEmbeddings, WordEmbeddings
from ExtracaoConhecimento import Agrupamento, CompreensaoSemantica, CompreensaoEmocional

warnings.filterwarnings('ignore')
tqdm.pandas()

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## Textos de mídias sociais
<br></br>
To Do

## Twitter

<br></br>
To Do

## Coletando Tweets

- Utilizaremos a Twitter API v2 para coletar os tweets 
- Acesse a [página de desenvolverdores](https://developer.twitter.com/) e obtenha suas credenciais de acesso
- Limitamos cada coleta a 10 tweets, mas todo o conteúdo dos tweets é adicionado (*appending*) ao arquivo local data/tweets.json
- Além dos campos *id* e *text* que estão presentes nos tweets por padrão, também solicitamos os campos *created_at, entities, geo, lang, public_metrics, source*. Para ver a lista completa de campos possíveis, acesse esta [página](https://developer.twitter.com/en/docs/twitter-api/data-dictionary/object-model/tweet)
- Filtramos para selecionar apenas os tweets escritos em Inglês ( *lang = "en"* ) e que contenham o termo "nyc", que referencia a cidade de Nova Iorque
- Após coletar os tweets, extraímos os valores dos campos *text, timestamp_ms, ...* e retornamos no formato Pandas DataFrame. 

In [None]:
## Get Twitter API credentials

print("Informe seu 'API KEY'")
twitter_consumer_key = getpass.getpass()

print("Informe seu 'API KEY SECRET'")
twitter_consumer_secret = getpass.getpass()

print("Informe seu 'ACCESS TOKEN KEY'")
twitter_access_token_key = getpass.getpass()

print("Informe seu 'ACCESS TOKEN SECRET'")
twitter_access_token_secret = getpass.getpass()

print("Informe seu 'Bearer TOKEN'")
twitter_bearer_token = getpass.getpass()

In [None]:
# collect tweets
df_tweets = ExtracaoDados().twitter(
    twitter_consumer_key, 
    twitter_consumer_secret, 
    twitter_access_token_key, 
    twitter_access_token_secret, 
    twitter_bearer_token
)

df_tweets.tail()

## Reddit

TODO

## Coletando Posts de \subreddits

- Utilizaremos a [API do Reddit](https://www.reddit.com/dev/api) para coletar posts
- Você deverá criar uma conta para acessar a API em [reddit.com](https://reddit.com)
- Depois de criar a conta, obtenha os Client ID e o Client Secret
- No exemplo a seguir, coletamos os top 100 posts de 5 subreddits, contendo o texto, url, número de comentários, data de criação e score (número de upvotes do post)
- Os dados são salvos no arquivo local data/reddit_posts.csv

In [35]:
## Get Reddit API credentials

print("Informe seu 'CLIENT ID'")
REDDIT_CLIENT_ID = getpass.getpass()

print("Informe seu 'CLIENT SECRET'")
REDDIT_CLIENT_SECRET = getpass.getpass()

Informe seu 'CLIENT ID'


 ········


Informe seu 'CLIENT SECRET'


 ········


In [55]:
# Subreddits with serious/relevant discussions
subreddits = [
    'politics',
    'AskHistorians',
    'changemyview',
    'COVID19',
    'EverythingScience',
    'science'
]

# collect top 100 posts from each subreddit
df_reddit_posts = ExtracaoDados().reddit(
    REDDIT_CLIENT_ID, 
    REDDIT_CLIENT_SECRET,
    subreddits=subreddits,
    top_n=100
)

100%|███████████████████████████████████████████████████████| 6/6 [00:21<00:00,  3.62s/it]


In [56]:
# show some posts with text
df_reddit_posts[df_reddit_posts['length'] > 0].tail(5)

Unnamed: 0,created_at,url,title,score,text,length
315,1583273000.0,https://www.reddit.com/r/COVID19/comments/fd29...,Please consider downloading BOINC or folding@h...,3115,Hello all.\n\nI believe this has been posted b...,3181
500,1521000000.0,https://www.reddit.com/r/science/comments/84ai...,Physicist Stephen Hawking dies aged 76,199300,We regret to hear that [Stephen Hawking died t...,998
503,1511109000.0,https://www.reddit.com/r/science/comments/7e1j...,Raising the taxes of graduate students by as m...,124373,Science and technology development has been th...,2592
557,1602797000.0,https://www.reddit.com/r/science/comments/jbwl...,[Megathread] World's most prestigious scientif...,80108,We have received numerous submissions concerni...,2288
562,1437997000.0,https://www.reddit.com/r/science/comments/3ere...,"Science Ama Series: I am Stephen Hawking, theo...",79240,I signed an open letter earlier this year impl...,2211


## Meta (Facebook)

TODO

## CrowdTangle

TODO

## API do CrowdTangle

TODO

## Exemplo de retorno da API do CrowdTangle

```json
{
    "status": 200,
    "result": {
        "posts": [
            {
                "platformId": "47657117525_10154014482272526",
                "platform": "Facebook",
                "date": "2016-02-12 23:38:14",
                "updated": "2020-08-23 05:48:22",
                "type": "live_video_complete",
                "message": "Draymond at Foot Locker for #NBAAllStarTO with a special shoutout to #DubNation.",
                "expandedLinks": [
                    {
                        "original": "https://www.facebook.com/warriors/videos/10154014482272526/",
                        "expanded": "https://www.facebook.com/warriors/videos/10154014482272526/"
                    }
                ],
                "link": "https://www.facebook.com/warriors/videos/10154014482272526/",
                "postUrl": "https://www.facebook.com/warriors/posts/10154014482272526",
                "subscriberCount": 6041837,
                "score": 4.750579867017164,
                "media": [
                    {
                        "type": "video",
                        "url": "https://video-sea1-1.xx.fbcdn.net/v/t42.1790-29/12718926_1213464465334694_1083747983_n.mp4?_nc_cat=109&_nc_sid=985c63&efg=eyJybHIiOjQ0MiwicmxhIjoxNDIwLCJ2ZW5jb2RlX3RhZyI6InYyXzQwMF9jcmZfMjdfbWFpbl8zLjBfc2QifQ%3D%3D&_nc_ohc=e7Ygz2qv-24AX-wSWX2&rl=442&vabr=246&_nc_ht=video-sea1-1.xx&oh=889e0d776d92a84bb57099cad3d28d55&oe=5F43C879",
                        "height": 0,
                        "width": 0
                    },
                    {
                        "type": "photo",
                        "url": "https://scontent-sea1-1.xx.fbcdn.net/v/t15.5256-10/12526285_831341603658336_1493677499_n.jpg?_nc_cat=101&_nc_sid=1055be&_nc_ohc=DH0vfblGwtIAX_x8SBs&_nc_ht=scontent-sea1-1.xx&oh=b09d6378fa261fd45345e79c50c254cb&oe=5F696BE1",
                        "height": 400,
                        "width": 400,
                        "full": "https://scontent-sea1-1.xx.fbcdn.net/v/t15.5256-10/12526285_831341603658336_1493677499_n.jpg?_nc_cat=101&_nc_sid=1055be&_nc_ohc=DH0vfblGwtIAX_x8SBs&_nc_ht=scontent-sea1-1.xx&oh=b09d6378fa261fd45345e79c50c254cb&oe=5F696BE1"
                    }
                ],
                "statistics": {
                    "actual": {
                        "likeCount": 24235,
                        "shareCount": 753,
                        "commentCount": 5675,
                        "loveCount": 33,
                        "wowCount": 18,
                        "hahaCount": 3,
                        "sadCount": 0,
                        "angryCount": 5,
                        "thankfulCount": 0,
                        "careCount": 0
                    },
                    "expected": {
                        "likeCount": 3927,
                        "shareCount": 279,
                        "commentCount": 1041,
                        "loveCount": 1046,
                        "wowCount": 94,
                        "hahaCount": 45,
                        "sadCount": 14,
                        "angryCount": 19,
                        "thankfulCount": 0,
                        "careCount": 2
                    }
                },
                "account": {
                    "id": 19889,
                    "name": "Golden State Warriors",
                    "handle": "warriors",
                    "profileImage": "https://scontent-sea1-1.xx.fbcdn.net/v/t1.0-1/p200x200/74788912_10158146665972526_3545220405897723904_n.jpg?_nc_cat=1&ccb=2&_nc_sid=dbb9e7&_nc_ohc=9snUpG_pdlQAX90IhWM&_nc_ht=scontent-sea1-1.xx&tp=6&oh=f8a3d3b62b507966ecc68de3b557fe84&oe=5FBF1185",
                    "subscriberCount": 11580228,
                    "url": "https://www.facebook.com/47657117525",
                    "platform": "Facebook",
                    "platformId": "47657117525",
                    "accountType": "facebook_page",
                    "pageAdminTopCountry": "US",
                    "verified": true
                },
                "videoLengthMS": 307968,
                "liveVideoStatus": "completed",
                "Id": "19889|10154014482272526",
                "legacyid": 1686762829
            }
        ]
    }
}
```

## Coletando Posts no CrowdTangle

* Utilizaremos a API do CrowdTangle para extrair posts do Facebook -- [documentação](https://github.com/CrowdTangle/API/wiki)
* O primeiro passo é criar uma conta no CrowdTangle, depois criar um dashboard e obter o token da API para acessar os dados do dashboard
* Para coletar posts via API, é necessário criar pelo menos uma lista em seu dashboard recém criado
* Em nosso caso, criaremos uma lista para monitorar posts de páginas de mídias de notícias, incluindo CNN, NYT, BBC, NBC, NPR, Reuters, etc. 
* [Esse video explica como usar a interface do CrowdTangle para criar listas](https://vimeo.com/588999918). 
* [Esse video explica como acessar os dados via API](https://vimeo.com/453763307) explicando como executar todos os procedimentos acima

> Observação: não é possível criar uma lista via API, somente pela interface do dashboard.

In [38]:
## Get CrowdTangle API credentials

print("Informe seu 'API_TOKEN'")
CROWDTANGLE_API_TOKEN = getpass.getpass()

Informe seu 'API_TOKEN'


 ········


In [57]:
# collect top 100 posts in each month from start to end date
df_facebook_posts = ExtracaoDados().facebook(
    CROWDTANGLE_API_TOKEN, 
    search_term='covid-19',
    start_date = '2020-04-01',
    end_date = '2021-04-01'
)

In [58]:
# show some posts with text
df_facebook_posts.tail(3)

Unnamed: 0,created_at,url,title,score,text,length
97,2020-05-07 23:01:14,https://www.facebook.com/155869377766434/posts...,,1642,UPDATE: At least 85 kids across U.S. have deve...,93
98,2020-12-15 13:15:36,https://www.facebook.com/10643211755/posts/101...,,53717,An FDA analysis finds Moderna's COVID-19 vacci...,200
99,2020-04-08 01:56:43,https://www.facebook.com/10643211755/posts/101...,,3808,"The folk-country singer John Prine, one of the...",159


### Pré - Processamento

A tokenização é um método para...

In [None]:
pipeline = PreProcessamento(dados)

tokens = pipeline.tokenizacao()


A stemmização é um método para...

In [None]:
stem =  pipeline.stemmizacao()

### Modelos de Representação

Modelos Estatísticos

In [None]:
ModelosEstatisticos()

Word Embeddings

In [None]:
WordEmbeddings()

Sentence Embeddings

In [None]:
SentenceEmbeddings()

### Extração de Conhecimento

### Aplicações