<a href="https://colab.research.google.com/github/thiagomelostuckert/datathon-fakenews/blob/main/3_Telegram.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Estruturação de aplicação para detecção de notícias a partir da extração de mensagens em grupo do Telegram

Agora que o modelo já foi treinado é preciso analisar a performance dele em tempo real. Em parceria com um órgão do XX, a fração de D&A recebeu informações sobre um grupo de Telegram em que há suspeita de desinformação. Quando estiver em posse do modelo treinado, a equipe pode buscar representantes do desafio para obter o link do grupo.
O engenheiro de dados deverá desenvolver aplicação que acompanha constantemente o grupo designado. Na ocorrência de uma mensagem nesse grupo, a aplicação deverá:

i) preprocessar o texto da mesma forma que na etapa 1;

ii) carregar os parâmetros do modelo treinado na etapa 2;

iii) realizar inferência no texto processado, gerando previsão de se a notícia é falsa ou não;

iv) salvar o texto, o timestamp de recebimento da mensagem, o timestamp após a realização da inferência e a previsão do modelo para aquela notícia em um pandas dataframe;

v) ao fim do recebimento das mensagens (será indicado ao grupo), deverá salvar o pandas dataframe em formato .csv.

Recomenda-se a utilização da biblioteca python telethon, que é assíncrona (deve ser utilizada conjuntamente à biblioteca asyncio). É possível utilizar a biblioteca no Google Colab (nesse caso, deve utilizar ainda o nest_asyncio). Para utilizar a biblioteca telethon é necessário também obter os dados da API do Telegram, que pode ser feito utilizadno esse link (https://core.telegram.org/api/obtaining_api_id).

Serão considerados na avaliação: intervalo de tempo entre o recebimento da mensagem e a realização da inferência; eficiência do código.

Importação das bibliotecas

In [4]:
import pandas as pd

# Pré-processamento
import nltk
from nltk.stem import RSLPStemmer
from nltk.stem.wordnet import WordNetLemmatizer

i) preprocessar o texto da mesma forma que na etapa 1;

No pré-processamento de linguagem natural é comum retirar palavras sem significado semântico (conhecidas em inglês como "stop words").

In [5]:
# Stopwords em português:
nltk.download('stopwords')
stopwordspt = nltk.corpus.stopwords.words('portuguese')
stopwordsen = nltk.corpus.stopwords.words('english')
stopwordspt[:10]

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as']

Outro pré-processamento possível é a retirada de prefixos e sufixos desnecessários das palavras ( processo conhecido em inglês pelos termos "lemmatizing and stemming")

In [6]:
# Download lista de radicais e sufixos
!wget https://github.com/michmech/lemmatization-lists/raw/master/lemmatization-pt.txt -q
nltk.download('rslp')

ptstemmer = RSLPStemmer()
enstemmer = WordNetLemmatizer()

# Convert to dictionary
lmztpt = {}
dic = open("lemmatization-pt.txt")
for line in dic:
  txt = line.split()
  lmztpt[txt[1]] = txt[0]

# Lemmatize wherever possible
def PortugueseMess(word):
  if word in lmztpt.keys():
    return lmztpt.get(word)
  else:
    return ptstemmer.stem(word)

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


ii) carregar os parâmetros do modelo treinado na etapa 2;

iii) realizar inferência no texto processado, gerando previsão de se a notícia é falsa ou não;

iv) salvar o texto, o timestamp de recebimento da mensagem, o timestamp após a realização da inferência e a previsão do modelo para aquela notícia em um pandas dataframe;

v) ao fim do recebimento das mensagens (será indicado ao grupo), deverá salvar o pandas dataframe em formato .csv.