In [1]:
import re
import inflect
import unicodedata
import contractions

import nltk
nltk.download('wordnet')
from nltk        import word_tokenize
from nltk.corpus import stopwords
from nltk.stem   import LancasterStemmer, WordNetLemmatizer

import pandas as pd
from pymongo import MongoClient

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [2]:
def remove_nao_ascii(palavras):
    novas_palavras = []
    for palavra in palavras:
        nova_palavra = unicodedata.normalize('NFKD', palavra).encode('ascii', 'ignore').decode('utf-8', 'ignore')
        novas_palavras.append(nova_palavra)
    return novas_palavras

In [3]:
def caixa_baixa(palavras):
    novas_palavras = []
    for palavra in palavras:
        nova_palavra = palavra.lower()
        novas_palavras.append(nova_palavra)
    return novas_palavras

In [4]:
def remove_pontuacao(palavras):
    novas_palavras = []
    for palavra in palavras:
        nova_palavra = re.sub(r'[^\w\s]', '', palavra)
        if nova_palavra != '':
            novas_palavras.append(nova_palavra)
    return novas_palavras

In [5]:
def troca_numero_palavra(palavras):
    novas_palavras = []
    ie = inflect.engine()
    for palavra in palavras:
        if palavra.isdigit():
            nova_palavra = ie.number_to_words(palavra)
            novas_palavras.append(nova_palavra)
        else:
            novas_palavras.append(palavra)
    return novas_palavras

In [6]:
def remove_stopwords(palavras):
    novas_palavras = []
    for palavra in palavras:
        if palavra not in stopwords.words('english'):
            novas_palavras.append(palavra)
    return novas_palavras

In [7]:
def tratar_troncos(palavras):    
    stems = []
    stemmer = LancasterStemmer()
    for palavra in palavras:
        stem = stemmer.stem(palavra)
        stems.append(stem)
    return stems

In [8]:
def tratar_verbos(palavras):    
    lemmas = []
    lemmatizer = WordNetLemmatizer()
    for palavra in palavras:
        lemma = lemmatizer.lemmatize(palavra, pos='v')
        lemmas.append(lemma)
    return lemmas

In [9]:
def normalizar(palavras):
    palavras = remove_nao_ascii(palavras)
    palavras = caixa_baixa(palavras)
    palavras = remove_pontuacao(palavras)
    palavras = troca_numero_palavra(palavras)
    palavras = remove_stopwords(palavras)    
    palavras = tratar_verbos(palavras)
    #palavras = tratar_troncos(palavras)
    return palavras

In [10]:
frase = "Blood key keys 1 one primary first test for Down's syndrome hailed hail http://bbc.in/1BO3eWQ"
lista_palavras = frase

In [11]:
# Remove URL
lista_palavras = re.sub(r"http\S+", "", lista_palavras)

In [12]:
# Remove contrações
lista_palavras = contractions.fix(lista_palavras)

In [13]:
# Tokenize
lista_palavras = nltk.word_tokenize(lista_palavras)
lista_token = lista_palavras

In [14]:
# Normalização
lista_palavras = normalizar(lista_palavras)

In [15]:
# Retira duplicidades
lista_palavras_unicas = list(dict.fromkeys(lista_palavras))

In [16]:
# Resultado
print(frase)
print(lista_token)
print(lista_palavras)
print(lista_palavras_unicas)
print(tratar_troncos(lista_palavras_unicas))

Blood key keys 1 one primary first test for Down's syndrome hailed hail http://bbc.in/1BO3eWQ
['Blood', 'key', 'keys', '1', 'one', 'primary', 'first', 'test', 'for', 'Down', "'s", 'syndrome', 'hailed', 'hail']
['blood', 'key', 'key', 'one', 'one', 'primary', 'first', 'test', 'syndrome', 'hail', 'hail']
['blood', 'key', 'one', 'primary', 'first', 'test', 'syndrome', 'hail']
['blood', 'key', 'on', 'prim', 'first', 'test', 'syndrom', 'hail']


In [None]:
mc = MongoClient('mongodb://usrtcc:usrtcc@206.189.205.141:27017/?authSource=tcc&readPreference=primary&ssl=false')
db = mc.tcc
album = db.twitters

cursor = album.find({'data_coleta': '2021-06-27'})
for documento in cursor:
    df =  pd.DataFrame(list(documento))
    print(df._id)
    
#album.distinct('data_coleta')


                0
0             _id
1     data_coleta
2     hora_coleta
3      ip_coletor
4  chave_pesquisa
5         twitter
6           tweet
                0
0             _id
1     data_coleta
2     hora_coleta
3      ip_coletor
4  chave_pesquisa
5         twitter
6           tweet
                0
0             _id
1     data_coleta
2     hora_coleta
3      ip_coletor
4  chave_pesquisa
5         twitter
6           tweet
                0
0             _id
1     data_coleta
2     hora_coleta
3      ip_coletor
4  chave_pesquisa
5         twitter
6           tweet
                0
0             _id
1     data_coleta
2     hora_coleta
3      ip_coletor
4  chave_pesquisa
5         twitter
6           tweet
                0
0             _id
1     data_coleta
2     hora_coleta
3      ip_coletor
4  chave_pesquisa
5         twitter
6           tweet
                0
0             _id
1     data_coleta
2     hora_coleta
3      ip_coletor
4  chave_pesquisa
5         twitter
6         