In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import spacy
from spacy.lang.pt.stop_words import STOP_WORDS
import string
import re

#  Entrada de dados

In [13]:
df = pd.read_csv('data/TweetsBrasileiros.csv', encoding='utf8')

# Processamento dos dados

## Limpeza específica para tweets

In [14]:
df.drop(columns=['id', 'tweet_date'], inplace=True)

# Retirando menções do tweet e retirando emoji.
df['tweet_text'] = df.apply(lambda x : re.sub(r'@([^\s]+)', '', x['tweet_text']).replace(x['query_used'], ''), axis=1)
df.drop(columns=['query_used'], inplace=True)

## Limpeza padrão

In [15]:
punctuation = string.punctuation
pln = spacy.load('pt_core_news_sm')

In [20]:
def preprocessamento(tweet:str) -> str:
    '''
    Aplica o pre-preocessamento padrão no texto, retirando stop-words e caracteres especiais.
    '''
    documento = pln(tweet.lower())
    
    # Aplicando lemmatização 
    lista = [token.lemma_ for token in documento]
    
    # Retirando stop words e caracteres especiais
    lista = [palavra for palavra in lista 
             if palavra not in STOP_WORDS and 
             palavra not in punctuation]
    
    # Retirando números
    return ' '.join([palavra for palavra in lista if not palavra.isdigit()])

In [22]:
df['tweet_text'] = df['tweet_text'].apply(preprocessamento)

In [24]:
df.to_csv('temp/checkpoint_preprocessamento.csv')