In [3]:
import pandas as pd
dados_reviews = pd.read_csv('apps_reviews_validacao.csv', sep=',')
dados_reviews.head(2)

Unnamed: 0,reviewId,app_name,content,sentiment_polarity,sentiment
0,01e23c15-44bf-46b7-b280-40e880d9d49b,Shopee,O app da Shopee é razoável. Apesar de ser fáci...,positive,sadness
1,df40ba7c-075d-48dc-b798-21466dfb41d6,Shopee,"O app é bem otimizado, fácil de visualizar os ...",positive,sadness


In [53]:
dados_reviews.describe()

Unnamed: 0,reviewId,app_name,content,sentiment_polarity,sentiment
count,3011,3011,3011,3011,3011
unique,3011,10,3011,3,7
top,01e23c15-44bf-46b7-b280-40e880d9d49b,Shopee,O app da Shopee é razoável. Apesar de ser fáci...,negative,disgust
freq,1,303,1,1742,952


In [54]:
dados_reviews.loc[0,'content']

'O app da Shopee é razoável. Apesar de ser fácil de utilizar, apresenta alguns bugs. Por exemplo: Sugestão de palavra errada no campo de pesquisa que acarreta na busca errada. Sugestões de produtos que não têm nada a ver com coisas de nosso interesse. Dificuldade de acesso de alguns jogos ou travamento durante alguma jogada. Falhas para carregar certos anexos para avaliação dos produtos. No geral, são problemas que se pode contornar, pois não ocorrem com tanta frequência.'

# pre-processamento
## removendo caracteres nao latinos


In [55]:
import regex # trabalhar com expressões regulares
dados_reviews['content'] = dados_reviews['content'].apply(lambda x: regex.sub(r'[^\p{Latin}]', u' ', str(x)))


In [56]:
dados_reviews.loc[0,'content']

'O app da Shopee é razoável  Apesar de ser fácil de utilizar  apresenta alguns bugs  Por exemplo  Sugestão de palavra errada no campo de pesquisa que acarreta na busca errada  Sugestões de produtos que não têm nada a ver com coisas de nosso interesse  Dificuldade de acesso de alguns jogos ou travamento durante alguma jogada  Falhas para carregar certos anexos para avaliação dos produtos  No geral  são problemas que se pode contornar  pois não ocorrem com tanta frequência '

## tirando maiusculas

colocando textos minusculo

In [57]:
dados_reviews['content'] = dados_reviews['content'].apply(lambda x: str(x).lower())

In [58]:
dados_reviews.loc[0,'content']

'o app da shopee é razoável  apesar de ser fácil de utilizar  apresenta alguns bugs  por exemplo  sugestão de palavra errada no campo de pesquisa que acarreta na busca errada  sugestões de produtos que não têm nada a ver com coisas de nosso interesse  dificuldade de acesso de alguns jogos ou travamento durante alguma jogada  falhas para carregar certos anexos para avaliação dos produtos  no geral  são problemas que se pode contornar  pois não ocorrem com tanta frequência '

## removendo stop words

In [59]:
import nltk #caso não funcione, adicione a linha nltk.download('punkt')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download('stopwords')
nltk.download('punkt')

def remove_stopwords(texto):
    stops_list = stopwords.words("portuguese")
    word_tokens = word_tokenize(texto)
    texto_sem_stops = [w for w in word_tokens if w not in stops_list]
    return " ".join(texto_sem_stops)

#dados_reviews['content'] = dados_reviews['content'].apply(remove_stopwords)

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/arthurwsl/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /home/arthurwsl/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [60]:
dados_reviews.loc[0,'content']

'o app da shopee é razoável  apesar de ser fácil de utilizar  apresenta alguns bugs  por exemplo  sugestão de palavra errada no campo de pesquisa que acarreta na busca errada  sugestões de produtos que não têm nada a ver com coisas de nosso interesse  dificuldade de acesso de alguns jogos ou travamento durante alguma jogada  falhas para carregar certos anexos para avaliação dos produtos  no geral  são problemas que se pode contornar  pois não ocorrem com tanta frequência '

## lematização

In [61]:
import pandas as pd
import spacy

# Carregar o modelo de linguagem do spaCy para português
nlp = spacy.load('pt_core_news_sm')

# Função para lematizar um texto
def lemmatize_text(texto):
    doc = nlp(texto)
    lemmas = [token.lemma_ for token in doc]
    return ' '.join(lemmas)


# Aplicar lematização à coluna 'content'
dados_reviews['content'] = dados_reviews['content'].apply(lemmatize_text)


In [62]:
dados_reviews.loc[0,'content']

'o app de o shopee ser razoável   apesar de ser fácil de utilizar   apresentar algum bugs   por exemplo   sugestão de palavra errar em o campo de pesquisa que acarretar em o busca errar   sugestão de produto que não ter nada a ver com coisa de nosso interesse   dificuldade de acesso de algum jogo ou travamento durante algum jogada   falha para carregar certos anexo para avaliação de o produto   em o geral   ser problema que se poder contornar   pois não ocorrer com tanto frequência'

In [63]:
dados_reviews['content'] = dados_reviews['content'].fillna('')
dados_reviews.to_csv('dados_reviews_tratados.csv', index=False)

In [64]:
dados_reviews[['sentiment','sentiment_polarity']].describe()

Unnamed: 0,sentiment,sentiment_polarity
count,3011,3011
unique,7,3
top,disgust,negative
freq,952,1742


In [8]:
dados_reviews['sentiment'].value_counts()


sentiment
disgust      952
sadness      864
anger        743
happiness    319
neutral       82
fear          47
surprise       4
Name: count, dtype: int64

## tratando dados usados para teste

In [13]:
teste_emocoes = pd.read_csv('teste.csv', sep = ',', encoding = 'latin-1')
teste_emocoes

Unnamed: 0,numero,content,sentiment_polarity,sentiment,app
0,1,A última vez que pedi algo por esse app foi re...,negative,disgust,iFood
1,2,"Péssimo suporte, troquei de celular e não tenh...",negative,sadness,iFood
2,3,Gostando muito do nubank! Consegui desenvolver...,positive,happiness,Nubank
3,4,"O melhor navegador que já usei, realmente bloq...",positive,happiness,Brave Mobile
4,5,Uma modificação da maldade. Realmente isso é e...,negative,anger,Figurinhas do Lula - PT
5,6,"O app é muito bom,algumas mercadorias s?o real...",positive,sadness,Shopee
6,7,Estava com problema inicial de n?o conseguir e...,negative,anger,Shopee
7,8,"Pra mim é o Melhor Shopping Online que surgiu,...",positive,happiness,Shopee
8,9,"Serviço de varejo muito bom, o sistema de fret...",positive,happiness,Shopee


instanciando metodos que fara a representacao do texto usando o modelo bag of word

In [14]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()

In [15]:
BoW_matriz = vectorizer.fit_transform(dados_reviews['content'])
palavras = vectorizer.get_feature_names_out()


In [16]:
BOW_dataframe=pd.DataFrame(BoW_matriz.toarray(),columns=palavras)
BOW_dataframe

Unnamed: 0,2e,aap,aba,abaixado,abaixar,abaixe,abaixei,abaixeir,abaixem,abaixo,...,ótimo,ótimos,ótir,ônibus,última,últimamente,último,único,úteis,útil
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3006,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3007,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3008,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3009,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [17]:
teste_emocoes['content'] = teste_emocoes['content'].apply(lambda x: regex.sub(r'[^\p{Latin}]', u' ', str(x)))
teste_emocoes['content'] =teste_emocoes['content'].apply(lambda x: str(x).lower())
teste_emocoes['content'] = teste_emocoes['content'].apply(remove_stopwords)
teste_emocoes['content'] = teste_emocoes['content'].apply(lemmatize_text)
teste_emocoes['content']

0    último vez pedir algo app realmente último pra...
1    péssimo suporte troquei celular acesso número ...
2    gostar nubank conseguir desenvolver bom relaci...
3    bom navegador usei realmente bloqueia todo pro...
4         modificação maldade realmente estuper idiota
5    app bom algum mercadoria s realmente qualidade...
6    problema inicial n conseguir enviar mensagem c...
7    pra eu bom shopping onliner surgir respeitar c...
8    serviço varejo bom sistema frete ótimo funcion...
Name: content, dtype: object

In [19]:
teste_emocoes.to_csv('teste_tratado.csv', index=False)