# Carregamento dos dados

In [59]:
import pandas as pd

# Definindo o caminho para o arquivo CSV com os dados das an√°lises de aplicativos
file_path = '../Data/apps_reviews_validacao.xlsx - apps_reviews.csv'

# Carregando os dados do arquivo CSV em um DataFrame do pandas
# Usecols: Especifica as colunas a serem carregadas do arquivo
# 'reviewId', 'app_name', 'content', 'sentiment_polarity', 'sentiment' s√£o as colunas selecionadas
# A √∫ltima coluna nula √© ignorada
comentarios = pd.read_csv(file_path, usecols=['reviewId', 'app_name', 'content', 'sentiment_polarity', 'sentiment'])

comentarios.loc[1665, 'content']

'Aplicativo chato vei toda hora aparece, agora quando eu tava escrevendo o an√∫ncio apareceu üò†üò°ü§¨ü§¨ aff j√° apareceu mais 2 vezes eu n√£o posso fazer mais nada em meu celular que esse an√∫ncio aparece üò† tira logo do ar affüò°ü§¨ü§¨ü§¨'

# Pr√©-processamento

<p style="color:green">Converte emojis para texto</p>

In [60]:
import emoji

def replace_emojis(text):
    # Converte emojis no texto para suas representa√ß√µes textuais usando o pacote 'emoji'
    # 'language='pt'' especifica que a representa√ß√£o textual dos emojis deve estar em portugu√™s
    return emoji.demojize(text, language='pt')

# Aplica a fun√ß√£o 'replace_emojis' a cada elemento da coluna 'content' do DataFrame 'comentarios'
# Isso substituir√° todos os emojis nos textos por suas representa√ß√µes textuais
comentarios['content'] = comentarios['content'].apply(replace_emojis)

# Exibe o conte√∫do da linha 1665 ap√≥s a substitui√ß√£o dos emojis
comentarios.loc[1665, 'content']

'Aplicativo chato vei toda hora aparece, agora quando eu tava escrevendo o an√∫ncio apareceu :rosto_zangado::rosto_furioso::rosto_com_s√≠mbolos_na_boca::rosto_com_s√≠mbolos_na_boca: aff j√° apareceu mais 2 vezes eu n√£o posso fazer mais nada em meu celular que esse an√∫ncio aparece :rosto_zangado: tira logo do ar aff:rosto_furioso::rosto_com_s√≠mbolos_na_boca::rosto_com_s√≠mbolos_na_boca::rosto_com_s√≠mbolos_na_boca:'

<p style="color:green">Removendo todo e qualquer caracter que n√£o seja latino</p>

In [61]:
import regex 

# Aplica uma substitui√ß√£o para remover caracteres n√£o latinos do texto
# regex.sub √© usado para substituir todos os caracteres que n√£o s√£o letras do alfabeto latino por um espa√ßo
# O padr√£o '[^\p{Latin}]' identifica qualquer caractere que n√£o seja uma letra latina
comentarios['content'] = comentarios['content'].apply(lambda x: regex.sub('[^\p{Latin}]', u' ', str(x)))

# Exibe o conte√∫do da linha 1665 ap√≥s a substitui√ß√£o dos caracteres n√£o latinos
comentarios.loc[1665, 'content']

'Aplicativo chato vei toda hora aparece  agora quando eu tava escrevendo o an√∫ncio apareceu  rosto zangado  rosto furioso  rosto com s√≠mbolos na boca  rosto com s√≠mbolos na boca  aff j√° apareceu mais   vezes eu n√£o posso fazer mais nada em meu celular que esse an√∫ncio aparece  rosto zangado  tira logo do ar aff rosto furioso  rosto com s√≠mbolos na boca  rosto com s√≠mbolos na boca  rosto com s√≠mbolos na boca '

<p style="color:green">Colocando todos os textos para min√∫sculo</p>

In [62]:
# Converte o texto na coluna 'content' para min√∫sculas
# A fun√ß√£o lambda √© usada para garantir que cada texto na coluna seja convertido para min√∫sculas
comentarios['content'] = comentarios['content'].apply(lambda x: str(x).lower())

# Exibe o conte√∫do da linha 1665 ap√≥s a convers√£o para min√∫sculas
comentarios.loc[1665, 'content']

'aplicativo chato vei toda hora aparece  agora quando eu tava escrevendo o an√∫ncio apareceu  rosto zangado  rosto furioso  rosto com s√≠mbolos na boca  rosto com s√≠mbolos na boca  aff j√° apareceu mais   vezes eu n√£o posso fazer mais nada em meu celular que esse an√∫ncio aparece  rosto zangado  tira logo do ar aff rosto furioso  rosto com s√≠mbolos na boca  rosto com s√≠mbolos na boca  rosto com s√≠mbolos na boca '

<p style="color:green">Corrigindo alguns erros de ortografia</p>

In [63]:
comentarios.loc[1694, 'content']

'nao uzei so baixei por que travou a tela pedindo pra baixar nao concigui de outra forma se nao baixar'

In [64]:
from spellchecker import SpellChecker
spell = SpellChecker(language='pt')

def correct_spelling(text):
    corrected_text = []
    words = text.split()
    
    for word in words:
        # Corrige a ortografia de cada palavra usando o SpellChecker
        corrected_word = spell.correction(word)
        # Se 'corrected_word' for None, mantemos a palavra original
        corrected_text.append(corrected_word if corrected_word else word)
    
    # Junta as palavras corrigidas em uma √∫nica string
    return " ".join(corrected_text)

# Aplica a fun√ß√£o 'correct_spelling' a cada elemento da coluna 'content' do DataFrame 'comentarios'
comentarios['content'] = comentarios['content'].apply(correct_spelling)

# Exibe o conte√∫do da linha 1694 ap√≥s a corre√ß√£o ortogr√°fica
comentarios.loc[1694, 'content']

'n√£o usei o baixei por que travou a tela pedindo para baixar n√£o consigui de outra forma se n√£o baixar'

<p style="color:green">Removendo stopwords</p>

In [85]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download('stopwords')

def remove_stopwords(text):
    # Verifica se o input √© uma string. Se n√£o for, retorna uma string vazia.
    if not isinstance(text, str):
        return ""  
    
    # Obt√©m a lista de palavras de parada (stopwords) em portugu√™s
    stops_list = stopwords.words("portuguese")
    # Adiciona a palavra "rosto" √† lista de palavras de parada
    stops_list.append("rosto")
    # Remove a palavra "n√£o" da lista de palavras de parada
    stops_list.remove("n√£o")
    # Tokeniza o texto em palavras individuais
    word_tokens = word_tokenize(text)
    # Remove as palavras de parada da lista de tokens, convertendo palavras para min√∫sculas
    texto_sem_stops = [w for w in word_tokens if w.lower() not in stops_list] 
    # Junta as palavras restantes em uma √∫nica string
    return " ".join(texto_sem_stops)

# Aplica a fun√ß√£o 'remove_stopwords' a cada elemento da coluna 'content' do DataFrame 'comentarios'
comentarios['content'] = comentarios['content'].apply(remove_stopwords)

# Exibe o conte√∫do da linha 1694 ap√≥s a remo√ß√£o das palavras de parada
comentarios.loc[1694, 'content']

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\dougl\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


'n√£o usei baixei travou tela pedindo baixar n√£o consigui outra forma n√£o baixar'

<p style="color:green">Lematiza√ß√£o </p>

In [86]:
print(comentarios.loc[1433, 'content'])
print(comentarios.loc[76, 'content'])

√≥timo amo demais agora √°udios instaram silenciados todos destaques m√∫sica nenhuma demorei tanto tempo escolher m√∫sica colocar naqueles atores acontecer pena reclamando p√© gosto demais desse jeito n√£o d√° certo
√≥tima op√ß√£o compra √∫nica coisa chata tudo compra entrega individual ex compra l√°pis loja batom outra chega tudo individual ter lugar juntar todos pedidos mesma pessoa mandar todos juntos igual concorr√™ncia ajudava gente meio ambiente penso p√≥ n√£o dei estrelas


In [87]:
import spacy
nlp = spacy.load("pt_core_news_sm")

def lemmatize_text(text):
    # Processa o texto com o modelo spaCy carregado
    doc = nlp(text)
    # Obt√©m as lemas (formas can√¥nicas) dos tokens, excluindo palavras de parada
    lemmatized_text = [token.lemma_ for token in doc if not token.is_stop]
    # Junta os lemas restantes em uma √∫nica string
    return " ".join(lemmatized_text)

# Aplica a fun√ß√£o 'lemmatize_text' a cada elemento da coluna 'content' do DataFrame 'comentarios'
comentarios['content'] = comentarios['content'].apply(lemmatize_text)

In [88]:
print(comentarios.loc[1433, 'content'])
print(comentarios.loc[76, 'content'])

bom amo √°udio instar silenciar destaques m√∫sica demorei escolher m√∫sica colocar em aquele ator acontecer pena reclamar p√© gostar jeito certo
√≥timo op√ß√£o compra √∫nico chato compra entregar individual ex compra l√°pis loja batom chegar individual juntar pedido mesmo pessoa mandar junto igual concorr√™ncia ajudar gente ambiente pensar p√≥ dar estrela


# Salva o Dataframe pr√©-processado

In [89]:
def salvar_csv(df, nome_arquivo):
    df.to_csv(nome_arquivo, index=False, encoding='utf-8')
    print(f"Arquivo salvo como {nome_arquivo}")

salvar_csv(comentarios, '../Data/content_pre_processado.csv')

Arquivo salvo como ../Data/content_pre_processado.csv
