# Carregamento dos dados

In [7]:
import pandas as pd

# Carregando os dados do arquivo CSV em um DataFrame do pandas
comentarios = pd.read_csv('../Data/teste.csv')

comentarios.head()

Unnamed: 0,reviewId,app_name,content,sentiment_polarity,sentiment
0,a12345f6-78g9-1011-h121-314151617181,YouTube,A nova interface do YouTube ficou confusa. As ...,negative,anger
1,b23456g7-89h0-1122-i131-415161718192,Netflix,"O catálogo da Netflix é ótimo, mas a qualidade...",positive,happiness
2,c34567h8-90i1-1233-j141-516171819203,Spotify,"A experiência no Spotify é incrível, mas a qua...",positive,sadness


# Pré-processamento

<p style="color:green">Converte emojis para texto</p>

In [8]:
import emoji

def replace_emojis(text):
    # Converte emojis no texto para suas representações textuais usando o pacote 'emoji'
    # 'language='pt'' especifica que a representação textual dos emojis deve estar em português
    return emoji.demojize(text, language='pt')

# Aplica a função 'replace_emojis' a cada elemento da coluna 'content' do DataFrame 'comentarios'
# Isso substituirá todos os emojis nos textos por suas representações textuais
comentarios['content'] = comentarios['content'].apply(replace_emojis)

comentarios.head()

Unnamed: 0,reviewId,app_name,content,sentiment_polarity,sentiment
0,a12345f6-78g9-1011-h121-314151617181,YouTube,A nova interface do YouTube ficou confusa. As ...,negative,anger
1,b23456g7-89h0-1122-i131-415161718192,Netflix,"O catálogo da Netflix é ótimo, mas a qualidade...",positive,happiness
2,c34567h8-90i1-1233-j141-516171819203,Spotify,"A experiência no Spotify é incrível, mas a qua...",positive,sadness


<p style="color:green">Removendo todo e qualquer caracter que não seja latino</p>

In [9]:
import regex 

# Aplica uma substituição para remover caracteres não latinos do texto
# regex.sub é usado para substituir todos os caracteres que não são letras do alfabeto latino por um espaço
# O padrão '[^\p{Latin}]' identifica qualquer caractere que não seja uma letra latina
comentarios['content'] = comentarios['content'].apply(lambda x: regex.sub('[^\p{Latin}]', u' ', str(x)))

comentarios.head()

Unnamed: 0,reviewId,app_name,content,sentiment_polarity,sentiment
0,a12345f6-78g9-1011-h121-314151617181,YouTube,A nova interface do YouTube ficou confusa As ...,negative,anger
1,b23456g7-89h0-1122-i131-415161718192,Netflix,O catálogo da Netflix é ótimo mas a qualidade...,positive,happiness
2,c34567h8-90i1-1233-j141-516171819203,Spotify,A experiência no Spotify é incrível mas a qua...,positive,sadness


<p style="color:green">Colocando todos os textos para minúsculo</p>

In [10]:
# Converte o texto na coluna 'content' para minúsculas
# A função lambda é usada para garantir que cada texto na coluna seja convertido para minúsculas
comentarios['content'] = comentarios['content'].apply(lambda x: str(x).lower())

comentarios.head()

Unnamed: 0,reviewId,app_name,content,sentiment_polarity,sentiment
0,a12345f6-78g9-1011-h121-314151617181,YouTube,a nova interface do youtube ficou confusa as ...,negative,anger
1,b23456g7-89h0-1122-i131-415161718192,Netflix,o catálogo da netflix é ótimo mas a qualidade...,positive,happiness
2,c34567h8-90i1-1233-j141-516171819203,Spotify,a experiência no spotify é incrível mas a qua...,positive,sadness


<p style="color:green">Corrigindo alguns erros de ortografia</p>

In [11]:
comentarios.head()

Unnamed: 0,reviewId,app_name,content,sentiment_polarity,sentiment
0,a12345f6-78g9-1011-h121-314151617181,YouTube,a nova interface do youtube ficou confusa as ...,negative,anger
1,b23456g7-89h0-1122-i131-415161718192,Netflix,o catálogo da netflix é ótimo mas a qualidade...,positive,happiness
2,c34567h8-90i1-1233-j141-516171819203,Spotify,a experiência no spotify é incrível mas a qua...,positive,sadness


In [12]:
from spellchecker import SpellChecker
spell = SpellChecker(language='pt')

def correct_spelling(text):
    corrected_text = []
    words = text.split()
    
    for word in words:
        # Corrige a ortografia de cada palavra usando o SpellChecker
        corrected_word = spell.correction(word)
        # Se 'corrected_word' for None, mantemos a palavra original
        corrected_text.append(corrected_word if corrected_word else word)
    
    # Junta as palavras corrigidas em uma única string
    return " ".join(corrected_text)

# Aplica a função 'correct_spelling' a cada elemento da coluna 'content' do DataFrame 'comentarios'
comentarios['content'] = comentarios['content'].apply(correct_spelling)

comentarios.head()

Unnamed: 0,reviewId,app_name,content,sentiment_polarity,sentiment
0,a12345f6-78g9-1011-h121-314151617181,YouTube,a nova interface do youtube ficou confusa as r...,negative,anger
1,b23456g7-89h0-1122-i131-415161718192,Netflix,o catálogo da netflix é ótimo mas a qualidade ...,positive,happiness
2,c34567h8-90i1-1233-j141-516171819203,Spotify,a experiência no spotify é incrível mas a quan...,positive,sadness


<p style="color:green">Removendo stopwords</p>

In [13]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download('stopwords')

def remove_stopwords(text):
    # Verifica se o input é uma string. Se não for, retorna uma string vazia.
    if not isinstance(text, str):
        return ""  
    
    # Obtém a lista de palavras de parada (stopwords) em português
    stops_list = stopwords.words("portuguese")
    # Adiciona a palavra "rosto" à lista de palavras de parada
    stops_list.append("rosto")
    # Tokeniza o texto em palavras individuais
    word_tokens = word_tokenize(text)
    # Remove as palavras de parada da lista de tokens, convertendo palavras para minúsculas
    texto_sem_stops = [w for w in word_tokens if w.lower() not in stops_list] 
    # Junta as palavras restantes em uma única string
    return " ".join(texto_sem_stops)

# Aplica a função 'remove_stopwords' a cada elemento da coluna 'content' do DataFrame 'comentarios'
comentarios['content'] = comentarios['content'].apply(remove_stopwords)

comentarios.head()

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\dougl\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,reviewId,app_name,content,sentiment_polarity,sentiment
0,a12345f6-78g9-1011-h121-314151617181,YouTube,nova interface youtube ficou confusa recomenda...,negative,anger
1,b23456g7-89h0-1122-i131-415161718192,Netflix,catálogo netflix ótimo qualidade streaming vez...,positive,happiness
2,c34567h8-90i1-1233-j141-516171819203,Spotify,experiência spotify incrível quantidade propag...,positive,sadness


<p style="color:green">Lematização </p>

In [14]:
comentarios.head()

Unnamed: 0,reviewId,app_name,content,sentiment_polarity,sentiment
0,a12345f6-78g9-1011-h121-314151617181,YouTube,nova interface youtube ficou confusa recomenda...,negative,anger
1,b23456g7-89h0-1122-i131-415161718192,Netflix,catálogo netflix ótimo qualidade streaming vez...,positive,happiness
2,c34567h8-90i1-1233-j141-516171819203,Spotify,experiência spotify incrível quantidade propag...,positive,sadness


In [15]:
import spacy
nlp = spacy.load("pt_core_news_sm")

def lemmatize_text(text):
    # Processa o texto com o modelo spaCy carregado
    doc = nlp(text)
    # Obtém as lemas (formas canônicas) dos tokens, excluindo palavras de parada
    lemmatized_text = [token.lemma_ for token in doc if not token.is_stop]
    # Junta os lemas restantes em uma única string
    return " ".join(lemmatized_text)

# Aplica a função 'lemmatize_text' a cada elemento da coluna 'content' do DataFrame 'comentarios'
comentarios['content'] = comentarios['content'].apply(lemmatize_text)

In [16]:
comentarios.head()

Unnamed: 0,reviewId,app_name,content,sentiment_polarity,sentiment
0,a12345f6-78g9-1011-h121-314151617181,YouTube,interface Youtube ficar confusa recomendação b...,negative,anger
1,b23456g7-89h0-1122-i131-415161718192,Netflix,catálogo netflix bom qualidade streaming incon...,positive,happiness
2,c34567h8-90i1-1233-j141-516171819203,Spotify,experiência spotify incrível quantidade propag...,positive,sadness


<p style="color:green">Remove linhas que tiveram todas palavras removidas </p>

In [17]:
# Remover linhas com valores NaN na coluna
comentarios = comentarios.dropna(subset=['content'])

# Salva o Dataframe pré-processado

In [18]:
def salvar_csv(df, nome_arquivo):
    df.to_csv(nome_arquivo, index=False, encoding='utf-8')
    print(f"Arquivo salvo como {nome_arquivo}")

salvar_csv(comentarios, '../Data/teste_pre_processado.csv')

Arquivo salvo como ../Data/teste_pre_processado.csv


In [19]:
import pandas as pd

# Carregando os dados do arquivo CSV pré-processado em um DataFrame do pandas
comentarios = pd.read_csv('../Data/teste_pre_processado.csv')

comentarios = comentarios.dropna(subset=['content'])

salvar_csv(comentarios, '../Data/teste_pre_processado.csv')

Arquivo salvo como ../Data/teste_pre_processado.csv
