# Bibliotecas

In [32]:
import spacy
import pandas as pd
import unicodedata
import re

# Normalizador

In [3]:
def norm(s):
    if not isinstance(s, str):
        return s
    s = s.lower()
    s = ''.join(c for c in unicodedata.normalize('NFD', s)
                if unicodedata.category(c) != 'Mn')
    return s

# Limpa o texto

In [34]:
import html

def clean(text):
    text = html.unescape(text)
    return re.sub(r"[^A-Za-zÀ-ÿ ]+", "", text)

# Carregar dados

In [22]:
df_class_words = pd.read_csv('sentilex_new.csv', sep = ';')

# Entrada de texto

In [6]:
text_neutral = """O evento começou pontualmente às 10h da manhã, conforme anunciado no cronograma. O palestrante principal falou por exatos 45 minutos, cobrindo os tópicos listados na descrição da palestra. Após a apresentação, os participantes foram direcionados ao salão adjacente para o intervalo. A organização informou que a próxima sessão começará em 15 minutos."""

In [7]:
text_positive = """A experiência de hoje foi absolutamente fantástica! Desde o primeiro momento, a equipe demonstrou um profissionalismo e uma simpatia incríveis, superando todas as minhas expectativas. O produto não é apenas bom, é maravilhoso e funciona perfeitamente. A qualidade é evidente em cada detalhe. Estou genuinamente impressionado e muito satisfeito com o resultado. Com certeza recomendo a todos; foi uma escolha excelente e valeu cada centavo!"""

In [8]:
text_negative = """Minha experiência hoje foi absolutamente terrível. Desde o início, o atendimento demonstrou um descaso e uma falta de profissionalismo inacreditáveis, frustrando todas as minhas expectativas. O produto não é apenas ruim, é péssimo e falha constantemente. A baixa qualidade é evidente em cada detalhe. Estou genuinamente decepcionado e muito insatisfeito com o resultado. Com certeza não recomendo a ninguém; foi uma escolha horrível e um desperdício de dinheiro."""

In [9]:
ig_text = "É bem comum as pessoas terem gostos próprios."

In [10]:
dict_texts = {"texts":[text_neutral, text_positive, text_negative, ig_text]}

# Tokenização

In [11]:
df_texts = pd.DataFrame(dict_texts) 
df_texts["texts"].astype("string")
df_texts.head()

Unnamed: 0,texts
0,"O evento começou pontualmente às 10h da manhã,..."
1,A experiência de hoje foi absolutamente fantás...
2,Minha experiência hoje foi absolutamente terrí...
3,É bem comum as pessoas terem gostos próprios.


In [35]:
df_texts.texts = df_texts.texts.apply(clean)
df_texts.texts[0]

'O evento começou pontualmente às h da manhã conforme anunciado no cronograma O palestrante principal falou por exatos  minutos cobrindo os tópicos listados na descrição da palestra Após a apresentação os participantes foram direcionados ao salão adjacente para o intervalo A organização informou que a próxima sessão começará em  minutos'

In [28]:
nlp = spacy.load('pt_core_news_sm')

doc = nlp(text)

# Extraindo os tokens
tokens = [token.text for token in doc]
df_text_tokens = pd.DataFrame(tokens)
df_text_tokens.columns = ['word']

ValueError: If using all scalar values, you must pass an index

# Normalização

In [10]:
df_class_words["word"] = df_class_words["word"].apply(norm)
df_text_tokens["word"] = df_text_tokens["word"].apply(norm)

# Mesclando dados

In [None]:
merged = df_text_tokens.merge(
    df_class_words[['word', 'polarity_n0','polarity_n1']],
    on='word',
    how='left'
)

# Removendo valores nulos

In [None]:
merged = merged.dropna(subset=['polarity_n0'])

# Contando polaridades

In [None]:
contagem = merged['polarity_n0'].value_counts().reindex([-1, 0, 1], fill_value=0)
contagem

# Checando o resultado

In [None]:
if (contagem == contagem.max()).sum() > 1:
    resultado = None     # empate
else:
    resultado = contagem.idxmax()
print(resultado)
if resultado == 1:
    print("positivo")
elif resultado == -1:
    print("negativo")
else :
    print("neutro")