# Bibliotecas

In [1]:
import spacy
import pandas as pd
import unicodedata
import re

ModuleNotFoundError: No module named 'spacy'

# Funções

## Normalizador

In [None]:
def norm(s):
    """
    Normaliza o texto colocando em caixa baixa e removendo acentuação/pontuação.

    Parameters
    ----------
    s : str
        Entrada de texto.

    Returns
    -------
    str
        Texto normalizado. Se `s` não for uma string, retorna inalterado.

    Examples
    --------
    >>> norm("Árvore")
    'arvore'

    >>> norm("Fomos à escola ontem, Fernando não estava lá.")
    'fomos a escola ontem fernando nao estava la'
    """
    if not isinstance(s, str):
        return s
    s = s.lower()
    s = ''.join(
        c for c in unicodedata.normalize('NFD', s)
        if unicodedata.category(c) != 'Mn'
    )
    
    return re.sub(r"[^A-Za-zÀ-ÿ ]+", "", s)


# Carregar dados

In [None]:
df_class_words = pd.read_csv('../data/sentilex-v1.0.0.csv', sep = ';')

# Entrada de texto

In [None]:
text_neutral = """O evento começou pontualmente às 10h da manhã, conforme anunciado no cronograma. O palestrante principal falou por exatos 45 minutos, cobrindo os tópicos listados na descrição da palestra. Após a apresentação, os participantes foram direcionados ao salão adjacente para o intervalo. A organização informou que a próxima sessão começará em 15 minutos."""

In [None]:
text_positive = """A experiência de hoje foi absolutamente fantástica! Desde o primeiro momento, a equipe demonstrou um profissionalismo e uma simpatia incríveis, superando todas as minhas expectativas. O produto não é apenas bom, é maravilhoso e funciona perfeitamente. A qualidade é evidente em cada detalhe. Estou genuinamente impressionado e muito satisfeito com o resultado. Com certeza recomendo a todos; foi uma escolha excelente e valeu cada centavo!"""

In [None]:
text_negative = """Minha experiência hoje foi absolutamente terrível. Desde o início, o atendimento demonstrou um descaso e uma falta de profissionalismo inacreditáveis, frustrando todas as minhas expectativas. O produto não é apenas ruim, é péssimo e falha constantemente. A baixa qualidade é evidente em cada detalhe. Estou genuinamente decepcionado e muito insatisfeito com o resultado. Com certeza não recomendo a ninguém; foi uma escolha horrível e um desperdício de dinheiro."""

In [None]:
ig_text = "É bem comum as pessoas terem gostos próprios."

In [None]:
dict_texts = {"texts":[text_neutral, text_positive, text_negative, ig_text]}

# Tokenização

Cria um dataframe com os diferentes tipos de texto:

In [None]:
df_texts = pd.DataFrame(dict_texts) 
df_texts["texts"].astype("string")
df_texts.head()

Aplica a normalização nos textos:

In [None]:
df_texts.texts = df_texts.texts.apply(norm).astype("string")
df_texts.texts[0]

Tokeniza o texto:

In [None]:
nlp = spacy.load('pt_core_news_sm')

text = df_texts.texts[0]
doc = nlp(text)

# Extraindo os tokens
tokens = [token.text for token in doc]
df_text_tokens = pd.DataFrame(tokens)
df_text_tokens.columns = ['word']

In [None]:
df_text_tokens.head()

# Mesclando dados

In [None]:
merged = df_text_tokens.merge(
    df_class_words[['word', 'polarity_n0','polarity_n1']],
    on='word',
    how='left'
)

# Removendo valores nulos

In [None]:
merged = merged.dropna(subset=['polarity_n0'])

# Contando polaridades

In [None]:
contagem = merged['polarity_n0'].value_counts().reindex([-1, 0, 1], fill_value=0)
contagem

# Checando o resultado

In [None]:
if (contagem == contagem.max()).sum() > 1:
    resultado = None     # empate
else:
    resultado = contagem.idxmax()
print(resultado)
if resultado == 1:
    print("positivo")
elif resultado == -1:
    print("negativo")
else :
    print("neutro")