# Pre-processamento para classificação de sentimentos

# Etapa 1: Importação e instalação das bibliotecas

In [2]:
import pandas as pd
from utils import preprocessamento

# Etapa 2: Carregamento das bases de dados

- Fonte dos dados
: https://www.kaggle.com/augustop/portuguese-tweets-for-sentiment-analysis#TweetsNeutralHash.csv

## Base de treinamento

- Negative label: 0
- Positive label: 1
- Neutro label: 2

In [3]:
df = pd.read_parquet('dataset/train.parquet')
print(df.shape)

(96521, 2)


In [4]:
df.head()

Unnamed: 0,texto,sentimento
0,Os minions no @BlogFarofeiros. Ainda bem que n...,positivo
1,Doria diz não ter preferência por oponente no ...,neutro
2,@estervi50977812 @alicesaquino @RiverdaleBrasi...,positivo
3,"@ourbookself Oi, Paloma :) Vamos ver o que aco...",positivo
4,Escolha de Jair Ventura mostra busca do Corint...,neutro


In [12]:
df['sentimento'].value_counts()

sentimento
positivo    32634
negativo    32331
neutro      31556
Name: count, dtype: int64

# Etapa 3: Função para pré-processamento dos textos

- Letras minúsculas
- Nome do usuário (@)
- URLs
- Espaços em branco
- Emoticons
- Stop words
- Lematização
- Pontuações

In [None]:
# !python -m spacy download pt_core_news_sm

In [14]:
df['texto'][1]

'Doria diz não ter preferência por oponente no segundo turno https://t.co/FXBktA1K2J'

In [17]:
texto = "Nielsen Castelo Damasceno"
print(texto.lower())

nielsen castelo damasceno


In [31]:
import re

texto = "Olá @usuario123, tudo bem? Veja o perfil de @amigo_xyz para mais informações!"
texto = re.sub(r"@[A-Za-z0-9$-_@.&+]+", '', texto)
print(texto)


Olá  tudo bem? Veja o perfil de  para mais informações!


In [29]:
import re

texto = "Acesse meu site em https://exemplo.com e confira outros links como http://teste.org.br"
texto = re.sub(r"https?://[A-Za-z0-9./]+", '', texto)
print(texto)


Acesse meu site em  e confira outros links como 


In [32]:
import re

texto = "Este   é   um    texto  com     muitos espaços."
texto = re.sub(r" +", ' ', texto)
print(texto)


Este é um texto com muitos espaços.


In [33]:
texto = "Olá! Tudo bem? Aqui está um sorriso :d e outro sorriso :p."
texto = texto.replace(':d', '')
texto = texto.replace(':p', '')
print(texto)


Olá! Tudo bem? Aqui está um sorriso  e outro sorriso .


In [34]:
import re

texto = "O preço é 123 reais e o desconto é de 50%."
texto = re.sub(r'\d+', '', texto)
print(texto)


O preço é  reais e o desconto é de %.


In [35]:
import re

texto = "Hellooo, isso é muitooo legaaalll!!!"
texto = re.sub(r'(\w)\1(\1+)', r'\1', texto)
print(texto)


Hello, isso é muito legal!!!


In [20]:
texto_teste = '@behin_d_curtain :D Para :( mim, http://ncdd.com.br é precisamente o contrário :) Vem a chuva e vem a boa disposição :)'
resultado = preprocessamento(texto_teste)
resultado

'parir emocaonegativa mim precisamente o contrário emocaopositiva vir o chuva e vir o disposição emocaopositiva'

In [23]:
df['texto'] = df['texto'].astype(str)
df['texto_preprocess'] = df['texto'].apply(preprocessamento)

In [26]:

df.to_parquet('dataset/train_process.parquet')

In [27]:
df.head()

Unnamed: 0,texto,sentimento,texto_preprocess
0,Os minions no @BlogFarofeiros. Ainda bem que n...,positivo,o minions o responder emocaopositiva
1,Doria diz não ter preferência por oponente no ...,neutro,doria preferência oponente o segundar turno
2,@estervi50977812 @alicesaquino @RiverdaleBrasi...,positivo,e transmitir o temporada viver sincronia o w...
3,"@ourbookself Oi, Paloma :) Vamos ver o que aco...",positivo,oi palomar emocaopositiva o acontecer o e-mail...
4,Escolha de Jair Ventura mostra busca do Corint...,neutro,escolher jair venturo mostrar buscar corinthia...
