In [None]:
#import string
import re # Regex (expressão regular)
!pip install unidecode
from unicodedata import normalize # utíl para tratamento de texto e compatibilidade
!pip install nltk
import nltk # Ferramentas de PLN
!pip install sklearn
import sklearn # Ferramentas de aprendizado de máquina
!pip install pandas
import pandas as pd
!pip install seaborn
import seaborn as sns
!pip install matplotlib
import matplotlib.pyplot as plt # Plotagem de gráficos

print("\n" + '\033[1m' + '\033[93m' + "Importações feitas com sucesso!")

## Dados
* As seguintes CSV foram baixados em [Portuguese Tweets for Sentiment Analysis](https://www.kaggle.com/augustop/portuguese-tweets-for-sentiment-analysis) criado por [augustop](https://www.kaggle.com/augustop) 

In [None]:
# https://www.kaggle.com/augustop/portuguese-tweets-for-sentiment-analysis
arquivos = [
    'TweetsNeutralNews.csv',
    'TweetsWithTheme.csv'
]

lista = list()

for arquivo in arquivos:
    df = pd.read_csv( "../dados/" + arquivo, sep=",", index_col=None, header=0)
    lista.append(df[['tweet_text','sentiment']])

tweets = pd.concat(lista, axis=0, ignore_index=True)

tweets['score'] = tweets['sentiment'].replace(['Negativo','Neutro', 'Positivo'], [-1, 0, 1])

tweets

In [None]:
tweets['sentiment'].value_counts()

In [None]:
# Deixando tudo em minúsculo
tweets['tweet_text'] = tweets['tweet_text'].str.lower()

tweets['tweet_text']

In [None]:
# Removendo tudo entre []
tweets['tweet_text'] = tweets['tweet_text'].replace(to_replace='\[.*?\]', value='', regex=True)

tweets['tweet_text']


In [None]:
# remover links
tweets['tweet_text'] = tweets['tweet_text'].replace(to_replace='https?://[A-Za-z0-9./]+', value='', regex=True)
tweets['tweet_text'] = tweets['tweet_text'].replace(to_replace='http?://[A-Za-z0-9./]+', value='', regex=True)
tweets['tweet_text'] = tweets['tweet_text'].replace(to_replace='wwww?://[A-Za-z0-9./]+', value='', regex=True)
tweets['tweet_text'] = tweets['tweet_text'].replace(to_replace='ftp?://[A-Za-z0-9./]+', value='', regex=True)

In [None]:
# Removendo números
tweets['tweet_text'] = tweets['tweet_text'].replace(to_replace='\d+', value='', regex=True)

tweets['tweet_text']

In [None]:
# Removendo #rashtags
tweets['tweet_text'] = tweets['tweet_text'].replace(to_replace=r'(\#\w+)', value='', regex=True)

tweets['tweet_text']

In [None]:
# Removendo @Mentions
tweets['tweet_text'] = tweets['tweet_text'].replace(to_replace=r'(\@\w+)', value='', regex=True)

tweets['tweet_text']

In [None]:
# Removendo a pontuação (EX: "!?.,/|#$%¨&")
tweets['tweet_text'] = tweets['tweet_text'].replace(to_replace=r'[^\w\s]', value='', regex=True)

tweets['tweet_text']

In [None]:
# Removendo acentuação
tweets['tweet_text'] = tweets['tweet_text'].str.normalize('NFKD').str.encode('ASCII', errors='ignore').str.decode('UTF-8')

tweets['tweet_text']

In [None]:
# Uma stopword pode ser considerada uma palavra irrelevante para a análise
nltk.download('stopwords')
# RSLP(Removedor de Sufixos da Língua Portuguesa)
nltk.download('rslp')

In [None]:
# Criando uma lista de stopWords
stopWords = set(nltk.corpus.stopwords.words('portuguese'))
# O processo de stemming consiste em reduzir a palavra à sua raiz (sem levar em conta a classe gramatical)
stemmer = nltk.stem.RSLPStemmer() # RSLP(Removedor de Sufixos da Língua Portuguesa)
# Separa por tokens (tokens = palavras)
tokenizer = nltk.tokenize.WordPunctTokenizer()

In [None]:
todasPalavras = ' '.join([text for text in tweets['tweet_text']])

In [None]:
tokenizer = nltk.tokenize.WordPunctTokenizer()

In [None]:
tokensPalavras = tokenizer.tokenize(todasPalavras)

tokensPalavras

In [None]:
# Removendo StopWord do nosso texto
todasPalavrasFiltradas = [palavra for palavra in tokensPalavras if palavra not in stopWords and len(palavra) > 4]

In [None]:
frequenciaPalavras = nltk.FreqDist(todasPalavrasFiltradas)

In [None]:
df_frequencia_palavras = pd.DataFrame({
    'palavra': list(frequenciaPalavras.keys()),
    'frequencia': list(frequenciaPalavras.values())
})


In [None]:
maisFrequentes = df_frequencia_palavras.nlargest(columns='frequencia', n=10)

In [None]:
plt.figure(figsize=(12,8))
ax = sns.barplot(data=maisFrequentes, x='palavra', y='frequencia')
ax.set(ylabel='frequencia')
plt.show()

In [None]:
# Nesse passo é criado uma função que faz a Tokenização e o Stemming
def criarBagOfWords(text, stop_words=stopWords):
    tokens = tokenizer.tokenize(text)
    tokens = [token for token in tokens if token not in stop_words]
    tokens = [stemmer.stem(token) for token in tokens]
    return ' '.join(tokens)

tweets['bag_of_words'] = tweets['tweet_text'].apply(criarBagOfWords)

In [None]:
tweets.head()

In [None]:
todasPalavras = ' '.join([text for text in tweets['bag_of_words']])
tokensPalavras = tokenizer.tokenize(todasPalavras)

In [None]:
tokensPalavras

In [None]:
frequenciaPalavras = nltk.FreqDist(todasPalavrasFiltradas)

In [None]:
df_frequencia_palavras = pd.DataFrame({
    'palavra': list(frequenciaPalavras.keys()),
    'frequencia': list(frequenciaPalavras.values())
})

In [None]:
maisFrequentes = df_frequencia_palavras.nlargest(columns='frequencia', n=10)

In [None]:
plt.figure(figsize=(12,8))
ax = sns.barplot(data=maisFrequentes, x='palavra', y='frequencia')
ax.set(ylabel='frequencia')
plt.show()

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(lowercase=False, max_features=500, ngram_range=(1,2))

vectorizer

In [None]:
bag_of_words = vectorizer.fit_transform(tweets['tweet_text'])

bag_of_words

In [None]:
from sklearn.model_selection import train_test_split
X = bag_of_words
y = tweets['score']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y)

In [None]:
from sklearn.dummy import DummyClassifier
dummy_classifier = DummyClassifier()
dummy_classifier.fit(X_train, y_train)
dummy_classifier.score(X_test, y_test)

In [None]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(solver='lbfgs')
model.fit(X_train, y_train)
model.score(X_test, y_test)

In [None]:
weights = pd.DataFrame(
    model.coef_[0].T,
    index=vectorizer.get_feature_names()
)

weights

In [None]:
weights.nlargest(10, 0).T

In [None]:
weights.nsmallest(10, 0).T