# Classificação e exploração de textos financeiros

- Base de dados: https://www.kaggle.com/yash612/stockmarket-sentiment-dataset
- Equbot: https://equbot.com/

## Importação das bibliotecas

In [None]:
import spacy
spacy.__version__

In [None]:
import pandas as pd
import string
import matplotlib.pyplot as plt
import seaborn as sns
import random
import numpy as np
import re

## Carregamento da base de dados

In [None]:
# https://drive.google.com/file/d/1GZ43OUXRqmiAzZxZ5EZzX2Hcm3VJpX1g/view?usp=sharing
base = pd.read_csv('/content/stock_data.csv')

In [None]:
base.shape

In [None]:
base.head()

In [None]:
base.tail()

In [None]:
np.unique(base['Sentiment'], return_counts=True)

In [None]:
sns.countplot(x = base['Sentiment']);

In [None]:
base.isnull().sum()

## Função para pré-processamento dos textos

In [None]:
pln = spacy.load('en')
pln

In [None]:
stop_words = spacy.lang.en.stop_words.STOP_WORDS
print(stop_words)

In [None]:
string.punctuation

In [None]:
def preprocessamento(texto):
  texto = texto.lower()
  texto = re.sub(r"@[A-Za-z0-9$-_@.&+]+", ' ', texto)
  texto = re.sub(r"https?://[A-Za-z0-9./]+", ' ', texto)
  texto = re.sub(r" +", ' ', texto)

  documento = pln(texto)
  lista = []
  for token in documento:
    lista.append(token.lemma_)

  lista = [palavra for palavra in lista if palavra not in stop_words and palavra not in string.punctuation]
  lista = ' '.join([str(elemento) for elemento in lista if not elemento.isdigit()])

  return lista

In [None]:
preprocessamento('I will @test9&+ buy the https://www.iaexpert.academy Apple stock. 9 8 care. caring! car')

## Pré-processamento da base de dados

### Limpeza dos textos

In [None]:
base.head(10)

In [None]:
base['Text'] = base['Text'].apply(preprocessamento)

In [None]:
base.head(10)

## Visualização e exploração

### Número médio de caracteres

In [None]:
base['tamanho'] = base['Text'].apply(len)
base.head()

In [None]:
base['tamanho'].describe()

In [None]:
positivo = base[base['Sentiment'] == 1]

In [None]:
positivo['tamanho'].describe()

In [None]:
negativo = base[base['Sentiment'] == -1]

In [None]:
negativo['tamanho'].describe()

### Nuvem de palavras

In [None]:
textos_positivos = positivo['Text'].tolist()
len(textos_positivos)

In [None]:
textos_positivos[0:10]

In [None]:
textos_positivos_string = ' '.join(textos_positivos)

In [None]:
textos_positivos_string

In [None]:
len(textos_positivos_string)

In [None]:
from wordcloud import WordCloud
plt.figure(figsize=(20,10))
plt.imshow(WordCloud().generate(textos_positivos_string));

In [None]:
lista_negativo = negativo['Text'].tolist()
textos_negativos_string = ' '.join(lista_negativo)

In [None]:
len(textos_negativos_string)

In [None]:
plt.figure(figsize=(20,10))
plt.imshow(WordCloud().generate(textos_negativos_string));

### Extração de entidades nomeadas

- Siglas: https://spacy.io/api/annotation#named-entities

In [None]:
documento = pln(textos_positivos_string)

In [None]:
from spacy import displacy
displacy.render(documento, style = 'ent', jupyter = True)

In [None]:
empresas_positivas = []
for entidade in documento.ents:
  if entidade.label_ == 'ORG':
    print(entidade.text, entidade.label_)
    empresas_positivas.append(entidade.text)

In [None]:
len(empresas_positivas)

In [None]:
empresas_positivas = set(empresas_positivas)

In [None]:
len(empresas_positivas)

In [None]:
print(empresas_positivas)

In [None]:
empresas_negativas = []
documento = pln(textos_negativos_string)
for entidade in documento.ents:
  if entidade.label_ == 'ORG':
    print(entidade.text, entidade.label_)
    empresas_negativas.append(entidade.text)

In [None]:
empresas_negativas = set(empresas_negativas)
len(empresas_negativas)

In [None]:
print(empresas_negativas)

In [None]:
x = {"A", "B", "C"}
y = {'A', "D", "E"}
x.intersection(y)

In [None]:
x.difference(y), y.difference(x)

In [None]:
empresas_positivas_negativas = empresas_positivas.intersection(empresas_negativas)

In [None]:
len(empresas_positivas_negativas)

In [None]:
print(empresas_positivas_negativas)

In [None]:
empresas_somente_positivas = empresas_positivas.difference(empresas_negativas)
len(empresas_somente_positivas)

In [None]:
print(empresas_somente_positivas)

In [None]:
empresas_somente_negativas = empresas_negativas.difference(empresas_positivas)
len(empresas_somente_negativas)

In [None]:
print(empresas_somente_negativas)