In [54]:
import pandas as pd 
import numpy as np 
import re 
import nltk 
import string 
from nltk.corpus import stopwords 
import spacy 
import seaborn as sns 
from wordcloud import WordCloud 
import matplotlib.pyplot as plt 

sns.set(rc={'figure.figsize': (14, 6)})
nltk.download('stopwords')

global nlp 
nlp = spacy.load('pt_core_news_md')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\luizh\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Explore data 

In [55]:
df = pd.read_excel('./datasets/noticias_milho_pt.xlsx')

df = df.iloc[:, [0, 1, 3, 4, 6, 8]]
display(df.head())

Unnamed: 0,date,headline,news,cepea_real,percentage_real,trend
0,30/12/2020,Preço do milho fecha 2020 em alta no Brasil; p...,A quarta-feira (30) chega ao final com os preç...,78.65,0.254939,Down
1,29/12/2020,Milho: demandas pontuais e volumes pequenos im...,A terça-feira (29) chega ao final com os preço...,78.45,0.551141,Up
2,28/12/2020,Milho se valoriza no Brasil e fecha a 2ªfeira ...,A segunda-feira (28) chega ao final com os pre...,78.02,0.541237,Up
3,23/12/2020,Milho: quarta-feira (23) de ganhos em Chicago ...,A quarta-feira (23) chega ao fim com os preços...,77.6,0.336178,Down
4,22/12/2020,Milho: ganhos em Chicago com demanda forte dão...,A terça-feira (22) chega ao fim com os preços ...,77.34,2.98269,Up


In [56]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1481 entries, 0 to 1480
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   date             1481 non-null   object 
 1   headline         1481 non-null   object 
 2   news             1479 non-null   object 
 3   cepea_real       1481 non-null   float64
 4   percentage_real  1481 non-null   float64
 5   trend            1481 non-null   object 
dtypes: float64(2), object(4)
memory usage: 69.5+ KB


In [57]:
#Convert objects to string 
df.news = df.news.astype(str)
df.headline = df.headline.astype(str)

#Convert date object to datetime 
df.date = pd.to_datetime(df.date, format='%d/%m/%Y')

df.head()

Unnamed: 0,date,headline,news,cepea_real,percentage_real,trend
0,2020-12-30,Preço do milho fecha 2020 em alta no Brasil; p...,A quarta-feira (30) chega ao final com os preç...,78.65,0.254939,Down
1,2020-12-29,Milho: demandas pontuais e volumes pequenos im...,A terça-feira (29) chega ao final com os preço...,78.45,0.551141,Up
2,2020-12-28,Milho se valoriza no Brasil e fecha a 2ªfeira ...,A segunda-feira (28) chega ao final com os pre...,78.02,0.541237,Up
3,2020-12-23,Milho: quarta-feira (23) de ganhos em Chicago ...,A quarta-feira (23) chega ao fim com os preços...,77.6,0.336178,Down
4,2020-12-22,Milho: ganhos em Chicago com demanda forte dão...,A terça-feira (22) chega ao fim com os preços ...,77.34,2.98269,Up


### Preprocessing texts 

In [61]:
', '.join(stopwords.words('portuguese'))
STOPWORDS = set(stopwords.words('portuguese'))
STOPWORDS.add('r')

def preprocess(text, stopwords=STOPWORDS):
    text = re.sub(r'@\w+', '', text) #remove mentions and hastags 
    text = re.sub(r'https?://\S+|www\.\S+', '', text) #remove urls 
    text = re.sub(r'\d+', '', text) #Remove numbers 
    #remove punctuation 
    for char in string.punctuation:
        text = text.replace(char, ' ')     
    #Lemmatize 
    doc = nlp(text)
    text = ' '.join([token.lemma_ for token in doc if token.is_alpha])
    #remove stopwords, spaces and applying lowercase 
    text = ' '.join(word for word in str(text).lower().split() if word not in stopwords)

    return text

df['processed_text'] = df.news.map(lambda text: preprocess(text))
df.processed_text.iloc[0]

'quarto feirar chegar final preço milho ampliar ganho mercar físico brasileiro levantamento realizar pelar equipar notícias agrícolas ser percebido desvalorização nenhum praça valorização aparecer pato branco pr preço londrina pr preço cascavel pr preço amambaí ms preço palma sola sc preço rio sul sc preço confira comer ficar todo cotação nesta quarto feirade acordar reportar diário radar investimentos apreensão relação clima algum ponto américa sul vaziar ofertar mercar físico dar tom alto parir cotação milho praça paulista último dia necessidade urgente fazer marcação preço bos preço futuro milho contabilizar ganho longo todo dia bolsa brasileira b principal cotação registrar movimentação entrar negativar positivar final quarto feirar vencimento janeiro ser cotar perda março valer elevação maio ser negociar ganhar julho ter valor valorização relação fechamento último semana futuro milho acumular valorização parir janeiro parir março parir maio parir julho comparação último quarto fei