# Setup

In [49]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [50]:
from os import chdir
chdir('/content/drive/MyDrive/pantanal.dev/artificial-intelligence/')

In [51]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [52]:
seed = 42
np.random.seed(seed)

# Carregar datasets
* infomoney (ptbr)
* google-news (ptbr, eng)
* financial-phrase-bank (ptbr, eng)
* b3 (ptbr)

In [53]:
infomoney_path = 'datasets/infomoney/infomoney_news_labelled_preprocessed.csv'
google_news_path = 'datasets/google-news/google-news.csv'
financial_phrase_bank_path = 'datasets/financial-phrase-bank/financial-phrase-bank.csv'
b3_path = 'datasets/b3/b3-labelled.csv'

In [54]:
infomoney_df = pd.read_csv(infomoney_path)
google_news_df = pd.read_csv(google_news_path, index_col=0)
fpb_df = pd.read_csv(financial_phrase_bank_path, sep='|', index_col=0)
b3_df = pd.read_csv(b3_path, sep='|')

In [55]:
infomoney_df['lang'] = 'ptbr'
infomoney_df['font'] = 'infomoney'
infomoney_df

Unnamed: 0,text,label,lang,font
0,Secretário Fazenda diz medidas governo abrirão...,2,ptbr,infomoney
1,"Trade hoje : acima 100 mil , Ibovespa segue te...",0,ptbr,infomoney
2,"alta preços crédito escasso , aumenta busca ca...",1,ptbr,infomoney
3,"“ menos agora aceno disciplina fiscal ” , diz ...",1,ptbr,infomoney
4,IR 2023 : Posso ficar declarar bem vendido fal...,1,ptbr,infomoney
...,...,...,...,...
1326,Lojas Renner ( LREN3 ) reporta números fracos ...,1,ptbr,infomoney
1327,Lula volta sinalizar pode discutir autonomia B...,1,ptbr,infomoney
1328,Lula sobre Campos Neto : posso influir reduzir...,0,ptbr,infomoney
1329,Embraer ( EMBR3 ) entrega 80 jatos 4º trimestr...,2,ptbr,infomoney


In [56]:
google_news_df

Unnamed: 0,text,label,lang,font
0,"Em surto nas redes, CEO da Hurb xinga clientes...",0,ptbr,google-news
1,"CEO da Hurb xinga cliente, expõe dados e faz a...",0,ptbr,google-news
2,"Devendo para hotéis de Gramado e Canela, CEO d...",0,ptbr,google-news
3,"Calotes, ameaças e deboche: entenda a crise na...",0,ptbr,google-news
4,Mega-Sena acumula e deve pagar R$ 50 milhões n...,1,ptbr,google-news
...,...,...,...,...
829,New 1-Day Volatility Index will open many door...,0,eng,google-news
830,Yellen Says US Default Would Cause an 'Economi...,0,eng,google-news
831,US default on debt would trigger an 'economic ...,0,eng,google-news
832,Yellen warns debt default would disrupt Social...,0,eng,google-news


In [57]:
fpb_df

Unnamed: 0,text,label,lang,font
0,A Technopolis planeja desenvolver em etapas um...,1,ptbr,financial-phrase-bank
1,"A Elcoteq, empresa internacional da indústria ...",0,ptbr,financial-phrase-bank
2,Com a nova planta de produção a empresa aument...,2,ptbr,financial-phrase-bank
3,De acordo com a estratégia atualizada da empre...,2,ptbr,financial-phrase-bank
4,FINANCIAMENTO DO CRESCIMENTO DA ASPOCOMP A Asp...,2,ptbr,financial-phrase-bank
...,...,...,...,...
7080,Operating result for the 12-month period decre...,0,eng,financial-phrase-bank
7081,HELSINKI Thomson Financial - Shares in Cargote...,0,eng,financial-phrase-bank
7082,LONDON MarketWatch -- Share prices ended lower...,0,eng,financial-phrase-bank
7083,Operating profit fell to EUR 35.4 mn from EUR ...,0,eng,financial-phrase-bank


In [58]:
b3_df

Unnamed: 0,text,label,lang,font
0,Governo lança medidas para estimular o crédito...,2,ptbr,b3
1,Confira o funcionamento da bolsa de valores no...,1,ptbr,b3
2,Mercado financeiro hoje: atenções ficam na ata...,1,ptbr,b3
3,"Ibovespa fecha em forte queda e dólar dispara,...",0,ptbr,b3
4,Produção industrial cai em fevereiro pelo 3º m...,0,ptbr,b3
...,...,...,...,...
805,"COE: o que é, como funciona e principais vanta...",1,ptbr,b3
806,LIG: o que é e como investir em Letra Imobiliá...,1,ptbr,b3
807,Como declarar IR de investimentos feitos no ex...,1,ptbr,b3
808,Quais as diferenças entre renda fixa e variáve...,1,ptbr,b3


In [59]:
df = pd.concat([infomoney_df, google_news_df, fpb_df, b3_df], axis=0)
df = df.reset_index(drop=True)
df

Unnamed: 0,text,label,lang,font
0,Secretário Fazenda diz medidas governo abrirão...,2,ptbr,infomoney
1,"Trade hoje : acima 100 mil , Ibovespa segue te...",0,ptbr,infomoney
2,"alta preços crédito escasso , aumenta busca ca...",1,ptbr,infomoney
3,"“ menos agora aceno disciplina fiscal ” , diz ...",1,ptbr,infomoney
4,IR 2023 : Posso ficar declarar bem vendido fal...,1,ptbr,infomoney
...,...,...,...,...
10055,"COE: o que é, como funciona e principais vanta...",1,ptbr,b3
10056,LIG: o que é e como investir em Letra Imobiliá...,1,ptbr,b3
10057,Como declarar IR de investimentos feitos no ex...,1,ptbr,b3
10058,Quais as diferenças entre renda fixa e variáve...,1,ptbr,b3


In [60]:
# 0: negativo
# 1: neutro
# 2: positivo
df['label'].value_counts()

1    5529
2    2707
0    1824
Name: label, dtype: int64

# Divisão de treino, validação e teste

In [61]:
train_temp_ratio = 0.7
val_test_ratio = 0.5

train_df, test_df = train_test_split(df, test_size=1-train_temp_ratio, stratify=df[['label', 'lang', 'font']], random_state=seed)
test_df, val_df = train_test_split(test_df, test_size=val_test_ratio, stratify=test_df[['label', 'lang', 'font']], random_state=seed)

In [62]:
# Train_df info
print(f'Train size: {len(train_df)} ({len(train_df)/len(df)*100:.2f}%)\n')
print(f"Train labels ratio:\n{train_df['label'].value_counts()/len(train_df)}\n")
print(f"Train languages ratio:\n{train_df['lang'].value_counts()/len(train_df)}\n")
print(f"Train fonts ratio:\n{train_df['font'].value_counts()/len(train_df)}")
print('---------------------------------------------------------------------------------')
# Val_df info
print(f'Validation size: {len(val_df)} ({len(val_df)/len(df)*100:.2f}%)\n')
print(f"Validation labels ratio:\n{val_df['label'].value_counts()/len(val_df)}\n")
print(f"Validation languages ratio:\n{val_df['lang'].value_counts()/len(val_df)}\n")
print(f"Validation fonts ratio:\n{val_df['font'].value_counts()/len(val_df)}")
print('---------------------------------------------------------------------------------')
# Test_df info
print(f'Test size: {len(test_df)} ({len(test_df)/len(df)*100:.2f}%)\n')
print(f"Test labels ratio:\n{test_df['label'].value_counts()/len(test_df)}\n")
print(f"Test languages ratio:\n{test_df['lang'].value_counts()/len(test_df)}\n")
print(f"Test fonts ratio:\n{test_df['font'].value_counts()/len(test_df)}")

Train size: 7041 (69.99%)

Train labels ratio:
1    0.549638
2    0.269138
0    0.181224
Name: label, dtype: float64

Train languages ratio:
ptbr    0.730294
eng     0.269706
Name: lang, dtype: float64

Train fonts ratio:
financial-phrase-bank    0.704303
infomoney                0.132368
google-news              0.082943
b3                       0.080386
Name: font, dtype: float64
---------------------------------------------------------------------------------
Validation size: 1510 (15.01%)

Validation labels ratio:
1    0.549669
2    0.268874
0    0.181457
Name: label, dtype: float64

Validation languages ratio:
ptbr    0.730464
eng     0.269536
Name: lang, dtype: float64

Validation fonts ratio:
financial-phrase-bank    0.705298
infomoney                0.132450
google-news              0.081457
b3                       0.080795
Name: font, dtype: float64
---------------------------------------------------------------------------------
Test size: 1509 (15.00%)

Test labels ratio:
1

In [63]:
train_df

Unnamed: 0,text,label,lang,font
3510,A solução de TV híbrida da Teleste inclui comp...,1,ptbr,financial-phrase-bank
9080,"The group 's operating loss was EUR 0.8 mn , d...",0,eng,financial-phrase-bank
6109,"De acordo com o contrato, a próxima faixa da B...",1,ptbr,financial-phrase-bank
9300,Ibovespa fecha em leve queda em dia de cautela...,1,ptbr,b3
2725,A Kazgiprotsvetmet e a Outotec Finland assinar...,2,ptbr,financial-phrase-bank
...,...,...,...,...
6697,De acordo com o gerente de produto Lassi Hieta...,1,ptbr,financial-phrase-bank
9054,"Sukhraj Dulai , of the 2900 block of Boni Sue ...",1,eng,financial-phrase-bank
4435,O grupo finlandês de assistência odontológica ...,2,ptbr,financial-phrase-bank
5805,A administração centralizada da Kauko-Telko se...,1,ptbr,financial-phrase-bank


In [64]:
val_df

Unnamed: 0,text,label,lang,font
9592,Americanas: lista de credores tem quase 8 mil ...,0,ptbr,b3
627,Câmara cria comissão externa fiscalizar situaç...,1,ptbr,infomoney
4101,Os negócios prosperaram depois que Ostrom ajud...,2,ptbr,financial-phrase-bank
5947,A empresa planeja aumentar o quadro de especia...,1,ptbr,financial-phrase-bank
4783,O preço final será especificado até 14 de maio...,1,ptbr,financial-phrase-bank
...,...,...,...,...
2595,"Na Rússia, o mercado doméstico da Divisão de A...",1,ptbr,financial-phrase-bank
2709,"""Chegamos a um acordo com o sindicato de que o...",2,ptbr,financial-phrase-bank
1932,"GM confirms Chevy Bolt will die this year, mak...",0,eng,google-news
9878,Mercado financeiro e Morning Call Safra: PEC d...,1,ptbr,b3


In [65]:
test_df

Unnamed: 0,text,label,lang,font
3571,O projeto está previsto para ser concluído em ...,1,ptbr,financial-phrase-bank
9659,Senado aprova intervenção no DF; mercado opera...,1,ptbr,b3
7354,"In August-October 2010 , the company 's result...",2,eng,financial-phrase-bank
7448,Earnings per share for the quarter were also h...,2,eng,financial-phrase-bank
6059,"A caixa do produto Tekla Structures, se necess...",1,ptbr,financial-phrase-bank
...,...,...,...,...
4479,"Com a aquisição, a Panostaja expande ainda mai...",2,ptbr,financial-phrase-bank
6903,"O lucro operacional foi de EUR -0,1 milhões, a...",0,ptbr,financial-phrase-bank
3507,Technopolis é o principal operador de technopa...,2,ptbr,financial-phrase-bank
6325,"Como resultado dessas negociações, a empresa d...",0,ptbr,financial-phrase-bank


In [66]:
train_df.to_csv('datasets/train_df.csv', sep='|', index=False)
val_df.to_csv('datasets/val_df.csv', sep='|', index=False)
test_df.to_csv('datasets/test_df.csv', sep='|', index=False)