# Setup

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
REPO_DIR = '/content/drive/Othercomputers/Desktop/pantanal.dev/artificial-intelligence'

In [3]:
from os import chdir
chdir(REPO_DIR)

In [4]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [5]:
!pip install nltk
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download('stopwords')
nltk.download('punkt')

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [6]:
seed = 42
np.random.seed(seed)

# Carregar datasets
* infomoney (ptbr)
* google-news (ptbr, eng)
* financial-phrase-bank (ptbr, eng)
* b3 (ptbr)

In [7]:
infomoney_path = 'datasets/infomoney/infomoney_news_labelled_cleaned.csv'
google_news_path = 'datasets/google-news/google-news-labelled.csv'
financial_phrase_bank_path = 'datasets/financial-phrase-bank/financial-phrase-bank.csv'
b3_path = 'datasets/b3/b3-labelled.csv'

In [11]:
infomoney_df = pd.read_csv(infomoney_path)
google_news_df = pd.read_csv(google_news_path, sep='|').loc[:, ['text', 'label', 'lang', 'font']]
fpb_df = pd.read_csv(financial_phrase_bank_path, sep='|', index_col=0)
b3_df = pd.read_csv(b3_path, sep='|')

In [12]:
infomoney_df

Unnamed: 0,text,label,lang,font
0,Secretário da Fazenda diz que medidas do gover...,2,ptbr,InfoMoney
1,"Trade hoje: Mesmo acima dos 100 mil, Ibovespa ...",0,ptbr,InfoMoney
2,"Com alta de preços e crédito escasso, aumenta ...",1,ptbr,InfoMoney
3,“Pelo menos há agora um aceno à disciplina fis...,1,ptbr,InfoMoney
4,IR 2023: Posso ficar sem declarar um bem que f...,1,ptbr,InfoMoney
...,...,...,...,...
1326,Lojas Renner (LREN3) reporta números fracos e ...,1,ptbr,InfoMoney
1327,Lula volta a sinalizar que pode discutir auton...,1,ptbr,InfoMoney
1328,Lula sobre Campos Neto: se não posso influir p...,0,ptbr,InfoMoney
1329,Embraer (EMBR3) entrega 80 jatos no 4º trimest...,2,ptbr,InfoMoney


In [13]:
google_news_df

Unnamed: 0,text,label,lang,font
0,JPMorgan Chase to Take Over Most of First Repu...,1,eng,CoinDesk
1,"Fed Should End 'Crazy' Policy Tightening, Says...",0,eng,Bloomberg
2,J&J's Kenvue spinoff to hit IPO market this we...,2,eng,MarketWatch
3,'Bloomberg Technology' Full Show (05/01/2023),1,eng,Bloomberg Technology
4,Two keys to establishing a comprehensive cyber...,1,eng,Federal News Network
...,...,...,...,...
1995,Petrobras (PETR3;PETR4) traz números operacion...,1,ptbr,Valor Investe
1996,"Lucro da Mosaic cai 63,2% no 1º trimestre, par...",0,ptbr,Portal DBO
1997,GPA (PCAR3) mira retomada das margens e estima...,2,ptbr,InfoMoney
1998,GPA tem prejuízo líquido de R$ 248 milhões no ...,0,ptbr,Economia & Negócios Estadão


In [14]:
fpb_df

Unnamed: 0,text,label,lang,font
0,A Technopolis planeja desenvolver em etapas um...,1,ptbr,financial-phrase-bank
1,"A Elcoteq, empresa internacional da indústria ...",0,ptbr,financial-phrase-bank
2,Com a nova planta de produção a empresa aument...,2,ptbr,financial-phrase-bank
3,De acordo com a estratégia atualizada da empre...,2,ptbr,financial-phrase-bank
4,FINANCIAMENTO DO CRESCIMENTO DA ASPOCOMP A Asp...,2,ptbr,financial-phrase-bank
...,...,...,...,...
7080,Operating result for the 12-month period decre...,0,eng,financial-phrase-bank
7081,HELSINKI Thomson Financial - Shares in Cargote...,0,eng,financial-phrase-bank
7082,LONDON MarketWatch -- Share prices ended lower...,0,eng,financial-phrase-bank
7083,Operating profit fell to EUR 35.4 mn from EUR ...,0,eng,financial-phrase-bank


In [15]:
b3_df

Unnamed: 0,text,label,lang,font
0,Governo lança medidas para estimular o crédito...,2,ptbr,b3
1,Confira o funcionamento da bolsa de valores no...,1,ptbr,b3
2,Mercado financeiro hoje: atenções ficam na ata...,1,ptbr,b3
3,"Ibovespa fecha em forte queda e dólar dispara,...",0,ptbr,b3
4,Produção industrial cai em fevereiro pelo 3º m...,0,ptbr,b3
...,...,...,...,...
805,"COE: o que é, como funciona e principais vanta...",1,ptbr,b3
806,LIG: o que é e como investir em Letra Imobiliá...,1,ptbr,b3
807,Como declarar IR de investimentos feitos no ex...,1,ptbr,b3
808,Quais as diferenças entre renda fixa e variáve...,1,ptbr,b3


In [16]:
df = pd.concat([infomoney_df, google_news_df, fpb_df, b3_df], axis=0)
df = df.reset_index(drop=True)
df

Unnamed: 0,text,label,lang,font
0,Secretário da Fazenda diz que medidas do gover...,2,ptbr,InfoMoney
1,"Trade hoje: Mesmo acima dos 100 mil, Ibovespa ...",0,ptbr,InfoMoney
2,"Com alta de preços e crédito escasso, aumenta ...",1,ptbr,InfoMoney
3,“Pelo menos há agora um aceno à disciplina fis...,1,ptbr,InfoMoney
4,IR 2023: Posso ficar sem declarar um bem que f...,1,ptbr,InfoMoney
...,...,...,...,...
11221,"COE: o que é, como funciona e principais vanta...",1,ptbr,b3
11222,LIG: o que é e como investir em Letra Imobiliá...,1,ptbr,b3
11223,Como declarar IR de investimentos feitos no ex...,1,ptbr,b3
11224,Quais as diferenças entre renda fixa e variáve...,1,ptbr,b3


In [17]:
# 0: negativo
# 1: neutro
# 2: positivo
df['label'].value_counts()

1    6187
2    2962
0    2077
Name: label, dtype: int64

# Remoção de stopwords e caractere '|'

In [18]:
df['text'] = df['text'].apply(lambda text: text.replace('|', '').replace('\n', ''))

In [19]:
stopwords_en = set(stopwords.words('english'))
stopwords_pt = set(stopwords.words('portuguese'))

In [20]:
def remove_stopwords(text, lang):
    if lang == 'eng':
        stopwords_set = stopwords_en
    elif lang == 'ptbr':
        stopwords_set = stopwords_pt

    words = word_tokenize(text)
    filtered_words = [word for word in words if word.lower() not in stopwords_set]
    return ' '.join(filtered_words)

def remove_stopwords_from_df(df):
    df['cleaned_text'] = df.apply(lambda row: remove_stopwords(row['text'], row['lang']), axis=1)
    return df

In [21]:
df = remove_stopwords_from_df(df)
df

Unnamed: 0,text,label,lang,font,cleaned_text
0,Secretário da Fazenda diz que medidas do gover...,2,ptbr,InfoMoney,Secretário Fazenda diz medidas governo abrirão...
1,"Trade hoje: Mesmo acima dos 100 mil, Ibovespa ...",0,ptbr,InfoMoney,"Trade hoje : acima 100 mil , Ibovespa segue te..."
2,"Com alta de preços e crédito escasso, aumenta ...",1,ptbr,InfoMoney,"alta preços crédito escasso , aumenta busca ca..."
3,“Pelo menos há agora um aceno à disciplina fis...,1,ptbr,InfoMoney,"“ menos agora aceno disciplina fiscal ” , diz ..."
4,IR 2023: Posso ficar sem declarar um bem que f...,1,ptbr,InfoMoney,IR 2023 : Posso ficar declarar bem vendido fal...
...,...,...,...,...,...
11221,"COE: o que é, como funciona e principais vanta...",1,ptbr,b3,"COE : , funciona principais vantagens"
11222,LIG: o que é e como investir em Letra Imobiliá...,1,ptbr,b3,LIG : investir Letra Imobiliária Garantida
11223,Como declarar IR de investimentos feitos no ex...,1,ptbr,b3,declarar IR investimentos feitos exterior ?
11224,Quais as diferenças entre renda fixa e variáve...,1,ptbr,b3,Quais diferenças renda fixa variável ? Entenda


In [22]:
df['raw_text'] = df['text']
df['text'] = df['cleaned_text']
df.drop(columns=['cleaned_text'], inplace=True)
df

Unnamed: 0,text,label,lang,font,raw_text
0,Secretário Fazenda diz medidas governo abrirão...,2,ptbr,InfoMoney,Secretário da Fazenda diz que medidas do gover...
1,"Trade hoje : acima 100 mil , Ibovespa segue te...",0,ptbr,InfoMoney,"Trade hoje: Mesmo acima dos 100 mil, Ibovespa ..."
2,"alta preços crédito escasso , aumenta busca ca...",1,ptbr,InfoMoney,"Com alta de preços e crédito escasso, aumenta ..."
3,"“ menos agora aceno disciplina fiscal ” , diz ...",1,ptbr,InfoMoney,“Pelo menos há agora um aceno à disciplina fis...
4,IR 2023 : Posso ficar declarar bem vendido fal...,1,ptbr,InfoMoney,IR 2023: Posso ficar sem declarar um bem que f...
...,...,...,...,...,...
11221,"COE : , funciona principais vantagens",1,ptbr,b3,"COE: o que é, como funciona e principais vanta..."
11222,LIG : investir Letra Imobiliária Garantida,1,ptbr,b3,LIG: o que é e como investir em Letra Imobiliá...
11223,declarar IR investimentos feitos exterior ?,1,ptbr,b3,Como declarar IR de investimentos feitos no ex...
11224,Quais diferenças renda fixa variável ? Entenda,1,ptbr,b3,Quais as diferenças entre renda fixa e variáve...


# Divisão de treino, validação e teste

In [23]:
train_temp_ratio = 0.7
val_test_ratio = 0.5

train_df, test_df = train_test_split(df, test_size=1-train_temp_ratio, stratify=df[['label', 'lang']], random_state=seed)
test_df, val_df = train_test_split(test_df, test_size=val_test_ratio, stratify=test_df[['label', 'lang']], random_state=seed)

In [24]:
# Train_df info
print(f'Train size: {len(train_df)} ({len(train_df)/len(df)*100:.2f}%)\n')
print(f"Train labels ratio:\n{train_df['label'].value_counts()/len(train_df)}\n")
print(f"Train languages ratio:\n{train_df['lang'].value_counts()/len(train_df)}\n")
print(f"Train fonts ratio:\n{train_df['font'].value_counts()/len(train_df)}")
print('---------------------------------------------------------------------------------')
# Val_df info
print(f'Validation size: {len(val_df)} ({len(val_df)/len(df)*100:.2f}%)\n')
print(f"Validation labels ratio:\n{val_df['label'].value_counts()/len(val_df)}\n")
print(f"Validation languages ratio:\n{val_df['lang'].value_counts()/len(val_df)}\n")
print(f"Validation fonts ratio:\n{val_df['font'].value_counts()/len(val_df)}")
print('---------------------------------------------------------------------------------')
# Test_df info
print(f'Test size: {len(test_df)} ({len(test_df)/len(df)*100:.2f}%)\n')
print(f"Test labels ratio:\n{test_df['label'].value_counts()/len(test_df)}\n")
print(f"Test languages ratio:\n{test_df['lang'].value_counts()/len(test_df)}\n")
print(f"Test fonts ratio:\n{test_df['font'].value_counts()/len(test_df)}")

Train size: 7858 (70.00%)

Train labels ratio:
1    0.551158
2    0.263808
0    0.185034
Name: label, dtype: float64

Train languages ratio:
ptbr    0.689107
eng     0.310893
Name: lang, dtype: float64

Train fonts ratio:
financial-phrase-bank           0.631204
InfoMoney                       0.123059
b3                              0.071519
Yahoo Finance                   0.010053
CNBC                            0.008654
                                  ...   
JC Online                       0.000127
Contábeis                       0.000127
Raw Story                       0.000127
Kiplinger's Personal Finance    0.000127
ECO                             0.000127
Name: font, Length: 432, dtype: float64
---------------------------------------------------------------------------------
Validation size: 1684 (15.00%)

Validation labels ratio:
1    0.551069
2    0.263658
0    0.185273
Name: label, dtype: float64

Validation languages ratio:
ptbr    0.690024
eng     0.309976
Name: lang, dty

In [25]:
train_df

Unnamed: 0,text,label,lang,font,raw_text
4779,Veracel preparando recurso questão pediu tribu...,1,ptbr,financial-phrase-bank,A Veracel está preparando um recurso na questã...
8703,Changes announced today effective close tradin...,1,eng,financial-phrase-bank,Changes being announced today will be effectiv...
7087,prédio abrigará laboratórios teste desenvolvim...,1,ptbr,financial-phrase-bank,O prédio abrigará laboratórios de teste e dese...
7983,lucro ação ( EPS ) 2005 diminuiu € 1.87 € 1.89...,0,ptbr,financial-phrase-bank,O lucro por ação (EPS) em 2005 diminuiu para €...
10318,Pretax profit decreased EUR 33.8 mn EUR 40.8 m...,0,eng,financial-phrase-bank,Pretax profit decreased to EUR 33.8 mn from EU...
...,...,...,...,...,...
9347,"Cohen & Steers , Inc. : 5 534 626 shares repre...",1,eng,financial-phrase-bank,"Cohen & Steers , Inc. : 5 534 626 shares repre..."
2943,Vista Alegre passa prejuízos lucros primeiro t...,2,ptbr,ECO,Vista Alegre passa de prejuízos a lucros no pr...
9622,"number class shares remains unchanged 9,526,08...",1,eng,financial-phrase-bank,The number of class A shares remains unchanged...
6135,"partir 2 julho 2007 , segmentos capitalização ...",1,ptbr,financial-phrase-bank,"A partir de 2 de julho de 2007, os segmentos d..."


In [26]:
val_df

Unnamed: 0,text,label,lang,font,raw_text
8402,Revenue July September grew 21 percent EURO 2....,2,eng,financial-phrase-bank,Revenue from July to September grew 21 percent...
6269,"recente entrevista Financial Times ( FT ) , pr...",1,ptbr,financial-phrase-bank,Em uma recente entrevista ao Financial Times (...
2902,Grande plano Santander permitirá maior oferta ...,2,ptbr,Seu Crédito Digital,Grande plano do Santander permitirá maior ofer...
6275,"conexão negócio , Digia vai empregar 19 pessoa...",1,ptbr,financial-phrase-bank,"Em conexão com o negócio, a Digia vai empregar..."
6835,"ALEXANDRIA , Va. , 19 novembro - Erkki Aho , E...",1,ptbr,financial-phrase-bank,"ALEXANDRIA, Va., 19 de novembro - Erkki Aho, E..."
...,...,...,...,...,...
10626,Mercado Morning Call Safra : PIB balanço Petro...,1,ptbr,b3,Mercado e Morning Call Safra: PIB e balanço da...
7142,grupo EA Reng registrou vendas aproximadamente...,1,ptbr,financial-phrase-bank,O grupo EA Reng registrou vendas de aproximada...
10952,Brasil x Coreia Sul : adversário vantagens ind...,0,ptbr,b3,Brasil x Coreia do Sul: adversário tem vantage...
7609,`` contrato licença Nokia Corp. expira parcial...,1,ptbr,financial-phrase-bank,`` Temos um contrato de licença com a Nokia Co...


In [27]:
test_df

Unnamed: 0,text,label,lang,font,raw_text
1966,Fed Rate Decision Today : Live Updates Policy ...,1,eng,Bloomberg,Fed Rate Decision Today: Live Updates on Polic...
5610,ADP News - 25 fevereiro 2009 - fabricante finl...,2,ptbr,financial-phrase-bank,ADP News - 25 de fevereiro de 2009 - A fabrica...
6107,"ALEXANDRIA , Va. , 19 dezembro - Patente Estad...",1,ptbr,financial-phrase-bank,"ALEXANDRIA, Va., 19 de dezembro - Patente dos ..."
7821,outras ações incluem corte caros turnos fim se...,1,ptbr,financial-phrase-bank,As outras ações incluem o corte dos caros turn...
3850,pedido inclui serviços inicialização comission...,1,ptbr,financial-phrase-bank,O pedido também inclui serviços de inicializaç...
...,...,...,...,...,...
2904,"Rede principal SUI entra operação , token desa...",0,ptbr,CriptoFácil,"Rede principal da SUI entra em operação, token..."
6249,revisor oficial contas British Columbia Albert...,1,ptbr,financial-phrase-bank,Ele é um revisor oficial de contas em British ...
1153,Petrobras ( PETR4 ) leva petróleo Cubatão navi...,1,ptbr,InfoMoney,Petrobras (PETR4) leva petróleo a Cubatão por ...
5795,membro Conselho várias empresas acionista rede...,1,ptbr,financial-phrase-bank,Ele é membro do Conselho de várias empresas e ...


In [28]:
df.to_csv('datasets/df.csv', sep='|', index=False)
train_df.to_csv('datasets/train_df.csv', sep='|', index=False)
val_df.to_csv('datasets/val_df.csv', sep='|', index=False)
test_df.to_csv('datasets/test_df.csv', sep='|', index=False)

In [29]:
import json

output_file = 'datasets/df.json'

# Convertendo o dataframe para o formato esperado pelo Label Studio
converted_data = []

for index, row in df.iterrows():
    item = {
        'id': index,
        'data': {
            'text': row['text'],
            'label': row['label'],
            'lang': row['lang'],
            'font': row['font'],
            'raw_text': row['raw_text']
        }
    }
    converted_data.append(item)

# Salvando o arquivo convertido
with open(output_file, 'w', encoding='utf-8') as outfile:
    json.dump(converted_data, outfile, ensure_ascii=False, indent=4)