# Versão 4 dos testes realizados para o modelo


In [41]:
import pandas as pd
import os, re, io
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
import spacy
import random


In [42]:
# Lê as propostas com o Pandas
propostas = pd.read_csv("/home/joaopedro/07_ProcessamentoLinguagemNatural/production/data_extraction/propostas.csv")

propostas  # Impressão do DataFrame de propostas

Unnamed: 0,Categoria,Texto
0,Turismo,Turismo: esse é o Destino. <p><strong>Objetivo...
1,Desenvolvimento Agrário e Agricultura Familiar,Agricultura Familiar e Agroecologia. <p><stron...
2,Agricultura e Pecuária,Agropecuária Sustentável. <p>Objetivo: Contrib...
3,Saúde,Atenção Primária à Saúde. <p>Fortalecer a Aten...
4,Saúde,Atenção Especializada à Saúde. <p>Ampliar o ac...
...,...,...
8431,Saúde,Microchipagem de animais de companhia. Microch...
8432,Secretaria Geral da Presidência da República,"Direito a atendimento eficiente, é um direito..."
8433,Previdência Social,Rever Reforma da Previdência. Rever a reforma ...
8434,Meio Ambiente e Mudança do Clima,Preservação da Serra do Espinhaço. A Serra do ...


In [43]:
# Expressões regulares para remoção de poluição de dados nos textos 
# REGX_URL = r"https?://[A-Za-z0-9./\-]+" # Regex for URLs
REGX_HTML = r"<[^<]+?>" # Regex for HTML tags
REGX_ENDING = r'Órgão Responsável:.+' # Regex for the part of the text

In [44]:
# Função para pré-processamento
def preprocessing(text):
  # text = text.lower()

  text = re.sub(REGX_HTML, '', text)  # Removendo tags HTML
  # text = re.sub(REGX_URL, '', text) # Revomendo URLs
  text = re.sub(REGX_ENDING, '', text)

  # tokens = [t.lemma_ for t in nlp(text) if t not in STOP_WORDS and not t.is_punct]

  return text

#  Ajustando textos da coluna Corpo
propostas['Texto'] = propostas['Texto'].apply(preprocessing)
propostas.head()

Unnamed: 0,Categoria,Texto
0,Turismo,Turismo: esse é o Destino. Objetivo: Posiciona...
1,Desenvolvimento Agrário e Agricultura Familiar,Agricultura Familiar e Agroecologia. Objetivo:...
2,Agricultura e Pecuária,Agropecuária Sustentável. Objetivo: Contribuir...
3,Saúde,Atenção Primária à Saúde. Fortalecer a Atenção...
4,Saúde,Atenção Especializada à Saúde. Ampliar o acess...


In [45]:
print(propostas.Categoria.value_counts())

Categoria
Saúde                                                             1368
Educação                                                          1261
Direitos Humanos e Cidadania                                       528
Meio Ambiente e Mudança do Clima                                   497
Transportes                                                        473
Desenvolvimento e Assistência Social, Família e Combate à Fome     418
Trabalho e Emprego                                                 377
Justiça e Segurança Pública                                        342
Cidades                                                            294
Gestão e Inovação em Serviços Públicos                             284
Desenvolvimento Agrário e Agricultura Familiar                     255
Previdência Social                                                 249
Cultura                                                            224
Mulheres                                                           

In [46]:
from sklearn.svm import SVC
from sklearn.metrics import classification_report
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk import ngrams
from sklearn.model_selection import train_test_split

# Dividir dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(propostas['Texto'],propostas["Categoria"],stratify=propostas.Categoria, test_size=0.2, random_state=42)

# Criar vetorizador TF-IDF com n-grams
vectorizer = TfidfVectorizer(ngram_range=(1, 2))  # Aqui usamos bigrams
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

# Treinar SVM
svm_model = SVC(kernel='linear')  # Pode usar outros kernels também
svm_model.fit(X_train_tfidf, y_train)

# Prever e avaliar
y_pred = svm_model.predict(X_test_tfidf)
report = classification_report(y_test, y_pred, zero_division=0)


print(report)


                                                                precision    recall  f1-score   support

                                      Advocacia-Geral da União       0.00      0.00      0.00         3
                                        Agricultura e Pecuária       0.67      0.10      0.17        21
                                                 Banco Central       1.00      0.25      0.40         4
                                                    Casa Civil       0.00      0.00      0.00         7
                                                       Cidades       0.44      0.37      0.40        59
                                Ciência, Tecnologia e Inovação       0.55      0.19      0.28        32
                                            Comunicação Social       0.00      0.00      0.00         9
                                                  Comunicações       0.67      0.22      0.33         9
                                  Controladoria-Geral da União 

In [47]:
y_train.value_counts()


Categoria
Saúde                                                             1094
Educação                                                          1009
Direitos Humanos e Cidadania                                       422
Meio Ambiente e Mudança do Clima                                   397
Transportes                                                        378
Desenvolvimento e Assistência Social, Família e Combate à Fome     334
Trabalho e Emprego                                                 301
Justiça e Segurança Pública                                        273
Cidades                                                            235
Gestão e Inovação em Serviços Públicos                             227
Desenvolvimento Agrário e Agricultura Familiar                     204
Previdência Social                                                 199
Cultura                                                            179
Mulheres                                                           

In [48]:
y_test.value_counts()

Categoria
Saúde                                                             274
Educação                                                          252
Direitos Humanos e Cidadania                                      106
Meio Ambiente e Mudança do Clima                                  100
Transportes                                                        95
Desenvolvimento e Assistência Social, Família e Combate à Fome     84
Trabalho e Emprego                                                 76
Justiça e Segurança Pública                                        69
Cidades                                                            59
Gestão e Inovação em Serviços Públicos                             57
Desenvolvimento Agrário e Agricultura Familiar                     51
Previdência Social                                                 50
Cultura                                                            45
Mulheres                                                           37
Ciência, T

In [49]:
relacoes_ext = propostas.loc[propostas['Categoria'].isin(['Relações Exteriores'])]
relacoes_ext

Unnamed: 0,Categoria,Texto
173,Relações Exteriores,Passaporte mais rapido e menos burocratico . S...
1158,Relações Exteriores,Aprimoramento da plataforma Concórdia para fin...
2947,Relações Exteriores,Fortalecimento do Mercosul e do BRICS através...
2992,Relações Exteriores,"Entretenimento . Promover curtas, longas e sér..."
3709,Relações Exteriores,Criação de bolsas de aperfeiçoamento profissio...
4447,Relações Exteriores,Cooperação internacional para combater o tráfi...
6156,Relações Exteriores,Taxação para produção e exportação de alimento...
6536,Relações Exteriores,Criação do Conselho Nacional de Política Exter...
7035,Relações Exteriores,"Estruturação dos escritórios, diretorias e coo..."
7326,Relações Exteriores,Implementação de uma política externa feminist...


In [50]:
relacoes_ext['Texto'][3709]

'Criação de bolsas de aperfeiçoamento profissional - não acadêmicas - para cidadãos de países em desenvolvimento em Universidades e Institutos Federais. A criação de bolsas não acadêmicas de aperfeiçoamento profissional para cidadãos de países em desenvolvimento poderá fortalecer os vínculos sul-sul e contribuir para o desenvolvimento global.'

# Realizando teste com oversampling com SMOTE para as categorias com baixa performance

In [11]:
from imblearn.over_sampling import SMOTE

In [None]:
#Aplicar SMOTE
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train_tfidf, y_train)

# Treinar modelo SVM no novo conjunto de dados resampleado
svm_model2 = SVC(kernel='linear')
svm_model2.fit(X_train_resampled, y_train_resampled)



In [None]:
# Prever e avaliar
y_pred = svm_model2.predict(X_test_tfidf)
report = classification_report(y_test, y_pred, zero_division=0)


print(report)

# Realizando a criacao de novas propostas com sinonimos utilizando um dicionario de sinonimos em portugues



In [58]:
# Lê as propostas com o Pandas

simuladas = pd.read_csv("/home/joaopedro/07_ProcessamentoLinguagemNatural/versionamento_modelos/model_v4/propostas_simuladas - Página1.csv")
simuladas  # Impressão do DataFrame de propostas

Unnamed: 0,Categoria,Texto
0,Casa Civil,Fortalecer o papel da Casa Civil na coordenaçã...
1,Casa Civil,Incentivar a contratação e promoção de pessoas...
2,Casa Civil,Desenvolver estratégias para promover a susten...
3,Casa Civil,Estabelecer um programa de parcerias com start...
4,Casa Civil,Estabelecer metas ambiciosas para redução de c...
5,Casa Civil,Estabelecer um comitê de ética interno para or...
6,Casa Civil,Desenvolver um sistema de monitoramento de pol...
7,Casa Civil,Implementar uma ouvidoria ativa que colete fee...
8,Casa Civil,Expandir o acesso a informações públicas por m...
9,Casa Civil,Apoiar programas de capacitação liderados pela...


In [60]:
propostas = pd.DataFrame(propostas)
propostas_simuladas = pd.DataFrame(simuladas)
novas_propostas = pd.concat([propostas,propostas_simuladas],ignore_index=True)

In [62]:
print(novas_propostas.Categoria.value_counts())

Categoria
Saúde                                                             1368
Educação                                                          1261
Direitos Humanos e Cidadania                                       528
Meio Ambiente e Mudança do Clima                                   497
Transportes                                                        473
Desenvolvimento e Assistência Social, Família e Combate à Fome     418
Trabalho e Emprego                                                 377
Justiça e Segurança Pública                                        342
Cidades                                                            294
Gestão e Inovação em Serviços Públicos                             284
Desenvolvimento Agrário e Agricultura Familiar                     255
Previdência Social                                                 249
Cultura                                                            224
Mulheres                                                           

In [None]:
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import MinMaxScaler
from sklearn import svm, model_selection
import numpy as np
import spacy
from spacy.lang.pt.stop_words import STOP_WORDS

nlp = spacy.load("pt_core_news_sm") 


In [None]:
#  Representações vetoriais do texto
novas_propostas['Vector'] = novas_propostas['Texto'].apply(lambda text: nlp(text).vector)
novas_propostas.head()

In [None]:
# Separação dos dados para treinamento e teste
treino, teste, classe_treino, classe_teste = model_selection.train_test_split(
    novas_propostas.Vector.values,
    novas_propostas.Categoria,
    test_size=0.2
)

# Transformação: conversão do tipo dos dados de entrada (X) para interpretação
treino_2d = np.stack(treino)
teste_2d = np.stack(teste)

# Transformação: escalonamento dos dados numéricos (normalizados entre 0 e 1)
# Para tratamento de casos outliers
scaler = MinMaxScaler()
scaled_train_embed = scaler.fit_transform(treino_2d)
scaled_test_embed = scaler.transform(teste_2d)

In [None]:
import json

# Treinamento
clf = svm.SVC() # Instanciando modelo
clf.fit(scaled_train_embed, classe_treino)  # Realização do treinamento passando os dados

classe_pred = clf.predict(scaled_test_embed) # Predição com os dados de teste

# Salvando relatório de treinamento em um arquivo JSON
json_obj = json.dumps(classification_report(classe_teste, classe_pred, output_dict=True), indent=4)
save_file = open('../model_v4/training_results.json', 'w').write(json_obj)

# Impressão do relatório com as métricas do modelo (para cada cat.)
print(classification_report(classe_teste, classe_pred))  

predictions_SVM = clf.predict(scaled_test_embed)
print("SVM Accuracy Score -> ", accuracy_score(predictions_SVM, classe_teste)*100)  # Impressão da precisão geral