# Versão 3 dos testes realizados para o modelo



In [1]:
import pandas as pd
import os, re, io
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression


In [2]:
# Lê as propostas com o Pandas
propostas = pd.read_csv("/home/joaopedro/07_ProcessamentoLinguagemNatural/production/data_extraction/propostas.csv")

propostas  # Impressão do DataFrame de propostas

Unnamed: 0,Categoria,Texto
0,Turismo,Turismo: esse é o Destino. <p><strong>Objetivo...
1,Desenvolvimento Agrário e Agricultura Familiar,Agricultura Familiar e Agroecologia. <p><stron...
2,Agricultura e Pecuária,Agropecuária Sustentável. <p>Objetivo: Contrib...
3,Saúde,Atenção Primária à Saúde. <p>Fortalecer a Aten...
4,Saúde,Atenção Especializada à Saúde. <p>Ampliar o ac...
...,...,...
8431,Saúde,Microchipagem de animais de companhia. Microch...
8432,Secretaria Geral da Presidência da República,"Direito a atendimento eficiente, é um direito..."
8433,Previdência Social,Rever Reforma da Previdência. Rever a reforma ...
8434,Meio Ambiente e Mudança do Clima,Preservação da Serra do Espinhaço. A Serra do ...


In [3]:
# Expressões regulares para remoção de poluição de dados nos textos 
# REGX_URL = r"https?://[A-Za-z0-9./\-]+" # Regex for URLs
REGX_HTML = r"<[^<]+?>" # Regex for HTML tags
REGX_ENDING = r'Órgão Responsável:.+' # Regex for the part of the text

In [4]:
# Função para pré-processamento
def preprocessing(text):
  # text = text.lower()

  text = re.sub(REGX_HTML, '', text)  # Removendo tags HTML
  # text = re.sub(REGX_URL, '', text) # Revomendo URLs
  text = re.sub(REGX_ENDING, '', text)

  # tokens = [t.lemma_ for t in nlp(text) if t not in STOP_WORDS and not t.is_punct]

  return text

#  Ajustando textos da coluna Corpo
propostas['Texto'] = propostas['Texto'].apply(preprocessing)
propostas.head()

Unnamed: 0,Categoria,Texto
0,Turismo,Turismo: esse é o Destino. Objetivo: Posiciona...
1,Desenvolvimento Agrário e Agricultura Familiar,Agricultura Familiar e Agroecologia. Objetivo:...
2,Agricultura e Pecuária,Agropecuária Sustentável. Objetivo: Contribuir...
3,Saúde,Atenção Primária à Saúde. Fortalecer a Atenção...
4,Saúde,Atenção Especializada à Saúde. Ampliar o acess...


## Adcionando dados abertos do Ministerio de  Relações Exteriores  para a categora de  Relações Exteriores 

# Dados extraidos do concordia MRE-Gov (https://dados.gov.br/dados/organizacoes/visualizar/ministerio-das-relacoes-exteriores-mre) 

In [5]:
import chardet

# Detecta a codificação do arquivo CSV
with open('/home/joaopedro/07_ProcessamentoLinguagemNatural/production/data_extraction/MRE.csv', 'rb') as f:
    result = chardet.detect(f.read())
encoding = result['encoding']

# Lê o CSV usando a codificação detectada
relacoes_ext = pd.read_csv('/home/joaopedro/07_ProcessamentoLinguagemNatural/production/data_extraction/MRE.csv', sep=';', encoding=encoding)

# retira colunas 
colunas_retiradas = ['Unnamed: 1', 'Unnamed: 2','Unnamed: 3','Unnamed: 4','Unnamed: 6','Unnamed: 7','Unnamed: 8','Unnamed: 9','Unnamed: 10']
relacoes_ext = relacoes_ext.drop(index=0,columns=colunas_retiradas)

# Renomeia colunas e retira primeira linha

relacoes_ext.columns = ['Categoria', 'Texto']

# Combina os textos das colunas 1 e 2 na coluna 2
relacoes_ext['Texto'] = relacoes_ext['Categoria'] + ' ' + relacoes_ext['Texto']

# Renomeie todas as linhas da coluna 'Categoria' para 'Relações Exteriores'
relacoes_ext['Categoria'] = 'Relações Exteriores'

FileNotFoundError: [Errno 2] No such file or directory: '../production/data_extraction/MRE.csv'

In [None]:
#removendo as tags html da cooluna texto
from bs4 import BeautifulSoup

# Função para limpar os dados de tags HTML e quebras de linha
def clean_text(text):
    if isinstance(text, str):  # Verifica se é uma string
        # Remove as tags HTML com BeautifulSoup
        cleaned = BeautifulSoup(text, 'html.parser').get_text()
        # Remove as quebras de linha com expressões regulares
        cleaned = re.sub(r'\n', ' ', cleaned)
        return cleaned.strip()
    return text  # Retorna o valor original se não for uma string

# Aplica a função de limpeza aos dados da coluna 'Texto'
relacoes_ext['Texto'] = relacoes_ext['Texto'].apply(clean_text)


In [None]:
relacoes_ext.head()

In [None]:
# Use o método concat para adicionar os dados do DataFrame relacoes_ext ao DataFrame propostas
frames = [propostas,relacoes_ext]
propostas = pd.concat(frames, ignore_index=True)

# Realizando a primeira separacao em dados de treino e teste


In [None]:
from sklearn.model_selection import train_test_split

treino, teste, classe_treino, classe_teste = train_test_split(propostas.Texto,
                                                              propostas.Categoria,
                                                              random_state = 42)



In [None]:
treino

In [None]:
classe_treino


In [None]:
print(propostas.Categoria.value_counts())

In [None]:
propostas['Texto'][0]

In [None]:
#Criando índices para as categorias
cats = propostas['Categoria'].unique() # Pegando cada categoria única
cats = dict(enumerate(cats, 0)) # Convertendo para dict (com índices enumerados)
cats = {v:k for k,v in cats.items()}  # Trocando chaves e valores

propostas['id_cats'] = propostas['Categoria'].map(cats) # Inserindo coluna de índices das cats
propostas.head()

In [None]:
# Remova valores não processáveis da coluna 'Texto'
propostas = propostas[propostas['Texto'].apply(lambda x: isinstance(x, str))]

# Inicialize o modelo de regressão logística
regressao_logistica = LogisticRegression(solver="lbfgs", max_iter=1000)

def classificar_texto(texto, coluna_texto, coluna_classificacao):
    vetorizar = CountVectorizer(lowercase=False, max_features=50)
    bag_of_words = vetorizar.fit_transform(texto[coluna_texto])
    treino, teste, classe_treino, classe_teste = train_test_split(bag_of_words,
                                                                  texto[coluna_classificacao],
                                                                  random_state=42)
    regressao_logistica.fit(treino, classe_treino)
    return regressao_logistica.score(teste, classe_teste)

acuracia_bruta = classificar_texto(propostas, "Texto", "id_cats")

print("Acurácia:", acuracia_bruta)



In [None]:
%matplotlib inline
from wordcloud import WordCloud
import matplotlib.pyplot as plt

todas_palavras = ' '.join([texto for texto in propostas.Texto])


In [None]:
import nltk
from nltk import tokenize

# realiza a tokenização do texto
token_espaco = tokenize.WhitespaceTokenizer()
token_frase = token_espaco.tokenize(todas_palavras)

frequencia = nltk.FreqDist(token_frase)
df_frequencia = pd.DataFrame({"Palavra": list(frequencia.keys()),
                                   "Frequência": list(frequencia.values())})



In [None]:
# imprime um data frame com as palavras ordenadas pelas q tem a maior frequencia
df_frequencia.nlargest(columns = "Frequência", n = 10)

In [None]:
import seaborn as sns

def pareto(texto, coluna_texto, quantidade):
    todas_palavras = ' '.join([texto for texto in texto[coluna_texto]])
    token_frase = token_espaco.tokenize(todas_palavras)
    frequencia = nltk.FreqDist(token_frase)
    df_frequencia = pd.DataFrame({"Palavra": list(frequencia.keys()),
                                   "Frequência": list(frequencia.values())})
    df_frequencia = df_frequencia.nlargest(columns = "Frequência", n = quantidade)
    plt.figure(figsize=(12,8))
    ax = sns.barplot(data = df_frequencia, x = "Palavra", y = "Frequência", color = 'gray')
    ax.set(ylabel = "Contagem")
    plt.show()

pareto(propostas, "Texto", 10)

In [None]:
palavras_irrelevantes = nltk.corpus.stopwords.words("portuguese")

frase_processada = list()
for opiniao in propostas.Texto:
    nova_frase = list()
    palavras_texto = token_espaco.tokenize(opiniao)
    for palavra in palavras_texto:
        if palavra not in palavras_irrelevantes:
            nova_frase.append(palavra)
    frase_processada.append(' '.join(nova_frase))

propostas["tratamento_1"] = frase_processada


In [None]:
propostas.head()

In [None]:
acuracia_tratamento_1 = classificar_texto(propostas, "tratamento_1", "id_cats")
print(acuracia_tratamento_1)

In [None]:
pareto(propostas,"tratamento_1", 10)

In [None]:
from string import punctuation

token_pontuacao = tokenize.WordPunctTokenizer()

pontuacao = list()
for ponto in punctuation:
    pontuacao.append(ponto)

pontuacao_stopwords = pontuacao + palavras_irrelevantes

frase_processada = list()
for opiniao in propostas["tratamento_1"]:
    nova_frase = list()
    palavras_texto = token_pontuacao.tokenize(opiniao)
    for palavra in palavras_texto:
        if palavra not in pontuacao_stopwords:
            nova_frase.append(palavra)
    frase_processada.append(' '.join(nova_frase))

propostas["tratamento_2"] = frase_processada



In [None]:
propostas.head()

In [None]:
acuracia_tratamento2 = classificar_texto(propostas, "tratamento_2", "id_cats")
print(acuracia_tratamento2)


In [None]:
propostas["tratamento_1"][0]

In [None]:
propostas["tratamento_2"][0]

In [None]:
pareto(propostas,"tratamento_2", 10)

In [None]:
import unidecode 

sem_acentos = [unidecode.unidecode(texto) for texto in propostas["tratamento_2"]]


In [None]:
sem_acentos[0]

In [None]:
stopwords_sem_acento = [unidecode.unidecode(texto) for texto in pontuacao_stopwords]

In [None]:
stopwords_sem_acento

In [None]:
propostas["tratamento_3"] = sem_acentos

frase_processada = list()
for opiniao in propostas["tratamento_3"]:
    nova_frase = list()
    palavras_texto = token_pontuacao.tokenize(opiniao)
    for palavra in palavras_texto:
        if palavra not in pontuacao_stopwords:
            nova_frase.append(palavra)
    frase_processada.append(' '.join(nova_frase))

propostas["tratamento_3"] = frase_processada



In [None]:
propostas.head()

In [None]:
acuracia_tratamento3 = classificar_texto(propostas, "tratamento_3", "id_cats")
print(acuracia_tratamento3)



In [None]:
#deixa todas as letras minusculas
frase_processada = list()
for opiniao in propostas["tratamento_3"]:
    nova_frase = list()
    opiniao = opiniao.lower()
    palavras_texto = token_pontuacao.tokenize(opiniao)
    for palavra in palavras_texto:
        if palavra not in stopwords_sem_acento:
            nova_frase.append(palavra)
    frase_processada.append(' '.join(nova_frase))

propostas["tratamento_4"] = frase_processada

In [None]:
propostas["tratamento_3"][0]

In [None]:
propostas["tratamento_4"][0]

In [None]:
acuracia_tratamento4 = classificar_texto(propostas, "tratamento_4", "id_cats")
print(acuracia_tratamento4)


In [None]:
pareto(propostas, "tratamento_4", 10)

# Teste com a Stemização


In [None]:
nltk.download('rslp')
# faz a stemetizacao
stemmer = nltk.RSLPStemmer()

In [None]:
frase_processada = list()
for opiniao in propostas["tratamento_4"]:
    nova_frase = list()
    palavras_texto = token_pontuacao.tokenize(opiniao)
    for palavra in palavras_texto:
        if palavra not in stopwords_sem_acento:
            nova_frase.append(stemmer.stem(palavra))
    frase_processada.append(' '.join(nova_frase))

propostas["tratamento_5"] = frase_processada


In [None]:
acuracia_tratamento5 = classificar_texto(propostas, "tratamento_5", "id_cats")
print(acuracia_tratamento5)

In [None]:
pareto(propostas, "tratamento_5", 10)

# Testando a utilização do TF-IDF no dataframe

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(lowercase=False, max_features=50)

tfidf_tratados = tfidf.fit_transform(propostas["tratamento_5"])
treino, teste, classe_treino, classe_teste = train_test_split(tfidf_tratados,
                                                              propostas["id_cats"],
                                                              random_state = 42)
regressao_logistica.fit(treino, classe_treino)
acuracia_tfidf_tratados = regressao_logistica.score(teste, classe_teste)

print(acuracia_tfidf_tratados)



# Testando a utilizacao do TF-IDF juntamente com o ngrams


In [None]:
from nltk import ngrams

#acuracia do tfidf utilizando os ngrams
tfidf = TfidfVectorizer(lowercase=False, ngram_range = (1,2))
vetor_tfidf = tfidf.fit_transform(propostas["tratamento_5"])
treino, teste, classe_treino, classe_teste = train_test_split(vetor_tfidf,
                                                              propostas["id_cats"],
                                                              random_state = 42)
regressao_logistica.fit(treino, classe_treino)
acuracia_tfidf_ngrams = regressao_logistica.score(teste, classe_teste)
print(acuracia_tfidf_ngrams)


In [None]:
#palavras que o modelo aprendeu da categoria saude (id_cats 3)
pesos = pd.DataFrame(
    regressao_logistica.coef_[3].T,
    index = tfidf.get_feature_names_out()
)

pesos.nlargest(50,0)



In [None]:
import matplotlib.pyplot as plt

# Dados numéricos
dados = [acuracia_bruta * 100, acuracia_tratamento_1 * 100, acuracia_tratamento2 * 100,
         acuracia_tratamento3 * 100, acuracia_tratamento4 * 100, acuracia_tratamento5 * 100,
         acuracia_tfidf_ngrams * 100]
etiquetas = ['bruta', '1', '2', '3', '4', '5', 'stem ngram']

# Criar o gráfico de barras
plt.bar(etiquetas, dados, color='blue')

# Adicionar título e rótulos dos eixos
plt.title('Acuracia tratamentos')
plt.xlabel('Tratamentos')
plt.ylabel('Acuracia')

# Adicionar os valores acima de cada barra
for i, valor in enumerate(dados):
    plt.text(i, valor + 1, f'{valor:.2f}%', ha='center')

# Exibir o gráfico
plt.show()


# Testando com o SVM utilizando o tratamento 4 ou seja sem a stemizacao


In [None]:
propostas.head()

In [None]:
import spacy
from spacy.lang.pt.stop_words import STOP_WORDS

nlp = spacy.load("pt_core_news_sm") 

In [None]:
#  Representações vetoriais do texto
propostas['Vector'] = propostas['tratamento_4'].apply(lambda text: nlp(text).vector)
propostas.head()

In [None]:
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import MinMaxScaler
from sklearn import svm, model_selection
import numpy as np


In [None]:
# Separação dos dados para treinamento e teste
treino, teste, classe_treino, classe_teste = model_selection.train_test_split(
    propostas.Vector.values,
    propostas.Categoria,
    test_size=0.2
)

# Transformação: conversão do tipo dos dados de entrada (X) para interpretação
treino_2d = np.stack(treino)
teste_2d = np.stack(teste)

# Transformação: escalonamento dos dados numéricos (normalizados entre 0 e 1)
# Para tratamento de casos outliers
scaler = MinMaxScaler()
scaled_train_embed = scaler.fit_transform(treino_2d)
scaled_test_embed = scaler.transform(teste_2d)

In [None]:
import json

# Treinamento
clf = svm.SVC() # Instanciando modelo
clf.fit(scaled_train_embed, classe_treino)  # Realização do treinamento passando os dados

classe_pred = clf.predict(scaled_test_embed) # Predição com os dados de teste

# Impressão do relatório com as métricas do modelo (para cada cat.)
print(classification_report(classe_teste, classe_pred))  

predictions_SVM = clf.predict(scaled_test_embed)
print("SVM Accuracy Score -> ", accuracy_score(predictions_SVM, classe_teste)*100)  # Impressão da precisão geral

# Teste da regressao logistica com a lematizacao usando o spacy

In [None]:
propostas.head()

In [None]:
frase_processada = list()
for opiniao in propostas["tratamento_4"]:
    nova_frase = list()
    doc = nlp(opiniao)
    for token in doc:
        nova_frase.append(token.lemma_)
    frase_processada.append(' '.join(nova_frase))

propostas["tratamento_6"] = frase_processada


In [None]:
propostas.head()

In [None]:
from nltk import ngrams

#acuracia do tfidf utilizando os ngrams
tfidf = TfidfVectorizer(lowercase=False, ngram_range = (1,2))
vetor_tfidf = tfidf.fit_transform(propostas["tratamento_6"])
treino, teste, classe_treino, classe_teste = train_test_split(vetor_tfidf,
                                                              propostas["id_cats"],
                                                              random_state = 42)
regressao_logistica.fit(treino, classe_treino)
acuracia_lemma = regressao_logistica.score(teste, classe_teste)
print(acuracia_lemma)


In [None]:
import matplotlib.pyplot as plt

# Dados numéricos
dados = [acuracia_bruta * 100, acuracia_tratamento_1 * 100, acuracia_tratamento2 * 100,
         acuracia_tratamento3 * 100, acuracia_tratamento4 * 100, acuracia_tratamento5 * 100,
         acuracia_tfidf_ngrams * 100,acuracia_lemma * 100]
etiquetas = ['bruta', '1', '2', '3', '4', '5', 'stem','lemma']
 
# Criar o gráfico de barras
plt.bar(etiquetas, dados, color='blue')

# Adicionar título e rótulos dos eixos
plt.title('Acuracia tratamentos')
plt.xlabel('Tratamentos')
plt.ylabel('Acuracia')

# Adicionar os valores acima de cada barra
for i, valor in enumerate(dados):
    plt.text(i, valor + 1, f'{valor:.2f}%', ha='center')

# Exibir o gráfico
plt.show()

# Aplicando o TF-IDF com Ngrams nos dados sem stemizacao e lematizacao no SVC


In [None]:
from sklearn.svm import SVC
from sklearn.metrics import classification_report

# Dividir dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(propostas['tratamento_4'],propostas["Categoria"], test_size=0.2, random_state=42)

# Criar vetorizador TF-IDF com n-grams
vectorizer = TfidfVectorizer(ngram_range=(1, 2))  # Aqui usamos bigrams
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

# Treinar SVM
svm_model = SVC(kernel='linear')  # Pode usar outros kernels também
svm_model.fit(X_train_tfidf, y_train)

# Prever e avaliar
y_pred = svm_model.predict(X_test_tfidf)
report = classification_report(y_test, y_pred)

print(report)



# Aplicando o TF-IDF com Ngrams nos dados com lematizacao no SVC

In [None]:
from sklearn.svm import SVC
from sklearn.metrics import classification_report

# Dividir dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(propostas['tratamento_6'],propostas["Categoria"], test_size=0.2, random_state=42)

# Criar vetorizador TF-IDF com n-grams
vectorizer = TfidfVectorizer(ngram_range=(1, 2))  # Aqui usamos bigrams
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

# Treinar SVM
svm_model = SVC(kernel='linear')  # Pode usar outros kernels também
svm_model.fit(X_train_tfidf, y_train)

# Prever e avaliar
y_pred = svm_model.predict(X_test_tfidf)
report = classification_report(y_test, y_pred,output_dict=True)

# Salvando relatório de treinamento em um arquivo JSON
json_obj = json.dumps(report, indent=4)
save_file = open('../model_v3/ttraining_results.json', 'w').write(json_obj)


print(report)
