In [2]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

tipos_documentais = pd.read_csv('Dataset IA Tipos Documentais - Página1.csv')

# Mostrar as primeiras linhas do DataFrame para verificar se o arquivo foi carregado corretamente
print(tipos_documentais.head())

#Vetorização do texto usando TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(tipos_documentais['Palavras-Chave'])

# Target
y = tipos_documentais['Tipo Documental']

# Divisão dos dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Instanciando o modelo de Regressão Logística
logistic_model = LogisticRegression(max_iter=1000)

# Treinando o modelo
logistic_model.fit(X_train, y_train)

# Fazendo previsões no conjunto de teste
y_pred = logistic_model.predict(X_test)

# Calculando a acurácia
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia do modelo de Regressão Logística: {accuracy:.2f}')

        Tipo Documental                                Palavras-Chave
0              Contrato          acordo, cláusula, assinatura, partes
1  Relatório Financeiro            despesas, receitas, balanço, lucro
2        Ata de Reunião  deliberações, participantes, pauta, decisões
3           Nota Fiscal                 compra, venda, imposto, valor
4    Proposta Comercial         orçamento, cliente, negociação, prazo
Acurácia do modelo de Regressão Logística: 0.96


In [3]:
def classificar_documento(texto):
    # Vetorizar o texto de entrada usando o mesmo vetor de TF-IDF ajustado
    X_novo = vectorizer.transform([texto])

    # Prever o tipo documental usando o modelo treinado
    tipo_documental_previsto = logistic_model.predict(X_novo)

    # Retornar o tipo documental previsto
    return tipo_documental_previsto[0]

# Exemplo de uso
texto_exemplo = "Data: 30 de agosto de 2024 Hora: 14h00 Local: Sala de Reuniões, Edifício Central, São Paulo, SP Participantes: João Silva (Diretor Geral), Ana Costa (Gerente de Projetos), Carlos Pereira (Analista de Sistemas), Maria Oliveira (Coordenadora de Marketing) Pauta: 1. Revisão de Metas do Projeto X 2. Planejamento da Campanha de Marketing 3. Discussão sobre Novos Recursos para a Equipe 4. Outras Questões 1. Revisão de Metas do Projeto X João Silva apresentou o status atual do Projeto X. A equipe discutiu os prazos e os recursos necessários para a conclusão das tarefas restantes. A nova data de conclusão foi ajustada para 15 de outubro de 2024. A responsabilidade pela atualização do cronograma foi atribuída a Ana Costa. 2. Planejamento da Campanha de Marketing Maria Oliveira apresentou o plano de marketing para o próximo trimestre. Foram discutidas as estratégias para aumentar a visibilidade da marca e engajar o público-alvo. A aprovação do orçamento de R$ 50.000,00 para a campanha foi acordada por todos os participantes. Ana Costa ficará responsável pela coordenação com a equipe de design. 3. Discussão sobre Novos Recursos para a Equipe Carlos Pereira solicitou a aquisição de novos equipamentos para melhorar a eficiência da equipe de TI. A solicitação foi aprovada e o orçamento de R$ 20.000,00 foi autorizado. João Silva encarregou Carlos Pereira de elaborar a lista detalhada dos equipamentos necessários e enviá-la até 5 de setembro de 2024. 4. Outras Questões Ana Costa sugeriu a realização de um workshop sobre novas ferramentas de gestão de projetos. A sugestão foi bem recebida e o workshop será agendado para o final de setembro de 2024. Maria Oliveira sugeriu uma revisão do plano de comunicação interna para melhorar a eficiência. Encerramento: A próxima reunião foi agendada para 6 de setembro de 2024 às 14h00. João Silva agradeceu a presença de todos e encerrou a reunião às 15h30. Assinaturas: João Silva, Ana Costa, Carlos Pereira, Maria Oliveira"
tipo_documental = classificar_documento(texto_exemplo)
print(f'Tipo Documental classificado: {tipo_documental}')

Tipo Documental classificado: Ata de Reunião


In [None]:
# import joblib

# joblib.dump(vectorizer, '/content/vectorizer.pkl')
# joblib.dump(logistic_model, '/content/logistic_model.pkl')
# from google.colab import files

# files.download('/content/vectorizer.pkl')
# files.download('/content/logistic_model.pkl')