<a href="https://colab.research.google.com/github/MarianaGCosta/Processamento-de-dados-em-portugues-brasileiro/blob/main/proveniencia.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Importação das bibliotecas

In [None]:
!pip install prov
!pip install unidecode

Collecting prov
  Downloading prov-2.0.1-py3-none-any.whl.metadata (3.6 kB)
Collecting rdflib<7,>=4.2.1 (from prov)
  Downloading rdflib-6.3.2-py3-none-any.whl.metadata (11 kB)
Collecting isodate<0.7.0,>=0.6.0 (from rdflib<7,>=4.2.1->prov)
  Downloading isodate-0.6.1-py2.py3-none-any.whl.metadata (9.6 kB)
Downloading prov-2.0.1-py3-none-any.whl (421 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m421.5/421.5 kB[0m [31m11.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading rdflib-6.3.2-py3-none-any.whl (528 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m528.1/528.1 kB[0m [31m22.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading isodate-0.6.1-py2.py3-none-any.whl (41 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m41.7/41.7 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: isodate, rdflib, prov
Successfully installed isodate-0.6.1 prov-2.0.1 rdflib-6.3.2
Collecting unidecode
  Downloading Unidecode-1

In [None]:
import os
from prov.model import ProvDocument
from graphviz import Digraph
from prov.dot import prov_to_dot
from unidecode import unidecode
import datetime

## Prov-model do pré-processamento dos dados

In [None]:
def sanitize_label(label):
  """Função para remover caracteres especiais e quebras de linha do rótulo"""
  return unidecode(label.replace("\n", " ").replace("\r", " "))

def create_agents(d1):
  """Função para criar os agentes de proveniência"""
  agents = {}
  agents["ufrj"] = d1.agent(
      "ufrj:UFRJ",
      {
          "prov:type": "prov:Organization",
          "foaf:name": sanitize_label("Universidade Federal do Rio de Janeiro"),
      },
  )

  agents["uff"] = d1.agent(
      "uff:UFF",
      {
          "prov:type": "prov:Organization",
          "foaf:name": sanitize_label("Universidade Federal Fluminense"),
      },
  )

  agents["ppgi"] = d1.agent(
      "ufrj:PPGI",
      {
          "prov:type": "prov:Organization",
          "foaf:name": sanitize_label("Programa de Pós-Graduação em Informática"),
      },
  )

  agents["mai803"] = d1.agent(
      "ufrj:MAI803",
      {
          "prov:type": "prov:Organization",
          "foaf:name": sanitize_label(
              "Tópicos Especiais em Sistemas Complexos - Disciplina de Fundamentos de Ciência de Dados"
          ),
      },
  )

  agents["developer"] = d1.agent(
      "ufrj:MGC",
      {
          "prov:type": "prov:Person",
          "foaf:name": sanitize_label("Mariana Gonçalves"),
          "foaf:mbox": "marianag.costta@gmail.com",
      },
  )

  agents["script"] = d1.agent(
      "ufrj:getProv.py",
      {"prov:type": "prov:SoftwareAgent", "foaf:name": "getProv.py"},
  )

  # Relacionando os agentes
  d1.actedOnBehalfOf(agents["ppgi"], agents["ufrj"])
  d1.actedOnBehalfOf(agents["mai803"], agents["ppgi"])
  d1.actedOnBehalfOf(agents["developer"], agents["mai803"])
  d1.actedOnBehalfOf(agents["script"], agents["developer"])

  return agents


def generate_prov_document(nome_arquivo):
  d1 = ProvDocument()
  d1.add_namespace("ufrj", "https://www.ufrj.br")
  d1.add_namespace("foaf", "http://xmlns.com/foaf/0.1/")
  d1.add_namespace("uff", "https://www.uff.br")

  agents = create_agents(d1)
  entities = {}
  activities = {}

  # Entidades (datasets)
  entities["Corpus_DEG"] = d1.entity(
          "uff:Corpus_DEG",
          {
              "prov:label": sanitize_label("Processamento de dados Corpus DeG"),
              "prov:type": "foaf:Document",
              "prov:location": "https://deg.uff.br/corpus-dg/",
          },
      )

  # Atividade de importação
  entities["Juiz de Fora"] = d1.entity(
    "uff:Juiz_de_Fora",
      {
        "prov:label": sanitize_label("SubCorpus Juiz de Fora"),
        "prov:type": "foaf:Document",
        "prov:location": "https://deg.uff.br/corpus-dg/",
        },
    )

  entities["Natal"] = d1.entity(
      "uff:Natal",
        {
        "prov:label": sanitize_label("SubCorpus Natal"),
        "prov:type": "foaf:Document",
        "prov:location": "https://deg.uff.br/corpus-dg/",
        },
    )

  entities["Niteroi"] = d1.entity(
      "uff:Niteroi",
        {"prov:label": sanitize_label("SubCorpus Niteroi"),
        "prov:type": "foaf:Document",
        "prov:location": "https://deg.uff.br/corpus-dg/",
        },
    )

  entities["Rio de Janeiro A"] = d1.entity(
      "uff:Rio_de_Janeiro_A",
        {"prov:label": sanitize_label("SubCorpus Rio de Janeiro A"),
        "prov:type": "foaf:Document",
        "prov:location": "https://deg.uff.br/corpus-dg/",
        },
    )

  entities["Rio de Janeiro B"] = d1.entity(
      "uff:Rio_de_Janeiro_B",
        {"prov:label": sanitize_label("SubCorpus Rio de Janeiro B"),
        "prov:type": "foaf:Document",
        "prov:location": "https://deg.uff.br/corpus-dg/",
        },
    )

  entities["Rio Grande"] = d1.entity(
      "uff:Rio_Grande",
        {"prov:label": sanitize_label("SubCorpus Rio Grande"),
        "prov:type": "foaf:Document",
        "prov:location": "https://deg.uff.br/corpus-dg/",
        },
    )

  # Atividade de pre-processamento
  activities["pre_processamento"] = d1.activity(
      "ufrj:pre_processamento", startTime=datetime.datetime.now()
  )
  d1.used(activities["pre_processamento"], entities["Corpus_DEG"])

  # Entidades de resultados processados
  results = {
      "baseconjugada" : "pre_processamento da base conjugada",
      "juizdefoda" : "pre_processamento da base Juiz de Fora",
      "natal_" : "pre_processamento da base Natal",
      "niteroi_" : "pre_processamento da base Niteroi",
      "riodejaneiroa" : "pre_processamento da base Rio de Janeiro A",
      "riodejaneirob" : "pre_processamento da base Rio de Janeiro B",
      "rio_grande" : "pre_processamento da base Rio Grande"}


  for key, label in results.items():
      entities[key] = d1.entity(
          f"ufrj:{key}",
          {"prov:label": sanitize_label(label), "prov:type": "prov:Entity"},
      )
      d1.wasGeneratedBy(entities[key], activities["pre_processamento"])

  # Atividade de visualização
  activities["visualization"] = d1.activity(
      "ufrj:visualizacao", startTime=datetime.datetime.now()
  )
  d1.used(activities["visualization"], entities["Corpus_DEG"])

  # Resultado da visualização
  entities["visualization_output"] = d1.entity(
      "ufrj:visualizacao-output",
      {
          "prov:label": sanitize_label("Resultado da Visualização"),
          "prov:type": "prov:Entity",
      },
  )
  d1.wasGeneratedBy(entities["visualization_output"], activities["visualization"])

  # Associações
  d1.wasAssociatedWith(activities["pre_processamento"], agents["developer"])
  d1.wasAssociatedWith(activities["pre_processamento"], agents["script"])
  d1.wasAssociatedWith(activities["visualization"], agents["developer"])

  # Salvar gráfico PROV
  img_dir = "assets/img"
  os.makedirs(img_dir, exist_ok=True)
  output_path = os.path.join(img_dir, f"{nome_arquivo}.png")
  print(f"O gráfico será salvo em: {output_path}")
  dot = prov_to_dot(d1)
  dot.write_png(output_path)

  return output_path


if __name__ == "__main__":
  prov_image_path = generate_prov_document("Pré-processamento_Corpus_DeG")
  print(f"Arquivo PROV gerado: {prov_image_path}")

O gráfico será salvo em: assets/img/Pré-processamento_Corpus_DeG.png
Arquivo PROV gerado: assets/img/Pré-processamento_Corpus_DeG.png


## Prov-model da lematização dos dados

In [None]:
def sanitize_label(label):
    """Função para remover caracteres especiais e quebras de linha do rótulo"""
    return unidecode(label.replace("\n", " ").replace("\r", " "))


def create_agents(d1):
    """Função para criar os agentes de proveniência"""
    agents = {}
    agents["ufrj"] = d1.agent(
        "ufrj:UFRJ",
        {
            "prov:type": "prov:Organization",
            "foaf:name": sanitize_label("Universidade Federal do Rio de Janeiro"),
        },
    )

    agents["ppgi"] = d1.agent(
        "ufrj:PPGI",
        {
            "prov:type": "prov:Organization",
            "foaf:name": sanitize_label("Programa de Pós-Graduação em Informática"),
        },
    )

    agents["mai803"] = d1.agent(
        "ufrj:MAI803",
        {
            "prov:type": "prov:Organization",
            "foaf:name": sanitize_label(
                "Tópicos Especiais em Sistemas Complexos - Disciplina de Fundamentos de Ciência de Dados"
            ),
        },
    )

    agents["developer"] = d1.agent(
        "ufrj:MGC",
        {
            "prov:type": "prov:Person",
            "foaf:name": sanitize_label("Mariana Gonçalves"),
            "foaf:mbox": "marianag.costta@gmail.com",
        },
    )

    agents["script"] = d1.agent(
        "ufrj:getProv.py",
        {"prov:type": "prov:SoftwareAgent", "foaf:name": "getProv.py"},
    )

    # Relacionando os agentes
    d1.actedOnBehalfOf(agents["ppgi"], agents["ufrj"])
    d1.actedOnBehalfOf(agents["mai803"], agents["ppgi"])
    d1.actedOnBehalfOf(agents["developer"], agents["mai803"])
    d1.actedOnBehalfOf(agents["script"], agents["developer"])

    return agents


def generate_prov_document(nome_arquivo):
    try:
        # Criar o documento PROV
        d1 = ProvDocument()
        d1.add_namespace("ufrj", "https://www.ufrj.br")
        d1.add_namespace("foaf", "http://xmlns.com/foaf/0.1/")

        agents = create_agents(d1)
        entities = {}
        activities = {}

        # Entidades (subcorpus)
        entities["Rio Grande"] = d1.entity(
        "ufrj:rio_grande",
        {"prov:label": sanitize_label("SubCorpus Rio Grande"),
        "prov:type": "foaf:Document",
        "prov:location": "corpus_DeG/riogrande.json",
        },
    )

        entities["Rio Grande sem stopwords"] = d1.entity(
        "ufrj:rio_grande_sem_stopwords",
        {"prov:label": sanitize_label("SubCorpus Rio Grande semstopwords"),
        "prov:type": "foaf:Document",
        "prov:location": "corpus_DeG/riogrande_stop.json",
        },
    )

        # Atividade de lematização
        activities["lematizacao_spacy"] = d1.activity(
            "ufrj:lematizacao_spacy", startTime=datetime.datetime.now()
        )
        d1.used(activities["lematizacao_spacy"], entities["Rio Grande"])
        d1.used(activities["lematizacao_spacy"], entities["Rio Grande sem stopwords"])

        activities["lematizacao_simplemma"] = d1.activity(
            "ufrj:lematizacao_simplemma", startTime=datetime.datetime.now()
        )
        d1.used(activities["lematizacao_simplemma"], entities["Rio Grande"])
        d1.used(activities["lematizacao_simplemma"], entities["Rio Grande sem stopwords"])

        activities["lematizacao_portilexicon"] = d1.activity(
            "ufrj:lematizacao_portilexicon", startTime=datetime.datetime.now()
        )
        d1.used(activities["lematizacao_portilexicon"], entities["Rio Grande"])
        d1.used(activities["lematizacao_portilexicon"], entities["Rio Grande sem stopwords"])

        # Entidades de resultados processados
        results = {
            "lema_spacy1": "Lematização SpaCy",
            "lema_spacy2": "Lematização SpaCy sem stopwords",
            "lema_simp1": "Lematização Simplemma",
            "lema_simp2": "Lematização Simplemma sem stopwords",
            "lema_port1": "Lematização Portilexicon",
            "lema_port2": "Lematização Portilexicon sem stopwords",
        }

        for key, label in results.items():
            entities[key] = d1.entity(
                f"ufrj:{key}",
                {"prov:label": sanitize_label(label), "prov:type": "prov:Entity"},
            )
            d1.wasGeneratedBy(entities[key], activities["lematizacao_spacy"])
            d1.wasGeneratedBy(entities[key], activities["lematizacao_simplemma"])
            d1.wasGeneratedBy(entities[key], activities["lematizacao_portilexicon"])

        # Atividade de visualização
        activities["visualization"] = d1.activity(
            "ufrj:visualizacao", startTime=datetime.datetime.now()
        )
        d1.used(activities["visualization"], entities["Rio Grande"])
        d1.used(activities["visualization"], entities["Rio Grande sem stopwords"])

        # Resultado da visualização
        entities["visualization_output"] = d1.entity(
            "ufrj:visualizacao-output",
            {
                "prov:label": sanitize_label("Resultado da Visualização"),
                "prov:type": "prov:Entity",
            },
        )
        d1.wasGeneratedBy(entities["visualization_output"], activities["visualization"])

        # Associações
        d1.wasAssociatedWith(activities["lematizacao_spacy"], agents["developer"])
        d1.wasAssociatedWith(activities["lematizacao_spacy"], agents["script"])
        d1.wasAssociatedWith(activities["visualization"], agents["developer"])

        d1.wasAssociatedWith(activities["lematizacao_simplemma"], agents["developer"])
        d1.wasAssociatedWith(activities["lematizacao_simplemma"], agents["script"])
        d1.wasAssociatedWith(activities["visualization"], agents["developer"])

        d1.wasAssociatedWith(activities["lematizacao_portilexicon"], agents["developer"])
        d1.wasAssociatedWith(activities["lematizacao_portilexicon"], agents["script"])
        d1.wasAssociatedWith(activities["visualization"], agents["developer"])


        # Salvar gráfico PROV
        img_dir = "assets/img"
        os.makedirs(img_dir, exist_ok=True)
        output_path = os.path.join(img_dir, f"{nome_arquivo}.png")
        print(f"O gráfico será salvo em: {output_path}")
        dot = prov_to_dot(d1)
        dot.write_png(output_path)

        return output_path
    except Exception as e:
        print(f"An error occurred: {e}")
        return None  # Or raise the exception if you prefer


if __name__ == "__main__":
  prov_image_path = generate_prov_document("Lematizacao Rio Grande")
  print(f"Arquivo PROV gerado: {prov_image_path}")

O gráfico será salvo em: assets/img/Lematizacao Rio Grande.png
Arquivo PROV gerado: assets/img/Lematizacao Rio Grande.png
