# Códigos para a geração de dados de proveniência

- Notebook para a geração de dados de proveniência utilizando o [prov](https://github.com/trungdong/prov), uma biblioteca para a geração de proveniência em Python. A proveniência é gerada a partir de um arquivo de configuração em formato JSON. O arquivo de configuração contém as informações necessárias para a geração, como o nome do arquivo, o autor, a descrição, a data de criação, entre outros. A biblioteca prov gera um arquivo no formato PROV-JSON, que pode ser visualizado utilizando o [Prov Viewer](https://github.com/gems-uff/prov-viewer).

- O arquivo de proveniência gerado pode ser visualizado [aqui]().

[![Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/charlespimentel/DS_queimadas_pantanal/blob/main/prov_generator.ipynb)
> Execute a célula abaixo se estiver usando Google Colab para instalar as dependências necessárias.



In [1]:
# Para rodar este notebook no Google Colab, é necessário fazer o donwload dos arquivos disponibilizados no repositório do GitHub. Para isso, siga os seguintes passos:
# 1. Clique no botão "Open in Colab"
# 2. Execute a célula abaixo para fazer o download dos arquivos

# Fazer download dos arquivos do projeto no GitHub
!git clone https://github.com/charlespimentel/DS_queimadas_pantanal

# Mover todos os aquivos para a pasta raiz
!mv DS_queimadas_pantanal/* .

# Instalar as bibliotecas necessárias
!pip install prov

### Declaração das bibliotecas

In [1]:
import pandas as pd
import geopandas as gpd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import contextily as ctx
import plotly.express as px
import plotly.graph_objects as go
import folium
from prophet import Prophet

### Execução do código

In [2]:
# Importando modelo para gerar prov
from prov import model

In [3]:
# Criando um documento PROV
doc = model.ProvDocument()

In [4]:
# Declaração de namespaces
doc.set_default_namespace('https://github.com/charlespimentel/DS_queimadas_pantanal')
doc.add_namespace('LASA', 'https://lasa.ufrj.br/')
doc.add_namespace('PPGI', 'http://www.ppgi.ufrj.br/')

<Namespace: PPGI {http://www.ppgi.ufrj.br/}>

>Dataset

In [5]:
# Criando entidades
dataset = doc.entity('LASA:alarmes_hist_pantanal', {model.PROV_TYPE : 'LASA:dataset', model.PROV_LOCATION : 'https://zenodo.org/record/6799248',
                                                 'LASA:resume' : 'Results from burned area product over Brazil (Cerrado and Pantanal) derived from ALARMES developed on Laboratory for Environmental Satellite Applications (PPGI) based in Federal University of Rio de Janeiro (UFRJ) from 2012 through 2021. For additional information about these results, please see the PPGI website.',
                                                 'LASA:records' : '346666', 'LASA:columns' : '6'})
shp_2012 = doc.entity('PPGI:alarmes_hist_2012_pantanal.shp', {model.PROV_TYPE : 'File', 'LASA:size' : '4.966 MB'})
shp_2013 = doc.entity('LASA:alarmes_hist_2013_pantanal.shp', {model.PROV_TYPE : 'File', 'LASA:size' : '3.449 MB'})
shp_2014 = doc.entity('LASA:alarmes_hist_2014_pantanal.shp', {model.PROV_TYPE : 'File', 'LASA:size' : '1.776 MB'})
shp_2015 = doc.entity('LASA:alarmes_hist_2015_pantanal.shp', {model.PROV_TYPE : 'File', 'LASA:size' : '3.445 MB'})
shp_2016 = doc.entity('LASA:alarmes_hist_2016_pantanal.shp', {model.PROV_TYPE : 'File', 'LASA:size' : '5.210 MB'})
shp_2017 = doc.entity('LASA:alarmes_hist_2017_pantanal.shp', {model.PROV_TYPE : 'File', 'LASA:size' : '4.826 MB'})
shp_2018 = doc.entity('LASA:alarmes_hist_2018_pantanal.shp', {model.PROV_TYPE : 'File', 'LASA:size' : '1.218 MB'})
shp_2019 = doc.entity('LASA:alarmes_hist_2019_pantanal.shp', {model.PROV_TYPE : 'File', 'LASA:size' : '8.131 MB'})
shp_2020 = doc.entity('LASA:alarmes_hist_2020_pantanal.shp', {model.PROV_TYPE : 'File', 'LASA:size' : '14.197 MB'})
shp_2021 = doc.entity('LASA:alarmes_hist_2021_pantanal.shp', {model.PROV_TYPE : 'File', 'LASA:size' : '1.541 MB'})

In [10]:
# Criando agentes
isaac = doc.agent('PPGI:Isaac Lima', {model.PROV_TYPE : 'prov:Person', 'PPGI:position': 'Estudante',
                                           model.PROV_LOCATION : 'Programa de Pós-Graduação em Informática (PPGI) - Universidade Federal do Rio de Janeiro (UFRJ)'})
charles = doc.agent('PPGI:Charles Pimentel', {model.PROV_TYPE : 'prov:Person', 'PPGI:position': 'Estudante',
                                             model.PROV_LOCATION : 'Programa de Pós-Graduação em Informática (PPGI) - Universidade Federal do Rio de Janeiro (UFRJ)'})


In [11]:
# Relacionamentos
doc.wasAssociatedWith(dataset, isaac)
doc.wasAssociatedWith(dataset, charles)
doc.used(dataset, shp_2012, model.PROV_AT_TIME, '2012-01-01')
doc.used(dataset, shp_2013, model.PROV_AT_TIME, '2013-01-01')
doc.used(dataset, shp_2014, model.PROV_AT_TIME, '2014-01-01')
doc.used(dataset, shp_2015, model.PROV_AT_TIME, '2015-01-01')
doc.used(dataset, shp_2016, model.PROV_AT_TIME, '2016-01-01')
doc.used(dataset, shp_2017, model.PROV_AT_TIME, '2017-01-01')
doc.used(dataset, shp_2018, model.PROV_AT_TIME, '2018-01-01')
doc.used(dataset, shp_2019, model.PROV_AT_TIME, '2019-01-01')
doc.used(dataset, shp_2020, model.PROV_AT_TIME, '2020-01-01')
doc.used(dataset, shp_2021, model.PROV_AT_TIME, '2021-01-01')

AttributeError: module 'prov.model' has no attribute 'PROV_AT_TIME'

In [20]:
# Criando atividades
# Atividade 1 - get dataset
get_dataset = doc.activity('PPGI:get_dataset', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})
doc.wasAssociatedWith(get_dataset, isaac)
doc.used(get_dataset, dataset, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})

# Atividade 2 - get shapefiles from all years
get_shp_2012 = doc.activity('PPGI:get_shp_2012', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})
doc.wasAssociatedWith(get_shp_2012, isaac)
doc.used(get_shp_2012, shp_2012, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})

get_shp_2013 = doc.activity('PPGI:get_shp_2013', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})
doc.wasAssociatedWith(get_shp_2013, isaac)
doc.used(get_shp_2013, shp_2013, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})

get_shp_2014 = doc.activity('PPGI:get_shp_2014', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})
doc.wasAssociatedWith(get_shp_2014, isaac)
doc.used(get_shp_2014, shp_2014, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})

get_shp_2015 = doc.activity('PPGI:get_shp_2015', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})
doc.wasAssociatedWith(get_shp_2015, isaac)
doc.used(get_shp_2015, shp_2015, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})

get_shp_2016 = doc.activity('PPGI:get_shp_2016', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})
doc.wasAssociatedWith(get_shp_2016, isaac)
doc.used(get_shp_2016, shp_2016, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})

get_shp_2017 = doc.activity('PPGI:get_shp_2017', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})
doc.wasAssociatedWith(get_shp_2017, isaac)
doc.used(get_shp_2017, shp_2017, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})

get_shp_2018 = doc.activity('PPGI:get_shp_2018', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})
doc.wasAssociatedWith(get_shp_2018, isaac)
doc.used(get_shp_2018, shp_2018, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})

get_shp_2019 = doc.activity('PPGI:get_shp_2019', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})
doc.wasAssociatedWith(get_shp_2019, isaac)
doc.used(get_shp_2019, shp_2019, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})

get_shp_2020 = doc.activity('PPGI:get_shp_2020', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})
doc.wasAssociatedWith(get_shp_2020, isaac)
doc.used(get_shp_2020, shp_2020, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})

get_shp_2021 = doc.activity('PPGI:get_shp_2021', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})
doc.wasAssociatedWith(get_shp_2021, isaac)
doc.used(get_shp_2021, shp_2021, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:download'})

# Atividade 3 - Concatenate all shapefiles
concatenate_shp = doc.activity('PPGI:concatenate_shp', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:concatenate'})
doc.wasAssociatedWith(concatenate_shp, isaac)
doc.used(concatenate_shp, shp_2012, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:concatenate'})
doc.used(concatenate_shp, shp_2013, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:concatenate'})
doc.used(concatenate_shp, shp_2014, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:concatenate'})
doc.used(concatenate_shp, shp_2015, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:concatenate'})
doc.used(concatenate_shp, shp_2016, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:concatenate'})
doc.used(concatenate_shp, shp_2017, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:concatenate'})
doc.used(concatenate_shp, shp_2018, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:concatenate'})
doc.used(concatenate_shp, shp_2019, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:concatenate'})
doc.used(concatenate_shp, shp_2020, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:concatenate'})
doc.used(concatenate_shp, shp_2021, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:concatenate'})

# Dataset concatenado
shp_concatenado = doc.entity('PPGI:shp_concatenado', {model.PROV_LABEL : 'shp_concatenado', model.PROV_TYPE : 'PPGI:dataset'})

# Atividade 4 - Clean data
clean_data = doc.activity('PPGI:clean_data', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:clean'})
doc.wasAssociatedWith(clean_data, isaac)
doc.used(clean_data, shp_concatenado, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:clean'})

# Atividade 5 - Explorative analysis
explorative_analysis = doc.activity('PPGI:explorative_analysis', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:explorative'})
doc.wasAssociatedWith(explorative_analysis, isaac)
doc.used(explorative_analysis, clean_data, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:explorative'})

# Atividade 6 - Export data
export_data = doc.activity('PPGI:export_data', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:export'})
doc.wasAssociatedWith(export_data, isaac)
doc.used(export_data, explorative_analysis, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:export'})

# Atividade 7 - Predict data with model for 2022
predict_data = doc.activity('PPGI:predict_data', '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:predict'})
doc.wasAssociatedWith(predict_data, isaac)
doc.used(predict_data, export_data, '2021-09-01', '2021-09-01', {model.PROV_TYPE : 'PPGI:predict'})

<ProvUsage: 2021-09-01 (PPGI:predict_data, PPGI:export_data)>

In [21]:
cleaned_data = doc.entity('PPGI:cleaned_data', {model.PROV_LABEL : 'Cleaned data', model.PROV_TYPE : 'PPGI:dataset'})
exported_data = doc.entity('PPGI:exported_data', {model.PROV_LABEL : 'Exported data', model.PROV_TYPE : 'PPGI:dataset'})
predicted_data = doc.entity('PPGI:predicted_data', {model.PROV_LABEL : 'Predicted data', model.PROV_TYPE : 'PPGI:dataset'})
dashboard = doc.entity('PPGI:dashboard', {model.PROV_LABEL : 'Dashboard', model.PROV_TYPE : 'PPGI:dashboard'})
artigo = doc.entity('PPGI:Queimadas no Pantanal: uma análise exploratória dos últimos 10 anos')
grupo = doc.agent('PPGI:Grupo 4', {model.PROV_TYPE : 'prov:Organization', model.PROV_ROLE : 'Grupo de Trabalho', model.PROV_LOCATION : 'Fundamentos de Ciência de Dados / PPGI-UFRJ',
                                   'PPGI:members' : 'Isaac Lima, Charles Pimentel'})

In [27]:
shp_concatenado.wasGeneratedBy(concatenate_shp)
cleaned_data.wasGeneratedBy(clean_data)
cleaned_data.wasDerivedFrom(concatenate_shp, clean_data)
exported_data.wasGeneratedBy(export_data)
exported_data.wasDerivedFrom(clean_data)
predicted_data.wasGeneratedBy(predict_data)
predicted_data.wasDerivedFrom(export_data)
dashboard.wasGeneratedBy(explorative_analysis)
artigo.wasGeneratedBy(explorative_analysis)
artigo.wasDerivedFrom(dataset)
artigo.wasAttributedTo(grupo)
print(doc.get_provn())



document
  default <https://github.com/charlespimentel/DS_queimadas_pantanal>
  prefix LASA <https://lasa.ufrj.br/>
  prefix PPGI <http://www.ppgi.ufrj.br/>
  
  entity(LASA:alarmes_hist_pantanal, [prov:type="LASA:dataset", prov:location="https://zenodo.org/record/6799248", LASA:resume="Results from burned area product over Brazil (Cerrado and Pantanal) derived from ALARMES developed on Laboratory for Environmental Satellite Applications (LASA) based in Federal University of Rio de Janeiro (UFRJ) from 2012 through 2021. For additional information about these results, please see the LASA website.", LASA:records="346666", LASA:columns="6"])
  entity(LASA:alarmes_hist_2012_pantanal.shp, [prov:type="File", LASA:size="4.966 MB"])
  entity(LASA:alarmes_hist_2013_pantanal.shp, [prov:type="File", LASA:size="3.449 MB"])
  entity(LASA:alarmes_hist_2014_pantanal.shp, [prov:type="File", LASA:size="1.776 MB"])
  entity(LASA:alarmes_hist_2015_pantanal.shp, [prov:type="File", LASA:size="3.445 MB"])
 

In [32]:
# Export the provenance document to png
from prov import dot
filename = 'prov.png'
# Save the provenance graph
dot = dot.prov_to_dot(doc)
dot.write_png(filename)
# Visualize the graph file
from IPython.display import Image

Image(filename)

"dot" with args ['-Tpng', 'C:\\Users\\User\\AppData\\Local\\Temp\\tmp8kfjlyjg'] returned code: 1

stdout, stderr:
 b''
b''



AssertionError: "dot" with args ['-Tpng', 'C:\\Users\\User\\AppData\\Local\\Temp\\tmp8kfjlyjg'] returned code: 1

_______________________________

In [3]:
# Criando novo documento de proveniência
d1 = ProvDocument()

In [4]:
# Declarando namespaces
d1.add_namespace('now', 'https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx/nownews/')
d1.add_namespace('foaf', 'http://xmlns.com/foaf/0.1/')
d1.add_namespace('art', 'https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx/ns/#')

<Namespace: art {https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx/ns/#}>

In [5]:
#Entidade
e1 = d1.entity('now:https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx')
d1.agent('foaf:Isaac, Charles')

<ProvAgent: foaf:Isaac, Charles>

In [6]:
# Atribuindo o artigo ao agente
d1.wasAttributedTo(e1, 'foaf:Isaac, Charles')

<ProvAttribution: (now:https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx, foaf:Isaac, Charles)>

In [7]:
# Declarando namespace
d1.add_namespace('Lasa', 'https://lasa.ufrj.br/')

<Namespace: Lasa {https://lasa.ufrj.br/}>

In [8]:
d1.entity( 'Lasa:https://github.com/charlespimentel/DS_queimadas_pantanal/tree/main/Data_Lasa_12_21' ,{'prov:label':'Lasa_12_21','prov: type':'void: Dataset'})

<ProvEntity: Lasa:https://github.com/charlespimentel/DS_queimadas_pantanal/tree/main/Data_Lasa_12_21>

In [9]:
# Adicionando uma Atividade
d1.add_namespace('is', 'https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx/is/#')
d1.activity('is:writeArticle')

<ProvActivity: is:writeArticle>

In [10]:
# Uso e Geração
d1.used('is:writeArticle', 'Lasa:https://github.com/charlespimentel/DS_queimadas_pantanal/tree/main/Data_Lasa_12_21')
d1.wasGeneratedBy('now:https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx', 'is:writeArticle')

<ProvGeneration: (now:https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx, is:writeArticle)>

In [11]:
agent    = input("Enter the name of the AGENT WHO is running the program: ")        #PROV-Agent
entity   = input("Enter the name of the ENTITY dataset: ")                          #PROV-Entity
activity = input("Enter the name of the ACTIVITY: ")                                #PROV-Activity
graph = entity

In [12]:
d1.add_namespace('ufrj', 'http://www.ufrj.br/ppgi/')
d1.add_namespace('foaf', 'http://xmlns.com/foaf/0.1/')
d1.add_namespace('greco', 'http://www.ufrj.br/ppgi/greco/#')

<Namespace: greco {http://www.ufrj.br/ppgi/greco/#}>

In [13]:
# Adicionando Entidade
entity = "ufrj:"+ entity
e1 = d1.entity(entity)

# Adicionando Agente
agent = "foaf:"+ agent
d1.agent(agent)

# Atribuindo a execução do experimento ao PROV-Agent
d1.wasAttributedTo(e1, agent)

# Adicionando uma atividade
activity = "greco:"+ activity
d1.activity(activity)

# Geração
d1.wasGeneratedBy( entity, activity)

<ProvGeneration: (ufrj:Lasa, greco:analysis)>

In [14]:
# Adicionando um papel para o PROV-Agent
d1.agent(agent, {'prov:hadRole': 'Executor', 'foaf:mbox': '{pimentelufrj,isaac.dcesares}@gmail.com', 'prov:attributedAtTime': str(datetime.datetime.utcnow())})
d1.entity(entity, {'prov:generatedAtTime': str(datetime.datetime.utcnow())})

<ProvEntity: ufrj:Lasa>

In [15]:
d1.wasDerivedFrom('now:https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx', 'Lasa:https://github.com/charlespimentel/DS_queimadas_pantanal/tree/main/Data_Lasa_12_21')

<ProvDerivation: (now:https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx, Lasa:https://github.com/charlespimentel/DS_queimadas_pantanal/tree/main/Data_Lasa_12_21)>

In [16]:
# O que temos até agora (in PROV-N)
print(d1.get_provn())

document
  prefix now <https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx/nownews/>
  prefix foaf <https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx/nownews/people/>
  prefix art <https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx/ns/#>
  prefix Lasa <https://lasa.ufrj.br/>
  prefix is <https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx/is/#>
  prefix ufrj <http://www.ufrj.br/ppgi/>
  prefix foaf_1 <http://xmlns.com/foaf/0.1/>
  prefix greco <http://www.ufrj.br/ppgi/greco/#>
  
  entity(now:https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx)
  agent(foaf:Isaac, Charles)
  wasAttributedTo(now:https://github.com/charlespimentel/DS_queimadas_pantanal/blob/main/artigo_queimadas_pantanal.docx, foaf:Isaac, Charles)
  entity(Lasa:https://github.com/charlespimen

In [20]:
from prov.dot import prov_to_dot
dot = prov_to_dot(d1)
graph = graph +".png"
dot.write_png('article-prov.png')

"dot" with args ['-Tpng', 'C:\\Users\\User\\AppData\\Local\\Temp\\tmp8649u75e'] returned code: 1

stdout, stderr:
 b''
b''



AssertionError: "dot" with args ['-Tpng', 'C:\\Users\\User\\AppData\\Local\\Temp\\tmp8649u75e'] returned code: 1