In [7]:
# Fundamentos de Ciência de Dados
## PPGI/UFRJ 2024.2
### Profs Sergio Serra e Jorge Zavaleta
### Aluno Ubirajara S. Santos

In [8]:
import prov
import os

In [9]:
OUTPUT_DIR = './dados/saidas'
os.makedirs(OUTPUT_DIR, exist_ok=True)

In [31]:
# Fontes de Dados
data_sources = {
     "amostras_rochas_fluidos": {
        "url": "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos-amostras-de-rochas-e-fluidos/acervo-de-amostras/consolidacao-2023.zip",
        "type": "zip"},
     "setores_sirgas": {
        "url": "https://www.gov.br/anp/pt-br/assuntos/exploracao-e-producao-de-oleo-e-gas/estudos-geologicos-e-geofisicos/arquivos-classificacao-de-modelos-exploratorios/setores-sirgas.zip",
        "type": "zip"},
     "blocos_exploratorios": {
        "url": "https://gishub.anp.gov.br/geoserver/BD_ANP/ows?service=WFS&version=1.0.0&request=GetFeature&typeName=BD_ANP%3ABLOCOS_EXPLORATORIOS_SIRGAS&maxFeatures=40000&outputFormat=SHAPE-ZIP",
        "type": "zip"},
     "campos_producao": {
        "url": "https://gishub.anp.gov.br/geoserver/BD_ANP/ows?service=WFS&version=1.0.0&request=GetFeature&typeName=BD_ANP%3ACAMPOS_PRODUCAO_SIRGAS&maxFeatures=40000&outputFormat=SHAPE-ZIP",
        "type": "zip"},
     "reservas_nacionais_hc": {
        "url": "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-estatisticos/arquivos-reservas-nacionais-de-petroleo-e-gas-natural/tabela-dados-bar-2023.xlsx",
        "type": "xlsx"},
     "pocos_perfurados_2023": {
        "url": "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos-acervo-de-dados-tecnicos/pocos-publicos-2023.csv",
        "type": "csv"},
     "tabela_levantamentos_geoquimica": {
        "url": "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos-acervo-de-dados-tecnicos/tabela-levantamentos-geoquimicos.csv",
        "type": "csv"},
     "levantamento_sismico_2023": {
        "url": "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos-acervo-de-dados-tecnicos/sismicos-publicos-2023.csv",
        "type": "csv"},
     "tabela_pocos_2024": {
        "url": "./dados/entradas/Tabela_pocos_2024_Novembro_24.csv",
        "type": "csv","sep": ";"},
     "tabela_dados_geoquimica": {
        "url": "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos-acervo-de-dados-tecnicos/tabela-dados-geoquimicos.csv",
        "type": "csv"},
}

In [32]:
import sys, datetime
from prov.model import ProvDocument, Namespace
from prov.dot import prov_to_dot
from IPython.display import Image

def gerar_prov_outputs():
    entity = "EDA-PROV"
    #Gerando saída gráfica de proveniência
    dot = prov_to_dot(doc_prov)
    graph = entity+".png"
    dot.write_png(graph)

    #Gerando a Serialização - Output XML
    doc_prov.serialize(entity + ".xml", format='xml') 

    #Generating the Serialization - Output Turtle
    doc_prov.serialize(entity + ".ttl", format='rdf', rdf_format='ttl')

def adding_namespaces(document_prov):
    # Declaring namespaces for various prefixes used in the excution of Randon Walk Experiment
    document_prov.add_namespace('prov', 'http://www.w3.org/ns/prov#')
    document_prov.add_namespace('void', 'http://vocab.deri.ie/void#')
    document_prov.add_namespace('ufrj', 'https://www.ufrj.br')
    document_prov.add_namespace('ex', 'http://example.org/')  # Exemplo de namespace
    document_prov.add_namespace('prov', 'http://www.w3.org/ns/prov#')     # Padrões PROV
    document_prov.add_namespace('dc', 'http://purl.org/dc/terms/')        # Metadados Dublin Core
    document_prov.add_namespace('foaf', 'http://xmlns.com/foaf/0.1/')     # Agentes FOAF
    document_prov.add_namespace('schema', 'http://schema.org/')           # Dados estruturados Schema.org
    document_prov.add_namespace('ufrj-ppgi', 'http://www.ufrj.br/ppgi/')  # UFRJ PPGI
    document_prov.add_namespace('anp', 'https://www.gov.br/anp/pt-br')    # ANP - Agência Nacional do Petróleo, Gás Natural e Biocombustíveis
    document_prov.add_namespace('anp-dados_tec','https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/acervo-de-dados-tecnicos') # ANP - Acervo de Dados Técnicos 
    document_prov.add_namespace('petrobras','https://petrobras.com.br/')  # PETROBRAS
    return document_prov

def create_agents(document_prov):
    
    #creating agents
    dagnts={}
    dagnts["ag-ANP"] = document_prov.agent("anp:ANP", {"prov:type":"prov:Organization", "foaf:name":"Agência Nacional do Petróleo, Gás Natural e Biocombustíveis"})
    dagnts["ag-ufrj"] = document_prov.agent("ufrj:UFRJ", {"prov:type":"prov:Organization", "foaf:name":"Universidade Federal do Rio de Janeiro"})
    dagnts["ag-ppgi"] = document_prov.agent("ufrj:PPGI", {"prov:type":"prov:Organization", "foaf:name":"Programa de Pós Graduação em Informática"})
    dagnts["ag-greco"] = document_prov.agent("ufrj:GRECO", {"prov:type":"prov:Organization", "foaf:name":"Grupo de Engenharia do Conhecimento"})
    dagnts["ag-author-ubirajara"] = document_prov.agent("ufrj:Ubirajara", {"prov:type":"prov:Person", "foaf:name":"Ubirajara Simões Santos", "foaf:mbox":"ubirajas@hotmail.com"})
    dagnts["ag-author-sergio"] = document_prov.agent("ufrj:Sergio", {"prov:type":"prov:Person", "foaf:name":"Sergio Serra", "foaf:mbox":"serra@ppgi.ufrj.br"})
    dagnts["ag-author-jorge"] = document_prov.agent("ufrj:Jorge", {"prov:type":"prov:Person", "foaf:name":"Jorge Zavaleta", "foaf:mbox":"zavaleta@pet-si.ufrrj.br"})
    dagnts["ag-petrobras"] = document_prov.agent("petrobras:Petrobras", {"prov:type":"prov:Organization", "foaf:name":"Petróleo Brasiliero S.A"})
    return dagnts

def associate_ufrj_agents(agents_dictionary):
    agents_dictionary["ag-ppgi"].actedOnBehalfOf(agents_dictionary["ag-ufrj"])
    agents_dictionary["ag-greco"].actedOnBehalfOf(agents_dictionary["ag-ppgi"])
    agents_dictionary["ag-author-ubirajara"].actedOnBehalfOf(agents_dictionary["ag-greco"])
    agents_dictionary["ag-author-ubirajara"].actedOnBehalfOf(agents_dictionary["ag-petrobras"])
    agents_dictionary["ag-author-sergio"].actedOnBehalfOf(agents_dictionary["ag-ppgi"])
    agents_dictionary["ag-author-jorge"].actedOnBehalfOf(agents_dictionary["ag-ppgi"])
    return agents_dictionary

def create_initial_activities(document_prov):
    #creating activities
    dataDownloadDatasets = datetime.datetime.strptime('29/11/24', '%d/%m/%y')
    
    dativs={}
    dativs["act-create-ds"] = document_prov.activity("anp:create-dataset")
    dativs["act-extract-ds"] = document_prov.activity("ufrj:extract-dataset", dataDownloadDatasets, None)
    dativs["act-create-ds-eda"] = document_prov.activity("ufrj:create-ds-eda")
    dativs["act-save-ds"] = document_prov.activity("ufrj:save-datasets", dataDownloadDatasets, None)
    return dativs

def cria_entidades_iniciais(document_prov):
    #creating entidades
    dents={}
    
    # Entidade para amostras de rochas e fluidos
    dents["ent-amostras-rochas-fluidos"] = document_prov.entity('anp:amostras_rochas_fluidos', {'prov:label': 'Dataset com amostras de rochas e fluidos', 'prov:type': 'void:Dataset', 'prov:description': 'Consolidado 2023 de amostras disponíveis.', 'prov:format': 'zip' })
    # Entidade para setores SIRGAS
    dents["ent-setores-sirgas"] = document_prov.entity('anp:setores_sirgas', {'prov:label': 'Setores SIRGAS', 'prov:type': 'void:Dataset', 'prov:description': 'Modelos exploratórios em formato SIRGAS.', 'prov:format': 'zip'})
    # Entidade para blocos exploratórios
    dents["ent-blocos-exploratorios"] = document_prov.entity('anp:blocos_exploratorios', {'prov:label': 'Blocos exploratórios', 'prov:type': 'void:Dataset', 'prov:description': 'Blocos exploratórios com dados geoespaciais.', 'prov:format': 'zip'})
    # Entidade para campos de produção
    dents["ent-campos-producao"] = document_prov.entity('anp:campos_producao', {'prov:label': 'Campos de Produção', 'prov:type': 'void:Dataset', 'prov:description': 'Dados dos campos de produção em formato SIRGAS.', 'prov:format': 'zip'})
    # Entidade para reservas nacionais de hidrocarbonetos
    dents["ent-reservas-nacionais-hc"] = document_prov.entity('anp:reservas_nacionais_hc',{'prov:label': 'Reservas Nacionais de Hidrocarbonetos', 'prov:type': 'void:Dataset', 'prov:description': 'Tabela com dados sobre reservas nacionais.', 'prov:format': 'xlsx'})
    # Entidade para poços perfurados (2023)
    dents["ent-pocos-perfurados-2023"] = document_prov.entity('anp:pocos_perfurados_2023',{'prov:label': 'Poços perfurados - 2023', 'prov:type': 'void:Dataset', 'prov:description': 'CSV com os poços perfurados no ano de 2023.', 'prov:format': 'csv'})
    # Entidade para tabela de levantamentos geoquímicos
    dents["ent-levantamento-geoquimica"] = document_prov.entity('anp:levantamento_geoquimica',{'prov:label': 'Tabela de levantamentos geoquímicos', 'prov:type': 'void:Dataset', 'prov:description': 'Dados sobre levantamentos geoquímicos.', 'prov:format': 'csv'})
     # Entidade para tabela de dados geoquímicos
    dents["ent-tabela-geoquimica"] = document_prov.entity('anp:tabela_geoquimica',{'prov:label': 'Tabela_dados_geoquimica', 'prov:type': 'void:Dataset', 'prov:description': 'Dados geoquímicos.', 'prov:format': 'csv'})
     # Entidade para levantamento sísmico (2023)
    dents["ent-levantamento-sismico-2023"] = document_prov.entity('anp:levantamento_sismico_2023', {'prov:label': 'Levantamento Sísmico - 2023', 'prov:type': 'void:Dataset', 'prov:description': 'CSV com dados de levantamentos sísmicos públicos.', 'prov:format': 'csv'})
    # Entidade para tabela de poços (2024)
    dents["ent-tabela-pocos-2024"] = document_prov.entity('anp:tabela_pocos_2024', {'prov:label': 'Tabela de Poços - 2024', 'prov:type': 'void:Dataset', 'prov:description': 'Tabela CSV com dados atualizados de poços para 2024.', 'prov:format': 'csv'})
    # Entidade para tabela de geoquímicos (2021)     
    dents["ent-anp-dados_tec-ds"] = document_prov.entity('anp-anp-dados_tec:dados_geoq.csv', {'prov:label': 'Dataset com dados de geoquímica (atualizado em 06/08/2021)', 'prov:type': 'void:Dataset'})
    # Entidade script python
    dents["ent-eda-ipynb"] = document_prov.entity('ufrj:eda-ipyn', {'prov:label': "Notebook Python utilizado no trabalho", 'prov:type': 'foaf:Document'})
    # Entidade Git
    dents["ent-git-eda"] = document_prov.entity('anp:github-eda', {'prov:label': 'Repositorio Eba da ANP', 'prov:type': 'prov:Collection'})
    return dents

def initial_association_agents_activities_entities(document_prov, dictionary_agents, 
                                                   dictionary_activities, dictionary_entities):
    
    #Associate activity of generate dataset with ANP agent
    document_prov.wasAssociatedWith(dictionary_activities["act-create-ds"], dictionary_agents["ag-anp"])
    
    #Associating datasets with activities of generate eba datasets
    document_prov.wasGeneratedBy(dictionary_entities["ent-amostras-rochas-fluidos"], dictionary_activities["act-create-ds"])
    document_prov.wasGeneratedBy(dictionary_entities["ent-setores-sirgas"], dictionary_activities["act-create-ds"])    
    document_prov.wasGeneratedBy(dictionary_entities["ent-blocos-exploratorios"], dictionary_activities["act-create-ds"])
    document_prov.wasGeneratedBy(dictionary_entities["ent-campos-producao"], dictionary_activities["act-create-ds"])
    document_prov.wasGeneratedBy(dictionary_entities["ent-reservas-nacionais-hc"], dictionary_activities["act-create-ds"])
    document_prov.wasGeneratedBy(dictionary_entities["ent-pocos-perfurados-2023"], dictionary_activities["act-create-ds"])
    document_prov.wasGeneratedBy(dictionary_entities["ent-levantamento-geoquimica"], dictionary_activities["act-create-ds"])
    document_prov.wasGeneratedBy(dictionary_entities["ent-levantamento-sismico-2023"], dictionary_activities["act-create-ds"])
    document_prov.wasGeneratedBy(dictionary_entities["ent-tabela-pocos-2024"], dictionary_activities["act-create-ds"])
    document_prov.wasGeneratedBy(dictionary_entities["ent-anp-dados_tec-ds"], dictionary_activities["act-create-ds"])
    document_prov.wasGeneratedBy(dictionary_entities["ent-dredfp"], dictionary_activities["act-create-ds"])
    document_prov.wasGeneratedBy(dictionary_entities["ent-dredfp"], dictionary_activities["act-create-ds"])
    
    
    #Associating ZIPs, XLSX, CSV com entities do dataset genérico
    #document_prov.wasDerivedFrom(dictionary_entities["ent-dredfp2021-zip"], dictionary_entities["ent-dredfp"])  
       
    #associate activity of eda, com autor
    document_prov.wasAssociatedWith(dictionary_activities["act-create-ds-eda"], dictionary_agents["ag-author-ubirajara"])   

    #associate notebook agent with eba dataset
    #document_prov.wasAssociatedWith(dictionary_activities["act-create-ds-eda"], dictionary_agents["ag-drecvm-ipynb"])    
    
    #associate activities dataset storing with greco group
    #document_prov.wasAssociatedWith(dictionary_activities["act-save-datasets"], dictionary_agents["ag-greco"])
    #document_prov.used(dictionary_activities["act-save-datasets"],dictionary_entities["ent-cademp-ds"])
       
    #associate obinvest github repository with store datasets activity
    document_prov.wasGeneratedBy(dictionary_entities["ent-git-eda"], dictionary_activities["act-save-datasets"])
    
    #detailing csvs in github
    #document_prov.wasDerivedFrom(dictionary_entities["ent-cademp-ds"], dictionary_entities["ent-git-obinvest"])
    #document_prov.wasDerivedFrom(dictionary_entities["ent-dreitr2011-ds"], dictionary_entities["ent-git-obinvest"])

def initProvenance():
    # criando um documento vazio de proveniência
    doc_prov = ProvDocument()

    #creating namespacing of provenabce document
    doc_prov = adding_namespaces(doc_prov)
    
    #create agents
    agents_dict = create_agents(doc_prov)
    
    #creating agents hierarchy
    agents_dict = associate_ufrj_agents(agents_dict)
    
    #create initial activities
    activities_dict = create_initial_activities(doc_prov)
    
    #create initial entities
    entities_dict = create_initial_entities(doc_prov)
    
    #initial provenance associations
    initial_association_agents_activities_entities(doc_prov, agents_dict, activities_dict, entities_dict)
    
    #return provenance objects
    return doc_prov, agents_dict, activities_dict, entities_dict


In [81]:
import pandas as pd
import matplotlib
import openpyxl


ModuleNotFoundError: No module named 'openpyxl'

In [107]:
def load_data_from_source(source_name, data_sources):
    """
    Carrega dados com base no nome da fonte e na configuração em data_sources.

    Returns:
        pd.DataFrame: DataFrame com os dados carregados, ou None se houver erro.
    """
    source = data_sources.get(source_name)
    if not source:
        print(f"Fonte '{source_name}' não encontrada em data_sources.")
        return None

    file_type = source.get("type")
    url = source.get("url")
    sep = source.get("sep", ";")  # Valor padrão para CSV
    encoding = source.get("encoding", "utf-8")  # Valor padrão para codificação
    date_columns = source.get("date_columns", [])  

    try:
        if file_type == "csv":
             # Caso específico para tabela_pocos_2024
            if source_name == "tabela_pocos_2024":
                df = pd.read_csv(url, encoding="ANSI", sep=sep)
            # Caso específico para tabela_dados_geoquimica
            elif source_name == "tabela_dados_geoquimica":
                df = pd.read_csv(url, sep=sep, encoding=encoding, header=1)  # Cabeçalho na segunda linha
            else:
                df = pd.read_csv(url, sep=sep, encoding=encoding, parse_dates=date_columns)
        elif file_type == "xlsx":
            df = pd.read_excel(url)
        else:
            print(f"Tipo de arquivo '{file_type}' não suportado.")
            return None

        print(f"Dados carregados com sucesso para '{source_name}'.")
        return df
    except Exception as e:
        print(f"Erro ao carregar dados de '{source_name}': {e}")
        return None

In [108]:
df_pocos_orig = load_data_from_source("tabela_pocos_2024", data_sources)

Dados carregados com sucesso para 'tabela_pocos_2024'.


In [109]:
df_pocos_orig.shape

(30827, 60)

In [110]:
df_pocos_orig.columns


Index(['POCO', 'CADASTRO', 'OPERADOR', 'POCO_OPERADOR', 'ESTADO', 'BACIA',
       'BLOCO', 'SIG_CAMPO', 'CAMPO', 'TERRA_MAR', 'POCO_POS_ANP', 'TIPO',
       'CATEGORIA', 'RECLASSIFICACAO', 'SITUACAO', 'INÍCIO', 'TÉRMINO',
       'CONCLUSAO', 'TITULARIDADE', 'LATITUDE_BASE_4C', 'LONGITUDE_BASE_4C',
       'LATITUDE_BASE_DD', 'LONGITUDE_BASE_DD', 'DATUM_HORIZONTAL',
       'TIPO_DE_COORDENADA_DE_BASE', 'DIRECAO', 'PROFUNDIDADE_VERTICAL_M',
       'PROFUNDIDADE_SONDADOR_M', 'PROFUNDIDADE_MEDIDA_M',
       'REFERENCIA_DE_PROFUNDIDADE', 'MESA_ROTATIVA', 'COTA_ALTIMETRICA_M',
       'LAMINA_D_AGUA_M', 'DATUM_VERTICAL', 'UNIDADE_ESTRATIGRAFICA',
       'GEOLOGIA_GRUPO_FINAL', 'GEOLOGIA_FORMACAO_FINAL',
       'GEOLOGIA_MEMBRO_FINAL', 'CDPE', 'AGP', 'PC', 'PAG',
       'PERFIS_CONVENCIONAIS', 'DURANTE_PERFURACAO', 'PERFIS_DIGITAIS',
       'PERFIS_PROCESSADOS', 'PERFIS_ESPECIAIS', 'AMOSTRA_LATERAL', 'SISMICA',
       'TABELA_TEMPO_PROFUNDIDADE', 'DADOS_DIRECIONAIS', 'TESTE_A_CABO',
       'TES

In [111]:
df_sismica_2023_orig = load_data_from_source("levantamento_sismico_2023", data_sources)

Dados carregados com sucesso para 'levantamento_sismico_2023'.


In [112]:
df_sismica_2023_orig.shape


(52, 15)

In [113]:
df_sismica_2023_orig.columns

Index(['Nome', 'Categoria', 'Tipo', 'Autorização', 'Inicio', 'Término Real',
       'Confidencialidade', 'Público em', 'Ato Normativo', 'Tecnologia',
       'Bloco', 'Campo', 'Bacia', 'E.A.D', 'Operadora'],
      dtype='object')

In [114]:
df_lev_geoq_2022 = load_data_from_source("tabela_levantamentos_geoquimica", data_sources)

Dados carregados com sucesso para 'tabela_levantamentos_geoquimica'.


In [115]:
df_lev_geoq_2022.shape

(69, 8)

In [116]:
df_lev_geoq_2022.columns

Index(['Nome', 'Bacia', 'Natureza da atividade', 'Início Aquisição',
       'Término Aquisição', 'Ambiente', 'Confidencialidade', 'Shape'],
      dtype='object')

In [117]:
df_geoq_2021 = load_data_from_source("tabela_dados_geoquimica", data_sources)

Dados carregados com sucesso para 'tabela_dados_geoquimica'.


In [118]:
df_geoq_2021.shape


(4665, 38)

In [119]:
df_geoq_2021.columns

Index(['Poço', 'Extensão do Arquivo', 'Fonte dos Dados', 'Tipo de Geoquímica',
       'Topo (m)', 'Base (m)', 'Cromatografia Gasosa', 'Cromatografia Líquida',
       'Relatório', 'Análise de Óleo', 'Análise de Gás', 'Análise de Fluidos',
       'Análise de Água', 'Biomarcadores', 'Aromáticos', 'Saturados',
       'Isótopos', 'Espectrometria de Massas', 'Diamantoides',
       'Carbono Orgânico Total', 'Pirólise', 'Inclusões Fluidas',
       'Sumário de Óleo Cru', 'PVT', 'Re/Os de Asfaltenos', 'Litogeoquímica',
       'Reflectância de Vitrinita', 'Viscosidade', 'CADASTRO', 'OPERADOR',
       'ESTADO', 'BACIA', 'CAMPO', 'TITULARIDADE', 'LATITUDE', 'LONGITUDE',
       'DATUM', 'DIRECAO'],
      dtype='object')

In [80]:
df_reservas = load_data_from_source("reservas_nacionais_hc", data_sources)

Erro ao carregar dados de 'reservas_nacionais_hc': Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.
