# !! Atenção, professor !!
No modo escuro, verifiquei que o GitHub pode não exibir corretamente as saídas dos dataframes Spark.

Pode ser necessário alterar para o modo claro para conseguir ver os cabeçalhos das tabelas.

O GitHub pede desculpas por esse inconveniente.

# Descrição do trabalho

## Objetivo
Cada vez mais, o mundo tem se tornado ciente da importância e necessidade de adaptação às mudanças climáticas. A crescente conscientização sobre os impactos negativos das emissões de carbono tem impulsionado governos, empresas e organizações a implementar estratégias de descarbonização, visando atender ao Acordo de Paris e mitigar os efeitos do aquecimento global. O objetivo deste trabalho é obter perspectivas sobre os esforços de descarbonização realizados ao redor do mundo, analisando tendências, investimentos e resultados. 

Tentaremos responder a algumas perguntas sobre o tema:

- Os investimentos em descarbonização têm aumentado?
- Quais investimentos estão previstos para o futuro?
- Quais são os países que mais têm investido em descarbonização?
- Quais são as empresas que mais têm investido em descarbonização?
- Em quais setores da indústria os esforços em descarbonização mais têm sido aplicados?
- Quais as principais tecnologias que estão sendo utilizadas?
- Qual a quantidade de emissões de carbono que se espera reduzir nos próximos anos?

## Coleta de dados
Para este trabalho, usaremos o conjunto de dados "CCUS Projects Database" disponibilizado pela International Energy Agency (IEA).

Trata-se de dados sobre projetos de Captura, Utilização e Armazenamento de Carbono (CCUS) ao redor do mundo. São dados gratuitos, disponíveis para download no endereço https://www.iea.org/data-and-statistics/data-product/ccus-projects-database mediante a criação de uma conta. Eles foram atualizados em 15/03/2024 e são disponibilizados sob a licença Creative Commons Attribution 4.0.

Devido à necessidade de login, não é possível acessar os dados diretamente via URL. Assim, os dados foram baixados e armazenados no GitHub, e este código lerá os dados desse endereço. Dessa forma, no caso de uma atualização do conjunto de dados, um usuário de negócio pode apenas atualizar o arquivo Excel e uma rotina agendada atualizaria os dados no Databricks automaticamente.

## Modelagem
Os dados estão disponíveis em uma tabela do Excel. Essa tabela será gravada na base em um modelo flat, após as transformações necessárias e pertinentes.

Metadados sobre a tabela e os campos também serão definidos e gravados no catálogo do Databricks.

### Informações do Catálogo de Dados

A tabela contém informações sobre projetos de captura, utilização e armazenamento de carbono (CCUS) ao redor do mundo. Ela inclui dados como o nome dos projetos, país, parceiros envolvidos, tipo de projeto, ano de anúncio, ano da decisão final de investimento, ano de operação, ano de suspensão/descomissionamento, status do projeto, fase do projeto, capacidade anunciada e estimada para captura, transporte e armazenamento de CO2, setor, destino do carbono, se o projeto faz parte de um hub CCUS, região, e links para artigos de notícias sobre o projeto. Esta tabela fornece insights valiosos sobre o panorama global dos projetos de CCUS e seu status atual. Os dados foram obtidos da International Energy Agency (IEA), em um arquivo Excel disponível no endereço https://www.iea.org/data-and-statistics/data-product/ccus-projects-database.

A tabela final possuirá os seguintes campos:

**Project_name**: Nome do projeto. Texto livre, não deve ser vazio.

**ID**: Identificação única do projeto. Deve ser um número inteiro e único.

**Country**: País(es) onde o projeto está localizado. Texto livre.

**Partners**: Parceiros envolvidos no projeto. Texto livre.

**Project_type**: Tipo de projeto. Valores possíveis: Full chain (Cadeia completa), Capture (Captura), Transport (Transporte), Storage (Armazenamento), T&S (Transporte e armazenamento), ou CCU (Captura e Utilização).

**Announcement**: Ano de anúncio do projeto, com quatro dígitos.

**FID**: Ano ocorrido ou planejado da decisão final de investimento, com quatro dígitos.

**Operation**: Ano ocorrido ou planejado de início da operação do projeto, com quatro dígitos.

**Suspension_decommissioning**: Ano ocorrido ou planejado de suspensão ou descomissionamento do projeto, com quatro dígitos.

**Project_Status**: Status atual do projeto. Valores possíveis: Planned (Planejado), Under construction (Em construção), Operational (Operacional), Suspended (Suspenso), ou Decommissioned (Descomissionado).

**Project_phase**: Fase atual do projeto. Número inteiro maior ou igual a 1.

**Announced_capacity_low_Mt_CO2_yr**: Capacidade mínima anunciada para captura de CO2 em milhões de toneladas por ano. Número decimal maior ou igual a zero.

**Announced_capacity_high_Mt_CO2_yr**: Capacidade máxima anunciada para captura de CO2 em milhões de toneladas por ano. Número decimal maior ou igual a zero.

**Estimated_capacity_by_IEA_Mt_CO2_yr**: Capacidade estimada pela IEA para captura de CO2 em milhões de toneladas por ano. Número decimal maior ou igual a zero.

**Sector**: Setor onde a captura de carbono é feita. Valores possíveis: Power and heat (Energia e calor), Natural gas processing/LNG (Processamento de gás natural), Biofuels (Biocombustíveis), Hydrogen or ammonia (Hidrogênio ou amônia), Other fuel transformation (Outras transformações de combustíveis), Cement (Cimento), Iron and steel (Ferro e aço), Chemicals (Química), Other industry (Outra indústria), DAC (Captura direta do ar), Transport (Transporte), Storage (Armazenamento), T&S (Transporte e armazenamento).

**Fate_of_carbon**: Destino do carbono capturado. Valores possíveis: Dedicated storage (Armazenamento dedicado), EOR (Recuperação de petróleo), Use (Uso), Unknown/unspecified (Desconhecido).

**Part_of_CCUS_hub**: Indica se o projeto faz parte de um hub CCUS. Texto livre.

**Region**: Região onde o projeto está localizado. Texto livre.

**Ref_1**: Link para o primeiro artigo de notícias sobre o projeto. Texto, deve ser um URL válido.

**Ref_2**: Link para o segundo artigo de notícias sobre o projeto. Texto, deve ser um URL válido.

**Ref_3**: Link para o terceiro artigo de notícias sobre o projeto. Texto, deve ser um URL válido.

**Ref_4**: Link para o quarto artigo de notícias sobre o projeto. Texto, deve ser um URL válido.

**Ref_5**: Link para o quinto artigo de notícias sobre o projeto. Texto, deve ser um URL válido.

**Ref_6**: Link para o sexto artigo de notícias sobre o projeto. Texto, deve ser um URL válido.

**Ref_7**: Link para o sétimo artigo de notícias sobre o projeto. Texto, deve ser um URL válido.

### Definir variáveis do catálogo

In [0]:
descricao = "A tabela contém informações sobre projetos de captura, utilização e armazenamento de carbono (CCUS) ao redor do mundo. Ela inclui dados como o nome dos projetos, país, parceiros envolvidos, tipo de projeto, ano de anúncio, ano da decisão final de investimento, ano de operação, ano de suspensão/descomissionamento, status do projeto, fase do projeto, capacidade anunciada e estimada para captura, transporte e armazenamento de CO2, setor, destino do carbono, se o projeto faz parte de um hub CCUS, região, e links para artigos de notícias sobre o projeto. Esta tabela fornece insights valiosos sobre o panorama global dos projetos de CCUS e seu status atual. Os dados foram obtidos da International Energy Agency (IEA), de um arquivo Excel disponível no endereço https://www.iea.org/data-and-statistics/data-product/ccus-projects-database."

In [0]:
comentarios = {
    "Project_name": "Nome do projeto. Texto livre, não deve ser vazio.",
    "ID": "Identificação única do projeto. Deve ser um número inteiro e único.",
    "Country": "País(es) onde o projeto está localizado. Texto livre.",
    "Partners": "Parceiros envolvidos no projeto. Texto livre.",
    "Project_type": "Tipo de projeto. Valores possíveis: Full chain (Cadeia completa), Capture (Captura), Transport (Transporte), Storage (Armazenamento), T&S (Transporte e armazenamento), ou CCU (Captura e Utilização).",
    "Announcement": "Ano de anúncio do projeto, com quatro dígitos.",
    "FID": "Ano ocorrido ou planejado da decisão final de investimento, com quatro dígitos.",
    "Operation": "Ano ocorrido ou planejado de início da operação do projeto, com quatro dígitos.",
    "Suspension_decommissioning": "Ano ocorrido ou planejado de suspensão ou descomissionamento do projeto, com quatro dígitos.",
    "Project_Status": "Status atual do projeto. Valores possíveis: Planned (Planejado), Under construction (Em construção), Operational (Operacional), Suspended (Suspenso), ou Decommissioned (Descomissionado).",
    "Project_phase": "Fase atual do projeto. Número inteiro maior ou igual a 1.",
    "Announced_capacity_low_Mt_CO2_yr": "Capacidade mínima anunciada para captura de CO2 em milhões de toneladas por ano. Número decimal maior ou igual a zero.",
    "Announced_capacity_high_Mt_CO2_yr": "Capacidade máxima anunciada para captura de CO2 em milhões de toneladas por ano. Número decimal maior ou igual a zero.",
    "Estimated_capacity_by_IEA_Mt_CO2_yr": "Capacidade estimada pela IEA para captura de CO2 em milhões de toneladas por ano. Número decimal maior ou igual a zero.",
    "Sector": "Setor onde a captura de carbono é feita. Valores possíveis: Power and heat (Energia e calor), Natural gas processing/LNG (Processamento de gás natural), Biofuels (Biocombustíveis), Hydrogen or ammonia (Hidrogênio ou amônia), Other fuel transformation (Outras transformações de combustíveis), Cement (Cimento), Iron and steel (Ferro e aço), Chemicals (Química), Other industry (Outra indústria), DAC (Captura direta do ar), Transport (Transporte), Storage (Armazenamento), T&S (Transporte e armazenamento).",
    "Fate_of_carbon": "Destino do carbono capturado. Valores possíveis: Dedicated storage (Armazenamento dedicado), EOR (Recuperação de petróleo), Use (Uso), Unknown/unspecified (Desconhecido).",
    "Part_of_CCUS_hub": "Indica se o projeto faz parte de um hub CCUS. Texto livre.",
    "Region": "Região onde o projeto está localizado. Texto livre.",
    "Ref_1": "Link para o primeiro artigo de notícias sobre o projeto. Texto, deve ser um URL válido.",
    "Ref_2": "Link para o segundo artigo de notícias sobre o projeto. Texto, deve ser um URL válido.",
    "Ref_3": "Link para o terceiro artigo de notícias sobre o projeto. Texto, deve ser um URL válido.",
    "Ref_4": "Link para o quarto artigo de notícias sobre o projeto. Texto, deve ser um URL válido.",
    "Ref_5": "Link para o quinto artigo de notícias sobre o projeto. Texto, deve ser um URL válido.",
    "Ref_6": "Link para o sexto artigo de notícias sobre o projeto. Texto, deve ser um URL válido.",
    "Ref_7": "Link para o sétimo artigo de notícias sobre o projeto. Texto, deve ser um URL válido."
}

# Configurações iniciais

## Bibliotecas

In [0]:
!pip install openpyxl --quiet
!pip install unidecode --quiet


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.2.2[0m[39;49m -> [0m[32;49m24.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.2.2[0m[39;49m -> [0m[32;49m24.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [0]:
import pandas as pd
import re
from pyspark.sql import functions as sf
from unidecode import unidecode

## Parâmetros

In [0]:
# Definições do arquivo Excel
sheetname = "CCUS Projects Database"
cellposition = "A1"

In [0]:
# Parâmetros de gravação da tabela
catalogo = "dt0051_dev"
schema = "treinamento"
tabela = "iea_ccus_projects"

## Caminhos

In [0]:
# Caminho dos dados
path_arquivo = "https://github.com/samuelrubert/pucrio-mvp-engenhariadados/raw/main/Dados/IEA_CCUS_Projects_Database.xlsx"

# Extração

## Leitura do arquivo Excel

Usaremos o pandas para ler o arquivo Excel a partir do url externo.

In [0]:
df_pandas = pd.read_excel(path_arquivo, sheet_name=sheetname, header=0)
df_pandas.head()

Unnamed: 0,Project name,ID,Country,Partners,Project type,Announcement,FID,Operation,Suspension/decommissioning,Project Status,Project phase,Announced capacity (Mt CO2/yr),Estimated capacity by IEA (Mt CO2/yr),Sector,Fate of carbon,Part of CCUS hub,Region,Ref 1,Ref 2,Ref 3,Ref 4,Ref 5,Ref 6,Ref 7,Link 1,Link 2,Link 3,Link 4,Link 5,Link 6,Link 7
0,3D DMX ArcelorMittal and IFPEN Dunkirk (full-s...,1,France,"ArcelorMittal, ifp, Axens, Uetikon, Grassco, b...",Capture,2019.0,,2025.0,,Planned,2.0,0.7,0.7,Iron and steel,Unknown/unspecified,,Europe,https://automotive.arcelormittal.com/news_and_...,https://3d-ccus.com/3d-overview/,,,,,,Link 1,Link 2,,,,,
1,3D DMX ArcelorMittal and IFPEN Dunkirk 'REUZE',751,France,"ArcelorMittal, Engie, Infinium",CCU,2022.0,2024.0,2025.0,,Planned,1.0,0.3,0.3,Iron and steel,Use,,Europe,https://newsroom.engie.com/actualites/engie-et...,https://corporate.arcelormittal.com/climate-ac...,,,,,,Link 1,Link 2,,,,,
2,7 Blue Ammonia Facility,1055,Qatar,"QAFCO, thyssenkrupp Uhde/Consolidated Contract...",Full Chain,2022.0,2022.0,2026.0,,Under construction,,1.5,1.5,Hydrogen or ammonia,Unknown/unspecified,,Middle East,https://www.qafco.qa/content/qafco-7-announcement,https://www.thyssenkrupp.com/en/newsroom/press...,,,,,,Link 1,Link 2,,,,,
3,8Rivers H2 (8RH2) (WY),3,United States,"8Rivers, Wyoming Energy Authority",Capture,2022.0,,,,Planned,,,,Hydrogen or ammonia,Dedicated storage,,North America,https://8rivers.com/portfolio/8-rivers-hydrogen/#,,,,,,,Link 1,,,,,,
4,Abadi CCS/CCUS,227,Indonesia,"Inpex Masela 65%, Shell (trying to find a buye...",Full chain,2018.0,,2027.0,,Planned,,2.41,2.41,Natural gas processing/LNG,Unknown/unspecified,,Other Asia Pacific,https://www.upstreamonline.com/lng/inpex-furth...,https://www.ogj.com/pipelines-transportation/l...,https://www.spglobal.com/commodityinsights/en/...,,,,,Link 1,Link 2,Link 3,,,,


Vamos verificar os tipos de dados inferidos pelo pandas. Pode ser necessário fazer alguma correção posterior.

In [0]:
df_pandas.dtypes

Project name                              object
ID                                         int64
Country                                   object
Partners                                  object
Project type                              object
Announcement                             float64
FID                                      float64
Operation                                float64
Suspension/decommissioning               float64
Project Status                            object
Project phase                            float64
Announced capacity (Mt CO2/yr)            object
Estimated capacity by IEA (Mt CO2/yr)    float64
Sector                                    object
Fate of carbon                            object
Part of CCUS hub                          object
Region                                    object
Ref 1                                     object
Ref 2                                     object
Ref 3                                     object
Ref 4               

De fato, verificamos que algumas colunas que tratam apenas de números inteiros foram inferidas como float64. Ajustaremos isso adiante.

## Conversão em dataframe Spark

Vamos converter os dados para um dataframe Spark, que usaremos para fazer o tratamento.

In [0]:
df = spark.createDataFrame(df_pandas)
display(df.limit(10))

Project name,ID,Country,Partners,Project type,Announcement,FID,Operation,Suspension/decommissioning,Project Status,Project phase,Announced capacity (Mt CO2/yr),Estimated capacity by IEA (Mt CO2/yr),Sector,Fate of carbon,Part of CCUS hub,Region,Ref 1,Ref 2,Ref 3,Ref 4,Ref 5,Ref 6,Ref 7,Link 1,Link 2,Link 3,Link 4,Link 5,Link 6,Link 7
3D DMX ArcelorMittal and IFPEN Dunkirk (full-scale),1,France,"ArcelorMittal, ifp, Axens, Uetikon, Grassco, brevik, TotalEnergies (T&S)",Capture,2019.0,,2025.0,,Planned,2.0,0.7,0.7,Iron and steel,Unknown/unspecified,,Europe,https://automotive.arcelormittal.com/news_and_stories/news/2019DMXproject,https://3d-ccus.com/3d-overview/,,,,,,Link 1,Link 2,,,,,
3D DMX ArcelorMittal and IFPEN Dunkirk 'REUZE',751,France,"ArcelorMittal, Engie, Infinium",CCU,2022.0,2024.0,2025.0,,Planned,1.0,0.3,0.3,Iron and steel,Use,,Europe,https://newsroom.engie.com/actualites/engie-et-infinium-annoncent-un-partenariat-pour-developper-un-hub-industriel-denvergure-europeenne-de-production-de-carburants-de-synthese-a-dunkerque-6d4d-ff316.html,https://corporate.arcelormittal.com/climate-action/decarbonisation-technologies/the-3d-project-dmx-demonstration-in-dunkirk,,,,,,Link 1,Link 2,,,,,
7 Blue Ammonia Facility,1055,Qatar,"QAFCO, thyssenkrupp Uhde/Consolidated Contractors Company (EPC)",Full Chain,2022.0,2022.0,2026.0,,Under construction,,1.5,1.5,Hydrogen or ammonia,Unknown/unspecified,,Middle East,https://www.qafco.qa/content/qafco-7-announcement,https://www.thyssenkrupp.com/en/newsroom/press-releases/pressdetailpage/thyssenkrupp-uhde-to-build-world-scale-blue-ammonia-plant-in-qatar-138369,,,,,,Link 1,Link 2,,,,,
8Rivers H2 (8RH2) (WY),3,United States,"8Rivers, Wyoming Energy Authority",Capture,2022.0,,,,Planned,,,,Hydrogen or ammonia,Dedicated storage,,North America,https://8rivers.com/portfolio/8-rivers-hydrogen/#,,,,,,,Link 1,,,,,,
Abadi CCS/CCUS,227,Indonesia,"Inpex Masela 65%, Shell (trying to find a buyer for its shares), ITB (feasibility)",Full chain,2018.0,,2027.0,,Planned,,2.41,2.41,Natural gas processing/LNG,Unknown/unspecified,,Other Asia Pacific,https://www.upstreamonline.com/lng/inpex-further-delays-flagship-abadi-lng-project/2-1-1173044,https://www.ogj.com/pipelines-transportation/lng/article/14292056/inpex-submits-ccs-plan-for-abadi-lng-project,https://www.spglobal.com/commodityinsights/en/market-insights/latest-news/lng/092823-interview-indonesia-to-finalize-presidential-ccsccus-regulation-by-year-end,,,,,Link 1,Link 2,Link 3,,,,
Ackerman Combined Cycle Plant (MS),975,United States,"Trifecta Renewable Solutions, Tennessee Valley Authority",Capture,2023.0,,,,Planned,,1.8,1.8,Power and heat,Dedicated storage,Red Hills CO2 storage hub (MS),North America,https://www.energy.gov/fecm/project-selections-foa-2711-carbon-storage-validation-and-testing-round-2,,,,,,,Link 1,,,,,,
Acorn CCS phase 1-Capture at St Fergus,7,United Kingdom,"Storegga(30%), Shell (30%), Harbour (30%), North Sea Midstream partners (10%)",Capture,2016.0,2024.0,2028.0,,Planned,,0.3,0.3,Natural gas processing/LNG,Dedicated storage,Acorn CCS,Europe,https://www.upstreamonline.com/energy-transition/five-proposed-uk-carbon-capture-projects-meet-governments-eligibility-test/2-1-1047222,https://www.offshore-energy.biz/carbon-clean-to-carry-out-feed-on-acorn-carbon-capture-plant/,https://www.backthescottishcluster.co.uk/the-scottish-cluster-supply-chain,https://www.storegga.earth/news/2021/news/acorn-project-partners-storegga-shell-u-k-and-harbour-energy-sign-mou-with-the-owners-of-the-segal-and-fuka-gas-terminals-at-st-fergus/,https://www.scottishconstructionnow.com/articles/acorn-project-partners-select-carbon-clean-to-deliver-st-fergus-carbon-capture-plant-feed-study,https://www.energyvoice.com/oilandgas/north-sea/370332/st-fergus-terminal-owner-joins-acorn-ccs-project-as-partner,,Link 1,Link 2,Link 3,Link 4,Link 5,Link 6,
Acorn CCS phase 1-T&S,8,United Kingdom,"Storegga(30%), Shell (30%), Harbour (30%), North Sea Midstream partners (10%)",T&S,2016.0,2024.0,2028.0,,Planned,1.0,0.3 - 0.8,0.8,T&S,Dedicated storage,Acorn CCS,Europe,https://www.upstreamonline.com/energy-transition/five-proposed-uk-carbon-capture-projects-meet-governments-eligibility-test/2-1-1047222,https://www.offshore-energy.biz/carbon-clean-to-carry-out-feed-on-acorn-carbon-capture-plant/,https://www.backthescottishcluster.co.uk/the-scottish-cluster-supply-chain,https://www.storegga.earth/news/2021/news/acorn-project-partners-storegga-shell-u-k-and-harbour-energy-sign-mou-with-the-owners-of-the-segal-and-fuka-gas-terminals-at-st-fergus/,https://www.scottishconstructionnow.com/articles/acorn-project-partners-select-carbon-clean-to-deliver-st-fergus-carbon-capture-plant-feed-study,https://www.energyvoice.com/oilandgas/north-sea/370332/st-fergus-terminal-owner-joins-acorn-ccs-project-as-partner,,Link 1,Link 2,Link 3,Link 4,Link 5,Link 6,
Acorn CCS phase 2,9,United Kingdom,"Storegga(30%), Shell (30%), Harbour (30%), North Sea Midstream partners (10%)",T&S,2017.0,,,,Planned,2.0,5,5.0,T&S,Dedicated storage,Acorn CCS,Europe,https://www.upstreamonline.com/energy-transition/five-proposed-uk-carbon-capture-projects-meet-governments-eligibility-test/2-1-1047222,https://www.offshore-energy.biz/carbon-clean-to-carry-out-feed-on-acorn-carbon-capture-plant/,https://www.backthescottishcluster.co.uk/the-scottish-cluster-supply-chain,https://www.storegga.earth/news/2021/news/acorn-project-partners-storegga-shell-u-k-and-harbour-energy-sign-mou-with-the-owners-of-the-segal-and-fuka-gas-terminals-at-st-fergus/,https://www.scottishconstructionnow.com/articles/acorn-project-partners-select-carbon-clean-to-deliver-st-fergus-carbon-capture-plant-feed-study,https://www.energyvoice.com/oilandgas/north-sea/370332/st-fergus-terminal-owner-joins-acorn-ccs-project-as-partner,https://www.theacornproject.uk/news-and-events/nsta-grants-carbon-storage-licences-to-acorn,Link 1,Link 2,Link 3,Link 4,Link 5,Link 6,Link 7
Acorn H2,10,United Kingdom,"Storegga, Chrysaor, Shell",Capture,2018.0,,2028.0,,Planned,,0.4,0.4,Hydrogen or ammonia,Dedicated storage,Acorn CCS,Europe,https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/866380/Phase_1_-_Pale_Blue_Dot_Energy_-_Acorn_Hydrogen.pdf,,,,,,,Link 1,,,,,,


# Transformação

## Tratar nomes das colunas
Primeiramente vamos renomear as colunas para um formato compatível com SQL, substituindo espaços e caracteres especiais.

In [0]:
# Dicionário de nomes
dict_rename = {}

# Criar nomes tratados
for c in df.columns:
    nome_ok = c.strip()
    nome_ok = nome_ok.replace('/', '_')
    nome_ok = re.sub('[^A-Za-z0-9_ ]+', '', unidecode(nome_ok))
    nome_ok = re.sub('\s+','_', nome_ok)
    dict_rename[c] = nome_ok

# Renomear colunas no dataframe
df = df.withColumnsRenamed(dict_rename)

display(df.limit(3))

Project_name,ID,Country,Partners,Project_type,Announcement,FID,Operation,Suspension_decommissioning,Project_Status,Project_phase,Announced_capacity_Mt_CO2_yr,Estimated_capacity_by_IEA_Mt_CO2_yr,Sector,Fate_of_carbon,Part_of_CCUS_hub,Region,Ref_1,Ref_2,Ref_3,Ref_4,Ref_5,Ref_6,Ref_7,Link_1,Link_2,Link_3,Link_4,Link_5,Link_6,Link_7
3D DMX ArcelorMittal and IFPEN Dunkirk (full-scale),1,France,"ArcelorMittal, ifp, Axens, Uetikon, Grassco, brevik, TotalEnergies (T&S)",Capture,2019.0,,2025.0,,Planned,2.0,0.7,0.7,Iron and steel,Unknown/unspecified,,Europe,https://automotive.arcelormittal.com/news_and_stories/news/2019DMXproject,https://3d-ccus.com/3d-overview/,,,,,,Link 1,Link 2,,,,,
3D DMX ArcelorMittal and IFPEN Dunkirk 'REUZE',751,France,"ArcelorMittal, Engie, Infinium",CCU,2022.0,2024.0,2025.0,,Planned,1.0,0.3,0.3,Iron and steel,Use,,Europe,https://newsroom.engie.com/actualites/engie-et-infinium-annoncent-un-partenariat-pour-developper-un-hub-industriel-denvergure-europeenne-de-production-de-carburants-de-synthese-a-dunkerque-6d4d-ff316.html,https://corporate.arcelormittal.com/climate-action/decarbonisation-technologies/the-3d-project-dmx-demonstration-in-dunkirk,,,,,,Link 1,Link 2,,,,,
7 Blue Ammonia Facility,1055,Qatar,"QAFCO, thyssenkrupp Uhde/Consolidated Contractors Company (EPC)",Full Chain,2022.0,2022.0,2026.0,,Under construction,,1.5,1.5,Hydrogen or ammonia,Unknown/unspecified,,Middle East,https://www.qafco.qa/content/qafco-7-announcement,https://www.thyssenkrupp.com/en/newsroom/press-releases/pressdetailpage/thyssenkrupp-uhde-to-build-world-scale-blue-ammonia-plant-in-qatar-138369,,,,,,Link 1,Link 2,,,,,


## Tratar dados

### Remover NaN
Os valores NaN nas colunas do tipo float são substituídos por nulos, pois eles interferem nas agregações de valores em certas ferramentas, como o Power BI.
Ademais, vamos remover os valores NaN nas colunas de texto, pois se trata de um valor sem significado para o público de negócio.

In [0]:
df = df.replace(float("nan"), None)
df = df.replace("NaN", None)

display(df.limit(3))

Project_name,ID,Country,Partners,Project_type,Announcement,FID,Operation,Suspension_decommissioning,Project_Status,Project_phase,Announced_capacity_Mt_CO2_yr,Estimated_capacity_by_IEA_Mt_CO2_yr,Sector,Fate_of_carbon,Part_of_CCUS_hub,Region,Ref_1,Ref_2,Ref_3,Ref_4,Ref_5,Ref_6,Ref_7,Link_1,Link_2,Link_3,Link_4,Link_5,Link_6,Link_7
3D DMX ArcelorMittal and IFPEN Dunkirk (full-scale),1,France,"ArcelorMittal, ifp, Axens, Uetikon, Grassco, brevik, TotalEnergies (T&S)",Capture,2019.0,,2025.0,,Planned,2.0,0.7,0.7,Iron and steel,Unknown/unspecified,,Europe,https://automotive.arcelormittal.com/news_and_stories/news/2019DMXproject,https://3d-ccus.com/3d-overview/,,,,,,Link 1,Link 2,,,,,
3D DMX ArcelorMittal and IFPEN Dunkirk 'REUZE',751,France,"ArcelorMittal, Engie, Infinium",CCU,2022.0,2024.0,2025.0,,Planned,1.0,0.3,0.3,Iron and steel,Use,,Europe,https://newsroom.engie.com/actualites/engie-et-infinium-annoncent-un-partenariat-pour-developper-un-hub-industriel-denvergure-europeenne-de-production-de-carburants-de-synthese-a-dunkerque-6d4d-ff316.html,https://corporate.arcelormittal.com/climate-action/decarbonisation-technologies/the-3d-project-dmx-demonstration-in-dunkirk,,,,,,Link 1,Link 2,,,,,
7 Blue Ammonia Facility,1055,Qatar,"QAFCO, thyssenkrupp Uhde/Consolidated Contractors Company (EPC)",Full Chain,2022.0,2022.0,2026.0,,Under construction,,1.5,1.5,Hydrogen or ammonia,Unknown/unspecified,,Middle East,https://www.qafco.qa/content/qafco-7-announcement,https://www.thyssenkrupp.com/en/newsroom/press-releases/pressdetailpage/thyssenkrupp-uhde-to-build-world-scale-blue-ammonia-plant-in-qatar-138369,,,,,,Link 1,Link 2,,,,,


### Converter colunas em tipo inteiro
Quando fizemos a leitura do arquivo, algumas colunas foram inferidas como tipo float, quando na verdade tratam de valores inteiros.

In [0]:
colunas_cast_int = [
    "Announcement",
    "FID",
    "Operation",
    "Suspension_decommissioning",
    "Project_phase"
]
colunas_cast_int = {c: df[c].cast("int") for c in colunas_cast_int}

df = df.withColumns(colunas_cast_int)

display(df.limit(3))

Project_name,ID,Country,Partners,Project_type,Announcement,FID,Operation,Suspension_decommissioning,Project_Status,Project_phase,Announced_capacity_Mt_CO2_yr,Estimated_capacity_by_IEA_Mt_CO2_yr,Sector,Fate_of_carbon,Part_of_CCUS_hub,Region,Ref_1,Ref_2,Ref_3,Ref_4,Ref_5,Ref_6,Ref_7,Link_1,Link_2,Link_3,Link_4,Link_5,Link_6,Link_7
3D DMX ArcelorMittal and IFPEN Dunkirk (full-scale),1,France,"ArcelorMittal, ifp, Axens, Uetikon, Grassco, brevik, TotalEnergies (T&S)",Capture,2019,,2025,,Planned,2.0,0.7,0.7,Iron and steel,Unknown/unspecified,,Europe,https://automotive.arcelormittal.com/news_and_stories/news/2019DMXproject,https://3d-ccus.com/3d-overview/,,,,,,Link 1,Link 2,,,,,
3D DMX ArcelorMittal and IFPEN Dunkirk 'REUZE',751,France,"ArcelorMittal, Engie, Infinium",CCU,2022,2024.0,2025,,Planned,1.0,0.3,0.3,Iron and steel,Use,,Europe,https://newsroom.engie.com/actualites/engie-et-infinium-annoncent-un-partenariat-pour-developper-un-hub-industriel-denvergure-europeenne-de-production-de-carburants-de-synthese-a-dunkerque-6d4d-ff316.html,https://corporate.arcelormittal.com/climate-action/decarbonisation-technologies/the-3d-project-dmx-demonstration-in-dunkirk,,,,,,Link 1,Link 2,,,,,
7 Blue Ammonia Facility,1055,Qatar,"QAFCO, thyssenkrupp Uhde/Consolidated Contractors Company (EPC)",Full Chain,2022,2022.0,2026,,Under construction,,1.5,1.5,Hydrogen or ammonia,Unknown/unspecified,,Middle East,https://www.qafco.qa/content/qafco-7-announcement,https://www.thyssenkrupp.com/en/newsroom/press-releases/pressdetailpage/thyssenkrupp-uhde-to-build-world-scale-blue-ammonia-plant-in-qatar-138369,,,,,,Link 1,Link 2,,,,,


### Eliminar colunas Link
No arquivo Excel, as colunas Link possuem um hiperlink clicável para o endereço contido na coluna Ref de mesmo número. Esse recurso não se aplica a uma base de dados, por isso vamos remover as colunas Link e manter as colunas Ref.

In [0]:
colunas_drop = [c for c in df.columns if c.startswith("Link")]
df = df.drop(*colunas_drop)

display(df.limit(3))

Project_name,ID,Country,Partners,Project_type,Announcement,FID,Operation,Suspension_decommissioning,Project_Status,Project_phase,Announced_capacity_Mt_CO2_yr,Estimated_capacity_by_IEA_Mt_CO2_yr,Sector,Fate_of_carbon,Part_of_CCUS_hub,Region,Ref_1,Ref_2,Ref_3,Ref_4,Ref_5,Ref_6,Ref_7
3D DMX ArcelorMittal and IFPEN Dunkirk (full-scale),1,France,"ArcelorMittal, ifp, Axens, Uetikon, Grassco, brevik, TotalEnergies (T&S)",Capture,2019,,2025,,Planned,2.0,0.7,0.7,Iron and steel,Unknown/unspecified,,Europe,https://automotive.arcelormittal.com/news_and_stories/news/2019DMXproject,https://3d-ccus.com/3d-overview/,,,,,
3D DMX ArcelorMittal and IFPEN Dunkirk 'REUZE',751,France,"ArcelorMittal, Engie, Infinium",CCU,2022,2024.0,2025,,Planned,1.0,0.3,0.3,Iron and steel,Use,,Europe,https://newsroom.engie.com/actualites/engie-et-infinium-annoncent-un-partenariat-pour-developper-un-hub-industriel-denvergure-europeenne-de-production-de-carburants-de-synthese-a-dunkerque-6d4d-ff316.html,https://corporate.arcelormittal.com/climate-action/decarbonisation-technologies/the-3d-project-dmx-demonstration-in-dunkirk,,,,,
7 Blue Ammonia Facility,1055,Qatar,"QAFCO, thyssenkrupp Uhde/Consolidated Contractors Company (EPC)",Full Chain,2022,2022.0,2026,,Under construction,,1.5,1.5,Hydrogen or ammonia,Unknown/unspecified,,Middle East,https://www.qafco.qa/content/qafco-7-announcement,https://www.thyssenkrupp.com/en/newsroom/press-releases/pressdetailpage/thyssenkrupp-uhde-to-build-world-scale-blue-ammonia-plant-in-qatar-138369,,,,,


### Tratar coluna Announced_capacity_Mt_CO2_yr
Essa coluna possui alguns valores expressos em faixas, como "0.3 - 0.8". Para permitir cálculos e agregações, vamos transformar essa coluna em duas: uma contendo o valor mínimo, outra contendo o valor máximo. Valores da coluna original que não sejam expressos em faixas serão repetidos, de forma a manter a integridade da informação de maneira independente nas duas colunas.

In [0]:
# Dividir a coluna
split_col = sf.split(df['Announced_capacity_Mt_CO2_yr'], "-")

# Criar coluna de valor mínimo
df = df.withColumn('Announced_capacity_low_Mt_CO2_yr', sf.when(sf.col('Announced_capacity_Mt_CO2_yr').contains('-'), split_col.getItem(0)).otherwise(sf.col('Announced_capacity_Mt_CO2_yr')).cast('double'))

# Criar coluna de valor máximo
df = df.withColumn('Announced_capacity_high_Mt_CO2_yr', sf.when(sf.col('Announced_capacity_Mt_CO2_yr').contains('-'), split_col.getItem(1)).otherwise(sf.col('Announced_capacity_Mt_CO2_yr')).cast('double'))

# Substituir coluna original pelas novas
colunas = df.columns
pos = colunas.index("Announced_capacity_Mt_CO2_yr")
colunas[pos] = "Announced_capacity_low_Mt_CO2_yr"
colunas.insert(pos+1, "Announced_capacity_high_Mt_CO2_yr")
colunas = colunas[:-2]
df = df.select(colunas)

display(df.limit(3))

Project_name,ID,Country,Partners,Project_type,Announcement,FID,Operation,Suspension_decommissioning,Project_Status,Project_phase,Announced_capacity_low_Mt_CO2_yr,Announced_capacity_high_Mt_CO2_yr,Estimated_capacity_by_IEA_Mt_CO2_yr,Sector,Fate_of_carbon,Part_of_CCUS_hub,Region,Ref_1,Ref_2,Ref_3,Ref_4,Ref_5,Ref_6,Ref_7
3D DMX ArcelorMittal and IFPEN Dunkirk (full-scale),1,France,"ArcelorMittal, ifp, Axens, Uetikon, Grassco, brevik, TotalEnergies (T&S)",Capture,2019,,2025,,Planned,2.0,0.7,0.7,0.7,Iron and steel,Unknown/unspecified,,Europe,https://automotive.arcelormittal.com/news_and_stories/news/2019DMXproject,https://3d-ccus.com/3d-overview/,,,,,
3D DMX ArcelorMittal and IFPEN Dunkirk 'REUZE',751,France,"ArcelorMittal, Engie, Infinium",CCU,2022,2024.0,2025,,Planned,1.0,0.3,0.3,0.3,Iron and steel,Use,,Europe,https://newsroom.engie.com/actualites/engie-et-infinium-annoncent-un-partenariat-pour-developper-un-hub-industriel-denvergure-europeenne-de-production-de-carburants-de-synthese-a-dunkerque-6d4d-ff316.html,https://corporate.arcelormittal.com/climate-action/decarbonisation-technologies/the-3d-project-dmx-demonstration-in-dunkirk,,,,,
7 Blue Ammonia Facility,1055,Qatar,"QAFCO, thyssenkrupp Uhde/Consolidated Contractors Company (EPC)",Full Chain,2022,2022.0,2026,,Under construction,,1.5,1.5,1.5,Hydrogen or ammonia,Unknown/unspecified,,Middle East,https://www.qafco.qa/content/qafco-7-announcement,https://www.thyssenkrupp.com/en/newsroom/press-releases/pressdetailpage/thyssenkrupp-uhde-to-build-world-scale-blue-ammonia-plant-in-qatar-138369,,,,,


# Carga

## Gravar tabela

### Criar schema caso não exista

In [0]:
q = f"SHOW DATABASES IN {catalogo} LIKE '{schema}'"
result = spark.sql(q)
if result.count() > 0:
    print(f"Schema {schema} já existe.")
else:
    print(f'Criando schema {schema}...', end=" ")
    sql_create_database = f"CREATE DATABASE IF NOT EXISTS {catalogo}.{schema}"
    spark.sql(sql_create_database)
    print("OK")

Schema treinamento já existe.


### Criar tabela caso não exista

In [0]:
path_tabela_catalogo = f"{catalogo}.{schema}.{tabela}"
q = f"SHOW TABLES IN {catalogo}.{schema} LIKE '{tabela}'"
result = spark.sql(q)

if result.count() > 0:
    print(f"Tabela já existe: {path_tabela_catalogo}")
else:
    # Definir colunas, seus tipos e comentários a partir do df_spark
    colunas_sql = []    
    for col, tipo in df.dtypes:
        comentario = f"COMMENT '{comentarios[col]}'" if comentarios[col] else ""
        colunas_sql.append(f"{col} {tipo} {comentario}")
    colunas_sql = ', '.join(colunas_sql)

    # Definir comentário da tabela
    comment_tabela = f"COMMENT '{descricao}'" if descricao else ""

    # Criar estrutura
    print(f"Criando tabela {path_tabela_catalogo}...", end=" ")
    sql_create = f"CREATE TABLE IF NOT EXISTS {path_tabela_catalogo} ( {colunas_sql} ) {comment_tabela}"
    spark.sql(sql_create)
    print("OK")

Criando tabela dt0051_dev.treinamento.iea_ccus_projects... OK


### Gravar dados na tabela

In [0]:
path_tabela_catalogo = f"{catalogo}.{schema}.{tabela}"
print(f"Gravando dados na tabela {path_tabela_catalogo}...", end=" ")
df.write.mode("overwrite").format("delta").saveAsTable(path_tabela_catalogo)
print("OK")

Gravando dados na tabela dt0051_dev.treinamento.iea_ccus_projects... OK


# Próximas etapas
Daqui, seguimos para a etapa de análise de qualidade dos dados, no link a seguir.

https://github.com/samuelrubert/pucrio-mvp-engenhariadados/blob/main/Notebooks/CCUS_etapa2_qualidade.ipynb

Em seguida, será feita a análise da solução do problema, no link abaixo.

https://github.com/samuelrubert/pucrio-mvp-engenhariadados/blob/main/Notebooks/CCUS_etapa3_solucao.ipynb