# !! Atenção, professor !!
No modo escuro, verifiquei que o GitHub pode não exibir corretamente as saídas dos dataframes Spark.

Pode ser necessário alterar para o modo claro para conseguir ver os cabeçalhos das tabelas.

O GitHub pede desculpas por esse inconveniente.

# Descrição do trabalho

## Objetivo
Cada vez mais, o mundo tem se tornado ciente da importância e necessidade de adaptação às mudanças climáticas. A crescente conscientização sobre os impactos negativos das emissões de carbono tem impulsionado governos, empresas e organizações a implementar estratégias de descarbonização, visando atender ao Acordo de Paris e mitigar os efeitos do aquecimento global. O objetivo deste trabalho é obter perspectivas sobre os esforços de descarbonização realizados ao redor do mundo, analisando tendências, investimentos e resultados. 

Tentaremos responder a algumas perguntas sobre o tema:

- Os investimentos em descarbonização têm aumentado? 
- Quais investimentos estão previstos para o futuro?
- Quais são os países que mais têm investido em descarbonização?
- Quais são as empresas que mais têm investido em descarbonização?
- Em quais setores os esforços em descarbonização mais têm sido aplicados?
- Quais as principais tecnologias que estão sendo utilizadas?
- Qual a quantidade de emissões de carbono que se espera reduzir nos próximos anos?

## Coleta de dados
Para este trabalho, usaremos o conjunto de dados "CCUS Projects Database" disponibilizado pela International Energy Agency (IEA).

Trata-se de dados sobre projetos de Captura, Utilização e Armazenamento de Carbono (CCUS) ao redor do mundo. São dados gratuitos, disponíveis para download no endereço https://www.iea.org/data-and-statistics/data-product/ccus-projects-database mediante a criação de uma conta. Eles são disponibilizados sob a licença Creative Commons Attribution 4.0.

Devido à necessidade de login, não é possível acessar os dados diretamente via URL. Assim, os dados foram baixados e armazenados no GitHub, e este código lerá os dados desse endereço. Dessa forma, no caso de uma atualização do conjunto de dados, um usuário de negócio pode apenas atualizar o arquivo Excel e uma rotina agendada atualizaria os dados no Databricks automaticamente.

## Modelagem
Os dados estão disponíveis em uma tabela do Excel. Essa tabela será gravada na base em um modelo flat, após as transformações necessárias e pertinentes.

Metadados sobre a tabela e os campos também serão definidos e gravados no catálogo do Databricks.

### Informações do Catálogo de Dados

A tabela contém informações sobre projetos de captura, utilização e armazenamento de carbono (CCUS) ao redor do mundo. Ela inclui dados como o nome dos projetos, país, parceiros envolvidos, tipo de projeto, ano de anúncio, ano da decisão final de investimento, ano de operação, ano de suspensão/descomissionamento, status do projeto, fase do projeto, capacidade anunciada e estimada para captura, transporte e armazenamento de CO2, setor, destino do carbono, se o projeto faz parte de um hub CCUS, região, e links para artigos de notícias sobre o projeto. Esta tabela fornece insights valiosos sobre o panorama global dos projetos de CCUS e seu status atual. Os dados foram obtidos da International Energy Agency (IEA), em um arquivo Excel disponível no endereço https://www.iea.org/data-and-statistics/data-product/ccus-projects-database.

A tabela final possuirá os seguintes campos:

**Project_name**: Nome do projeto. Texto livre.

**ID**: Identificação única do projeto. Deve ser um número inteiro e único.

**Country**: País(es) onde o projeto está localizado. Texto livre.

**Partners**: Parceiros envolvidos no projeto. Texto livre.

**Project_type**: Tipo de projeto. Valores possíveis**: Full chain (Cadeia completa), Capture (Captura), Transport (Transporte), Storage (Armazenamento), T&S (Transporte e armazenamento), ou CCU (Captura e Utilização).

**Announcement**: Ano de anúncio do projeto, com quatro dígitos.

**FID**: Ano ocorrido ou planejado da decisão final de investimento, com quatro dígitos.

**Operation**: Ano ocorrido ou planejado de início da operação do projeto, com quatro dígitos.

**Suspension_decommissioning**: Ano ocorrido ou planejado de suspensão ou descomissionamento do projeto, com quatro dígitos.

**Project_Status**: Status atual do projeto. Valores possíveis**: Planned (Planejado), Under construction (Em construção), Operational (Operacional), Suspended (Suspenso), ou Decommissioned (Descomissionado).

**Project_phase**: Fase atual do projeto. Número inteiro maior ou igual a 1.

**Announced_capacity_low_Mt_CO2_yr**: Capacidade mínima anunciada para captura de CO2 em milhões de toneladas por ano. Número decimal maior ou igual a zero.

**Announced_capacity_high_Mt_CO2_yr**: Capacidade máxima anunciada para captura de CO2 em milhões de toneladas por ano. Número decimal maior ou igual a zero.

**Estimated_capacity_by_IEA_Mt_CO2_yr**: Capacidade estimada pela IEA para captura de CO2 em milhões de toneladas por ano. Número decimal maior ou igual a zero.

**Sector**: Setor onde a captura de carbono é feita. Valores possíveis**: Power and heat (Energia e calor), Natural gas processing/LNG (Processamento de gás natural), Biofuels (Biocombustíveis), Hydrogen/ammonia (Hidrogênio/amônia), Other fuel transformation (Outras transformações de combustíveis), Cement (Cimento), Iron and steel (Ferro e aço), Chemicals (Química), Other industry (Outra indústria), DAC (Captura direta do ar), Transport (Transporte), Storage (Armazenamento), T&S (Transporte e armazenamento).

**Fate_of_carbon**: Destino do carbono capturado. Valores possíveis**: Dedicated storage (Armazenamento dedicado), EOR (Recuperação de petróleo), Use (Uso), Unknown/unspecified (Desconhecido).

**Part_of_CCUS_hub**: Indica se o projeto faz parte de um hub CCUS. Texto livre.

**Region**: Região onde o projeto está localizado. Texto livre.

**Ref_1**: Link para o primeiro artigo de notícias sobre o projeto. Texto, deve ser um URL válido.

**Ref_2**: Link para o segundo artigo de notícias sobre o projeto. Texto, deve ser um URL válido.

**Ref_3**: Link para o terceiro artigo de notícias sobre o projeto. Texto, deve ser um URL válido.

**Ref_4**: Link para o quarto artigo de notícias sobre o projeto. Texto, deve ser um URL válido.

**Ref_5**: Link para o quinto artigo de notícias sobre o projeto. Texto, deve ser um URL válido.

**Ref_6**: Link para o sexto artigo de notícias sobre o projeto. Texto, deve ser um URL válido.

**Ref_7**: Link para o sétimo artigo de notícias sobre o projeto. Texto, deve ser um URL válido.

### Definir variáveis do catálogo

In [0]:
descricao = "A tabela contém informações sobre projetos de captura, utilização e armazenamento de carbono (CCUS) ao redor do mundo. Ela inclui dados como o nome dos projetos, país, parceiros envolvidos, tipo de projeto, ano de anúncio, ano da decisão final de investimento, ano de operação, ano de suspensão/descomissionamento, status do projeto, fase do projeto, capacidade anunciada e estimada para captura, transporte e armazenamento de CO2, setor, destino do carbono, se o projeto faz parte de um hub CCUS, região, e links para artigos de notícias sobre o projeto. Esta tabela fornece insights valiosos sobre o panorama global dos projetos de CCUS e seu status atual. Os dados foram obtidos da International Energy Agency (IEA), de um arquivo Excel disponível no endereço https://www.iea.org/data-and-statistics/data-product/ccus-projects-database."

In [0]:
comentarios = {
    "Project_name": "Nome do projeto. Texto livre.",
    "ID": "Identificação única do projeto. Deve ser um número inteiro e único.",
    "Country": "País(es) onde o projeto está localizado. Texto livre.",
    "Partners": "Parceiros envolvidos no projeto. Texto livre.",
    "Project_type": "Tipo de projeto. Valores possíveis: Full chain (Cadeia completa), Capture (Captura), Transport (Transporte), Storage (Armazenamento), T&S (Transporte e armazenamento), ou CCU (Captura e Utilização).",
    "Announcement": "Ano de anúncio do projeto, com quatro dígitos.",
    "FID": "Ano ocorrido ou planejado da decisão final de investimento, com quatro dígitos.",
    "Operation": "Ano ocorrido ou planejado de início da operação do projeto, com quatro dígitos.",
    "Suspension_decommissioning": "Ano ocorrido ou planejado de suspensão ou descomissionamento do projeto, com quatro dígitos.",
    "Project_Status": "Status atual do projeto. Valores possíveis: Planned (Planejado), Under construction (Em construção), Operational (Operacional), Suspended (Suspenso), ou Decommissioned (Descomissionado).",
    "Project_phase": "Fase atual do projeto. Número inteiro maior ou igual a 1.",
    "Announced_capacity_low_Mt_CO2_yr": "Capacidade mínima anunciada para captura de CO2 em milhões de toneladas por ano. Número decimal maior ou igual a zero.",
    "Announced_capacity_high_Mt_CO2_yr": "Capacidade máxima anunciada para captura de CO2 em milhões de toneladas por ano. Número decimal maior ou igual a zero.",
    "Estimated_capacity_by_IEA_Mt_CO2_yr": "Capacidade estimada pela IEA para captura de CO2 em milhões de toneladas por ano. Número decimal maior ou igual a zero.",
    "Sector": "Setor onde a captura de carbono é feita. Valores possíveis: Power and heat (Energia e calor), Natural gas processing/LNG (Processamento de gás natural), Biofuels (Biocombustíveis), Hydrogen/ammonia (Hidrogênio/amônia), Other fuel transformation (Outras transformações de combustíveis), Cement (Cimento), Iron and steel (Ferro e aço), Chemicals (Química), Other industry (Outra indústria), DAC (Captura direta do ar), Transport (Transporte), Storage (Armazenamento), T&S (Transporte e armazenamento).",
    "Fate_of_carbon": "Destino do carbono capturado. Valores possíveis: Dedicated storage (Armazenamento dedicado), EOR (Recuperação de petróleo), Use (Uso), Unknown/unspecified (Desconhecido).",
    "Part_of_CCUS_hub": "Indica se o projeto faz parte de um hub CCUS. Texto livre.",
    "Region": "Região onde o projeto está localizado. Texto livre.",
    "Ref_1": "Link para o primeiro artigo de notícias sobre o projeto. Texto, deve ser um URL válido.",
    "Ref_2": "Link para o segundo artigo de notícias sobre o projeto. Texto, deve ser um URL válido.",
    "Ref_3": "Link para o terceiro artigo de notícias sobre o projeto. Texto, deve ser um URL válido.",
    "Ref_4": "Link para o quarto artigo de notícias sobre o projeto. Texto, deve ser um URL válido.",
    "Ref_5": "Link para o quinto artigo de notícias sobre o projeto. Texto, deve ser um URL válido.",
    "Ref_6": "Link para o sexto artigo de notícias sobre o projeto. Texto, deve ser um URL válido.",
    "Ref_7": "Link para o sétimo artigo de notícias sobre o projeto. Texto, deve ser um URL válido."
}

# Configurações iniciais

## Bibliotecas

In [0]:
!pip install openpyxl --quiet
!pip install unidecode --quiet

In [0]:
import pandas as pd
import re
from pyspark.sql import functions as sf
from unidecode import unidecode

## Parâmetros

In [0]:
# Definições do arquivo Excel
sheetname = "CCUS Projects Database"
cellposition = "A1"

In [0]:
# Parâmetros de gravação da tabela
catalogo = "dt0051_dev"
schema = "treinamento"
tabela = "iea_ccus_projects"

## Caminhos

In [0]:
# Caminho dos dados
path_arquivo = "https://github.com/samuelrubert/pucrio-mvp-engenhariadados/raw/main/Dados/IEA_CCUS_Projects_Database.xlsx"

# Extração

## Leitura do arquivo Excel

Usaremos o pandas para ler o arquivo Excel a partir do url externo.

In [0]:
df_pandas = pd.read_excel(path_arquivo, sheet_name=sheetname, header=0)
df_pandas.head()

Vamos verificar os tipos de dados inferidos pelo pandas. Pode ser necessário fazer alguma correção posterior.

In [0]:
df_pandas.dtypes

De fato, verificamos que algumas colunas que tratam apenas de números inteiros foram inferidas como float64. Ajustaremos isso adiante.

## Conversão em dataframe Spark

Vamos converter os dados para um dataframe Spark, que usaremos para fazer o tratamento.

In [0]:
df = spark.createDataFrame(df_pandas)
display(df.limit(10))

# Transformação

## Tratar nomes das colunas
Primeiramente vamos renomear as colunas para um formato compatível com SQL, substituindo espaços e caracteres especiais.

In [0]:
# Dicionário de nomes
dict_rename = {}

# Criar nomes tratados
for c in df.columns:
    nome_ok = c.strip()
    nome_ok = nome_ok.replace('/', '_')
    nome_ok = re.sub('[^A-Za-z0-9_ ]+', '', unidecode(nome_ok))
    nome_ok = re.sub('\s+','_', nome_ok)
    dict_rename[c] = nome_ok

# Renomear colunas no dataframe
df = df.withColumnsRenamed(dict_rename)

display(df.limit(3))

## Tratar dados

### Remover NaN
Os valores NaN nas colunas do tipo float são substituídos por nulos, pois eles interferem nas agregações de valores em certas ferramentas, como o Power BI.
Ademais, vamos remover os valores NaN nas colunas de texto, pois se trata de um valor sem significado para o público de negócio.

In [0]:
df = df.replace(float("nan"), None)
df = df.replace("NaN", None)

display(df.limit(3))

### Converter colunas em tipo inteiro
Quando fizemos a leitura do arquivo, algumas colunas foram inferidas como tipo float, quando na verdade tratam de valores inteiros.

In [0]:
colunas_cast_int = [
    "Announcement",
    "FID",
    "Operation",
    "Suspension_decommissioning",
    "Project_phase"
]
colunas_cast_int = {c: df[c].cast("int") for c in colunas_cast_int}

df = df.withColumns(colunas_cast_int)

display(df.limit(3))

### Eliminar colunas Link
No arquivo Excel, as colunas Link possuem um hiperlink clicável para o endereço contido na coluna Ref de mesmo número. Esse recurso não se aplica a uma base de dados, por isso vamos remover as colunas Link e manter as colunas Ref.

In [0]:
colunas_drop = [c for c in df.columns if c.startswith("Link")]
df = df.drop(*colunas_drop)

display(df.limit(3))

### Tratar coluna Announced_capacity_Mt_CO2_yr
Essa coluna possui alguns valores expressos em faixas, como "0.3 - 0.8". Para permitir cálculos e agregações, vamos transformar essa coluna em duas: uma contendo o valor mínimo, outra contendo o valor máximo. Valores da coluna original que não sejam expressos em faixas serão repetidos, de forma a manter a integridade da informação de maneira independente nas duas colunas.

In [0]:
# Dividir a coluna
split_col = sf.split(df['Announced_capacity_Mt_CO2_yr'], "-")

# Criar coluna de valor mínimo
df = df.withColumn('Announced_capacity_low_Mt_CO2_yr', sf.when(sf.col('Announced_capacity_Mt_CO2_yr').contains('-'), split_col.getItem(0)).otherwise(sf.col('Announced_capacity_Mt_CO2_yr')).cast('double'))

# Criar coluna de valor máximo
df = df.withColumn('Announced_capacity_high_Mt_CO2_yr', sf.when(sf.col('Announced_capacity_Mt_CO2_yr').contains('-'), split_col.getItem(1)).otherwise(sf.col('Announced_capacity_Mt_CO2_yr')).cast('double'))

# Substituir coluna original pelas novas
colunas = df.columns
pos = colunas.index("Announced_capacity_Mt_CO2_yr")
colunas[pos] = "Announced_capacity_low_Mt_CO2_yr"
colunas.insert(pos+1, "Announced_capacity_high_Mt_CO2_yr")
colunas = colunas[:-2]
df = df.select(colunas)

display(df.limit(3))

# Carga

## Gravar tabela

### Criar schema caso não exista

In [0]:
q = f"SHOW DATABASES IN {catalogo} LIKE '{schema}'"
result = spark.sql(q)
if result.count() > 0:
    print(f"Schema {schema} já existe.")
else:
    print(f'Criando schema {schema}...', end=" ")
    sql_create_database = f"CREATE DATABASE IF NOT EXISTS {catalogo}.{schema}"
    spark.sql(sql_create_database)
    print("OK")

### Criar tabela caso não exista

In [0]:
path_tabela_catalogo = f"{catalogo}.{schema}.{tabela}"
q = f"SHOW TABLES IN {catalogo}.{schema} LIKE '{tabela}'"
result = spark.sql(q)

if result.count() > 0:
    print(f"Tabela já existe: {path_tabela_catalogo}")
else:
    # Definir colunas, seus tipos e comentários a partir do df_spark
    colunas_sql = []    
    for col, tipo in df.dtypes:
        comentario = f"COMMENT '{comentarios[col]}'" if comentarios[col] else ""
        colunas_sql.append(f"{col} {tipo} {comentario}")
    colunas_sql = ', '.join(colunas_sql)

    # Definir comentário da tabela
    comment_tabela = f"COMMENT '{descricao}'" if descricao else ""

    # Criar estrutura
    print(f"Criando tabela {path_tabela_catalogo}...", end=" ")
    sql_create = f"CREATE TABLE IF NOT EXISTS {path_tabela_catalogo} ( {colunas_sql} ) {comment_tabela}"
    spark.sql(sql_create)
    print("OK")

### Gravar dados na tabela

In [0]:
path_tabela_catalogo = f"{catalogo}.{schema}.{tabela}"
print(f"Gravando dados na tabela {path_tabela_catalogo}...", end=" ")
df.write.mode("overwrite").format("delta").saveAsTable(path_tabela_catalogo)
print("OK")