In [2]:
from dotenv import get_key
from pymongo import MongoClient
import pymongo
import psycopg2 # Remover
from pprint import pprint  # Imprimir bsons formatados
from utils import *
import pandas as pd

STRING = get_key('.env', 'MG_STRING')
NAME = get_key('.env', 'PG_NAME')
USER = get_key('.env', 'PG_USER')
PASSWORD = get_key('.env', 'PG_PASSWORD')
HOST = get_key('.env', 'PG_HOST')
PORT = get_key('.env', 'PG_PORT')

## Funções para acesso ao MongoDB

In [3]:
def create_mongo_connection():
	"""Cria uma conexão com o banco de dados MongoDB. Retorna o cliente.
	AVISO: Se a conexão não funcionar, verifique no site do atlas se seu IP atual está autorizado a se conectar."""
	try:
		client = MongoClient(STRING, server_api=pymongo.server_api.ServerApi(version="1"))
		client.admin.command("ping")
		print("---- Conexão bem sucedida ----")
	except Exception as e:
		raise Exception(
			"The following error occurred: ", e)
	return client

def end_mongo_connection(client):
	client.close()
	print("---- Conexão encerrada -----")

## Criação de tabelas no banco

In [4]:
def create_pais_collection(db, v_action, v_level):
    schema = {
        "$jsonSchema": {
            "bsonType": "object",
            "required": ["sigla", "nome", "continente", "grupos", "estatisticas"],
            "properties": {
                "sigla": {"bsonType": "string"},
                "nome": {"bsonType": "string"},
                "continente": {"bsonType": "string"},
                "grupos": {
                    "bsonType": "array",
                    "items": {"bsonType": "string"}
                },
                "estatisticas": {
                    "bsonType": "array",
                    "items": {
                        "bsonType": "object",
                        "required": ["ano", "pib", "geografia"],
                        "properties": {
                            "ano": {"bsonType": "int"},
                            "pib": {"bsonType": "double"},
                            "geografia": {
                                "bsonType": "array",
                                "items": {
                                    "bsonType": "object",
                                    "required": ["area_tipo", "num_habitantes", "area_km2"],
                                    "properties": {
                                        "area_tipo": {"bsonType": "string"},
                                        "num_habitantes": {"bsonType": "int"},
                                        "area_km2": {"bsonType": "double"}
                                    }
                                }
                            }
                        }
                    }
                }
            }
        }
    }

    try:
        db.create_collection("pais", validator=schema, validationAction=v_action, validationLevel=v_level)
    except Exception as e:
        print(f"Erro ao criar a coleção: {e}")


In [5]:
def create_emissao_gas_collection(db, v_action, v_level):
    schema = {
        "$jsonSchema": {
            "bsonType": "object",
            "required": ["nome", "formula", "medicoes"],
            "properties": {
                "nome": {"bsonType": "string"},
                "formula": {"bsonType": "string"},
                "medicoes": {
                    "bsonType": "array",
                    "items": {
                        "bsonType": "object",
                        "required": ["cod_pais", "ano", "valor_mtco2"],
                        "properties": {
                            "cod_pais": {"bsonType": "string"},
                            "ano": {"bsonType": "int"},
                            "valor_mtco2": {"bsonType": "double"}
                        }
                    }
                }
            }
        }
    }

    try:
        db.create_collection("emissaoGas", validator=schema, validationAction=v_action, validationLevel=v_level)
    except Exception as e:
        print(f"Erro ao criar a coleção: {e}")


In [6]:
def create_energia_collection(db, v_action, v_level):
    schema = {
        "$jsonSchema": {
            "bsonType": "object",
            "required": ["tipo_interacao", "unidade", "fontes"],
            "properties": {
                "tipo_interacao": {"bsonType": "string"},
                "unidade": {"bsonType": "string"},
                "fontes": {
                    "bsonType": "array",
                    "items": {
                        "bsonType": "object",
                        "required": ["nome", "medicoes"],
                        "properties": {
                            "nome": {"bsonType": "string"},
                            "medicoes": {
                                "bsonType": "array",
                                "items": {
                                    "bsonType": "object",
                                    "required": ["cod_pais", "ano", "valor"],
                                    "properties": {
                                        "cod_pais": {"bsonType": "string"},
                                        "ano": {"bsonType": "int"},
                                        "valor": {"bsonType": "double"}
                                    }
                                }
                            }
                        }
                    }
                }
            }
        }
    }

    try:
        db.create_collection("energia", validator=schema, validationAction=v_action, validationLevel=v_level)
    except Exception as e:
        print(f"Erro ao criar a coleção: {e}")


In [7]:
def create_tables(db, col, v_action="warn", v_level="moderate"):
    if v_action not in ["warn", "error"]:
        raise ValueError("Ação de validação inválida. Use 'warn' ou 'error'.")
    if v_level not in ["strict", "moderate"]:
        raise ValueError("Nível de validação inválido. Use 'off', 'strict' ou 'moderate'.")
    if col == 'pais':
        create_pais_collection(db, v_action, v_level)
    elif col == 'emissaoGas':
        create_emissao_gas_collection(db, v_action, v_level)
    elif col == 'energia':
        create_energia_collection(db, v_action, v_level)
    else:
        raise ValueError(f"Nome de coleção inválido: {col}")

In [8]:
def create_country_document(cursor):
	query = 'SELECT * FROM PAIS;'
	cursor.execute(query)
	rows = cursor.fetchall()
	paises = []
	for row in rows:
		paises.append({
						'sigla': row[0],
						'nome': row[1],
						'continente': row[2],
						'estatisticas': []
					})
	# Grupos
	for pais in paises:
		# if pais['sigla'] != 'AFG':
		# 	continue
		query = f'''SELECT SIGLA
		FROM
		GRUPO G INNER JOIN PAIS_GRUPO PG
			ON G.ID_GRUPO = PG.GRUPO_ID_GRUPO
		WHERE PAIS_CODIGO = '{pais['sigla']}';'''
		cursor.execute(query)
		rows = cursor.fetchall()
		grupos = [row[0] for row in rows]
		if len(grupos) > 0:
			pais['grupos'] = grupos

		query = f'''SELECT ANO,
		VALOR_USD
		FROM PIB
		WHERE CODIGO_PAIS = '{pais['sigla']}'
		ORDER BY ANO;'''
		cursor.execute(query)
		rows = cursor.fetchall()

		for row in rows:
			ano, pib = row
			# print(ano, pib, pais['sigla'])
			geografias = []
			# Áreas e populações urbana, rural e total
			subquery = f'''SELECT TIPO,
			NUM_HABITANTES,
			AREA_KM2
			FROM
			AREA A INNER JOIN DEMOGRAFIA D
				ON D.AREA_ID = A.ID
			INNER JOIN DISTRIBUICAO_TERRITORIAL DT
				ON DT.AREA_ID = A.ID AND DT.PAIS_CODIGO = D.PAIS_CODIGO AND DT.ANO = D.ANO
			WHERE DT.PAIS_CODIGO = '{pais['sigla']}'
				AND DT.ANO = {ano}
			ORDER BY DT.ANO, TIPO;'''
			cursor.execute(subquery)
			subrows = cursor.fetchall()
			for sr in subrows:
				geografia = {
					'area_tipo': sr[0],
					'num_habitantes': sr[1],
					'area_km2': sr[2]
				}
				geografias.append(geografia)
			
			# Área florestal
			subquery = f'''SELECT TIPO,
			AREA_KM2
			FROM
			AREA A INNER JOIN DISTRIBUICAO_TERRITORIAL DT
				ON DT.AREA_ID = A.ID
			WHERE DT.PAIS_CODIGO = '{pais['sigla']}'
				AND DT.ANO = {ano}
			AND TIPO = 'Forest'
			ORDER BY DT.ANO, TIPO;'''
			cursor.execute(subquery)
			subrow = cursor.fetchall()
			for sr in subrow:
				geografia = {
					'area_tipo': sr[0],
					'area_km2': sr[1]
				}
				geografias.append(geografia)

			est = {
				'ano': row[0],
				'pib': row[1]
			}
			if geografias:
				est['geografias'] = geografias
			pais['estatisticas'].append(est)
	return paises


In [9]:
def create_gas_document(cursor):
	emissoes = []
	query = 'SELECT * FROM GAS;'
	cursor.execute(query)
	rows = cursor.fetchall()

	for row in rows:
		id, nome, formula = row
		emissao = {
			'nome': nome,
			'formula': formula,
			'medicoes': []
		}

		subquery = f'''SELECT PAIS_CODIGO,
		ANO,
		EMISSAO_MTCO2
		FROM EMISSAO_GAS
		WHERE GAS_ID_GAS = {id};'''
		cursor.execute(subquery)
		subrows = cursor.fetchall()

		for sr in subrows:
			cod_pais, ano, valor = sr
			emissao['medicoes'].append({
				'cod_pais': cod_pais,
				'ano': ano,
				'valor_mtco2': valor
			})
		
		emissoes.append(emissao)

	return emissoes

In [10]:
def create_energy_document(cursor):
	energias = []

	query = 'SELECT * FROM INTERACAO_ENERGETICA;'
	cursor.execute(query)
	rows = cursor.fetchall()

	for row in rows:
		id_interacao, interacao, unidade = row
		energia = {
			'interacao': interacao,
			'unidade': unidade,
			'fontes': []
		}
		
		query = 'SELECT * FROM ENERGIA;'
		cursor.execute(query)
		subrows = cursor.fetchall()

		for sr in subrows:
			id_energia, nome = sr
			fonte = {
				'nome': nome,
				'medicoes': []
			}
			query = f'''SELECT CODIGO_PAIS,
			ANO,
			VALOR
			FROM RELATORIO_ENERGETICO
			WHERE ID_INTERACAO = {id_interacao}
				AND ID_ENERGIA = {id_energia};'''
			cursor.execute(query)
			registros = cursor.fetchall()

			for reg in registros:
				cod_pais, ano, valor = reg
				fonte['medicoes'].append({
					'cod_pais': cod_pais,
					'ano': ano,
					'valor': valor
				})

			energia['fontes'].append(fonte)

		energias.append(energia)

	return energias

In [11]:
def populate_mongo(db):
	pg_conn = create_pg_connection()
	cursor = pg_conn.cursor()

	entries = {'pais': create_country_document(cursor),
		'emissaoGas': create_gas_document(cursor),
		'energia': create_energy_document(cursor)}
	
	end_pg_connection(pg_conn)
	
	for col in entries.keys():

		if col not in db.list_collection_names():
			db.create_collection(col)

		create_tables(db, col)
		db[col].delete_many({})
		db[col].insert_many(entries[col])

		print(f'> Coleção {col} <')
		# Exibindo os documentos inseridos
		for doc in db[col].find({}, {'_id': 0}):
			pprint(doc)

In [12]:
populate_tables = False
client = create_mongo_connection()
db = client["projeto_mc536"]

if populate_tables:
	populate_mongo(db)

end_mongo_connection(client)

---- Conexão bem sucedida ----
---- Conexão encerrada -----


In [13]:
def execute_pipeline(collection, pipeline, num=0):
    """Executa um pipeline de agregação MongoDB e retorna os resultados."""
    try:
        resultados = list(collection.aggregate(pipeline))
        if not resultados:
            print("Nenhum resultado encontrado.")
            return None

        df = pd.DataFrame(resultados)

        # Reorganiza as colunas com nome_pais primeiro, se existir
        col_order = ["nome_pais", "ano", "energia_total", "unidade", "cod_pais"]
        col_order = [col for col in col_order if col in df.columns]
        df = df[col_order + [col for col in df.columns if col not in col_order]]

        pd.set_option('display.float_format', '{:.2f}'.format)

        print(df.to_string(index=False))

        if num != 0:
            df.to_csv(f"resultados_mongodb/resultado_pipeline_{num}.csv", index=False)

        print("Pipeline executado com sucesso.")
        return df
    except Exception as e:
        print(f"Erro ao executar pipeline: {e}")
        return None

# Query 1: Porcentagem de energia renovável produzida por grupo econômico e ano
Detecta a porcentagem renovável da energia total gerada por grupo econômico a cada ano.

In [20]:
pipeline = [
	{"$match": {"interacao": "Electricity generation"}},
    {"$unwind": "$fontes"},
    {"$unwind": "$fontes.medicoes"},
    {"$group": {
        "_id": {
            "cod_pais": "$fontes.medicoes.cod_pais",
            "ano": "$fontes.medicoes.ano"
        },
        "energia_renovavel": {
            "$sum": {
                "$cond": [
                    {"$in": ["$fontes.nome", ["Coal", "Gas", "Nuclear", "Other Fossil"]]},
                    0,
                    "$fontes.medicoes.valor"
                ]
            }
        },
        "energia_total": {"$sum": "$fontes.medicoes.valor"}
    }},
    {"$lookup": {
        "from": "pais",
        "localField": "_id.cod_pais",
        "foreignField": "sigla",
        "as": "pais_info"
    }},
    { "$unwind": "$pais_info" },
    { "$unwind": "$pais_info.grupos" },
    { "$group": {
        "_id": {
            "grupo": "$pais_info.grupos",
            "ano": "$_id.ano"
        },
        "energia_total": { "$sum": "$energia_total" },
        "energia_renovavel": { "$sum": "$energia_renovavel" }
    }},
    { "$addFields": {
        "porcentagem_renovavel": {
            "$cond": [
                { "$gt": ["$energia_total", 0] },
                {
                    "$multiply": [
                        { "$divide": ["$energia_renovavel", "$energia_total"] },
                        100
                    ]
                },
                None
            ]
        }
    }},
    { "$project": {
        "_id": 0,
        "grupo": "$_id.grupo",
        "ano": "$_id.ano",
        "energia_total": 1,
        "energia_renovavel": 1,
        "porcentagem_renovavel": 1
    }},
    { "$sort": {
        "ano": 1,
        "grupo": 1
    }}
]
client = create_mongo_connection()
db = client["projeto_mc536"]
execute_pipeline(db['energia'], pipeline, 1)
end_mongo_connection(client)

---- Conexão bem sucedida ----
 ano  energia_total  energia_renovavel  porcentagem_renovavel grupo
2000         378.61              73.25                  19.35 ASEAN
2000        2622.17             406.89                  15.52    EU
2000       11779.44            1906.66                  16.19   G20
2000        7254.10             981.94                  13.54    G7
2000        9620.06            1578.04                  16.40  OECD
2001         404.85              77.19                  19.07 ASEAN
2001        2698.91             436.33                  16.17    EU
2001       11882.47            1845.73                  15.53   G20
2001        7176.68             897.78                  12.51    G7
2001        9609.44            1478.38                  15.38  OECD
2002         433.19              76.52                  17.66 ASEAN
2002        2722.12             389.99                  14.33    EU
2002       12320.31            1930.53                  15.67   G20
2002        7346.

# Query 2: PIB por energia (per capita)
Compara os valores de Produto Interno Bruto per capita e energia per capita por país.

In [None]:
pipeline = [
    { "$match": { "interacao": {"$in": ["Electricity generation", "Electricity demand"]} } },
    { "$unwind": "$fontes" },
    { "$unwind": "$fontes.medicoes" },
    {
        "$group": {
            "_id": {
                "cod_pais": "$fontes.medicoes.cod_pais",
                "ano": "$fontes.medicoes.ano",
            },
            "total_producao": { 
                "$sum": { 
                    "$cond": [{"$eq": ["$interacao", "Electricity generation"]},
                              "$fontes.medicoes.valor",
                              0]
                }
            },
            "total_demanda": {
                "$sum": {
                    "$cond": [{"$eq": ["$interacao", "Electricity demand"]},
                              "$fontes.medicoes.valor",
                              0]
                }
            }
        }
    },
    { "$match": {"_id.ano": {"$lt": 2023}}},
    {"$lookup": {
            "from": "pais",
            "localField": "_id.cod_pais",
            "foreignField": "sigla",
            "as": "pais_info"
    	}
    },
    { "$unwind": "$pais_info" },
    { "$addFields": {
            "estatistica_ano": {
                "$filter": {
                    "input": "$pais_info.estatisticas",
                    "as": "est",
                    "cond": { "$eq": ["$$est.ano", "$_id.ano"] }
                }
            }
        }
    },
    { "$unwind": "$estatistica_ano" },
    { "$addFields": {
        "populacao_total": {
            "$sum": {
                "$map": {
                    "input": "$estatistica_ano.geografias",
					"as": "geo",
					"in": "$$geo.num_habitantes"
				}
			}
		}
	}},

    # 7. Calcular produção per capita
    { "$addFields": {
		"producao_per_capita": {
			"$cond": [
				{ "$gt": ["$populacao_total", 0] },
				{"$multiply": [
					{ "$divide": ["$total_producao", "$populacao_total"] },
					1e9
				]},
				None
			]
		},
		"demanda_per_capita": {
			"$cond": [
				{"$gt": ["$populacao_total", 0]},
				{"$multiply": [
					{"$divide": ["$total_demanda", "$populacao_total"]},
					1e9
				]},
				None
			]                          
		},
		"pib_per_capita": {
			"$cond": [
				{ "$gt": ["$populacao_total", 0] },
				{ "$divide": ["$estatistica_ano.pib", "$populacao_total"] },
				None
			]
		}
	}},
    # 8. Projeção final
    { "$project": {
		"_id": 0,
		"ano": "$_id.ano",
        "nome_pais": "$pais_info.nome",
        "producao_per_capita": 1,
		"demanda_per_capita": 1,
		"pib_per_capita": 1
	}},
    { "$sort": {
		"nome_pais": 1,
		"ano": 1
	}}
    ]
client = create_mongo_connection()
db = client["projeto_mc536"]
execute_pipeline(db['energia'], pipeline, 2)
end_mongo_connection(client)

# Query 4: Energia gerada por km² de área florestal
Traça relação entre geração de energia e área florestal no ano de 2015.

In [None]:
pipeline = [
    {"$match": {"interacao": "Electricity generation"}},
    {"$unwind": "$fontes"},
    {"$unwind": "$fontes.medicoes"},
    {"$match": {"fontes.medicoes.ano": 2015}},
    {"$group": {
        "_id": "$fontes.medicoes.cod_pais",
        "energia_total": {"$sum": "$fontes.medicoes.valor"},
        "unidade": {"$first": "$unidade"},
        "ano": {"$first": "$fontes.medicoes.ano"}
    }},
    {"$lookup": {
        "from": "pais",
        "localField": "_id",
        "foreignField": "sigla",
        "as": "pais_info"
    }},
    {"$unwind": "$pais_info"},
    {"$unwind": "$pais_info.estatisticas"},
    {"$match": {"$expr": {"$eq": ["$pais_info.estatisticas.ano", "$ano"]}}},
    {"$unwind": "$pais_info.estatisticas.geografias"},
    {"$match": {"pais_info.estatisticas.geografias.area_tipo": "Forest"}},
    {"$match": {"pais_info.estatisticas.geografias.area_km2": {"$gt": 0}}},
    {"$project": {
        "_id": 0,
        "pais": "$pais_info.nome",
        "ano": "$ano",
        "mwh_por_km2_florestal": {
            "$multiply": [
                {
                "$divide": [
                    "$energia_total",
                    "$pais_info.estatisticas.geografias.area_km2"
                ]
                },
                1000000
                ]
        }
        
    }},
    {"$sort": {"pais": 1}}
]
client = create_mongo_connection()
db = client["projeto_mc536"]
execute_pipeline(db['energia'], pipeline, 4)
end_mongo_connection(client)

# Query 5: Porcentagem de energia renovável produzida vs porcentagem de população rural
Compara as taxas ordenando por áno e país.

In [None]:
pipeline = [
    {"$match": {"interacao": "Electricity generation"}},
    {"$unwind": "$fontes"},
    {"$unwind": "$fontes.medicoes"},
    {"$group": {
        "_id": {
            "cod_pais": "$fontes.medicoes.cod_pais",
            "ano": "$fontes.medicoes.ano"
        },
        "energia_renovavel": {
            "$sum": {
                "$cond": [
                    {"$in": ["$fontes.nome", ["Coal", "Gas", "Nuclear", "Other Fossil"]]},
                    0,
                    "$fontes.medicoes.valor"
                ]
            }
        },
        "energia_total": {"$sum": "$fontes.medicoes.valor"}
    }},
    {"$lookup": {
        "from": "pais",
        "localField": "_id.cod_pais",
        "foreignField": "sigla",
        "as": "pais_info"
    }},
    {"$unwind": "$pais_info"},
    {"$unwind": "$pais_info.estatisticas"},
    {"$unwind": "$pais_info.estatisticas.geografias"},
    {"$group": {
        "_id": {
            "cod_pais": "$_id.cod_pais",
            "ano": "$_id.ano"
        },
        "energia_renovavel": {"$first": "$energia_renovavel"},
        "energia_total": {"$first": "$energia_total"},
        "pop_rural": {
            "$sum": {
                "$cond": [
                    {"$eq": ["$pais_info.estatisticas.geografias.area_tipo", "Rural"]},
                    "$pais_info.estatisticas.geografias.num_habitantes",
                    0
                ]
            }
        },
        "pop_total": {
            "$sum": {
                "$cond": [
                    {"$in": ["$pais_info.estatisticas.geografias.area_tipo", ["Rural", "Urban"]]},
                    "$pais_info.estatisticas.geografias.num_habitantes",
                    0
                ]
            }
        },
        "pais": {"$first": "$pais_info.nome"}
    }},
    {"$project": {
        "_id": 0,
        "ano": "$_id.ano",
        "pais": "$pais",
        "%_energia_renovavel": {
            "$multiply": [
                {"$divide": ["$energia_renovavel", "$energia_total"]},
                100
            ]
        },
        "%_pop_rural": {
            "$multiply": [
                {"$divide": ["$pop_rural", "$pop_total"]},
                100
            ]
        }
    }},
    {"$sort": {"ano": 1, "pais": 1}}
]

client = create_mongo_connection()
db = client["projeto_mc536"]
execute_pipeline(db['energia'], pipeline, 5)
end_mongo_connection(client)

In [None]:
# Porcentagem de energia renovável produzida por GRUPO E ANO


---- Conexão bem sucedida ----
[{'ano': 2000,
  'energia_renovavel': 73.25,
  'energia_total': 378.61,
  'grupo': 'ASEAN',
  'porcentagem_renovavel': 19.347085391299753},
 {'ano': 2000,
  'energia_renovavel': 406.89,
  'energia_total': 2622.17,
  'grupo': 'EU',
  'porcentagem_renovavel': 15.517300556409385},
 {'ano': 2000,
  'energia_renovavel': 1906.6599999999999,
  'energia_total': 11779.44,
  'grupo': 'G20',
  'porcentagem_renovavel': 16.186338230000747},
 {'ano': 2000,
  'energia_renovavel': 981.9399999999999,
  'energia_total': 7254.1,
  'grupo': 'G7',
  'porcentagem_renovavel': 13.53634496353786},
 {'ano': 2000,
  'energia_renovavel': 1578.04,
  'energia_total': 9620.06,
  'grupo': 'OECD',
  'porcentagem_renovavel': 16.403639894137875},
 {'ano': 2001,
  'energia_renovavel': 77.19,
  'energia_total': 404.85,
  'grupo': 'ASEAN',
  'porcentagem_renovavel': 19.06632085957762},
 {'ano': 2001,
  'energia_renovavel': 436.33,
  'energia_total': 2698.91,
  'grupo': 'EU',
  'porcentagem_re