<h2>Projeto de ETL Avaliação das Emissões de CO₂ e Seus Fatores Associados</h2>

<h4>Carregando pacotes</h4>

In [1]:
import pandas as pd
import csv
import requests
import os
from io import StringIO

<h4>Carregar base dados CO2 Emissions</h4>

In [None]:

URL_BASE = "https://ourworldindata.org/grapher/co2-emissions-per-capita.csv?useColumnShortNames=true"

file_path = os.path.join("data", "co2_emissions_per_capita.csv")

if os.path.exists(file_path):
    print(f"O arquivo já existe em: {file_path}")
else:
    response = requests.get(URL_BASE)
    
    if response.status_code == 200:
        os.makedirs("data", exist_ok=True)
        
        data = pd.read_csv(StringIO(response.text))
        data.to_csv(file_path, index=False) 
        
        print(f"Arquivo salvo em: {file_path}")
        print(data.info())  
    else:
        print(f"Erro na requisição: {response.status_code}")

O arquivo já existe em: data\co2_emissions_per_capita.csv


<h4>Limpar base dados CO2 Emissions</h4>

In [7]:
input_file_path = "./data/co2_emissions_per_capita.csv"
output_file_path = "./data/data_cleaned/cleaned_co2_emissions_per_capita.csv"

# Verificar se o arquivo de saída já existe
if os.path.exists(output_file_path):
    print(f"O arquivo '{output_file_path}' já existe. Nenhuma ação será realizada.")
else:
    # Carregar o arquivo de entrada
    co2_emissions_per_capita = pd.read_csv(input_file_path, sep=",")
    
    # Remover a coluna 'Code'
    co2_emissions_per_capita = co2_emissions_per_capita.drop(columns=['Code'])
    
    # Salvar o arquivo limpo
    os.makedirs(os.path.dirname(output_file_path), exist_ok=True)  
    co2_emissions_per_capita.to_csv(output_file_path, index=False)
    print(f"Arquivo limpo salvo em: {output_file_path}")

Arquivo limpo salvo em: ./data/data_cleaned/cleaned_co2_emissions_per_capita.csv


<h4>Carregar base dados CO2 Land Use and Total Emissions</h4>

In [10]:
URL_BASE = "https://ourworldindata.org/grapher/co2-fossil-plus-land-use.csv?v=1&csvType=full&useColumnShortNames=true"

file_path = os.path.join("data", "co2_land_use_total_emissions.csv")

if os.path.exists(file_path):
    print(f"O arquivo já existe em: {file_path}")
else:
    response = requests.get(URL_BASE)
    
    if response.status_code == 200:
        os.makedirs("data", exist_ok=True)
        
        data = pd.read_csv(StringIO(response.text))
        data.to_csv(file_path, index=False) 
        
        print(f"Arquivo salvo em: {file_path}")
        print(data.info())  
    else:
        print(f"Erro na requisição: {response.status_code}")

Arquivo salvo em: data\co2_land_use_total_emissions.csv
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42776 entries, 0 to 42775
Data columns (total 6 columns):
 #   Column                                     Non-Null Count  Dtype  
---  ------                                     --------------  -----  
 0   Entity                                     42776 non-null  object 
 1   Code                                       37033 non-null  object 
 2   Year                                       42776 non-null  int64  
 3   emissions_total_including_land_use_change  23585 non-null  float64
 4   emissions_from_land_use_change             37236 non-null  float64
 5   emissions_total                            29137 non-null  float64
dtypes: float64(3), int64(1), object(2)
memory usage: 2.0+ MB
None


<h4>Limpar base dados CO2 Land Use and Total Emissions</h4>

In [12]:
input_file_path = "./data/co2_land_use_total_emissions.csv"
output_file_path = "./data/data_cleaned/cleaned_co2_land_use_total_emissions.csv"

# Verificar se o arquivo de saída já existe
if os.path.exists(output_file_path):
    print(f"O arquivo '{output_file_path}' já existe. Nenhuma ação será realizada.")
else:
    # Carregar o arquivo de entrada
    co2_land_use = pd.read_csv(input_file_path, sep=",")
    
    # Remover a coluna 'Code'
    co2_land_use  = co2_land_use.drop(columns=['Code'])

    # Removendo valores nulos
    co2_land_use = co2_land_use.dropna(subset=['emissions_total_including_land_use_change', 'emissions_from_land_use_change', 'emissions_total'])
    
    # Salvar o arquivo limpo
    os.makedirs(os.path.dirname(output_file_path), exist_ok=True)  
    co2_land_use.to_csv(output_file_path, index=False)
    print(f"Arquivo limpo salvo em: {output_file_path}")

Arquivo limpo salvo em: ./data/data_cleaned/cleaned_co2_land_use_total_emissions.csv


<h4>Carregar base dados Per capita Energy Stacked</h4>

In [4]:
URL_BASE = "https://ourworldindata.org/grapher/per-capita-energy-stacked.csv?v=1&csvType=full&useColumnShortNames=true"

file_path = os.path.join("data", "energy_mix_sources.csv")

if os.path.exists(file_path):
    print(f"O arquivo já existe em: {file_path}")
else:
    response = requests.get(URL_BASE)
    
    if response.status_code == 200:
        os.makedirs("data", exist_ok=True)
        
        data = pd.read_csv(StringIO(response.text))
        data.to_csv(file_path, index=False) 
        
        print(f"Arquivo salvo em: {file_path}")
        print(data.info())  
    else:
        print(f"Erro na requisição: {response.status_code}")

Arquivo salvo em: data\energy_mix_sources.csv
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6315 entries, 0 to 6314
Data columns (total 11 columns):
 #   Column                                        Non-Null Count  Dtype  
---  ------                                        --------------  -----  
 0   Entity                                        6315 non-null   object 
 1   Code                                          5669 non-null   object 
 2   Year                                          6315 non-null   int64  
 3   coal_per_capita__kwh                          4754 non-null   float64
 4   oil_per_capita__kwh                           5049 non-null   float64
 5   gas_per_capita__kwh                           4555 non-null   float64
 6   nuclear_per_capita__kwh__equivalent           6315 non-null   float64
 7   hydro_per_capita__kwh__equivalent             4832 non-null   float64
 8   wind_per_capita__kwh__equivalent              4155 non-null   float64
 9   solar_per_capita_

<h4>Limpar base dados Per capita Energy Stacked</h4>

In [14]:
input_file_path = "./data/energy_mix_sources.csv"
output_file_path = "./data/data_cleaned/cleaned_energy_mix_sources.csv"

# Verificar se o arquivo de saída já existe
if os.path.exists(output_file_path):
    print(f"O arquivo '{output_file_path}' já existe. Nenhuma ação será realizada.")
else:
    # Carregar o arquivo de entrada
    energy_mix_sources = pd.read_csv(input_file_path, sep=",")
    
    # Remover a coluna 'Code'
    energy_mix_sources = energy_mix_sources.drop(columns=['Code'])

    # Preencher valores vazios com o valor 0
    energy_mix_sources.fillna(0, inplace=True)
    
    # Salvar o arquivo limpo
    os.makedirs(os.path.dirname(output_file_path), exist_ok=True)  
    energy_mix_sources.to_csv(output_file_path, index=False)
    print(f"Arquivo limpo salvo em: {output_file_path}")

Arquivo limpo salvo em: ./data/data_cleaned/cleaned_energy_mix_sources.csv


<h4>Limpar base dados World Population</h4>

In [13]:
input_file_path = "./data/un_data_pop_world.csv"
output_file_path = "./data/data_cleaned/cleaned_un_data_pop_world.csv"

# Verificar se o arquivo de saída já existe
if os.path.exists(output_file_path):
    print(f"O arquivo '{output_file_path}' já existe. Nenhuma ação será realizada.")
else:
    # Carregar o arquivo de entrada
    world_population = pd.read_csv(input_file_path, sep=",")
    
    # Remover a coluna 'Record Type','Reliability','Source Year','Value Footnotes'
    world_population  = world_population.drop(columns=['Record Type','Reliability','Source Year','Value Footnotes'])

    # Removendo valores nulos
    world_population = world_population.dropna(subset=['Value'])

    # Filtrar para incluir apenas as linhas que contenha "Both Sexes"
    world_population = world_population[world_population["Sex"] == "Both Sexes"]

    # Remover a coluna 'Sex'
    world_population = world_population.drop(columns=['Sex'])
    
    # Salvar o arquivo limpo
    os.makedirs(os.path.dirname(output_file_path), exist_ok=True)  
    world_population.to_csv(output_file_path, index=False)
    print(f"Arquivo limpo salvo em: {output_file_path}")

  world_population = pd.read_csv(input_file_path, sep=",")


Arquivo limpo salvo em: ./data/data_cleaned/cleaned_un_data_pop_world.csv
