In [1]:
import pandas as pd
import numpy as np

- Vicenzo Massao -- 554833
- Erick Alves -- 556862
- Luiz Neri -- 556864


### Fonte dos dados:
https://www.kaggle.com/datasets/pralabhpoudel/world-energy-consumption

## Descrição das Colunas:

- country (país): O nome do país que está sendo analisado.

- year (ano): O ano da observação ou do dado registrado.

- gdp (PIB em milhões): O Produto Interno Bruto (PIB) do país, representado em milhões de dólares. Reflete o total da produção econômica de um país.

- population (população): A população total do país no ano específico.

- fossil_fuel_consumption (consumo de combustíveis fósseis): A quantidade total de energia consumida proveniente de combustíveis fósseis (como carvão, petróleo e gás), geralmente em TWh (terawatt-horas).

- fossil_share_energy (participação dos combustíveis fósseis na energia): A porcentagem de energia total consumida que provém de combustíveis fósseis.

- fossil_share_elec (participação dos combustíveis fósseis na eletricidade): A porcentagem de eletricidade gerada que provém de combustíveis fósseis.

- biofuel_consumption (consumo de biocombustíveis): A quantidade total de energia consumida proveniente de biocombustíveis, geralmente em TWh.

- biofuel_share_energy (participação dos biocombustíveis na energia): A porcentagem de energia total consumida que provém de biocombustíveis.

- solar_consumption (consumo de energia solar): A quantidade total de energia consumida proveniente de energia solar, geralmente em TWh.

- solar_share_energy (participação da energia solar na energia): A porcentagem de energia total consumida que provém de energia solar.

- wind_consumption (consumo de energia eólica): A quantidade total de energia consumida proveniente de energia eólica, geralmente em TWh.

- wind_share_energy (participação da energia eólica na energia): A porcentagem de energia total consumida que provém de energia eólica.

- hydro_consumption (consumo de energia hidrelétrica): A quantidade total de energia consumida proveniente de energia hidrelétrica, geralmente em TWh.

- hydro_share_energy (participação da energia hidrelétrica na energia): A porcentagem de energia total consumida que provém de energia hidrelétrica.

- nuclear_consumption (consumo de energia nuclear): A quantidade total de energia consumida proveniente de energia nuclear, geralmente em TWh.

- nuclear_share_energy (participação da energia nuclear na energia): A porcentagem de energia total consumida que provém de energia nuclear.

- other_renewable_consumption (consumo de outras fontes renováveis): A quantidade total de energia consumida proveniente de fontes renováveis que não sejam biocombustíveis, solar, eólica ou hidrelétrica (como geotérmica, biomassa, etc.), geralmente em TWh.

- other_renewables_share_energy (participação das outras fontes renováveis na energia): A porcentagem de energia total consumida que provém de outras fontes renováveis.

- greenhouse_gas_emissions (emissões de gases de efeito estufa): A quantidade de gases de efeito estufa emitidos pelo país, geralmente medida em toneladas de CO2 equivalente.

- energy_per_capita (energia per capita): A quantidade total de energia consumida por pessoa no país, geralmente em kWh (quilowatt-horas).

- primary_energy_consumption (consumo de energia primária): A quantidade total de energia consumida em termos de energia primária, que inclui a energia utilizada diretamente e a energia convertida em eletricidade, geralmente em TWh.

- per_capita_electricity (eletricidade per capita): A quantidade de eletricidade consumida por pessoa no país, geralmente em kWh.

- electricity_generation (geração de eletricidade): A quantidade total de eletricidade gerada no país, geralmente em TWh.

- green_energy_consumption (consumo de energia verde): A quantidade total de energia consumida proveniente de fontes renováveis (solar, eólica, hidrelétrica, biomassa, etc.), geralmente em TWh.

- fossil_energy_consumption (consumo de energia fóssil): A quantidade total de energia consumida proveniente de combustíveis fósseis, geralmente em TWh. (Pode ser similar ao valor da coluna "fossil_fuel_consumption", dependendo da definição de "energia" usada.)

- renewable_share_energy (participação das energias renováveis na energia): A porcentagem de energia total consumida que provém de fontes renováveis, COMPARADO COM A ENERGIA PRIMARIA DE UM PAÍS. Isso inclui todas as fontes renováveis, como solar, eólica, hidrelétrica, biomassa, etc.

In [109]:
df = pd.read_csv("../data/WorldEnergyConsumption.csv")
df.drop(df[df['country'] == 'ASEAN (Ember)'].index, inplace=True)
df.head()

Unnamed: 0,country,year,iso_code,population,gdp,biofuel_cons_change_pct,biofuel_cons_change_twh,biofuel_cons_per_capita,biofuel_consumption,biofuel_elec_per_capita,...,solar_share_elec,solar_share_energy,wind_cons_change_pct,wind_cons_change_twh,wind_consumption,wind_elec_per_capita,wind_electricity,wind_energy_per_capita,wind_share_elec,wind_share_energy
23,Afghanistan,1900,AFG,4707744.0,,,,,,,...,,,,,,,,,,
24,Afghanistan,1901,AFG,4751177.0,,,,,,,...,,,,,,,,,,
25,Afghanistan,1902,AFG,4802500.0,,,,,,,...,,,,,,,,,,
26,Afghanistan,1903,AFG,4861833.0,,,,,,,...,,,,,,,,,,
27,Afghanistan,1904,AFG,4921891.0,,,,,,,...,,,,,,,,,,


In [110]:
# Decidindo quais colunas são relevantes e ficarão para serem exploradas.
columns_to_keep = [
    'country', 'year', 'gdp', 'population', 
    'fossil_fuel_consumption', 'fossil_share_energy', 'fossil_share_elec',
    'biofuel_consumption', 'biofuel_share_energy',
    'solar_consumption', 'solar_share_energy',
    'wind_consumption', 'wind_share_energy',
    'hydro_consumption', 'hydro_share_energy',
    'nuclear_consumption', 'nuclear_share_energy',
    'other_renewable_consumption', 'other_renewables_share_energy',
    'greenhouse_gas_emissions', 'energy_per_capita', 'primary_energy_consumption', 
    'per_capita_electricity', 'electricity_generation'
]

df_filtered = df[columns_to_keep]

# Limpando alguns dados faltantes
df_filtered = df_filtered.fillna(0)

In [111]:
# Filtrando apenas alguns anos com bom espaçamento entre eles, para verificação da evolução do GBP, população, etc...
years_of_interest = [2020, 2014, 2005]
df_filtered = df_filtered[df_filtered['year'].isin(years_of_interest)]

# Criando uma coluna 'green_energy_consumption' para somar todos os consumos "verdes" de um país
df_filtered['green_energy_consumption'] = (
    df_filtered['biofuel_consumption'] + df_filtered['solar_consumption'] + 
    df_filtered['wind_consumption'] + df_filtered['hydro_consumption'] +
    df_filtered['other_renewable_consumption']
)

df_filtered['fossil_energy_consumption'] = df_filtered['fossil_fuel_consumption']
df_filtered.drop('fossil_fuel_consumption', axis=1, inplace=True)

In [112]:
# Calculando a porcentagem de energia consumo que é *RENOVÁVEL*
df_filtered['renewable_share_energy'] = df_filtered['green_energy_consumption'] / df_filtered['primary_energy_consumption'] * 100

In [113]:
df_filtered['gdp'] = df_filtered['gdp'] / 1e6  # Convertendo o GDP para milhões, para melhorar visibiilidade
df_filtered = df_filtered.rename(columns={'gdp': 'gdp_millions'})

In [114]:
# Arredondando o gdp para 3 casas decimais, e resetand os indexes
df_filtered['gdp_millions'] = df_filtered['gdp_millions'].round(3)
df_filtered.reset_index(drop=True, inplace=True)
df_filtered.head()

Unnamed: 0,country,year,gdp_millions,population,fossil_share_energy,fossil_share_elec,biofuel_consumption,biofuel_share_energy,solar_consumption,solar_share_energy,...,other_renewable_consumption,other_renewables_share_energy,greenhouse_gas_emissions,energy_per_capita,primary_energy_consumption,per_capita_electricity,electricity_generation,green_energy_consumption,fossil_energy_consumption,renewable_share_energy
0,Afghanistan,2005,25397.688,24411200.0,0.0,36.559,0.0,0.0,0.0,0.0,...,0.0,0.0,0.25,252.069,6.153,38.097,0.93,0.0,0.0,0.0
1,Afghanistan,2014,64346.108,32716210.0,0.0,13.793,0.0,0.0,0.0,0.0,...,0.0,0.0,0.13,868.576,28.417,35.456,1.16,0.0,0.0,0.0
2,Afghanistan,2020,0.0,38972240.0,0.0,15.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.09,702.888,27.393,20.527,0.8,0.0,0.0,0.0
3,Africa,2005,0.0,927898400.0,92.149,80.287,0.056,0.001,0.084,0.002,...,9.397,0.248,301.64,4079.506,3785.367,577.272,535.65,266.151,3488.187,7.031049
4,Africa,2014,0.0,1170299000.0,91.726,79.612,0.568,0.012,5.164,0.105,...,16.062,0.326,389.51,4210.886,4927.997,631.309,738.82,371.896,4520.241,7.546596


In [115]:
# Salvand o dataframe processado em um arquivo .csv
df_filtered.to_csv("../processed/WorldConsumptionProcessed.csv", index=False)

In [116]:
df_filtered.dtypes

country                           object
year                               int64
gdp_millions                     float64
population                       float64
fossil_share_energy              float64
fossil_share_elec                float64
biofuel_consumption              float64
biofuel_share_energy             float64
solar_consumption                float64
solar_share_energy               float64
wind_consumption                 float64
wind_share_energy                float64
hydro_consumption                float64
hydro_share_energy               float64
nuclear_consumption              float64
nuclear_share_energy             float64
other_renewable_consumption      float64
other_renewables_share_energy    float64
greenhouse_gas_emissions         float64
energy_per_capita                float64
primary_energy_consumption       float64
per_capita_electricity           float64
electricity_generation           float64
green_energy_consumption         float64
fossil_energy_co