# Análise da Correlação de Métricas de Países com sua Emissão de Carbono

## Alunos

- Bruno de Marco Appolonio - RA
- João Vitor Vendemiato Fatoretto - 199944
- Lucas Costa de Oliveira - RA
- Natan Beltrão da Cunha Pevidor Carvalho - 184972

## Introdução

Neste projeto, buscamos analisar a correlação entre diversas métricas e a emissão de carbono anual de um país. As métricas avaliadas incluem tanto fatores diretamente relacionados com a pegada de carbono de um país (como desmatamento) tanto como métricas mais gerais (como liberdade de imprensa), permitindo estabelecer relações diversas.

Como metodologia, aplicamos uma regressão linear sobre os diversos parâmetros, permitindo avaliar a relevância de cada um para o cálculo e criando um modelo de predição considerando mudanças nas métricas avaliadas.

## Métricas Utilizadas

Obtivemos as métricas de diversas fontes. Por isso, nem todos os dados estão disponíveis para todos os países avaliados ou para o mesmo ano. Utilizamos o dados mais recentes disponíveis em cada uma das fontes.

### Our World in Data ([fonte](https://ourworldindata.org/co2-emissions))

- Emissão de CO<sub>2</sub> em milhões de toneladas (2015 para Cuba, Coreia do Norte e Palestina, 2016 par países restantes)
- PIB em dólares ajustdo para inflação de 2011 (2015 para Cuba, Coreia do Norte e Palestina, 2016 par países restantes)
- População (2015 para Cuba, Coreia do Norte e Palestina, 2016 par países restantes)

### ONU ([fonte](http://hdr.undp.org/en/indicators))

- **Índice de gini de distribuição de renda familiar (anos variados)**
- IDH (2019)
- Porcentagem da população residindo em áreas urbanas (2019)
- Porcentagem da variação na área de floresta (diferença entre 1990 e 2016)
- **Porcentagem da energia consumida proveniente de combustíveis fósseis (anos variados)**
- Porcentagem do Rendimento Nacional Bruto derivado da extração de recursos naturais (anos variados)
- Índice de desigualdade de gênero (2019)
- Expectativa de vida no nascimento (2019)
- **Porcentagem da população vivendo abaixo da linha da pobreza (anos variados)**
- **Porcentagem do PIB investido em pesquisa e desenvolvimento (anos variados)**
- **Proporção dos gastos públicos em educação e saúde sobre gastos militares (anos variados)**
- Porcentagem de importações e exportações sobre o PIB (anos variados)
- **Índice de desemprego (2019)**

### Center for Systemic Peace ([fonte](https://www.systemicpeace.org/polityproject.html))

- Polity Score, índice que avalia o nível de democracia de cada país - removemos países com valores especiais para evitar interferência na regressão (2018)

### Repórteres sem Fronteira ([fonte](https://rsf.org/en/ranking))

- Índice de liberdade de imprensa (2021)

**Dados em negrito estão disponíveis para menos de 90% dos países selecionados**

In [1]:
import json
import csv

data = {}

co2_file_path = "owid-co2-data.json"
with open(co2_file_path, 'r', encoding='utf8') as json_file:
    co2_data = json.load(json_file)
    for key in co2_data.keys():
        if 'iso_code' in co2_data[key] and key != 'World':
            for i in range(len(co2_data[key]['data'])):
                if 'co2' in co2_data[key]['data'][i] and 'gdp' in co2_data[key]['data'][i] \
                        and 'population' in co2_data[key]['data'][i]:
                    data[co2_data[key]['iso_code']] = {
                        'name': key,
                        'co2_emissions': co2_data[key]['data'][i]['co2'],
                        'gdp': co2_data[key]['data'][i]['gdp'],
                        'population': co2_data[key]['data'][i]['population']               
                    }

X_fields = ['gdp', 'population']
                   
def get_iso3_from_country_name(country_name):
    iso3 = [key for key, values in data.items() if values['name'] == country_name]
    return iso3[0] if iso3 else None

def add_csv_data(file, country_row, data_row, data_name):
    X_fields.append(data_name)
    with open(file, encoding='utf8') as csvfile:
        reader = csv.reader(csvfile, delimiter=',')
        co2_names = [(data[key]['name'], key) for key in data]
        for line in reader:
            country_key = get_iso3_from_country_name(line[country_row])
            if country_key:
                data[country_key][data_name] = float(line[data_row])

def check_missing_countries(file, country_row):
    with open(file, encoding='utf8') as csvfile:
        reader = csv.reader(csvfile, delimiter=',')
        co2_names = [data_dict[key]['name'] for key in data_dict]
        file_names = [line[country_row] for line in reader]
        return [name for name in co2_names if name not in file_names]

add_csv_data('gini-index.csv', 1, -2, 'gini_index')
add_csv_data('hdi.csv', 1, -2, 'hdi')
add_csv_data('urban-population.csv', 1, -2, 'urban_population')
add_csv_data('forest-area-change.csv', 1, -2, 'forest_area_change')
add_csv_data('fossil-fuel-percentage.csv', 1, -2, 'fossil_fuel_percentage')
add_csv_data('natural-resource-depletion.csv', 1, -2, 'natural_resource_depletion')
add_csv_data('gender-inequality-index.csv', 1, -2, 'gender_inequality_index')
add_csv_data('life-expectancy.csv', 1, -2, 'life_expectancy')
add_csv_data('poverty-line.csv', 1, -2, 'poverty_line')
add_csv_data('research-and-development.csv', 1, -2, 'research_and_development')
add_csv_data('education-health-military-expenses.csv', 1, -2, 'education_health_military_expenses')
add_csv_data('exports-imports.csv', 1, -2, 'exports_imports')
add_csv_data('unemployment.csv', 1, -2, 'unemployment')
add_csv_data('democracy.csv', 4, 10, 'democracy')
add_csv_data('press-freedom.csv', 3, 7, 'press_freedom')

print('Países:', len(data.keys()))

Países: 164


## Pré-processamento dos Dados

Antes de executar a regressão, precisamos realizar algumas alterações nos dados para garantir um melhor resultado.

### Imputação de Dados Faltantes

Devido ao uso de diversas fontes de dados diferentes, muitas métricas não estão disponíveis para todos os países. Porém, o método de regressão linear não é capaz de lidar com valores nulos. Por isso, utilizamos um método simples de imputação de dados, onde valores nulos passam a ter o valor da média aritmética dos valores restantes. Essa atribuição tenta atribuir o valor que tenha o menor impacto possível no treinamento.

### Separação de Dados de Treinamento e Teste

Para validar nosso modelo, reservamos 10% dos países para teste no final e 90% para o treinamento e validações necessárias durante seu desenvolvimento.


### Normalização dos Dados

In [69]:
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

countries = []
X = []
y = []
for values in data.values():
    countries.append(values['name'])
    y.append(values['co2_emissions'])
    X.append([values[field] if field in values else np.nan for field in X_fields])

imp = SimpleImputer(missing_values=np.nan, strategy='mean')
X = imp.fit_transform(X)
y = np.array(y)

X_train, X_test, y_train, y_test, countries_train, countries_test \
        = train_test_split(X, y, countries, test_size=0.1, random_state=0)


def normalize(array):
    min_by_feature = array.min(axis=0)
    max_by_feature = array.max(axis=0)
    
    normalized_array = array.copy()
    
    for j in range(0, len(array[0])):
        for i in range(0, len(array)):
            normalized_array[i, j] = (array[i, j] - min_by_feature[j]) / (max_by_feature[j] - min_by_feature[j])
    
    return normalized_array

# X_train = normalize(X_train)
# X_test = normalize(X_test)

# print(X_test)
# print(y_test)

print("Training countries:", countries_train)
print("Testing countries:", countries_test)

Training countries: ['Niger', 'Myanmar', 'Zambia', 'North Macedonia', 'Sudan', 'Costa Rica', 'Germany', 'Togo', 'Azerbaijan', 'Turkmenistan', 'Georgia', 'Tanzania', 'Sao Tome and Principe', 'Guinea-Bissau', 'Haiti', 'United Kingdom', 'Canada', 'Taiwan', 'Slovakia', 'Bulgaria', 'Mexico', 'South Africa', 'Bosnia and Herzegovina', 'Honduras', 'North Korea', 'Djibouti', 'India', 'Cambodia', 'Yemen', 'Japan', 'Rwanda', 'Laos', 'Saint Lucia', 'Chad', 'Montenegro', 'Russia', 'Tunisia', 'Hong Kong', 'Nigeria', 'Brazil', 'Israel', 'Colombia', 'Libya', 'Jamaica', 'Oman', 'Algeria', 'Guinea', 'Lithuania', 'Turkey', 'Ecuador', 'Bangladesh', 'Malta', 'Uzbekistan', 'Mozambique', 'Mauritania', 'Lesotho', 'Sierra Leone', 'Uruguay', 'Finland', 'Portugal', 'Trinidad and Tobago', 'Hungary', 'Norway', 'Pakistan', 'Iraq', 'Ethiopia', 'Eswatini', 'Belgium', 'Romania', 'Cameroon', 'Philippines', 'Burkina Faso', 'Bolivia', 'Kuwait', 'Gabon', 'Kazakhstan', 'Angola', 'Zimbabwe', 'Mongolia', 'Australia', 'Iran',

In [61]:
#Regressao linear normal
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
import pandas as pd
#Utilizando a mesma regressão logistica com liblinear pois é o recomendado para datasets pequenos(<10000)
reg = LinearRegression().fit(X_train, y_train)
print(reg.score(X_train, y_train))
print("Intercept")
print(reg.intercept_)
print("Coeficiente")
print(reg.coef_)
y_pred = reg.predict(X_test)
errors = mean_squared_error(y_test, y_pred)
print("Erro pela media quadratica")
print(errors)
errors2 = mean_squared_error(y_test, y_pred, squared=False)
print("Erro pela raiz da media quadratica")
print(errors2)
errors3 = mean_absolute_error(y_test, y_pred)
print("Erro pela media absoluta")
print(errors3)
df = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
df

0.9229161871308197
Intercept
494.2752032639587
Coeficiente
[ 3.48326301e-10  1.13877493e-06  2.83930898e+00 -1.02145534e+03
  3.50650060e-01  3.17244232e-01 -1.18465017e-01  1.95259011e+00
 -6.50752408e+02  3.82829822e+00 -2.19627321e+00 -1.64944586e+01
  3.40214732e+00  4.14799134e-01  4.71960331e+00 -1.25814233e+01
 -4.50378731e-01]
Erro pela media quadratica
31675.318209367735
Erro pela raiz da media quadratica
177.97561127684807
Erro pela media absoluta
127.48312123130393


Unnamed: 0,Actual,Predicted
0,281.705,365.818113
1,1.263,-107.651688
2,5.448,26.063558
3,67.112,19.293002
4,4.346,-18.057251
5,16.547,-41.143375
6,617.96,520.552173
7,6.638,-50.17143
8,0.297,-179.243058
9,233.516,464.45766


In [68]:
#Regressao linear com arvore de decisão
from sklearn import tree
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
import pandas as pd
#Utilizando a mesma regressão logistica com liblinear pois é o recomendado para datasets pequenos(<10000)
reg =  tree.DecisionTreeRegressor().fit(X_train, y_train)
y_pred = reg.predict(X_test)
errors = mean_squared_error(y_test, y_pred)
print("Erro pela media quadratica")
print(errors)
errors2 = mean_squared_error(y_test, y_pred, squared=False)
print("Erro pela raiz da media quadratica")
print(errors2)
errors3 = mean_absolute_error(y_test, y_pred)
print("Erro pela media absoluta")
print(errors3)
df = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
df

Erro pela media quadratica
10641955.774213355
Erro pela raiz da media quadratica
3262.201062812247
Erro pela media absoluta
1634.3362941176472


Unnamed: 0,Actual,Predicted
0,281.705,1618.304
1,1.263,4.805
2,5.448,34.111
3,67.112,356.556
4,4.346,17.152
5,16.547,460.043
6,617.96,9552.517
7,6.638,52.36
8,0.297,2.36
9,233.516,2392.36


In [67]:
#Regressao linear com rede neural
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
import pandas as pd
#Utilizando a mesma regressão logistica com liblinear pois é o recomendado para datasets pequenos(<10000)
reg =  MLPRegressor(random_state=1, max_iter=500).fit(X_train, y_train)
y_pred = reg.predict(X_test)
errors = mean_squared_error(y_test, y_pred)
print("Erro pela media quadratica")
print(errors)
errors2 = mean_squared_error(y_test, y_pred, squared=False)
print("Erro pela raiz da media quadratica")
print(errors2)
errors3 = mean_absolute_error(y_test, y_pred)
print("Erro pela media absoluta")
print(errors3)
df = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
df

Erro pela media quadratica
20669.79422902688
Erro pela raiz da media quadratica
143.76993506650436
Erro pela media absoluta
120.71255430709024




Unnamed: 0,Actual,Predicted
0,281.705,218.228953
1,1.263,123.865788
2,5.448,152.144191
3,67.112,192.098333
4,4.346,186.20399
5,16.547,154.486898
6,617.96,261.995708
7,6.638,144.543812
8,0.297,128.106139
9,233.516,261.54861


In [64]:
#Regressao linear com k vizinhos
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
import pandas as pd
#Utilizando a mesma regressão logistica com liblinear pois é o recomendado para datasets pequenos(<10000)
reg =  KNeighborsRegressor(n_neighbors=2).fit(X_train, y_train)
y_pred = reg.predict(X_test)
errors = mean_squared_error(y_test, y_pred)
print("Erro pela media quadratica")
print(errors)
errors2 = mean_squared_error(y_test, y_pred, squared=False)
print("Erro pela raiz da media quadratica")
print(errors2)
errors3 = mean_absolute_error(y_test, y_pred)
print("Erro pela media absoluta")
print(errors3)
df = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
df

Erro pela media quadratica
11231.66730501471
Erro pela raiz da media quadratica
105.97956078893094
Erro pela media absoluta
67.9235588235294


Unnamed: 0,Actual,Predicted
0,281.705,191.029
1,1.263,2.6495
2,5.448,6.646
3,67.112,123.6725
4,4.346,6.961
5,16.547,17.2405
6,617.96,420.5925
7,6.638,9.8145
8,0.297,0.9485
9,233.516,307.089
