# Introdução

Este notebook tem o intuito de relacionar as bases 1 e 2 conforme descritos abaixo:
    
1. "Emission_Country_Year" - Base principal do projeto, pois contén os dados quantitativos relacionados a emissão de gases poluentes por País e Ano, esta base registra dados de 1850 a 2019 de 236 países.

2. "Growth population" - Base auxiliar, contém informações sobre o Crescimento populacional por País,

As relações das bases se darão pelas colunas Base 1, Coluna "country" e Base 2, coluna "Entity" que são comuns em ambas as bases.

Os dados foram limitados para dar inicio no ano de 1850, por conta da nossa base principal iniciar neste ano.

Contextualização: Utilizaremos está base para dar mais detalhes de como a Emissão de CO2 foi influenciada com o crescimento populacional de cada País. 

# Configurações e importações de bibliotecas

In [1]:
# Importar a biblioteca Pandas
import pandas as pd

# Leitura da base Principal

In [2]:
# Ler a base dimensão País do Github
Pais = pd.read_csv('https://raw.githubusercontent.com/owid/co2-data/master/owid-co2-data.csv', error_bad_lines=False)

# Listar todas as colunas para visualizar quais serão utilizadas
Pais.columns

Index(['iso_code', 'country', 'year', 'co2', 'co2_growth_prct',
       'co2_growth_abs', 'consumption_co2', 'trade_co2', 'trade_co2_share',
       'co2_per_capita', 'consumption_co2_per_capita', 'share_global_co2',
       'cumulative_co2', 'share_global_cumulative_co2', 'co2_per_gdp',
       'consumption_co2_per_gdp', 'co2_per_unit_energy', 'cement_co2',
       'coal_co2', 'flaring_co2', 'gas_co2', 'oil_co2', 'other_industry_co2',
       'cement_co2_per_capita', 'coal_co2_per_capita',
       'flaring_co2_per_capita', 'gas_co2_per_capita', 'oil_co2_per_capita',
       'other_co2_per_capita', 'share_global_coal_co2', 'share_global_oil_co2',
       'share_global_gas_co2', 'share_global_flaring_co2',
       'share_global_cement_co2', 'cumulative_coal_co2', 'cumulative_oil_co2',
       'cumulative_gas_co2', 'cumulative_flaring_co2', 'cumulative_cement_co2',
       'share_global_cumulative_coal_co2', 'share_global_cumulative_oil_co2',
       'share_global_cumulative_gas_co2',
       'share_g

In [3]:
# Selecionar as colunas que serão utilizadas
Pais = Pais.filter(items=['iso_code', 'country'])

# Dropar todos os valores nulos
Pais.dropna(subset=['country'],inplace=True)

In [4]:
#Agrupar 'iso_code' selecionando os dados coluna 'country' - índice reiniciado para 'iso_code' e transformado em coluna
Pais = Pais.groupby('country')['iso_code'].apply(lambda Pais: Pais.reset_index(drop=True)).unstack(0)

#Dropar todos os valores nulos
Pais.dropna(inplace=True)

# Transpor DataFrame
Pais = Pais.transpose()

#Reiniciar índice
Pais.reset_index(inplace=True)

# Alterar nome da coluna para 'country'
Pais.columns = ['country']

#exibição do dataframe
Pais.head()

Unnamed: 0,country
0,Afghanistan
1,Africa
2,Albania
3,Algeria
4,Andorra


# Tratamento de Crescimento populacional por País

In [5]:
# Ler a base do PIB do diretorio do GitHub
GrowthPais  = pd.read_csv('https://raw.githubusercontent.com/ViniGome/Projeto-Integrado/main/population.csv', error_bad_lines=False)

# Listar todas as colunas para visualizar quais serão utilizadas
GrowthPais.columns

Index(['Entity', 'Code', 'Year', 'Total population (Gapminder, HYDE & UN)'], dtype='object')

In [6]:
# Selecionar as colunas que serão utilizadas
GrowthPais = GrowthPais.filter(items=['Year', 'Code', 'Entity', 'Total population (Gapminder, HYDE & UN)'])

In [7]:
# Alterar nomes das colunas
GrowthPais = GrowthPais.rename(columns={'Entity': 'Country', 'Total population (Gapminder, HYDE & UN)': 'Growth'})

# Criar novo dataframe com os dados anteriores ao tratamento
GrowthPais_in = GrowthPais

In [8]:
# Dropando dados abaixo do ano de 1850.
indexNames = GrowthPais[(GrowthPais['Year'] < 1850 )].index
GrowthPais.drop(indexNames, inplace=True)
#Reset index
GrowthPais.reset_index(inplace = True)
#Drop coluna index
GrowthPais.drop(['index'],axis=1, inplace = True)
#Exibição de dataframe
GrowthPais

Unnamed: 0,Year,Code,Country,Growth
0,1850,AFG,Afghanistan,3810047
1,1851,AFG,Afghanistan,3826140
2,1852,AFG,Afghanistan,3842299
3,1853,AFG,Afghanistan,3858524
4,1854,AFG,Afghanistan,3874815
...,...,...,...,...
36746,2015,ZWE,Zimbabwe,13815000
36747,2016,ZWE,Zimbabwe,14030000
36748,2017,ZWE,Zimbabwe,14237000
36749,2018,ZWE,Zimbabwe,14439000


In [9]:
# Converter coluna dt para número inteiro
GrowthPais = GrowthPais.astype({'Year': int})

In [10]:
# Calcular as médias do PIB por Ano e País.
MediaGrowthPais = GrowthPais.groupby(['Year', 'Country']).mean()

# Converter índices do DataFrame em colunas
MediaGrowthPais = MediaGrowthPais.reset_index()

# Visualizar o novo dataframe
MediaGrowthPais.head()

Unnamed: 0,Year,Country,Growth
0,1850,Afghanistan,3810047
1,1850,Africa,102932088
2,1850,Albania,506889
3,1850,Algeria,3299305
4,1850,Andorra,3230


In [11]:
# Importar pacote de autenticação do Google e biblioteca para conexão entre Pandas e BigQuery
from google.oauth2 import service_account
import pandas_gbq as pd_gbq

In [12]:
# Autenticar acesso ao BigQuery
acesso = service_account.Credentials.from_service_account_info(
{
  "type": "service_account",
  "project_id": "blueshift-academy",
  "private_key_id": "41e1caa0b572364b9a1a2e0c0062da37bbcbe7ed",
  "private_key": "-----BEGIN PRIVATE KEY-----\nMIIEvgIBADANBgkqhkiG9w0BAQEFAASCBKgwggSkAgEAAoIBAQCuSbntsF3S72YR\noodN6Fk9DiSbOv6K9wmcUjRCd5prKrfkXehu2D1DpjlIQkYCeOFMeNU4FdHrsKEJ\nQy9CL5m8BLlzhZ822NKFpTBaEC6e4zQzBXlzhT5EaDbgHntculSnLpph8v/gHfWf\ndWckGgI2PUH1pOLsCUCbFQA22D8WQMPlVjBx+yCRVkU65x17l7XrlEBYw/ko/duH\n3v/GJQYU3qaX774T6BGBocj2CoqR5tgE93CWHFw5iZXuUm6d49aMkU3VZ8gH+B/M\n5BucMm6La6zp1gOGe6ureHY48OLugfOuAnmZhOcD6eXuIpDf2s4TqCf6r5xT3lls\nDRJ6R0YxAgMBAAECggEAHWrcytl8sKSPRBU8hMIdw+At/hSCT8bcNKosX3asFgAX\nG2DdYU424wL8wq1K/1JTZtKzXHzUWpWMzNEt+hwqNPHQModAhSOqPvwPkfgOwmtD\njYQUSJMaHDZB4ujKNi/OJ4zGapd3KGcuJOzOTKnmKy0CQ9nBooj6QmLUTy2HUnQz\nLEA7KCbEhOVv0V75JeXIK6RUJD/Kcxt4oONDxQcGZ7qKAfZCvBRDFrryByin2JeN\nbfl2YbOCbCzJfZCc8b4PwoWY+6cuHWoHW1QqEq4vei1PfuL690xtUB1Tb4M3ieuO\nZOLIPYs6lsTCV1yXe08fb7ts/HrU0VYPI4KEzfexxQKBgQDcw/bHFD//iE0W2Oz4\nS+yXtHg+Xwkrd1NyRGuohAYOMRbRj3S/lIk60jU03xFI+6Uyma3HNy2zMbZaGVhJ\n7l0w42zftxQwbORtu8IZnJTvpSLx3VcQ5i+tGKpyN8/h7BGdXUDeLtEyMq98EOTs\nmqFJL015yb6MZo2sD9Da2gzB1QKBgQDKGsj2WV1Q0kfvCh1PcTLsnERDjII+X3hT\nHnt9QIRtjy7vBzxwunc4sfsKJn+MTDsPwP/opqv1tz4nzKqc4ZVvcOKrc+M0WwsR\nkDEykrR3kn6jScRcvDuScA13Xoka21wnt/+BYppK3SCJjjWqtNcNZb+2C2iBx60c\nM4GKQ26E7QKBgCUnviLnX5YMRJ0xyUBI1vr5Xrtwl0R/gsXaihwEjFhbHrIKaOXN\nhAMoWdgaKviTkcwgXUUIHmLoXP5xAZD/0yNlQ2+rinRT/2YQkaxp1A85RdZbIEox\n05hYbGdoyU4Gwzgu97ntOzwtl6dT2JORus9sbKewsqdCo1lwGACdbkQ5AoGBALRB\nd4Pg6I2xP19AEixMtjK6nVfx9ihTViosQc/Qv0xILIAcYBfa94Klm1XOSGyFgRfn\n91c1cKHTMailrnYF7RZcBI8O6VJE8XZUuMx2dGdBTZmtrWlYqXlOX3Rb6MT/aQ4z\n2bs4iozC9MY7BDqg2D2mxnpDao513TwN5DfBNM1xAoGBAMpHVOeEcYaPbAMfCJrL\nYRdIKzyBXWWzZoA2iCz4QI2HQ9uiLQQogGxQbTaQaKxQKnbY+1kAfEkfhgJ+K4WB\nxvUpyLhGZ4n05tr1ySKt5r1dMhjKdWI+PzUO+VnC+MvqV6hStu98uH3nLABC7q1n\n/WtWzmm5JzEcij1X/9/mw+cK\n-----END PRIVATE KEY-----\n",
  "client_email": "725609614257-compute@developer.gserviceaccount.com",
  "client_id": "116558903634579342107",
  "auth_uri": "https://accounts.google.com/o/oauth2/auth",
  "token_uri": "https://oauth2.googleapis.com/token",
  "auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
  "client_x509_cert_url": "https://www.googleapis.com/robot/v1/metadata/x509/725609614257-compute%40developer.gserviceaccount.com"
})

In [13]:
# Atualizar o cache de credenciais na memória
pd_gbq.context.credentials = acesso
pd_gbq.context.project = "blueshift-academy"

In [14]:
# Nome do projeto onde o Conjunto de Dados está hospedado
Projeto = 'blueshift-academy'

# Inserir o DataFrame no BigQuery - (NomeDataFrame, ConjuntoDados.NomeTabela, ...)
pd_gbq.to_gbq(MediaGrowthPais, 'Growth.MediaGrowthPais', project_id=Projeto, if_exists='replace')
pd_gbq.to_gbq(GrowthPais_in, 'Growth.GrowthPais_in', project_id=Projeto, if_exists='replace')

1it [00:05,  5.09s/it]
1it [00:03,  3.51s/it]


# Autor: Vinicius Oliveira