# Base PIB por País e ano

Este notebook tem o intuito de relacionar as bases 1 e 2 conforme descritos abaixo:
    
1. "Emission_Country_Year" - Base principal do projeto, pois contén os dados quantitativos relacionados a emissão de gases poluentes por País e Ano, esta base registra dados de 1850 a 2019 de 236 países.

2. "Data-gdp-per-capita" - Base auxiliar, contém informações sobre o PIB de cada País por ano.

As relações das bases se darão pelas colunas Base 1, Coluna "country" e Base 2, coluna "Entity" que são comuns em ambas as bases.

Os dados foram limitados para dar inicio no ano de 1850, por conta da nossa base principal iniciar neste ano.

Contextualização: Utilizaremos está base para dar mais detalhes de como a Emissão de cO2 influenciou na economia de cada País. 

# Configurações e importações de bibliotecas

In [1]:
# Instalar os programas e bibliotecas que serão utilizados
!sudo apt install
!sudo pip install kaggle
!sudo apt-get install unzip
!sudo pip install pandas




0 upgraded, 0 newly installed, 0 to remove and 2 not upgraded.
Collecting kaggle
  Using cached https://files.pythonhosted.org/packages/99/33/365c0d13f07a2a54744d027fe20b60dacdfdfb33bc04746db6ad0b79340b/kaggle-1.5.10.tar.gz
    Complete output from command python setup.py egg_info:
    Traceback (most recent call last):
      File "<string>", line 1, in <module>
    ImportError: No module named setuptools
    
    ----------------------------------------
[31mCommand "python setup.py egg_info" failed with error code 1 in /tmp/pip-install-KMOI1W/kaggle/[0m



unzip is already the newest version (6.0-23+deb10u2).
0 upgraded, 0 newly installed, 0 to remove and 2 not upgraded.


In [2]:
# Importar a biblioteca do 
import pandas as pd

# Criação da Dimensão País 

In [3]:
# Ler a base dimensão País do Github
Pais = pd.read_csv('https://raw.githubusercontent.com/owid/co2-data/master/owid-co2-data.csv', error_bad_lines=False)

# Listar todas as colunas para visualizar quais serão utilizadas
Pais.columns

Index(['iso_code', 'country', 'year', 'co2', 'co2_growth_prct',
       'co2_growth_abs', 'consumption_co2', 'trade_co2', 'trade_co2_share',
       'co2_per_capita', 'consumption_co2_per_capita', 'share_global_co2',
       'cumulative_co2', 'share_global_cumulative_co2', 'co2_per_gdp',
       'consumption_co2_per_gdp', 'co2_per_unit_energy', 'cement_co2',
       'coal_co2', 'flaring_co2', 'gas_co2', 'oil_co2', 'other_industry_co2',
       'cement_co2_per_capita', 'coal_co2_per_capita',
       'flaring_co2_per_capita', 'gas_co2_per_capita', 'oil_co2_per_capita',
       'other_co2_per_capita', 'share_global_coal_co2', 'share_global_oil_co2',
       'share_global_gas_co2', 'share_global_flaring_co2',
       'share_global_cement_co2', 'cumulative_coal_co2', 'cumulative_oil_co2',
       'cumulative_gas_co2', 'cumulative_flaring_co2', 'cumulative_cement_co2',
       'share_global_cumulative_coal_co2', 'share_global_cumulative_oil_co2',
       'share_global_cumulative_gas_co2',
       'share_g

In [4]:
# Selecionar as colunas que serão utilizadas
Pais = Pais.filter(items=['iso_code', 'country'])

# Dropar todos os valores nulos
Pais.dropna(subset=['country'],inplace=True)

In [5]:
Pais

Unnamed: 0,iso_code,country
0,AFG,Afghanistan
1,AFG,Afghanistan
2,AFG,Afghanistan
3,AFG,Afghanistan
4,AFG,Afghanistan
...,...,...
23703,ZWE,Zimbabwe
23704,ZWE,Zimbabwe
23705,ZWE,Zimbabwe
23706,ZWE,Zimbabwe


In [6]:
#Agrupar 'iso_code' selecionando os dados coluna 'country' - índice reiniciado para 'iso_code' e transformado em coluna
Pais = Pais.groupby('country')['iso_code'].apply(lambda Pais: Pais.reset_index(drop=True)).unstack(0)

#Dropar todos os valores nulos
Pais.dropna(inplace=True)

# Transpor DataFrame
Pais = Pais.transpose()

#Reiniciar índice
Pais.reset_index(inplace=True)

# Alterar nome da coluna para 'country'
Pais.columns = ['country']

#exibição do dataframe
Pais.head()

Unnamed: 0,country
0,Afghanistan
1,Africa
2,Albania
3,Algeria
4,Andorra


# Tratamento de PIB por País

In [7]:
# Ler a base do PIB do diretorio do GitHub
PibPais = pd.read_csv('https://raw.githubusercontent.com/ViniGome/Projeto-Integrado/main/maddison-data-gdp-per-capita-in-2011us-single-benchmark.csv', error_bad_lines=False)

# Listar todas as colunas para visualizar quais serão utilizadas
PibPais.columns

Index(['Entity', 'Code', 'Year',
       'Real GDP per capita in 2011US$, 2011 benchmark (Maddison Project Database (2018))'],
      dtype='object')

In [8]:
# Selecionar as colunas que serão utilizadas
PibPais = PibPais.filter(items=['Year', 'Code', 'Entity', 'Real GDP per capita in 2011US$, 2011 benchmark (Maddison Project Database (2018))'])

In [9]:
# Alterar nomes das colunas
PibPais = PibPais.rename(columns={'Entity': 'Country', 'Real GDP per capita in 2011US$, 2011 benchmark (Maddison Project Database (2018))': 'PIB'})

# Criar novo dataframe com os dados anteriores ao tratamento
PibPais_in = PibPais

In [10]:
# Dropando dados abaixo do ano de 1850.
indexNames = PibPais[(PibPais['Year'] < 1850 )].index
PibPais.drop(indexNames, inplace=True)
PibPais

Unnamed: 0,Year,Code,Country,PIB
0,1950,AFG,Afghanistan,2392
1,1951,AFG,Afghanistan,2422
2,1952,AFG,Afghanistan,2462
3,1953,AFG,Afghanistan,2568
4,1954,AFG,Afghanistan,2576
...,...,...,...,...
17707,2012,ZWE,Zimbabwe,1604
17708,2013,ZWE,Zimbabwe,1604
17709,2014,ZWE,Zimbabwe,1594
17710,2015,ZWE,Zimbabwe,1560


In [11]:
# Converter coluna dt para número inteiro
PibPais = PibPais.astype({'Year': int})

#Reset index
PibPais.reset_index(inplace = True)

#Drop coluna index
PibPais.drop(['index'],axis=1, inplace = True)

# Comparação entre bases 1 e 2

In [12]:
PibPais_in['Country'].nunique()

169

In [13]:
pib_NaoIso = PibPais[PibPais['Country'].isin(Pais['country'])==False]
pib_NaoIso.count()

Year       315
Code        93
Country    315
PIB        315
dtype: int64

In [14]:
pib_NaoIso['Country'].unique()

array(['Czechoslovakia', 'Former USSR', 'Former Yugoslavia'], dtype=object)

In [15]:
pib_Iso = PibPais[PibPais['Country'].isin(Pais['country'])]
pib_Iso.count()

Year       14333
Code       14333
Country    14333
PIB        14333
dtype: int64

In [16]:
NaoPib_Iso = Pais[Pais['country'].isin(PibPais['Country'])]
NaoPib_Iso.count()

country    166
dtype: int64

In [17]:
# Calcular as médias do PIB por Ano e País.
MediaPIBPais = PibPais.groupby(['Year', 'Country']).mean()

# Converter índices do DataFrame em colunas
MediaPIBPais = MediaPIBPais.reset_index()

# Visualizar o novo dataframe
MediaPIBPais.head()

Unnamed: 0,Year,Country,PIB
0,1850,Argentina,2198
1,1850,Australia,3589
2,1850,Austria,2861
3,1850,Belgium,3029
4,1850,Brazil,1123


In [18]:
# Importar pacote de autenticação do Google e biblioteca para conexão entre Pandas e BigQuery
from google.oauth2 import service_account
import pandas_gbq as pd_gbq

In [19]:
# Autenticar acesso ao BigQuery
acesso = service_account.Credentials.from_service_account_info(
{
  "type": "service_account",
  "project_id": "blueshift-academy",
  "private_key_id": "41e1caa0b572364b9a1a2e0c0062da37bbcbe7ed",
  "private_key": "-----BEGIN PRIVATE KEY-----\nMIIEvgIBADANBgkqhkiG9w0BAQEFAASCBKgwggSkAgEAAoIBAQCuSbntsF3S72YR\noodN6Fk9DiSbOv6K9wmcUjRCd5prKrfkXehu2D1DpjlIQkYCeOFMeNU4FdHrsKEJ\nQy9CL5m8BLlzhZ822NKFpTBaEC6e4zQzBXlzhT5EaDbgHntculSnLpph8v/gHfWf\ndWckGgI2PUH1pOLsCUCbFQA22D8WQMPlVjBx+yCRVkU65x17l7XrlEBYw/ko/duH\n3v/GJQYU3qaX774T6BGBocj2CoqR5tgE93CWHFw5iZXuUm6d49aMkU3VZ8gH+B/M\n5BucMm6La6zp1gOGe6ureHY48OLugfOuAnmZhOcD6eXuIpDf2s4TqCf6r5xT3lls\nDRJ6R0YxAgMBAAECggEAHWrcytl8sKSPRBU8hMIdw+At/hSCT8bcNKosX3asFgAX\nG2DdYU424wL8wq1K/1JTZtKzXHzUWpWMzNEt+hwqNPHQModAhSOqPvwPkfgOwmtD\njYQUSJMaHDZB4ujKNi/OJ4zGapd3KGcuJOzOTKnmKy0CQ9nBooj6QmLUTy2HUnQz\nLEA7KCbEhOVv0V75JeXIK6RUJD/Kcxt4oONDxQcGZ7qKAfZCvBRDFrryByin2JeN\nbfl2YbOCbCzJfZCc8b4PwoWY+6cuHWoHW1QqEq4vei1PfuL690xtUB1Tb4M3ieuO\nZOLIPYs6lsTCV1yXe08fb7ts/HrU0VYPI4KEzfexxQKBgQDcw/bHFD//iE0W2Oz4\nS+yXtHg+Xwkrd1NyRGuohAYOMRbRj3S/lIk60jU03xFI+6Uyma3HNy2zMbZaGVhJ\n7l0w42zftxQwbORtu8IZnJTvpSLx3VcQ5i+tGKpyN8/h7BGdXUDeLtEyMq98EOTs\nmqFJL015yb6MZo2sD9Da2gzB1QKBgQDKGsj2WV1Q0kfvCh1PcTLsnERDjII+X3hT\nHnt9QIRtjy7vBzxwunc4sfsKJn+MTDsPwP/opqv1tz4nzKqc4ZVvcOKrc+M0WwsR\nkDEykrR3kn6jScRcvDuScA13Xoka21wnt/+BYppK3SCJjjWqtNcNZb+2C2iBx60c\nM4GKQ26E7QKBgCUnviLnX5YMRJ0xyUBI1vr5Xrtwl0R/gsXaihwEjFhbHrIKaOXN\nhAMoWdgaKviTkcwgXUUIHmLoXP5xAZD/0yNlQ2+rinRT/2YQkaxp1A85RdZbIEox\n05hYbGdoyU4Gwzgu97ntOzwtl6dT2JORus9sbKewsqdCo1lwGACdbkQ5AoGBALRB\nd4Pg6I2xP19AEixMtjK6nVfx9ihTViosQc/Qv0xILIAcYBfa94Klm1XOSGyFgRfn\n91c1cKHTMailrnYF7RZcBI8O6VJE8XZUuMx2dGdBTZmtrWlYqXlOX3Rb6MT/aQ4z\n2bs4iozC9MY7BDqg2D2mxnpDao513TwN5DfBNM1xAoGBAMpHVOeEcYaPbAMfCJrL\nYRdIKzyBXWWzZoA2iCz4QI2HQ9uiLQQogGxQbTaQaKxQKnbY+1kAfEkfhgJ+K4WB\nxvUpyLhGZ4n05tr1ySKt5r1dMhjKdWI+PzUO+VnC+MvqV6hStu98uH3nLABC7q1n\n/WtWzmm5JzEcij1X/9/mw+cK\n-----END PRIVATE KEY-----\n",
  "client_email": "725609614257-compute@developer.gserviceaccount.com",
  "client_id": "116558903634579342107",
  "auth_uri": "https://accounts.google.com/o/oauth2/auth",
  "token_uri": "https://oauth2.googleapis.com/token",
  "auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
  "client_x509_cert_url": "https://www.googleapis.com/robot/v1/metadata/x509/725609614257-compute%40developer.gserviceaccount.com"
})

In [20]:
# Atualizar o cache de credenciais na memória
pd_gbq.context.credentials = acesso
pd_gbq.context.project = "blueshift-academy"

In [21]:
# Nome do projeto onde o Conjunto de Dados está hospedado
Projeto= 'blueshift-academy'

# Inserir o DataFrame no BigQuery - (NomeDataFrame, ConjuntoDados.NomeTabela, ...)
pd_gbq.to_gbq(MediaPIBPais, 'PIB.MediaPIBPais', project_id=Projeto, if_exists='replace')
pd_gbq.to_gbq(PibPais_in, 'PIB.PibPais_in', project_id=Projeto, if_exists='replace')

1it [00:02,  2.91s/it]
1it [00:02,  2.74s/it]


# Autor: Vinicius Oliveira