# Consumo e Tratamento das bases de Temperatura do Kaggle

1. Download das bases do Kaggle via API

In [None]:
# Instalar os programas e bibliotecas que serão utilizados
!sudo apt install
!pip install kaggle
!sudo apt-get install unzip
!pip install pandas

Reading package lists... Done
Building dependency tree       
Reading state information... Done
0 upgraded, 0 newly installed, 0 to remove and 2 not upgraded.
Reading package lists... Done
Building dependency tree       
Reading state information... Done
unzip is already the newest version (6.0-23+deb10u1).
0 upgraded, 0 newly installed, 0 to remove and 2 not upgraded.


In [None]:
# Importar a biblioteca do Kaggle para acessar a API
import kaggle

In [None]:
# Criar a pasta Kaggle na VM para armazenar a chave de acesso
!mkdir ~/.kaggle

mkdir: cannot create directory ‘/home/jupyter/.kaggle’: File exists


In [None]:
# Mover o arquivo JSON (chave de acesso) para a pasta Kaggle
!sudo mv /home/mayaragl94/kaggle.json /home/jupyter/.kaggle/

mv: cannot stat '/home/mayaragl94/kaggle.json': No such file or directory


In [None]:
# Listar os arquivos dentro da pasta Kaggle para verificar se o JSON foi movido corretamente
!cd /home/jupyter/.kaggle/ && ls

kaggle.json


In [None]:
# Alterar as permissões de acesso ao arquivo e executá-lo
!chmod 600 /home/jupyter/.kaggle/kaggle.json

In [None]:
# Fazer o download do dataset do Kaggle - o download é feito em formato compactado
!kaggle datasets download -d berkeleyearth/climate-change-earth-surface-temperature-data --force

Downloading climate-change-earth-surface-temperature-data.zip to /home/jupyter
 96%|█████████████████████████████████████▎ | 81.0M/84.7M [00:00<00:00, 160MB/s]
100%|██████████████████████████████████████| 84.7M/84.7M [00:01<00:00, 74.1MB/s]


In [None]:
# Excluir todos os arquivos dentro da pasta temperatura para não duplicá-los
!sudo rm -rf /home/jupyter/temperatura/*

# Descompactar a pasta do dataset e salvar os arquivos na pasta temperatura
!unzip climate-change-earth-surface-temperature-data.zip -d /home/jupyter/temperatura

Archive:  climate-change-earth-surface-temperature-data.zip
  inflating: /home/jupyter/temperatura/GlobalLandTemperaturesByCity.csv  
  inflating: /home/jupyter/temperatura/GlobalLandTemperaturesByCountry.csv  
  inflating: /home/jupyter/temperatura/GlobalLandTemperaturesByMajorCity.csv  
  inflating: /home/jupyter/temperatura/GlobalLandTemperaturesByState.csv  
  inflating: /home/jupyter/temperatura/GlobalTemperatures.csv  


2. Tratamento da base de Temperatura Global

In [None]:
# Importar biblioteca pandas para tratamento dos dados
import pandas as pd

In [None]:
# Ler a base com o historico de tempetura global
TempGlobal = pd.read_csv('/home/jupyter/temperatura/GlobalTemperatures.csv')

# Listar todas as colunas para visualizar quais serão utilizadas
TempGlobal.columns

Index(['dt', 'LandAverageTemperature', 'LandAverageTemperatureUncertainty',
       'LandMaxTemperature', 'LandMaxTemperatureUncertainty',
       'LandMinTemperature', 'LandMinTemperatureUncertainty',
       'LandAndOceanAverageTemperature',
       'LandAndOceanAverageTemperatureUncertainty'],
      dtype='object')

In [None]:
# Selecionar as colunas que serão utilizadas
TempGlobal = TempGlobal.filter(items=['dt', 'LandAverageTemperature',
                                      'LandAndOceanAverageTemperature'
                                     ]
                              )

In [None]:
# Transformar a coluna dt em formato de data
TempGlobal['dt'] = pd.to_datetime(TempGlobal['dt'], format='%Y-%m-%d')

# Extrair a informação de ano na coluna dt
TempGlobal['dt'] = TempGlobal['dt'].dt.strftime('%Y')

# Converter coluna dt para número inteiro
TempGlobal = TempGlobal.astype({'dt': int})

# Alterar nomes das colunas
TempGlobal = TempGlobal.rename(columns={'dt': 'year',
                                        'LandAverageTemperature': 'AverageTemperature',
                                        'LandAndOceanAverageTemperature': 'OceanAverageTemperature'
                                       }
                              )

In [None]:
# Calcular as médias das temperaturas e agrupar por ano
MediaTempGlobal = TempGlobal.groupby(['year']).mean()

# Converter índices do DataFrame em colunas
MediaTempGlobal = MediaTempGlobal.reset_index()

# Visualizar o novo dataframe
MediaTempGlobal.head()

Unnamed: 0,year,AverageTemperature,OceanAverageTemperature
0,1750,8.719364,
1,1751,7.976143,
2,1752,5.779833,
3,1753,8.388083,
4,1754,8.469333,


3. Criação da dimensão País - Consumo do Github

In [None]:
# Ler a base dimensão País do Github
Pais = pd.read_csv('https://raw.githubusercontent.com/owid/co2-data/master/owid-co2-data.csv', error_bad_lines=False)

# Listar todas as colunas para visualizar quais serão utilizadas
Pais.columns

Index(['iso_code', 'country', 'year', 'co2', 'co2_growth_prct',
       'co2_growth_abs', 'consumption_co2', 'trade_co2', 'trade_co2_share',
       'co2_per_capita', 'consumption_co2_per_capita', 'share_global_co2',
       'cumulative_co2', 'share_global_cumulative_co2', 'co2_per_gdp',
       'consumption_co2_per_gdp', 'co2_per_unit_energy', 'cement_co2',
       'coal_co2', 'flaring_co2', 'gas_co2', 'oil_co2', 'other_industry_co2',
       'cement_co2_per_capita', 'coal_co2_per_capita',
       'flaring_co2_per_capita', 'gas_co2_per_capita', 'oil_co2_per_capita',
       'other_co2_per_capita', 'share_global_coal_co2', 'share_global_oil_co2',
       'share_global_gas_co2', 'share_global_flaring_co2',
       'share_global_cement_co2', 'cumulative_coal_co2', 'cumulative_oil_co2',
       'cumulative_gas_co2', 'cumulative_flaring_co2', 'cumulative_cement_co2',
       'share_global_cumulative_coal_co2', 'share_global_cumulative_oil_co2',
       'share_global_cumulative_gas_co2',
       'share_g

In [None]:
# Selecionar as colunas que serão utilizadas
Pais = Pais.filter(items=['iso_code', 'country'])

#Preencher sempre que Iso_code valer Nan
Pais['iso_code'].fillna('Preencher',inplace=True)

# Dropar todos os valores nulos
Pais.dropna(inplace=True)

#Substituiçao de espaço por nada
Pais.country = Pais.country.str.replace(' $', '')
Pais

In [None]:
#Agrupar 'iso_code' selecionando os dados coluna 'country' - índice reiniciado para 'iso_code' e transformado em coluna
Pais = Pais.groupby('country')['iso_code'].apply(lambda Pais: Pais.reset_index(drop=True)).unstack(0)

#Dropar todos os valores nulos
Pais.dropna(inplace=True)

# Transpor DataFrame
Pais = Pais.transpose()

#Reiniciar índice
Pais.reset_index(inplace=True)

# Alterar nome da coluna para 'country'
Pais.columns = [['country', 'iso_code']]

#exibição do dataframe
Pais.head()

Unnamed: 0,iso_code,country
0,ABW,Aruba
1,AFG,Afghanistan
2,AGO,Angola
3,AIA,Anguilla
4,ALB,Albania


4. Tratamento da base de Temperatura por País

In [None]:
# Ler a base com o historico de tempetura por país
TempPais = pd.read_csv('/home/jupyter/temperatura/GlobalLandTemperaturesByCountry.csv')

# Listar colunas do DataFrame para veririficar quais serão utilizadas
TempPais.columns

Index(['dt', 'AverageTemperature', 'AverageTemperatureUncertainty', 'Country'], dtype='object')

In [None]:
# Selecionar as colunas que serão utilizadas
TempPais = TempPais.filter(items=['dt', 'Country', 'AverageTemperature'])

In [None]:
# Substituir nomes dos países errados para relacionar com a dimensão País
TempPais.replace(to_replace={'Country': 'Timor Leste'}, value='Timor', inplace=True)
TempPais.replace(to_replace={'Country': 'Czech Republic'}, value='Czechia', inplace=True)
TempPais.replace(to_replace={'Country': "Côte D'Ivoire"}, value="Cote d'Ivoire", inplace=True)
TempPais.replace(to_replace={'Country': 'Bosnia And Herzegovina'}, value='Bosnia and Herzegovina', inplace=True)
TempPais.replace(to_replace={'Country': 'Bonaire, Saint Eustatius And Saba'}, value='Bonaire Sint Eustatius and Saba', inplace=True)
TempPais.replace(to_replace={'Country': 'Congo (Democratic Republic Of The)'}, value='Democratic Republic of Congo', inplace=True)
TempPais.replace(to_replace={'Country': 'Faroe Islands'}, value='Faeroe Islands', inplace=True)
TempPais.replace(to_replace={'Country': 'Guinea Bissau'}, value='Guinea-Bissau', inplace=True)
TempPais.replace(to_replace={'Country': 'Sao Tome And Principe'}, value='Sao Tome and Principe', inplace=True)
TempPais.replace(to_replace={'Country': 'Saint Vincent And The Grenadines'}, value='Saint Vincent and the Grenadines', inplace=True)
TempPais.replace(to_replace={'Country': 'Federated States Of Micronesia'}, value='Micronesia', inplace=True)
TempPais.replace(to_replace={'Country': 'Palestina'}, value='Palestine', inplace=True)
TempPais.replace(to_replace={'Country': 'Sint Maarten'}, value='Sint Maarten (Dutch part)', inplace=True)
TempPais.replace(to_replace={'Country': 'Turks And Caicas Islands'}, value='Turks and Caicos Islands', inplace=True)
TempPais.replace(to_replace={'Country': 'Trinidad And Tobago'}, value='Trinidad and Tobago', inplace=True)
TempPais.replace(to_replace={'Country': 'Macedonia'}, value='North Macedonia', inplace=True)
TempPais.replace(to_replace={'Country': 'Macau'}, value='Macao', inplace=True)
TempPais.replace(to_replace={'Country': 'Saint Pierre And Miquelon'}, value='Saint Pierre and Miquelon', inplace=True)
TempPais.replace(to_replace={'Country': 'Antigua And Barbuda'}, value='Antigua and Barbuda', inplace=True)
TempPais.replace(to_replace={'Country': 'Saint Kitts And Nevis'}, value='Saint Kitts and Nevis', inplace=True)
TempPais.replace(to_replace={'Country': 'Saint Kitts And Nevis'}, value='St. Kitts-Nevis-Anguilla', inplace=True)

In [None]:
# Unir DataFrames de Temperatura por País e País para manter apenas os coincidentes
TempPais = pd.merge(TempPais, Pais, right_on="country", left_on="Country", how="inner")

# Selecionar colunas que serão utilizadas
TempPais = TempPais.filter(items=['dt', 'iso_code', 'country', 'AverageTemperature'])

#Visualizar DataFrame
TempPais.head()

Unnamed: 0,dt,iso_code,country,AverageTemperature
0,1838-04-01,AFG,Afghanistan,13.008
1,1838-05-01,AFG,Afghanistan,
2,1838-06-01,AFG,Afghanistan,23.95
3,1838-07-01,AFG,Afghanistan,26.877
4,1838-08-01,AFG,Afghanistan,24.938


In [None]:
# Transformar a coluna dt em formato de data
TempPais['dt'] = pd.to_datetime(TempPais['dt'], format='%Y-%m-%d')

# Extrair a informação de ano na coluna dt
TempPais['dt'] = TempPais['dt'].dt.strftime('%Y')

# Converter coluna dt para número inteiro
TempPais = TempPais.astype({'dt': int})

# Alterar nomes das colunas
TempPais = TempPais.rename(columns={'dt': 'year'})

In [None]:
# Calcular as médias das temperaturas e agrupar por ano e país
MediaTempPais = TempPais.groupby(['year', 'iso_code', 'country']).mean()

# Converter índices do DataFrame em colunas
MediaTempPais = MediaTempPais.reset_index()

# Visualizar o novo dataframe
MediaTempPais.head()

Unnamed: 0,year,iso_code,country,AverageTemperature
0,1743,ALB,Albania,8.62
1,1743,AND,Andorra,7.556
2,1743,AUT,Austria,2.482
3,1743,BEL,Belgium,7.106
4,1743,BGR,Bulgaria,5.928


5. Criar tabela dimensão de Ano

In [None]:
# Selecionar os valores distintos da coluna Ano
AnoArray = TempGlobal['Year'].unique()

# Converter a matriz em dataframe
Ano = pd.DataFrame(AnoArray, columns=['year'])

# Visualizar o dataframe
Ano.head()

Unnamed: 0,year
0,1750
1,1751
2,1752
3,1753
4,1754


6. Conexão com o BigQuery e armazenamento dos DataFrames

In [None]:
# Importar pacote de autenticação do Google e biblioteca para conexão entre Pandas e BigQuery
from google.oauth2 import service_account
import pandas_gbq as pd_gbq

In [None]:
# Autenticar acesso ao BigQuery
acesso = service_account.Credentials.from_service_account_info(
{
  "type": "service_account",
  "project_id": "estudos-304417",
  "private_key_id": "25224992f0c06bcc63422b6c449579a69599f44b",
  "private_key": "-----BEGIN PRIVATE KEY-----\nMIIEvgIBADANBgkqhkiG9w0BAQEFAASCBKgwggSkAgEAAoIBAQCjZnKksaleLmnc\nvEQdKpKEJHzteohT1z0tThTUZVli7ndAefRqRfg4/GduBMyoyD1BxVzDf6Kkh9ce\nkkJ6cQ1IgLNzTzgth4HmYdcMBMU6BLcNHqLaqVOeF5FCOM5J+Sg8tP7i2eoti+gb\n2/mvMLJ9TlB/0oAmEXfTl0SEc5Uq5PtSC5qDOsUGo8cTw/qpXATBgl673x7EfH7S\nkxyREUxmao0bcnIjUDK2+QHSAceta7YbF/6ViNPETTeipfS3DYnp+98e67KCJb3C\nmy2GS4XeC03lMxAsD6k+tHBudetm7CFQ5KeGvuEJYhgIVHUn78ylqrUfE6achQcW\nIFLMyC01AgMBAAECggEAFiIaLNtg3wBH+C2rR00dOBeOMYfLwBmTcJfXQ/bvfvJg\nxmPOmveb2jI8W198jm9DNu3CNTwMfp9k4P/8T8QRAc1nIVstd6NXkeqWW8sooQWC\n+xy3gAl4KV21YCQ8MzJ0BBcbQIS2jxFYsS9gmJ2uy8DoMAxGLgHnOorOredPIRZY\nDwrpwZvRQMmM4SL0ZRkxy5UNchQvkr6Viw0glTw/CLEgW8Vb61V7K/aeUbJG8cuW\nAes0SEhOKU/9U56hnRX3HMvZfrJmAPCyfVTS0IkqLUW12q0vtFWqY+mWWPohCfNc\nVIOfKeihn5FiSBHX52Gtm02Yns2aKh8M2/miqvryCQKBgQDihYe/WssuwPHrPUA+\ncqr6hElO+vtIsf+anAL0R/hXdN2YWEMZk2Sxo+CvwZeaX+IpopVrlL7nCNAd9A9z\n7w/oFwpqpV+yCMsrG4Jl8J8qUEzPIsk94dzCBBJboAOp4WZ06gLDw25luV4VD7xu\nKWt7JbTHHcSW2T247TUZQpfOGQKBgQC4qg4EMYZdmIeZcrKNamb82bcjsOVJw5yv\nGsBbFlOKSBwXQzfkDy031ApC3zjTBFifuh33yML9qfj7uxcc2/zKRMRUdNIQipQd\nCX8ikmTBKlRGWyTo6287iLKVWVCyDwJS4skDEpo9lGAYTEUtXRLSC3FsIx1cUhOx\niLX4wnhDfQKBgQCgvG/e8OZMfs0rR4NWzLdWnJgIW0AEDYp6g0n1XTxzkpHLkJXM\niDJjew3sqUqSWId7U8sDU8FC35YOKyjr8y8uWWsi0cZd5q+EHzkgbOYEeIaIVP7H\n0oV7hrggHCN9YFv7ijH8B6lGtYp1F312Dh4efFsTD6R4Bh8uIeQT0JU3wQKBgDfV\n83cBIoeaXyXesG5iBdHeYqnACxRKuU2Y4SCpl4jwVM4T3QpwLFP9IT0nEZ98aO+i\n7vzFD3BzvH0hDNQFEGJ4eISw7fNic3Z0MKTbbuuZSPIdDQQAbBmsM5NE9klgkGtP\nd0gej9Se0I+IQEJ/KfmozBrOY0pO5vV/SMZ2xrZhAoGBAL4GfPI092TPIyaQPRNR\ni0olEY8rxmIHkiOLhr6V3CIE6qxNFE1EFiuZ7/lpLuXeZ9eBXtMcj/oNKIN8NNx9\nEuo+6iKzY8pFlytA+c+hwcwh0o0CsplhL4I1kPb1hcqCskSrsWTA/Z1tO8hReunX\n8A0ryFSWzvkVqiXynuWbSc9y\n-----END PRIVATE KEY-----\n",
  "client_email": "estudos-304417@appspot.gserviceaccount.com",
  "client_id": "106205771663568061426",
  "auth_uri": "https://accounts.google.com/o/oauth2/auth",
  "token_uri": "https://oauth2.googleapis.com/token",
  "auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
  "client_x509_cert_url": "https://www.googleapis.com/robot/v1/metadata/x509/estudos-304417%40appspot.gserviceaccount.com"
})

In [None]:
# Atualizar o cache de credenciais na memória
pd_gbq.context.credentials = acesso
pd_gbq.context.project = "estudos-304417"

In [None]:
# Nome do projeto onde o Conjunto de Dados está hospedado
Projeto= 'estudos-304417'

# Inserir o DataFrame no BigQuery - (NomeDataFrame, ConjuntoDados.NomeTabela, ...)
pd_gbq.to_gbq(MediaTempGlobal, 'Temperatura.fAverageTemperature', project_id=Projeto, if_exists='replace')
pd_gbq.to_gbq(Pais, 'Temperatura.dCountry', project_id=Projeto, if_exists='replace')
pd_gbq.to_gbq(MediaTempPais, 'Temperatura.fAverageTemperatureByCountry', project_id=Projeto, if_exists='replace')
pd_gbq.to_gbq(Ano, 'Temperatura.dYear', project_id=Projeto, if_exists='replace')

1it [00:02,  2.92s/it]
1it [00:02,  2.33s/it]
1it [00:02,  2.31s/it]
1it [00:01,  1.83s/it]


#Mayara